青涩体验1973,安迷修用木马做

張通社 zhangtongshe.com

近日，月之暗面最近完成了一輪超過10億美金（折合人民幣約71.9億元）的融資，投資方包括紅杉中國、小紅書、美團和阿里。

這一輪融資使月之暗面的估值達到了約25億美金（折合人民幣約179.9億元），成為國內(nèi)大模型領(lǐng)域的頭部企業(yè)之一。這是自從ChatGPT引發(fā)全球熱潮以來國內(nèi)AI大模型公司獲得的單輪最大金額融資。

月之暗面是一家聚焦AGI（artificial general intelligence，通用人工智能）的AI初創(chuàng)大模型供應商，分別在北京、上海、海南等多地注冊有公司。其中，2023年8月，在臨港新片區(qū)環(huán)湖西二路注冊成立上海月之暗面科技有限公司，注冊資本為5850萬美元，法定代表人為楊植麟。

據(jù)悉，月之暗面成立不足一年，但深受資本青睞：早在2023年6月，月之暗面已完成3億美元天使輪融資，投資方為真格基金、紅杉中國。

一家如此年輕的創(chuàng)始團隊，為何被資本和業(yè)界一致寄予厚望？

90后清華大牛組團創(chuàng)業(yè)，出道即巔峰！

在百模大戰(zhàn)當下，誰會是中國的OpenAI？2023年6月，科技媒體The Information盤點了中國AI初創(chuàng)企業(yè)Top5，分別為MiniMax、瀾舟科技、智譜AI、光年之外（已被美團收購）以及月之暗面。

月之暗面團隊創(chuàng)始人楊植麟——唯一一位以個人名字入榜的選手，本科畢業(yè)于清華大學計算機科學與技術(shù)系，博士就讀于全美自然語言處理排名第一的卡內(nèi)基梅隆大學語言技術(shù)研究所（LTI），師從蘋果AI研究負責人Ruslan Salakhutdinov、谷歌首席科學家William Cohen。

在博士期間，楊植麟用4年時間完成了一般6年才能完成的博士課程，并連續(xù)作為第一作者發(fā)表了兩項關(guān)鍵研究成果——Transformer-XL和XLNet。Transformer-XL成為首個全面超越RNN的注意力語言模型，相關(guān)論文是NeurIPS 2019與ACL 2019的最高引論文之一；XLNet則在20項任務上超越谷歌BERT模型。截至目前，楊植麟本人學術(shù)引用量自2019年起已超2萬余次。

讀博的過程中，楊植麟也創(chuàng)立了第一家AI公司“循環(huán)智能”。7年之后他再度出發(fā)，與兩位清華校友周昕宇、吳育昕共同創(chuàng)立了月之暗面。

周昕宇是月之暗面的算法團隊負責人，清華大學2011級本科生，和楊植麟韜同為計算機系的學生。周昕宇在畢業(yè)后選擇加入曠視，工作內(nèi)容是算法量產(chǎn)。就職期間，他和曠視研究院基礎科研負責人、ResNet作者之一張祥雨合作研究移動端模型，以共同一作的身份撰寫ShuffleNet論文，被CVPR接受。這項工作后來影響了包括蘋果3D人臉解鎖在內(nèi)的各種手機毫秒級人臉解鎖技術(shù)。

值得一提的是，在清華時，周昕宇就和楊植麟共同創(chuàng)建了樂隊，并創(chuàng)作了一首歌，有關(guān)“做了一個創(chuàng)業(yè)成功一夜暴富的白日夢”，而月之暗面這個公司名，就來源于楊植麟最喜歡的專輯《The Dark Side of The Moon》。

吳育昕和楊植麟一樣，先后畢業(yè)于清華和CMU，研究方向為計算機視覺中的檢測和識別問題。畢業(yè)后他先是在Meta的FAIR工作，曾和AI大神何愷明共同提出組歸一化（GN）的方法。期間，他還創(chuàng)建了detectron2，這是Meta最受歡迎的AI項目之一。在Google Scholarship上，吳育昕的被引次數(shù)超過了19000次。

楊植麟認為，公司最主要的一個特色其實是人才密度。“我們希望通過這種很高的人才密度以及組織力量，能夠打造一個很快迭代的組織機器，讓人才能夠快速基于我們現(xiàn)有和未來發(fā)展出的技術(shù)，開發(fā)出比較好的產(chǎn)品?！?/p>

目前，月之暗面團隊成員人數(shù)在100人至200人之間。團隊現(xiàn)已匯聚了來自CMU LTI、Google、Meta、Amazon等全球頂級機構(gòu)人才。

一位行業(yè)內(nèi)人士指出，市場上大模型相關(guān)的人才非常稀缺，真正有相關(guān)經(jīng)驗、有計劃、有認知、愿意創(chuàng)業(yè)且在合適年齡的人其實并沒有那么多，在算法創(chuàng)新方面的人才稀缺程度則比之更甚。這也是月之暗面被資本熱捧的重要原因。

首創(chuàng)20萬字超長輸入，千億大模型進入“長文本”時代

2022年，Chat GPT橫空出世，成為史上最快傳播的應用。作為人工智能實驗室Open AI開發(fā)的聊天機器人模型，它正在科技領(lǐng)域引領(lǐng)一個新潮流。面對強大的Chat GPT，月之暗面團隊創(chuàng)始人楊植麟表示：“Chat GPT剛發(fā)的時候，我非常激動，我好奇這個世界到底能做什么樣的AI，我能多大程度去復制、甚至做得比人腦更好。同時，我也陷入到非常沮喪的狀態(tài)——我會開始想在這個浪潮里我還能貢獻什么，又開始興奮起來：現(xiàn)在是非常好的timing，不管發(fā)生什么，一定要做?！?/p>

在公司成立之初，楊植麟便推出千億參數(shù)級大模型moonshot，以及搭載該模型的智能助手Kimi Chat。除了聯(lián)網(wǎng)搜索、知識查詢、文本生成、翻譯、圖片識別等基礎功能，Kimi Chat進行文本搜索所得出的內(nèi)容是深入研究、挖掘更全面的信息。

大模型應用效果通常取決于兩個核心指標，一是模型參數(shù)量，決定了大模型的“計算”能力；二是能夠接收多少文本輸入，即長文本技術(shù)，決定了大模型的“內(nèi)存”能力。月之暗面在千億參數(shù)模型的基礎上，重點突破了長文本技術(shù)的挑戰(zhàn)。

Kimi Chat最多支持20萬漢字的超長文本輸入，是目前全球市場上能夠產(chǎn)品化使用的大模型服務中所能支持的最長上下文輸入長度。作為對比，Anthropic的Claude-100k模型支持約8萬字，而OpenAI的GPT-4-32k只支持約2.5萬字。

同時，楊植麟強調(diào)，Kimi Chat通過創(chuàng)新的網(wǎng)絡結(jié)構(gòu)和工程優(yōu)化，在千億參數(shù)下實現(xiàn)了無損的長程注意力機制，但不依賴于滑動窗口、降采樣、小模型等常見的對性能損害較大的“捷徑”方案。

月之暗面將長文本技術(shù)稱之為大模型“登月計劃”的第一步。支持更長的上下文意味著大模型擁有更大的“內(nèi)存”，使大模型的應用更加深入和廣泛。比如通過多篇財報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網(wǎng)頁的關(guān)鍵信息、基于長篇小說設定進行角色扮演等等。

楊植麟認為，簡單的捷徑無法達到理想的產(chǎn)品化效果。因此，月之暗面的技術(shù)路線，就是不走捷徑，踏實地解決算法與工程的雙重挑戰(zhàn)，在算力、存儲、帶寬等技術(shù)層面做了極致的優(yōu)化。

從LLM（大語言模型）到LLLM（長文本大語言模型），Kimi Chat只是Moonshot的第一步。不過，如今的Moonshot已經(jīng)寄托著楊植麟對未來的一些很“黑鏡”的預想：在未來，如果機器能夠掌握一個人一生的信息，人們就會擁有自己的AI分身，這個AI分身共享了你的所有記憶，無異于另一個你。

10億美元新融資，能否成為AI時代的Super?App？

從商業(yè)模式的角度來看，大模型產(chǎn)品分為to B與to C兩大陣營。以Chat GPT和Character.ai為例，這兩個產(chǎn)品已經(jīng)積累了大量的數(shù)據(jù)和用戶反饋，有大量的跡象證明已經(jīng)通過這種的產(chǎn)品產(chǎn)生了新的入口，新一代AI在“有用”和“有趣”兩個方向上，都會有巨大潛力。盡管在商業(yè)落地的探索中，月之暗面保持著開放的心態(tài)，但其核心定位放在to C上。

楊植麟認為，AI Native的產(chǎn)品會在to C領(lǐng)域產(chǎn)生新的流量入口，成為AI時代的Super App，這是一個非常大的機會。而要想做Super App，就必須用自研模型，因為“只有自研模型才能在用戶體驗上產(chǎn)生差異化”。

但開源模型無法構(gòu)建產(chǎn)品壁壘。比如，在海外有幾百個基于開源擴散模型Stable Diffusion的應用出現(xiàn)，但最后其實沒有任何一個跑出來。其次，無法在開源技術(shù)的基礎上通過數(shù)據(jù)的虹吸效應讓模型持續(xù)地優(yōu)化，因為開源模型本身是分布式部署，沒有一個集中的地方接收數(shù)據(jù)。因此，楊植麟堅定地表示，不管是從底層邏輯還是當前的現(xiàn)象，都需要通過閉源模型構(gòu)建產(chǎn)品壁壘。

目前，在視覺領(lǐng)域，團隊成員發(fā)明了MoCo，引爆了基于對比學習的視覺預訓練范式，也是過去三年CVPR引用量最高的工作；發(fā)明了ShuffleNet，最高效的視覺網(wǎng)絡結(jié)構(gòu)之一；主導開發(fā)了detectron2，一個被廣泛使用的視覺開源項目并被集成到Meta全線VR/AR產(chǎn)品中。

在強化學習方面，團隊成員作為一作提出了基于關(guān)系學習的少樣本方法，得到斯坦福大學、谷歌、MIT、亞馬遜等團隊的使用和擴展，并獲得過OpenAI RL聯(lián)創(chuàng)及負責人John Schulman親自邀請加盟。

所以，對于當下而言，相比于商業(yè)模式，他認為現(xiàn)階段的核心議題是產(chǎn)品創(chuàng)新。做到產(chǎn)品創(chuàng)新的關(guān)鍵，在于公司的人才和組織能力。“大模型有點類似登月計劃，本身需要自頂向下的規(guī)劃和統(tǒng)籌，但同時，我們需要鼓勵自下而上的創(chuàng)新，保持一定程度的開放性和組織的扁平化，這樣創(chuàng)新就更容易發(fā)生。

2023年7月6日，楊植麟出席在上海舉辦的第六屆世界人工智能大會（WAIC 2023），與業(yè)內(nèi)眾多專業(yè)人士探討了包括“大模型核心理論研究突破、多模態(tài)對大模型的優(yōu)化、算法安全及算法的發(fā)展路線選擇”等諸多前沿話題，引發(fā)廣泛思考。

2024年1月30日-31日，上海期智研究院2023年-2024年度科研項目進展工作會議在期智研究院舉行。人工智能、交叉智能、現(xiàn)代密碼學、高性能計算、量智能方向的23位課題負責人就各自研究成果進行了分享交流，并對本領(lǐng)域的發(fā)展趨勢及PI的分享了各自的見解。楊植麟在現(xiàn)場展示了長文本大語言模型Long-Context LLMs。

大模型領(lǐng)域的競爭已然掀起狂瀾，群雄并起。而在未來，希望月之暗面通過AI快速疊代模型底座和產(chǎn)品，實現(xiàn)大模型技術(shù)落地，普惠大眾，并成長為AI時代的Super App。

文字：李楊琳

編輯：吳曉晴

校對：任甄妮

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
MC9S12XEP100MAG	1	Freescale Semiconductor	16-bit MCU, S12X core, 1MB Flash, 50MHz, -40/+125degC, QFP 144	ECAD模型下載ECAD模型	$29.4	查看
ATXMEGA32E5-MU	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 5 X 5 MM, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VHHD-2, VQFN-44	ECAD模型下載ECAD模型	$3	查看
ATXMEGA128A3U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下載ECAD模型	$8.03	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風險等級

參考價格

更多信息

MC9S12XEP100MAG

Freescale Semiconductor

16-bit MCU, S12X core, 1MB Flash, 50MHz, -40/+125degC, QFP 144