加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 90后清華大牛組團創(chuàng)業(yè),出道即巔峰!
    • 首創(chuàng)20萬字超長輸入,千億大模型進入“長文本”時代
    • 10億美元新融資,能否成為AI時代的Super?App?
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

超70億元!這家獨角獸再獲新一輪融資

02/21 10:20
2918
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

張通社 zhangtongshe.com

近日,月之暗面最近完成了一輪超過10億美金(折合人民幣約71.9億元)的融資,投資方包括紅杉中國、小紅書、美團和阿里。

這一輪融資使月之暗面的估值達到了約25億美金(折合人民幣約179.9億元),成為國內(nèi)大模型領(lǐng)域的頭部企業(yè)之一。這是自從ChatGPT引發(fā)全球熱潮以來國內(nèi)AI大模型公司獲得的單輪最大金額融資。

月之暗面是一家聚焦AGI(artificial general intelligence,通用人工智能)的AI初創(chuàng)大模型供應商,分別在北京、上海、海南等多地注冊有公司。其中,2023年8月,在臨港新片區(qū)環(huán)湖西二路注冊成立上海月之暗面科技有限公司,注冊資本為5850萬美元,法定代表人為楊植麟。

據(jù)悉,月之暗面成立不足一年,但深受資本青睞:早在2023年6月,月之暗面已完成3億美元天使輪融資,投資方為真格基金、紅杉中國。

一家如此年輕的創(chuàng)始團隊,為何被資本和業(yè)界一致寄予厚望?

90后清華大牛組團創(chuàng)業(yè),出道即巔峰!

在百模大戰(zhàn)當下,誰會是中國的OpenAI?2023年6月,科技媒體The Information盤點了中國AI初創(chuàng)企業(yè)Top5,分別為MiniMax、瀾舟科技、智譜AI、光年之外(已被美團收購)以及月之暗面。

月之暗面團隊創(chuàng)始人楊植麟——唯一一位以個人名字入榜的選手,本科畢業(yè)于清華大學計算機科學與技術(shù)系,博士就讀于全美自然語言處理排名第一的卡內(nèi)基梅隆大學語言技術(shù)研究所(LTI),師從蘋果AI研究負責人Ruslan Salakhutdinov、谷歌首席科學家William Cohen。

在博士期間,楊植麟用4年時間完成了一般6年才能完成的博士課程,并連續(xù)作為第一作者發(fā)表了兩項關(guān)鍵研究成果——Transformer-XL和XLNet。Transformer-XL成為首個全面超越RNN的注意力語言模型,相關(guān)論文是NeurIPS 2019與ACL 2019的最高引論文之一;XLNet則在20項任務上超越谷歌BERT模型。截至目前,楊植麟本人學術(shù)引用量自2019年起已超2萬余次。

讀博的過程中,楊植麟也創(chuàng)立了第一家AI公司“循環(huán)智能”。7年之后他再度出發(fā),與兩位清華校友周昕宇、吳育昕共同創(chuàng)立了月之暗面。

周昕宇是月之暗面的算法團隊負責人,清華大學2011級本科生,和楊植麟韜同為計算機系的學生。周昕宇在畢業(yè)后選擇加入曠視,工作內(nèi)容是算法量產(chǎn)。就職期間,他和曠視研究院基礎科研負責人、ResNet作者之一張祥雨合作研究移動端模型,以共同一作的身份撰寫ShuffleNet論文,被CVPR接受。這項工作后來影響了包括蘋果3D人臉解鎖在內(nèi)的各種手機毫秒級人臉解鎖技術(shù)。

值得一提的是,在清華時,周昕宇就和楊植麟共同創(chuàng)建了樂隊,并創(chuàng)作了一首歌,有關(guān)“做了一個創(chuàng)業(yè)成功一夜暴富的白日夢”,而月之暗面這個公司名,就來源于楊植麟最喜歡的專輯《The Dark Side of The Moon》。

吳育昕和楊植麟一樣,先后畢業(yè)于清華和CMU,研究方向為計算機視覺中的檢測和識別問題。畢業(yè)后他先是在Meta的FAIR工作,曾和AI大神何愷明共同提出組歸一化(GN)的方法。期間,他還創(chuàng)建了detectron2,這是Meta最受歡迎的AI項目之一。在Google Scholarship上,吳育昕的被引次數(shù)超過了19000次。

楊植麟認為,公司最主要的一個特色其實是人才密度。“我們希望通過這種很高的人才密度以及組織力量,能夠打造一個很快迭代的組織機器,讓人才能夠快速基于我們現(xiàn)有和未來發(fā)展出的技術(shù),開發(fā)出比較好的產(chǎn)品?!?/p>

目前,月之暗面團隊成員人數(shù)在100人至200人之間。團隊現(xiàn)已匯聚了來自CMU LTI、Google、Meta、Amazon等全球頂級機構(gòu)人才。

一位行業(yè)內(nèi)人士指出,市場上大模型相關(guān)的人才非常稀缺,真正有相關(guān)經(jīng)驗、有計劃、有認知、愿意創(chuàng)業(yè)且在合適年齡的人其實并沒有那么多,在算法創(chuàng)新方面的人才稀缺程度則比之更甚。這也是月之暗面被資本熱捧的重要原因。

首創(chuàng)20萬字超長輸入,千億大模型進入“長文本”時代

2022年,Chat GPT橫空出世,成為史上最快傳播的應用。作為人工智能實驗室Open AI開發(fā)的聊天機器人模型,它正在科技領(lǐng)域引領(lǐng)一個新潮流。面對強大的Chat GPT,月之暗面團隊創(chuàng)始人楊植麟表示:“Chat GPT剛發(fā)的時候,我非常激動,我好奇這個世界到底能做什么樣的AI,我能多大程度去復制、甚至做得比人腦更好。同時,我也陷入到非常沮喪的狀態(tài)——我會開始想在這個浪潮里我還能貢獻什么,又開始興奮起來:現(xiàn)在是非常好的timing,不管發(fā)生什么,一定要做?!?/p>

在公司成立之初,楊植麟便推出千億參數(shù)級大模型moonshot,以及搭載該模型的智能助手Kimi Chat。除了聯(lián)網(wǎng)搜索、知識查詢、文本生成、翻譯、圖片識別等基礎功能,Kimi Chat進行文本搜索所得出的內(nèi)容是深入研究、挖掘更全面的信息。

大模型應用效果通常取決于兩個核心指標,一是模型參數(shù)量,決定了大模型的“計算”能力;二是能夠接收多少文本輸入,即長文本技術(shù),決定了大模型的“內(nèi)存”能力。月之暗面在千億參數(shù)模型的基礎上,重點突破了長文本技術(shù)的挑戰(zhàn)。

Kimi Chat最多支持20萬漢字的超長文本輸入,是目前全球市場上能夠產(chǎn)品化使用的大模型服務中所能支持的最長上下文輸入長度。作為對比,Anthropic的Claude-100k模型支持約8萬字,而OpenAI的GPT-4-32k只支持約2.5萬字。

同時,楊植麟強調(diào),Kimi Chat通過創(chuàng)新的網(wǎng)絡結(jié)構(gòu)和工程優(yōu)化,在千億參數(shù)下實現(xiàn)了無損的長程注意力機制,但不依賴于滑動窗口、降采樣、小模型等常見的對性能損害較大的“捷徑”方案。

月之暗面將長文本技術(shù)稱之為大模型“登月計劃”的第一步。支持更長的上下文意味著大模型擁有更大的“內(nèi)存”,使大模型的應用更加深入和廣泛。比如通過多篇財報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網(wǎng)頁的關(guān)鍵信息、基于長篇小說設定進行角色扮演等等。

楊植麟認為,簡單的捷徑無法達到理想的產(chǎn)品化效果。因此,月之暗面的技術(shù)路線,就是不走捷徑,踏實地解決算法與工程的雙重挑戰(zhàn),在算力、存儲、帶寬等技術(shù)層面做了極致的優(yōu)化。

從LLM(大語言模型)到LLLM(長文本大語言模型),Kimi Chat只是Moonshot的第一步。不過,如今的Moonshot已經(jīng)寄托著楊植麟對未來的一些很“黑鏡”的預想:在未來,如果機器能夠掌握一個人一生的信息,人們就會擁有自己的AI分身,這個AI分身共享了你的所有記憶,無異于另一個你。

10億美元新融資,能否成為AI時代的Super?App?

從商業(yè)模式的角度來看,大模型產(chǎn)品分為to B與to C兩大陣營。以Chat GPT和Character.ai為例,這兩個產(chǎn)品已經(jīng)積累了大量的數(shù)據(jù)和用戶反饋,有大量的跡象證明已經(jīng)通過這種的產(chǎn)品產(chǎn)生了新的入口,新一代AI在“有用”和“有趣”兩個方向上,都會有巨大潛力。盡管在商業(yè)落地的探索中,月之暗面保持著開放的心態(tài),但其核心定位放在to C上。

楊植麟認為,AI Native的產(chǎn)品會在to C領(lǐng)域產(chǎn)生新的流量入口,成為AI時代的Super App,這是一個非常大的機會。而要想做Super App,就必須用自研模型,因為“只有自研模型才能在用戶體驗上產(chǎn)生差異化”。

開源模型無法構(gòu)建產(chǎn)品壁壘。比如,在海外有幾百個基于開源擴散模型Stable Diffusion的應用出現(xiàn),但最后其實沒有任何一個跑出來。其次,無法在開源技術(shù)的基礎上通過數(shù)據(jù)的虹吸效應讓模型持續(xù)地優(yōu)化,因為開源模型本身是分布式部署,沒有一個集中的地方接收數(shù)據(jù)。因此,楊植麟堅定地表示,不管是從底層邏輯還是當前的現(xiàn)象,都需要通過閉源模型構(gòu)建產(chǎn)品壁壘。

目前,在視覺領(lǐng)域,團隊成員發(fā)明了MoCo,引爆了基于對比學習的視覺預訓練范式,也是過去三年CVPR引用量最高的工作;發(fā)明了ShuffleNet,最高效的視覺網(wǎng)絡結(jié)構(gòu)之一;主導開發(fā)了detectron2,一個被廣泛使用的視覺開源項目并被集成到Meta全線VR/AR產(chǎn)品中。

強化學習方面,團隊成員作為一作提出了基于關(guān)系學習的少樣本方法,得到斯坦福大學、谷歌、MIT、亞馬遜等團隊的使用和擴展,并獲得過OpenAI RL聯(lián)創(chuàng)及負責人John Schulman親自邀請加盟。

所以,對于當下而言,相比于商業(yè)模式,他認為現(xiàn)階段的核心議題是產(chǎn)品創(chuàng)新。做到產(chǎn)品創(chuàng)新的關(guān)鍵,在于公司的人才和組織能力。“大模型有點類似登月計劃,本身需要自頂向下的規(guī)劃和統(tǒng)籌,但同時,我們需要鼓勵自下而上的創(chuàng)新,保持一定程度的開放性和組織的扁平化,這樣創(chuàng)新就更容易發(fā)生。

2023年7月6日,楊植麟出席在上海舉辦的第六屆世界人工智能大會(WAIC 2023),與業(yè)內(nèi)眾多專業(yè)人士探討了包括“大模型核心理論研究突破、多模態(tài)對大模型的優(yōu)化、算法安全及算法的發(fā)展路線選擇”等諸多前沿話題,引發(fā)廣泛思考。

2024年1月30日-31日,上海期智研究院2023年-2024年度科研項目進展工作會議在期智研究院舉行。人工智能、交叉智能、現(xiàn)代密碼學、高性能計算、量智能方向的23位課題負責人就各自研究成果進行了分享交流,并對本領(lǐng)域的發(fā)展趨勢及PI的分享了各自的見解。楊植麟在現(xiàn)場展示了長文本大語言模型Long-Context LLMs。

大模型領(lǐng)域的競爭已然掀起狂瀾,群雄并起。而在未來,希望月之暗面通過AI快速疊代模型底座和產(chǎn)品,實現(xiàn)大模型技術(shù)落地,普惠大眾,并成長為AI時代的Super App。

文字:李楊琳

編輯:吳曉晴

校對:任甄妮

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
MC9S12XEP100MAG 1 Freescale Semiconductor 16-bit MCU, S12X core, 1MB Flash, 50MHz, -40/+125degC, QFP 144

ECAD模型

下載ECAD模型
$29.4 查看
ATXMEGA32E5-MU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 5 X 5 MM, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VHHD-2, VQFN-44

ECAD模型

下載ECAD模型
$3 查看
ATXMEGA128A3U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$8.03 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號:張通社;源于張江,聯(lián)通創(chuàng)新,服務社會!張通社以鏈接每一家科技企業(yè)為目標,以數(shù)據(jù)為驅(qū)動,為地方政府、科技園區(qū)、投資機構(gòu)、銀行、券商、律所、會所、知識產(chǎn)權(quán)等企業(yè)服務機構(gòu)第一時間提供科技企業(yè)的需求信息,解決科技企業(yè)與服務機構(gòu)之間的信息不對稱問題。