加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1、需求:既要又要
    • 2、方案:全棧
    • 3、實(shí)例:從不可能到可能
    • 4、啟示:風(fēng)口背后的邏輯
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

英偉達(dá)的隱形護(hù)城河,竟然是它

05/28 17:37
3815
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

提起英偉達(dá),你覺得它是個什么公司?

GPU?人工智能?硬件/軟件?……

如今,這家萬億市值的芯片龍頭似乎很難用一個或幾個詞來概括了。不過英偉達(dá)的護(hù)城河卻多年沒變,主要有三個。其中兩個是大家都熟悉的:GPU芯片硬件、CUDA編程軟件。硬件負(fù)責(zé)堆算力,軟件負(fù)責(zé)構(gòu)建生態(tài)。這一軟一硬,讓英偉達(dá)在人工智能的大潮中一直「獨(dú)孤求敗」,當(dāng)然也讓這家公司的股價(jià)市值在各家芯片公司中一直「獨(dú)孤求敗」。

不過,英偉達(dá)還有一個或許并不為人所知的隱形護(hù)城河:網(wǎng)絡(luò)。

1、需求:既要又要

事情的起源,還是由于人工智能和大模型的爆發(fā)。大模型之所以「大」,說的就是模型的參數(shù)量大、用于訓(xùn)練的數(shù)據(jù)多、訓(xùn)練系統(tǒng)的規(guī)模大。它也成了一個算力吞金獸,訓(xùn)練一個大模型消耗的成本都是天文數(shù)字量級。

前不久斯坦福大學(xué)的李飛飛教授團(tuán)隊(duì)發(fā)布年度報(bào)告,數(shù)據(jù)顯示GPT-4的訓(xùn)練成本超過7800萬美元,谷歌Gemini Ultra的訓(xùn)練成本更是超過驚人的1.91億美元。

要知道,這些天文數(shù)字的費(fèi)用,絕大部分都花在了GPU上。

也有數(shù)據(jù)顯示,Meta訓(xùn)練650億參數(shù)的Llama模型消耗了100萬GPU小時,谷歌訓(xùn)練5400億參數(shù)的PaLM模型消耗了2.56乘以10的24次方FLOPS的算力。

所以,單個芯片算力再強(qiáng),也根本沒辦法滿足大模型訓(xùn)練的需求。于是多芯片之間的互連就成了大模型時代的關(guān)鍵技術(shù)。甚至有大佬這么說,就算使用算力稍差的GPU,只要多芯片互連做得好,整體算力就不會掉。這是由于系統(tǒng)整體的瓶頸已經(jīng)從數(shù)據(jù)計(jì)算,變成了數(shù)據(jù)搬運(yùn)。

別忘了,網(wǎng)絡(luò),是英偉達(dá)的「隱形」護(hù)城河。

為了降低成本,讓更多人能參與大模型煉丹、或者將訓(xùn)練好的大模型部署到實(shí)際應(yīng)用中,各家科技大廠也想了很多招。比如,人們搞出來了一個AI數(shù)據(jù)中心的概念。和傳統(tǒng)的數(shù)據(jù)中心相比,AI數(shù)據(jù)中心它從設(shè)計(jì)伊始就圍繞AI需求,顧名思義就是專門為AI服務(wù)的。

但如果我們細(xì)看這個AI數(shù)據(jù)中心,其實(shí)還分成兩個主要場景。一個是老黃多次提到的「AI工廠」,你可以把它想象成一個擁有成千上萬個最強(qiáng)GPU「工人」的真·工廠,而這里生產(chǎn)的產(chǎn)品,就是訓(xùn)練好的大模型。通常來說,這種AI工廠的模式是面向超大規(guī)模的重型負(fù)載。這種模式的好處是能減輕科技公司從頭搭建自己的AI基礎(chǔ)設(shè)施的繁瑣工作,用工廠實(shí)現(xiàn)AI訓(xùn)練的外包。

在AI工廠里,追求的終極目標(biāo)就是超高性能,所以英偉達(dá)使用了NVLink和InfiniBand這些超高速超低延時的網(wǎng)絡(luò)技術(shù)進(jìn)行GPU之間的互連。通常來說,最先進(jìn)的NVLink能連接8到500張以上的GPU卡,而且是天然的無損網(wǎng)絡(luò),因此能夠?qū)崿F(xiàn)性能天花板。但是,這些定制化網(wǎng)絡(luò)的成本太高,因此注定不能適用于所有人。

于是還有第二個AI數(shù)據(jù)中心的場景,名叫AI云。和我們熟悉的云計(jì)算相似,AI云本質(zhì)上也是將AI基礎(chǔ)設(shè)施和算力統(tǒng)統(tǒng)云化,能讓更多人以更低成本使用云端的AI資源。和AI工廠不同,AI云更多面向不那么重型的負(fù)載,比如模型微調(diào)、中小模型的訓(xùn)練以及各種推理場景。

正因如此,性能在這里或許不是最重要因素,成本才是。

當(dāng)然,如果能既要又要,就更好了。

在傳統(tǒng)云計(jì)算中,成千上萬臺計(jì)算機(jī)都是通過以太網(wǎng)互連的。事實(shí)上,以太網(wǎng)這個技術(shù)在上個世紀(jì)七十年代被發(fā)明之后,很快就成為數(shù)據(jù)中心、云計(jì)算、網(wǎng)絡(luò)通信、工業(yè)控制等關(guān)鍵領(lǐng)域的基石性技術(shù)。對于AI云來說,重新自立門戶面臨技術(shù)和生態(tài)兩座大山,所以最明智的選擇,仍然是兼容現(xiàn)有的基于以太網(wǎng)的云網(wǎng)絡(luò)架構(gòu)。

只不過,在AI時代,傳統(tǒng)以太網(wǎng)的最大問題就是性能。如果既要以太網(wǎng)的生態(tài)和靈活性、又要追求高性能,那勢必就要面向以太網(wǎng)進(jìn)行技術(shù)變革。

而這,恰恰是英偉達(dá)Spectrum-X網(wǎng)絡(luò)平臺出現(xiàn)的本質(zhì)邏輯。

2、方案:全棧

問題來了,和傳統(tǒng)以太網(wǎng)相比,面向AI計(jì)算的以太網(wǎng)到底有什么不同呢?

先說結(jié)論,面向AI計(jì)算的以太網(wǎng)技術(shù),需要高性能、高穩(wěn)定性、低抖動、性能可預(yù)測、能高效應(yīng)對AI業(yè)務(wù)中的突發(fā)流量等新特點(diǎn)。接下來我們詳細(xì)介紹。

前面說過,當(dāng)大模型的規(guī)模逐漸爆炸,系統(tǒng)性能的瓶頸已經(jīng)從單GPU卡算力,轉(zhuǎn)移到了多卡之間網(wǎng)絡(luò)互連與通信的帶寬和性能。當(dāng)GPU數(shù)量擴(kuò)展到成千上萬時,甚至單一數(shù)據(jù)中心都放不下,還需要不同地域的數(shù)據(jù)中心進(jìn)行協(xié)同工作,這對于網(wǎng)絡(luò)性能更是提出了更高的要求??偠灾阅苁潜仨毐WC的重要需求。

此外,從編程和使用性的角度來看,讓程序員去分別編程這幾萬張GPU卡是不現(xiàn)實(shí)的,必須通過軟件將這些計(jì)算資源整合在一起,隱藏掉底層的硬件實(shí)現(xiàn)細(xì)節(jié),讓開發(fā)者看起來就像在編程一個GPU,這也是英偉達(dá)說的「數(shù)據(jù)中心即計(jì)算機(jī)」的概念。

這個概念有點(diǎn)像傳統(tǒng)云計(jì)算中的虛擬化,但在傳統(tǒng)云計(jì)算中,不同使用者或業(yè)務(wù)之間是相對松散和獨(dú)立的。而且不同任務(wù)對于網(wǎng)絡(luò)的抖動、穩(wěn)定性并不一定非常敏感,可能最多就是刷劇的時候緩沖的時間長一點(diǎn),重傳一遍就OK了。

相比之下,AI云對于穩(wěn)定性的要求就完全高了一個檔次。由于需要N個GPU同步運(yùn)行單一的AI負(fù)載,一旦出現(xiàn)丟包或者抖動,就可能會導(dǎo)致『煉丹』失敗,或者成為系統(tǒng)的性能瓶頸。而且AI訓(xùn)練時經(jīng)常出現(xiàn)突發(fā)流量,比如GPU計(jì)算完成后會瞬間將模型的梯度值通過網(wǎng)絡(luò)在GPU之間進(jìn)行同步,從而帶來突發(fā)的流量高峰。這就需要網(wǎng)絡(luò)擁有突發(fā)流量的處理能力和性能預(yù)測的能力。

為了解決這些問題,傳統(tǒng)以太網(wǎng)是肯定不夠的。所以英偉達(dá)推出了名叫Spectrum-X的新型以太網(wǎng)技術(shù)。它的內(nèi)核仍然基于以太網(wǎng)協(xié)議,但面向AI計(jì)算特點(diǎn)進(jìn)行了針對性的優(yōu)化。

首先值得一提的是,Spectrum-X并不是一個單一技術(shù),而是由多種軟硬件技術(shù)組成的系統(tǒng)級網(wǎng)絡(luò)架構(gòu)。硬件層面,包含名叫Spectrum-4的400G以太網(wǎng)交換機(jī),它集成了1000億個晶體管,交換帶寬總?cè)萘?1.2Tb/s,支持128個400G端口或64個800G端口,是整個Spectrum-X網(wǎng)絡(luò)平臺的核心。

在每個網(wǎng)絡(luò)節(jié)點(diǎn),還有BlueField-3 SuperNIC超級網(wǎng)卡,可以直接在端側(cè)進(jìn)行硬件加速和卸載。在整個網(wǎng)絡(luò)的軟件層面,運(yùn)行著全棧式AI加速軟件,包括面向DPU的DOCA軟件框架、NVIDIA網(wǎng)絡(luò)數(shù)字孿生框架NVIDIA AIR、網(wǎng)絡(luò)操作系統(tǒng)Cumulus,以及用來做網(wǎng)絡(luò)運(yùn)維管理和監(jiān)控的NetQ工具等等。

3、實(shí)例:從不可能到可能

有了底層技術(shù)的支持,就能構(gòu)建AI云網(wǎng)絡(luò)的關(guān)鍵功能了。還拿性能舉例,在Spectrum-X中,可以實(shí)現(xiàn)多個任務(wù)的并行和性能隔離。也就是說,即使運(yùn)行了多種不同的任務(wù)負(fù)載,每個任務(wù)都能實(shí)現(xiàn)裸金屬(Bare Metal)的性能。這個功能的本質(zhì)是更高效的擁塞控制算法,即單個任務(wù)不會擠占全部網(wǎng)絡(luò)帶寬,造成三個和尚沒水吃的局面。

技術(shù)上看,一個大任務(wù)如果發(fā)送不暢就會堵塞整個網(wǎng)絡(luò),導(dǎo)致網(wǎng)路中的其它任務(wù)性能下降。通過SuperNIC和交換機(jī)進(jìn)行端到端的協(xié)作,實(shí)現(xiàn)了基于硬件的增強(qiáng)擁塞控制和基于優(yōu)先級的流量控制,在無損以太網(wǎng)絡(luò)上保證了不會出現(xiàn)丟包或者抖動。這個聽起來技術(shù)沒那么復(fù)雜,但其實(shí)需要依賴SuperNIC和交換機(jī)之間非常嚴(yán)謹(jǐn)?shù)亩说蕉撕献鱽韺?shí)現(xiàn),這也是為什么傳統(tǒng)網(wǎng)卡或傳統(tǒng)交換機(jī)沒辦法實(shí)現(xiàn)這個功能的主要原因。

還有一個很有趣的例子是數(shù)字孿生。這本身是個起源于元宇宙的概念,說的是一個物理實(shí)體的虛擬表示,比如我們每個人的數(shù)字分身。這個概念其實(shí)在AI數(shù)據(jù)中心里也有很多好處。比如,構(gòu)建一個真實(shí)的AI集群是個非常復(fù)雜的工作,而且需要大量投入。傳統(tǒng)的方法是先構(gòu)建、再調(diào)試優(yōu)化。但一旦發(fā)現(xiàn)問題,進(jìn)行調(diào)整和修改的成本也是巨大的。

所以可以使用數(shù)字孿生技術(shù),先構(gòu)建一個數(shù)字AI集群,然后在虛擬集群上完成前面說的仿真驗(yàn)證、調(diào)試、優(yōu)化等工作,從而加速物理集群的部署和上線,并且大幅降低成本。

為了構(gòu)建數(shù)字孿生的AI集群,軟件肯定還是關(guān)鍵。英偉達(dá)就推出了NVIDIA AIR平臺,可以免費(fèi)仿真數(shù)據(jù)中心的關(guān)鍵網(wǎng)絡(luò)軟件、操作系統(tǒng)和NetQ網(wǎng)絡(luò)管理軟件,目前已經(jīng)實(shí)現(xiàn)了整個數(shù)據(jù)中心完整的交換網(wǎng)的虛擬實(shí)現(xiàn),未來大概率也會加入對BlueField SuperNIC在主機(jī)端的支持。

4、啟示:風(fēng)口背后的邏輯

說了很多AI數(shù)據(jù)中心的網(wǎng)絡(luò)變革,也深入介紹了網(wǎng)絡(luò)如何成為英偉達(dá)的隱形護(hù)城河。從英偉達(dá)布局AI網(wǎng)絡(luò),其實(shí)也能帶給我們很多啟示。

比如,不得不承認(rèn)老黃的技術(shù)遠(yuǎn)見。當(dāng)然這不一定是老黃本人,而是站在老黃背后很多綠廠大佬的集體智慧。但英偉達(dá)之所以能抓住這么多風(fēng)口,離不開技術(shù)的布局和深耕。當(dāng)英偉達(dá)開始發(fā)力BlueField DPU時,AI和大模型的浪潮其實(shí)還并沒有到來。誰又能想到,這個原本用于傳統(tǒng)云計(jì)算數(shù)據(jù)中心的DPU技術(shù),竟然也成為了AI網(wǎng)絡(luò)不可或缺的關(guān)鍵。

此外,一招鮮、吃遍天的時代已經(jīng)過去了。強(qiáng)如英偉達(dá),也在AI網(wǎng)絡(luò)領(lǐng)域布局了多個方向,比如NVLink、InfiniBand、Spectrum-X等多線齊發(fā),用互聯(lián)網(wǎng)黑話來說,就是形成了一套「組合拳」。

另外,英偉達(dá)深知,解決問題的關(guān)鍵,就是找到關(guān)鍵問題。在綠廠自己發(fā)布的《AI時代的網(wǎng)絡(luò)技術(shù)》白皮書里,他們就總結(jié)凝練了傳統(tǒng)以太網(wǎng)和AI以太網(wǎng)的區(qū)別,也梳理了以CPU為核心的網(wǎng)絡(luò)與以GPU為核心的網(wǎng)絡(luò)的區(qū)別。關(guān)鍵問題抓的非常到位,推薦大家看看,原文我會發(fā)到社群中,記得掃碼加小助手進(jìn)群。

回到文章最開始的問題,英偉達(dá)到底是什么公司?

用老黃的話說:英偉達(dá)不是硬件公司,而是軟件公司,更是個提供數(shù)據(jù)中心的全棧公司。

(注:本文不代表老石任職單位的觀點(diǎn)。)

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
ATMEGA328P-MU 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 32VQFN

ECAD模型

下載ECAD模型
$2.5 查看
ATXMEGA64D3-MH 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 64QFN
$13.15 查看
MC9S08PA16AVTJ 1 NXP Semiconductors MICROCONTROLLER
$2.56 查看
英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

微信公眾號“老石談芯”主理人,博士畢業(yè)于倫敦帝國理工大學(xué)電子工程系,現(xiàn)任某知名半導(dǎo)體公司高級FPGA研發(fā)工程師,從事基于FPGA的數(shù)據(jù)中心網(wǎng)絡(luò)加速、網(wǎng)絡(luò)功能虛擬化、高速有線網(wǎng)絡(luò)通信等領(lǐng)域的研發(fā)和創(chuàng)新工作。曾經(jīng)針對FPGA、高性能與可重構(gòu)計(jì)算等技術(shù)在學(xué)術(shù)界頂級會議和期刊上發(fā)表過多篇研究論文。