欧洲男女啪啪免费观看,红箭电视剧完整版免费观看

提起英偉達(dá)，你覺得它是個什么公司？

如今，這家萬億市值的芯片龍頭似乎很難用一個或幾個詞來概括了。不過英偉達(dá)的護(hù)城河卻多年沒變，主要有三個。其中兩個是大家都熟悉的：GPU芯片硬件、CUDA編程軟件。硬件負(fù)責(zé)堆算力，軟件負(fù)責(zé)構(gòu)建生態(tài)。這一軟一硬，讓英偉達(dá)在人工智能的大潮中一直「獨(dú)孤求敗」，當(dāng)然也讓這家公司的股價(jià)市值在各家芯片公司中一直「獨(dú)孤求敗」。

不過，英偉達(dá)還有一個或許并不為人所知的隱形護(hù)城河：網(wǎng)絡(luò)。

1、需求：既要又要

事情的起源，還是由于人工智能和大模型的爆發(fā)。大模型之所以「大」，說的就是模型的參數(shù)量大、用于訓(xùn)練的數(shù)據(jù)多、訓(xùn)練系統(tǒng)的規(guī)模大。它也成了一個算力吞金獸，訓(xùn)練一個大模型消耗的成本都是天文數(shù)字量級。

前不久斯坦福大學(xué)的李飛飛教授團(tuán)隊(duì)發(fā)布年度報(bào)告，數(shù)據(jù)顯示GPT-4的訓(xùn)練成本超過7800萬美元，谷歌Gemini Ultra的訓(xùn)練成本更是超過驚人的1.91億美元。

要知道，這些天文數(shù)字的費(fèi)用，絕大部分都花在了GPU上。

也有數(shù)據(jù)顯示，Meta訓(xùn)練650億參數(shù)的Llama模型消耗了100萬GPU小時，谷歌訓(xùn)練5400億參數(shù)的PaLM模型消耗了2.56乘以10的24次方FLOPS的算力。

所以，單個芯片算力再強(qiáng)，也根本沒辦法滿足大模型訓(xùn)練的需求。于是多芯片之間的互連就成了大模型時代的關(guān)鍵技術(shù)。甚至有大佬這么說，就算使用算力稍差的GPU，只要多芯片互連做得好，整體算力就不會掉。這是由于系統(tǒng)整體的瓶頸已經(jīng)從數(shù)據(jù)計(jì)算，變成了數(shù)據(jù)搬運(yùn)。

別忘了，網(wǎng)絡(luò)，是英偉達(dá)的「隱形」護(hù)城河。

為了降低成本，讓更多人能參與大模型煉丹、或者將訓(xùn)練好的大模型部署到實(shí)際應(yīng)用中，各家科技大廠也想了很多招。比如，人們搞出來了一個AI 數(shù)據(jù)中心的概念。和傳統(tǒng)的數(shù)據(jù)中心相比，AI數(shù)據(jù)中心它從設(shè)計(jì)伊始就圍繞AI需求，顧名思義就是專門為AI服務(wù)的。

但如果我們細(xì)看這個AI數(shù)據(jù)中心，其實(shí)還分成兩個主要場景。一個是老黃多次提到的「AI工廠」，你可以把它想象成一個擁有成千上萬個最強(qiáng)GPU「工人」的真·工廠，而這里生產(chǎn)的產(chǎn)品，就是訓(xùn)練好的大模型。通常來說，這種AI工廠的模式是面向超大規(guī)模的重型負(fù)載。這種模式的好處是能減輕科技公司從頭搭建自己的AI基礎(chǔ)設(shè)施的繁瑣工作，用工廠實(shí)現(xiàn)AI訓(xùn)練的外包。

在AI工廠里，追求的終極目標(biāo)就是超高性能，所以英偉達(dá)使用了NVLink和InfiniBand這些超高速超低延時的網(wǎng)絡(luò)技術(shù)進(jìn)行GPU之間的互連。通常來說，最先進(jìn)的NVLink能連接8到500張以上的GPU卡，而且是天然的無損網(wǎng)絡(luò)，因此能夠?qū)崿F(xiàn)性能天花板。但是，這些定制化網(wǎng)絡(luò)的成本太高，因此注定不能適用于所有人。

于是還有第二個AI數(shù)據(jù)中心的場景，名叫AI云。和我們熟悉的云計(jì)算相似，AI云本質(zhì)上也是將AI基礎(chǔ)設(shè)施和算力統(tǒng)統(tǒng)云化，能讓更多人以更低成本使用云端的AI資源。和AI工廠不同，AI云更多面向不那么重型的負(fù)載，比如模型微調(diào)、中小模型的訓(xùn)練以及各種推理場景。

正因如此，性能在這里或許不是最重要因素，成本才是。

當(dāng)然，如果能既要又要，就更好了。

在傳統(tǒng)云計(jì)算中，成千上萬臺計(jì)算機(jī)都是通過以太網(wǎng)互連的。事實(shí)上，以太網(wǎng)這個技術(shù)在上個世紀(jì)七十年代被發(fā)明之后，很快就成為數(shù)據(jù)中心、云計(jì)算、網(wǎng)絡(luò)通信、工業(yè)控制等關(guān)鍵領(lǐng)域的基石性技術(shù)。對于AI云來說，重新自立門戶面臨技術(shù)和生態(tài)兩座大山，所以最明智的選擇，仍然是兼容現(xiàn)有的基于以太網(wǎng)的云網(wǎng)絡(luò)架構(gòu)。

只不過，在AI時代，傳統(tǒng)以太網(wǎng)的最大問題就是性能。如果既要以太網(wǎng)的生態(tài)和靈活性、又要追求高性能，那勢必就要面向以太網(wǎng)進(jìn)行技術(shù)變革。

而這，恰恰是英偉達(dá)Spectrum-X網(wǎng)絡(luò)平臺出現(xiàn)的本質(zhì)邏輯。

2、方案：全棧

問題來了，和傳統(tǒng)以太網(wǎng)相比，面向AI計(jì)算的以太網(wǎng)到底有什么不同呢？

先說結(jié)論，面向AI計(jì)算的以太網(wǎng)技術(shù)，需要高性能、高穩(wěn)定性、低抖動、性能可預(yù)測、能高效應(yīng)對AI業(yè)務(wù)中的突發(fā)流量等新特點(diǎn)。接下來我們詳細(xì)介紹。

前面說過，當(dāng)大模型的規(guī)模逐漸爆炸，系統(tǒng)性能的瓶頸已經(jīng)從單GPU卡算力，轉(zhuǎn)移到了多卡之間網(wǎng)絡(luò)互連與通信的帶寬和性能。當(dāng)GPU數(shù)量擴(kuò)展到成千上萬時，甚至單一數(shù)據(jù)中心都放不下，還需要不同地域的數(shù)據(jù)中心進(jìn)行協(xié)同工作，這對于網(wǎng)絡(luò)性能更是提出了更高的要求?？偠灾阅苁潜仨毐ＷC的重要需求。

此外，從編程和使用性的角度來看，讓程序員去分別編程這幾萬張GPU卡是不現(xiàn)實(shí)的，必須通過軟件將這些計(jì)算資源整合在一起，隱藏掉底層的硬件實(shí)現(xiàn)細(xì)節(jié)，讓開發(fā)者看起來就像在編程一個GPU，這也是英偉達(dá)說的「數(shù)據(jù)中心即計(jì)算機(jī)」的概念。

這個概念有點(diǎn)像傳統(tǒng)云計(jì)算中的虛擬化，但在傳統(tǒng)云計(jì)算中，不同使用者或業(yè)務(wù)之間是相對松散和獨(dú)立的。而且不同任務(wù)對于網(wǎng)絡(luò)的抖動、穩(wěn)定性并不一定非常敏感，可能最多就是刷劇的時候緩沖的時間長一點(diǎn)，重傳一遍就OK了。

相比之下，AI云對于穩(wěn)定性的要求就完全高了一個檔次。由于需要N個GPU同步運(yùn)行單一的AI負(fù)載，一旦出現(xiàn)丟包或者抖動，就可能會導(dǎo)致『煉丹』失敗，或者成為系統(tǒng)的性能瓶頸。而且AI訓(xùn)練時經(jīng)常出現(xiàn)突發(fā)流量，比如GPU計(jì)算完成后會瞬間將模型的梯度值通過網(wǎng)絡(luò)在GPU之間進(jìn)行同步，從而帶來突發(fā)的流量高峰。這就需要網(wǎng)絡(luò)擁有突發(fā)流量的處理能力和性能預(yù)測的能力。

為了解決這些問題，傳統(tǒng)以太網(wǎng)是肯定不夠的。所以英偉達(dá)推出了名叫Spectrum-X的新型以太網(wǎng)技術(shù)。它的內(nèi)核仍然基于以太網(wǎng)協(xié)議，但面向AI計(jì)算特點(diǎn)進(jìn)行了針對性的優(yōu)化。

首先值得一提的是，Spectrum-X并不是一個單一技術(shù)，而是由多種軟硬件技術(shù)組成的系統(tǒng)級網(wǎng)絡(luò)架構(gòu)。硬件層面，包含名叫Spectrum-4的400G以太網(wǎng)交換機(jī)，它集成了1000億個晶體管，交換帶寬總?cè)萘?1.2Tb/s，支持128個400G端口或64個800G端口，是整個Spectrum-X網(wǎng)絡(luò)平臺的核心。

在每個網(wǎng)絡(luò)節(jié)點(diǎn)，還有BlueField-3 SuperNIC超級網(wǎng)卡，可以直接在端側(cè)進(jìn)行硬件加速和卸載。在整個網(wǎng)絡(luò)的軟件層面，運(yùn)行著全棧式AI加速軟件，包括面向DPU的DOCA軟件框架、NVIDIA網(wǎng)絡(luò)數(shù)字孿生框架NVIDIA AIR、網(wǎng)絡(luò)操作系統(tǒng)Cumulus，以及用來做網(wǎng)絡(luò)運(yùn)維管理和監(jiān)控的NetQ工具等等。

3、實(shí)例：從不可能到可能

有了底層技術(shù)的支持，就能構(gòu)建AI云網(wǎng)絡(luò)的關(guān)鍵功能了。還拿性能舉例，在Spectrum-X中，可以實(shí)現(xiàn)多個任務(wù)的并行和性能隔離。也就是說，即使運(yùn)行了多種不同的任務(wù)負(fù)載，每個任務(wù)都能實(shí)現(xiàn)裸金屬（Bare Metal）的性能。這個功能的本質(zhì)是更高效的擁塞控制算法，即單個任務(wù)不會擠占全部網(wǎng)絡(luò)帶寬，造成三個和尚沒水吃的局面。

技術(shù)上看，一個大任務(wù)如果發(fā)送不暢就會堵塞整個網(wǎng)絡(luò)，導(dǎo)致網(wǎng)路中的其它任務(wù)性能下降。通過SuperNIC和交換機(jī)進(jìn)行端到端的協(xié)作，實(shí)現(xiàn)了基于硬件的增強(qiáng)擁塞控制和基于優(yōu)先級的流量控制，在無損以太網(wǎng)絡(luò)上保證了不會出現(xiàn)丟包或者抖動。這個聽起來技術(shù)沒那么復(fù)雜，但其實(shí)需要依賴SuperNIC和交換機(jī)之間非常嚴(yán)謹(jǐn)?shù)亩说蕉撕献鱽韺?shí)現(xiàn)，這也是為什么傳統(tǒng)網(wǎng)卡或傳統(tǒng)交換機(jī)沒辦法實(shí)現(xiàn)這個功能的主要原因。

還有一個很有趣的例子是數(shù)字孿生。這本身是個起源于元宇宙的概念，說的是一個物理實(shí)體的虛擬表示，比如我們每個人的數(shù)字分身。這個概念其實(shí)在AI數(shù)據(jù)中心里也有很多好處。比如，構(gòu)建一個真實(shí)的AI集群是個非常復(fù)雜的工作，而且需要大量投入。傳統(tǒng)的方法是先構(gòu)建、再調(diào)試優(yōu)化。但一旦發(fā)現(xiàn)問題，進(jìn)行調(diào)整和修改的成本也是巨大的。

所以可以使用數(shù)字孿生技術(shù)，先構(gòu)建一個數(shù)字AI集群，然后在虛擬集群上完成前面說的仿真驗(yàn)證、調(diào)試、優(yōu)化等工作，從而加速物理集群的部署和上線，并且大幅降低成本。

為了構(gòu)建數(shù)字孿生的AI集群，軟件肯定還是關(guān)鍵。英偉達(dá)就推出了NVIDIA AIR平臺，可以免費(fèi)仿真數(shù)據(jù)中心的關(guān)鍵網(wǎng)絡(luò)軟件、操作系統(tǒng)和NetQ網(wǎng)絡(luò)管理軟件，目前已經(jīng)實(shí)現(xiàn)了整個數(shù)據(jù)中心完整的交換網(wǎng)的虛擬實(shí)現(xiàn)，未來大概率也會加入對BlueField SuperNIC在主機(jī)端的支持。

4、啟示：風(fēng)口背后的邏輯

說了很多AI數(shù)據(jù)中心的網(wǎng)絡(luò)變革，也深入介紹了網(wǎng)絡(luò)如何成為英偉達(dá)的隱形護(hù)城河。從英偉達(dá)布局AI網(wǎng)絡(luò)，其實(shí)也能帶給我們很多啟示。

比如，不得不承認(rèn)老黃的技術(shù)遠(yuǎn)見。當(dāng)然這不一定是老黃本人，而是站在老黃背后很多綠廠大佬的集體智慧。但英偉達(dá)之所以能抓住這么多風(fēng)口，離不開技術(shù)的布局和深耕。當(dāng)英偉達(dá)開始發(fā)力BlueField DPU時，AI和大模型的浪潮其實(shí)還并沒有到來。誰又能想到，這個原本用于傳統(tǒng)云計(jì)算數(shù)據(jù)中心的DPU技術(shù)，竟然也成為了AI網(wǎng)絡(luò)不可或缺的關(guān)鍵。

此外，一招鮮、吃遍天的時代已經(jīng)過去了。強(qiáng)如英偉達(dá)，也在AI網(wǎng)絡(luò)領(lǐng)域布局了多個方向，比如NVLink、InfiniBand、Spectrum-X等多線齊發(fā)，用互聯(lián)網(wǎng)黑話來說，就是形成了一套「組合拳」。

另外，英偉達(dá)深知，解決問題的關(guān)鍵，就是找到關(guān)鍵問題。在綠廠自己發(fā)布的《AI時代的網(wǎng)絡(luò)技術(shù)》白皮書里，他們就總結(jié)凝練了傳統(tǒng)以太網(wǎng)和AI以太網(wǎng)的區(qū)別，也梳理了以CPU為核心的網(wǎng)絡(luò)與以GPU為核心的網(wǎng)絡(luò)的區(qū)別。關(guān)鍵問題抓的非常到位，推薦大家看看，原文我會發(fā)到社群中，記得掃碼加小助手進(jìn)群。

回到文章最開始的問題，英偉達(dá)到底是什么公司？

用老黃的話說：英偉達(dá)不是硬件公司，而是軟件公司，更是個提供數(shù)據(jù)中心的全棧公司。

（注：本文不代表老石任職單位的觀點(diǎn)。）

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATMEGA328P-MU	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 32VQFN	ECAD模型下載ECAD模型	$2.5	查看
ATXMEGA64D3-MH	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 64QFN		$13.15	查看
MC9S08PA16AVTJ	1	NXP Semiconductors	MICROCONTROLLER		$2.56	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

ATMEGA328P-MU

Microchip Technology Inc

IC MCU 8BIT 32KB FLASH 32VQFN