国产中文字幕久久,重案六组1

編者按

移動互聯(lián)網(wǎng)時代，誰獲得用戶和流量，誰就能獲得成功。底層邏輯是移動互聯(lián)網(wǎng)的系統(tǒng)邊際成本很低。因此，“通過免費(fèi)吸引客戶，然后再獲取收益”，成為了最典型的商業(yè)模式。

大模型時代，底層邏輯發(fā)生了很大的變化。系統(tǒng)的成本幾乎和客戶使用量成線性關(guān)系，邊際成本依然很高。這里的成本絕大部分都是推理的算力消耗。

在大模型時代，誰能把推理成本降到極致，誰就能獲得最終的勝利。

1、推理的成本，決定最終的勝利

大模型如火如荼，國內(nèi)目前的現(xiàn)狀可以總結(jié)如下：

AI大模型訓(xùn)練相對較少，僅有屈指可數(shù)的幾個大廠可以做（訓(xùn)練）自己的模型。而更多的公司則主要是基于開源大模型來完成自有AI推理和應(yīng)用。

大模型應(yīng)用，沒有“復(fù)制”門檻。目前，大模型應(yīng)用還沒有規(guī)?；涞氐陌咐?，但可以確定的是，一旦有爆款的應(yīng)用落地，必將有無數(shù)個類似的應(yīng)用迅速出現(xiàn)。應(yīng)用創(chuàng)新不是決定大模型成功的核心因素。

大模型時代，跟之前的移動互聯(lián)網(wǎng)時代最大的不同在于：

而大模型時代，底層邏輯發(fā)生了很大的變化。系統(tǒng)的成本幾乎和客戶使用量成線性關(guān)系，邊際成本依然很高。這里的成本絕大部分來源是推理的算力消耗。

在大模型時代，誰能把推理成本降到極致，誰就能獲得最終的勝利。

2、智算平臺的選擇

目前對AI智算平臺的選擇，簡單來說，就兩個：NVIDIA GPU或其他GPU/AI芯片（NVIDIA之外，統(tǒng)稱其他）。

2.1 選擇一，NVIDIA GPU

CUDA是NVIDIA GPU的計算框架，通過CUDA，可以將GPU強(qiáng)大的計算能力釋放出來?；贜VIDIA GPU的CUDA及其所構(gòu)成的生態(tài)是NVIDIA的護(hù)城河。CUDA生態(tài)，也是目前智算領(lǐng)域幾乎獨(dú)占的計算生態(tài)。

這里講一個案例，來說明NVIDIA CUDA生態(tài)的強(qiáng)大。

目前流行的大模型算法基本上都是基于Transformer結(jié)構(gòu)或其變種，Transformer之所以大行其道的原因，與其說是算法本身的價值，不如說是Transformer能夠把GPU強(qiáng)大的并行計算能力充分發(fā)揮出來。Transformer具有NVIDIA GPU的親和性，從而才能脫穎而出。

可以這樣說，只有NVIDIA GPU+CUDA親和的AI算法才有可能走出來；反過來說，如果不是NVIDIA GPU+CUDA親和的算法，即使算法本身的優(yōu)勢再大，也很難被大規(guī)模的使用。

NVIDIA GPU+CUDA生態(tài)的強(qiáng)大能力，可見一斑！

智算中心選擇NVIDIA平臺的最大優(yōu)勢是：兼容性好。目前，主流的大模型算法都是基于NVIDIA GPU和CUDA框架開發(fā)的，開源的大模型更是如此。這樣，在NVIDIA GPU平臺上，開源大模型拿過來，就可以很快跑起來。

NVIDIA GPU還有一個重要的優(yōu)勢是場景覆蓋廣。不管是做AIGC、AI Agent，或者其他可能的大模型應(yīng)用，都有豐富的基于NVIDIA GPU和CUDA的開源模型和開源應(yīng)用等相關(guān)資源可供選擇。開發(fā)者可以快速原型驗證，然后在此基礎(chǔ)上繼續(xù)調(diào)優(yōu)。

NVIDIA GPU場景覆蓋廣，既和CUDA生態(tài)相關(guān)，也跟其GPU的架構(gòu)特性相關(guān)。NVIDIA GPU為GPGPU，其CUDA Core，就是尺寸較小、效率更高、可軟件編程的CPU核，其Tensor Core就和CPU的協(xié)處理器是一樣的效果。NVIDIA GPU具有非常好的可編程能力，能通過軟件編程實(shí)現(xiàn)非常多的功能，覆蓋盡可能多的場景。

智算中心采用NVIDIA GPU的劣勢，主要是成本原因。一方面，受美國芯片禁令以及大模型剛剛興起影響，NVIDIA GPU服務(wù)器價格水漲船高，直接推高了智算的單位算力成本。另一方面，NVIDIA足夠主流，落地也足夠低門檻，行業(yè)里大家都能夠達(dá)到，智算中心企業(yè)也很難基于NVIDIA GPU構(gòu)建自己的“巨大”成本優(yōu)勢以及“顯著”的差異化競爭力。

2.2 選擇二，其他GPU/AI芯片

2.2.1 GPU芯片和專用AI芯片

還是聚焦AI智算，其他AI相關(guān)的算力芯片，主要分兩類，GPU類和AI專用芯片（也有稱為NPU、TPU等名稱）類：

GPU類，跟NVIDIA相同的GPGPU技術(shù)路徑。

AI專用芯片類。跟谷歌TPU類似的專用于AI的加速芯片，也稱為AI-DSA。

GPU的微架構(gòu)是數(shù)以千計、萬計的線程核。通過超大規(guī)模的小CPU核的并行，比傳統(tǒng)CPU的大核并行更加高效。能夠在同樣的能耗下，實(shí)現(xiàn)數(shù)量級提升的更高性能。

理論上，AI專用芯片相比GPU有性能效率的優(yōu)勢。但實(shí)際上的表現(xiàn)，并不是這樣：

一方面AI專用芯片，把很多算法邏輯固化成電路。但AI算法更新迭代很快，舊有的固化的算法結(jié)構(gòu)無法適配新型的算法，從而導(dǎo)致實(shí)際的性能（也即算力）利用率很低。在實(shí)際的性能方面，反而不如GPU。

另一方面，AI專用芯片，因為其把相對復(fù)雜的算法邏輯固化，從而導(dǎo)致其設(shè)計規(guī)模無法做的（相對）更大。以及多芯片互聯(lián)等可擴(kuò)展性問題等等，導(dǎo)致其在千卡、萬卡集群方面的性能表現(xiàn)（相對）不夠好。

再從從計算框架角度分析一下，我們把GPU和AI專用芯片分別分析：

（國內(nèi)）其他GPU芯片公司，基本都在做CUDA兼容的框架。當(dāng)然，不排除有的公司兩條腿走路，也有完全自研的框架。

而做專用AI芯片的公司，做的都是非CUDA兼容的自有框架。專用AI芯片公司“不約而同”的走自有框架，核心原因在于專用芯片算子約束更加嚴(yán)格，沒法做到GPU級別的編程自由度。所以，不是不兼容，而是無法兼容。

目前情況下，AI算法仍然快速多變，最合適的加速方案仍然是GPU，專用AI芯片無法解決算法的橫向（不同算法間的差異）和縱向（算法的迭代）差異性問題。

（擴(kuò)展閱讀：能不能面向通用人工智能AGI，定義一款新的AI處理器？。）

2.2.2 其他算力芯片的優(yōu)劣勢總結(jié)

其他的GPU/AI專用芯片和NVIDIA GPU相比，劣勢主要在于其芯片、框架和生態(tài)都不夠成熟，并且在性能上也有劣勢，并且其場景覆蓋也較少。

各方面原因，NVIDIA GPU目前相對較貴，其他這些算力芯片唯一的優(yōu)勢可以說是價格，也就是折算到單位算力的成本優(yōu)勢。

3、NVIDIA GPU和其他算力芯片的異構(gòu)協(xié)同

NVIDIA GPU場景覆蓋廣，但單位算力成本高；其他GPU/AI算力芯片場景覆蓋少，但單位算力成本低。那有沒有辦法把這兩者的優(yōu)勢合并？既達(dá)到NVIDIA GPU一樣的場景覆蓋，又能像其它算力芯片一樣低成本。

答案是肯定的。

3.1 訓(xùn)練和推理計算方式的差異

通俗的講，大模型訓(xùn)練是很多臺服務(wù)器干一件事情。訓(xùn)練可以理解為一個非常龐大的計算任務(wù)分解的很多分支任務(wù)在不同的服務(wù)器節(jié)點(diǎn)上進(jìn)行計算，并且這些分支任務(wù)之間還需要緊密的通信和協(xié)同。因此，訓(xùn)練對計算架構(gòu)的一致性，和節(jié)點(diǎn)間的高速互聯(lián)，要求相對較高。

而大模型推理，（通過優(yōu)化）可以做到一臺機(jī)器干很多件事情。這樣，服務(wù)器節(jié)點(diǎn)之間的耦合性要求降低；與此同時，對服務(wù)器節(jié)點(diǎn)的計算架構(gòu)一致性的要求也隨之降低。

簡單總結(jié)一下：

基于混合異構(gòu)協(xié)同的大模型訓(xùn)練優(yōu)化，是一件事倍功半的事情。原因一、混合異構(gòu)協(xié)同的大模型訓(xùn)練技術(shù)難度高；原因二，訓(xùn)練集群的效率和成本優(yōu)化效果有限；原因三，國內(nèi)大模型訓(xùn)練整體市場規(guī)模相對較小，高投入低收益。

基于混合異構(gòu)協(xié)同的大模型推理優(yōu)化，則是一件事半功倍的事情。原因一，混合異構(gòu)協(xié)同的大模型推理技術(shù)難度相對較低；原因二，推理集群的效率和成本優(yōu)化效果會非常顯著；原因三，國內(nèi)主要是AI大模型推理，其市場規(guī)模將遠(yuǎn)大于訓(xùn)練，低投入高收益。

3.2 異構(gòu)協(xié)同推理

簡單的辦法，就是實(shí)現(xiàn)混合調(diào)度。通過一個任務(wù)調(diào)度器，把不同類別的工作任務(wù)分派給對應(yīng)的計算硬件。這里的關(guān)鍵在于：

其他算力芯片的高優(yōu)先級。也就是所有的計算任務(wù)送到集群的時候，由其他算力芯片所在的計算節(jié)點(diǎn)先挑選，“自己可以勝任的工作就自己做，無法勝任的工作就交給NVIDIA做”。

NVIDIA GPU的最低優(yōu)先級。其主要作用是在系統(tǒng)里承擔(dān)“兜底”的角色，其他算力芯片挑剩下的工作任務(wù)，都統(tǒng)一交付到NVIDIA GPU所在的計算節(jié)點(diǎn)執(zhí)行。

受二八定律影響，其他算力芯片覆蓋的通常是熱點(diǎn)場景，雖然其場景覆蓋少，但這些場景的計算量通常會占據(jù)整體計算量的大部分。從而使得，通過異構(gòu)協(xié)同的方式，能夠顯著的降低成本。

總結(jié)一下異構(gòu)協(xié)同的優(yōu)勢：

能夠?qū)崿F(xiàn)全場景覆蓋（以NVIDIA GPU為基準(zhǔn)，NV-GPU兜底，所以全場景覆蓋）；

能夠最大程度降低成本（計算主力為其他GPU/AI芯片）；

部分解決算力芯片卡脖子問題（降低NVIDIA芯片的使用量）。

4、更進(jìn)一步，多元異構(gòu)協(xié)同

4.1 算力芯片的類型和架構(gòu)越來越多，亟需整合

在通用計算的時代，x86占據(jù)絕大部分市場，基本上不存在多樣性算力平臺的問題。但隨著ARM CPU、RISC-v CPU的逐漸成熟，不同架構(gòu)的CPU也逐漸共存于同一個算力中心。隨著深度學(xué)習(xí)和大模型的流行，GPU異構(gòu)計算逐漸成為主流。但NVIDIA GPU成本很高，其他品牌/架構(gòu)GPU也越來越多的得到應(yīng)用。此外，還有專用于AI等場合的專用加速處理器器，也開始得到重視。計算平臺越來越多的呈現(xiàn)出多樣性的特征。

站在競爭和供應(yīng)鏈安全的角度，多樣性算力是好事情，但站在基礎(chǔ)設(shè)施和業(yè)務(wù)層軟件的角度，多樣性算力則是挑戰(zhàn)。如果實(shí)現(xiàn)軟件定義硬件，做硬件平臺架構(gòu)無關(guān)的軟件層工作，讓更多的硬件平臺可以無縫接入，是亟需解決的問題。

4.2 多元異構(gòu)協(xié)同的混合算力調(diào)度

從兩種計算芯片的異構(gòu)協(xié)同推理開始，我們可以持續(xù)擴(kuò)展，最終形成的必然是多元異構(gòu)協(xié)同計算框架，從而實(shí)現(xiàn)多種加速芯片的混合計算，給客戶提供一致性的和云邊端協(xié)同調(diào)度，實(shí)現(xiàn)最優(yōu)的算力成本。

多元異構(gòu)計算框架是動態(tài)的，它承上啟下：

對上，提供開放的北向接口，對接主流的開源軟件，并以開源軟件為藍(lán)本，提供開放的業(yè)務(wù)應(yīng)用軟件接入API規(guī)范，支持更多的客戶自研軟件的接入。

對下，提供開放的南向接口，對接主流的大廠的芯片，如x86 CPU、ARM CPU、NVIDIA GPU等。對于其他芯片公司的芯片，平臺方和芯片廠家可以建立深度合作關(guān)系，把其他的GPU/AI算力芯片逐步接入。在此基礎(chǔ)上，形成南向的接口和架構(gòu)規(guī)范，從而支持更多硬件的接入。

到了這個階段，就必然形成了一個真正的多元異構(gòu)算力平臺。對智算中心來說：

對下，不需要關(guān)心芯片的各種差異性，只要有開放的算力調(diào)度平臺，就可以實(shí)現(xiàn)各類芯片的輕松接入。這樣，智算中心只關(guān)心芯片的性能和成本。

對上，也不需要擔(dān)心智算中心的硬件是否能夠匹配客戶的業(yè)務(wù)場景。開放的算力調(diào)度平臺決定了，能夠?qū)崿F(xiàn)對絕大部分場景的支持。

大模型時代，推理的成本決定最終的勝利

編者按

1、推理的成本，決定最終的勝利