16blocks,国产永久在线观看,沈腾微博

周六早上剛起床，刷朋友圈，就被“高通擬收購Intel”的新聞刷屏了。

每個(gè)時(shí)代有每個(gè)時(shí)代的英雄：在CPU同構(gòu)計(jì)算時(shí)代，Intel是時(shí)代英雄；而隨著摩爾定律失效，大模型流行，行業(yè)快速進(jìn)入異構(gòu)計(jì)算時(shí)代，這個(gè)時(shí)代的英雄是擁有GPU和CUDA的NVIDIA。

我們總結(jié)過去，不是簡(jiǎn)單的為了肯定現(xiàn)在，更多的是為了展望未來。

那么，未來在哪里？

這篇文章，我們深入探討。

1 總結(jié)過去：Intel勢(shì)弱的原因

Intel是CPU的發(fā)明者，Intel x86架構(gòu)處理器，占據(jù)了PC和服務(wù)器處理器的絕大部分市場(chǎng)份額，我們的大部分軟件都構(gòu)建在Intel的x86架構(gòu)CPU之上，Intel是無可爭(zhēng)議的時(shí)代王者。

目前，Intel面臨困境，主要有兩個(gè)原因：IDM模式的拖累和CPU時(shí)代的落幕。

1.1 原因一，IDM模式的拖累

IDM（Integrated Device Manufacture）模式是芯片設(shè)計(jì)和芯片制造于一體的模式，大型處理器類的芯片公司，采取IDM模式的，目前有Intel和三星，其他IDM模式都是相對(duì)小規(guī)模的芯片，對(duì)工藝要求較低。

而NVIDIA、AMD、高通、博通、Marvell、MTK等一眾巨頭都是無晶圓設(shè)計(jì)（Fabless）模式，也包括其他混業(yè)的公司，如蘋果、谷歌、亞馬遜、微軟等自研芯片的公司，自己沒有生產(chǎn)工廠。提供芯片制造的則是臺(tái)積電TSMC、三星、中芯國際SMIC、格羅方德GlobalFoundries等代工廠（Foundry）。

在Finfet工藝之前，不管是微米工藝還是納米工藝，Intel自己的芯片銷售規(guī)模都能很好的覆蓋成熟工藝的成本攤銷和新工藝的研發(fā)投入。但量變引起了質(zhì)變，隨著Finfet工藝資金投入量巨大，臺(tái)積電靠著，除Intel之外的，幾乎所有芯片公司支持它的新工藝研發(fā)和試錯(cuò)（成本攤銷），而Intel僅能靠自己一家公司來消化巨量的研發(fā)成本。于是，出現(xiàn)了AMD CPU比Intel CPU工藝領(lǐng)先兩代的局面。于是，在Intel幾乎獨(dú)占的，并且是Intel利潤主要來源的，服務(wù)器（CPU）處理器領(lǐng)域，被AMD和ARM陣營分去了2-3成的市場(chǎng)份額，同時(shí)還大幅度的壓縮了Intel的利潤空間。

設(shè)計(jì)和制造，本來是相互成就，如今卻成了相互拖累。制造工藝拖累了CPU處理器產(chǎn)品的競(jìng)爭(zhēng)力，而反過來，處理器產(chǎn)品銷量低利潤低，沒有了巨量的資金投入，制造工藝也就無法趕超TSMC。

1.2 原因二，CPU時(shí)代的落幕

CPU之外，Intel也進(jìn)行了很多探索，但這些探索都不算太成功：

探索一，早期打算進(jìn)軍移動(dòng)設(shè)備領(lǐng)域的ARM架構(gòu)CPU XScale，后來賣給了Marvell；

探索二，收購來的Altera FPGA，也是不溫不火，和公司的其他產(chǎn)品協(xié)同效應(yīng)也不顯著，最近在計(jì)劃再獨(dú)立運(yùn)營；

探索三，收購英飛凌的手機(jī)基帶芯片，后來賣給了蘋果；

探索四，網(wǎng)絡(luò)版塊，也做了很多的努力（包括收購Barefoot），但依然不敵被NVIDIA收編的Mellanox。

在Intel的核心CPU領(lǐng)域，Intel其實(shí)沒做錯(cuò)任何事情，他仍然是CPU的王者。問題出在CPU本身，CPU的時(shí)代過去了！

在異構(gòu)加速計(jì)算架構(gòu)下，CPU仍然很重要，CPU、GPU以及其他各種PU里，CPU是那個(gè)管理者（控制）的角色；問題在于，CPU現(xiàn)在承擔(dān)的計(jì)算任務(wù)相對(duì)較少，大家對(duì)CPU的性能需求不足。這樣導(dǎo)致兩個(gè)問題：

一方面，對(duì)新一代CPU產(chǎn)品不夠渴望（上一代，甚至上上代的產(chǎn)品性能能夠滿足要求）；

另一方面，因?yàn)镃PU性能需求不足，導(dǎo)致Intel CPU即使有性能優(yōu)勢(shì)，但卻沒有了價(jià)值優(yōu)勢(shì)，客戶可選擇其他家的CPU產(chǎn)品，雖然性能不如Intel CPU，但性能夠用，并且價(jià)格更便宜。

在這兩個(gè)問題的共同作用下，顯著壓縮了Intel的利潤空間。

2 肯定現(xiàn)在：新時(shí)代的王者NVIDIA

NVIDIA的GPU和CUDA發(fā)展有幾個(gè)關(guān)鍵的節(jié)點(diǎn)：

1993年，NVIDIA成立。公司開發(fā)的產(chǎn)品，是面向圖形加速計(jì)算的加速卡。

1999年，NVIDIA推出GeForce 256，這是第一款被命名為GPU的產(chǎn)品。

2003年，兩個(gè)研究小組獨(dú)立發(fā)現(xiàn)了基于GPU解決一些通用計(jì)算問題， GPU比CPU更快。GPGPU概念被首次提出：GPU不再以圖形加速為唯一目的，而能夠用于并行計(jì)算。

2006年，NVIDIA發(fā)布GeForce 8系列，這是真正意義上的可用于并行計(jì)算的GPGPU。

2007年，CUDA發(fā)布，CUDA為基于GPGPU的計(jì)算框架，方便開發(fā)者使用GPU進(jìn)行編程，并充分發(fā)揮GPU的計(jì)算能力。

2010年，中國首臺(tái)千萬億巨型機(jī)“天河1A發(fā)布，同年，獲得超算TOP500第一名。天河超算，全球第一次把（NVIDIA）GPU異構(gòu)計(jì)算引入到超算領(lǐng)域，并實(shí)現(xiàn)了超大規(guī)模的異構(gòu)集群計(jì)算，開辟了一個(gè)新的超算時(shí)代。

2012年，AlexNet發(fā)布，深度學(xué)習(xí)流行。開啟了算力需求猛增的時(shí)代。2012-2018年，算力需求每3.4個(gè)月翻倍，遠(yuǎn)高于摩爾定律的芯片性能增長(zhǎng)速度。這一時(shí)期，單臺(tái)GPU服務(wù)器逐漸從單卡到多卡，AI所需算力，也逐漸從單機(jī)到集群。

2018年，AI進(jìn)入大模型發(fā)展時(shí)代，算力需求繼續(xù)加速，每2個(gè)月翻倍。GPU集群規(guī)模進(jìn)一步擴(kuò)大，有了千卡、萬卡的GPU集群。

2022年底，ChatGPT獲得巨大的成功，千億參數(shù)模型成為主流，萬億、十萬億模型也都在路上。AI集群未來很可能繼續(xù)擴(kuò)展到十萬卡、百萬卡的集群規(guī)模。

從上述時(shí)間線內(nèi)容，我們可以得到如下一些觀點(diǎn)：

觀點(diǎn)一，產(chǎn)品or平臺(tái)。傳統(tǒng)GPU，僅用于圖形圖像處理，本質(zhì)上是一個(gè)面向圖形領(lǐng)域的ASIC加速卡。而GPGPU，本質(zhì)上，是一個(gè)可編程的并行計(jì)算平臺(tái)。和NVIDIA同期的很多做GPU（加速卡）的公司，都煙消云散了；而NVIDIA做GPGPU（GPGPU+CUDA的平臺(tái)和生態(tài)），才獲得了成功。

觀點(diǎn)二，生態(tài)。Transformer之所以流行，是因?yàn)槠淠軌虬袾V GPU強(qiáng)大的并行計(jì)算能力充分發(fā)揮出來，Transformer具有NVIDIA GPU的親和性，從而才能脫穎而出。CUDA生態(tài)的強(qiáng)大能力，可見一斑。

觀點(diǎn)三，技術(shù)驅(qū)動(dòng)需求 or 需求驅(qū)動(dòng)技術(shù)。經(jīng)常有人說“需求驅(qū)動(dòng)創(chuàng)新”，這句話放在應(yīng)用層的創(chuàng)新是對(duì)的，但對(duì)處理器這種底層的“硬科技”創(chuàng)新，這句話是不太對(duì)的。技術(shù)的創(chuàng)新并不是需求驅(qū)動(dòng)的，而是超前于需求的。國內(nèi)有句話叫“要想富，先修路”（路也是底層的基礎(chǔ)設(shè)施），只有先把路修了，才有可能富；幾乎不太可能等富了再修路，因?yàn)椴恍蘼?，根本不可能富?/p>

觀點(diǎn)四，技術(shù)前瞻。技術(shù)的發(fā)展，需要有一定的前瞻性，這樣才能搶占有利的技術(shù)、市場(chǎng)和生態(tài)地位。如果等需求明顯，再去做研發(fā)，可能無法爭(zhēng)到多少收益；還可能因?yàn)閯e人已經(jīng)形成的生態(tài)，自己的事情事倍功半。

總之，異構(gòu)計(jì)算時(shí)代的王者是NVIDIA。目前，NVIDIA市值兩萬億美金左右，超過了其他幾個(gè)芯片巨頭的市值總和。

3 展望未來：未來在哪里？

Intel的時(shí)代已經(jīng)落幕，NVIDIA的時(shí)代會(huì)落幕嗎？

答案是，肯定會(huì)。

每個(gè)時(shí)代有每個(gè)時(shí)代的英雄：異構(gòu)計(jì)算時(shí)代也會(huì)過去，會(huì)被新的時(shí)代所代替；新的時(shí)代，必然有新時(shí)代的英雄。

3.1 （超）大模型時(shí)代的算力挑戰(zhàn)和改進(jìn)方向

GPU，是現(xiàn)在大模型的主流計(jì)算平臺(tái)；那么，GPU仍然會(huì)是未來超大模型的主流計(jì)算平臺(tái)嗎？

我們看如下兩個(gè)案例：

案例一，百萬卡集群。目前，主流的8卡GPU服務(wù)器價(jià)格在300萬左右（價(jià)格有波動(dòng)，新型號(hào)發(fā)布，舊的型號(hào)價(jià)格會(huì)顯著下降），那么百萬卡集群，僅服務(wù)器的費(fèi)用就高達(dá)3750億左右。

案例二，微軟與OpenAI的新一代AI基礎(chǔ)設(shè)施項(xiàng)目。微軟和OpenAI制定的新一代AI算力芯片和基礎(chǔ)設(shè)施項(xiàng)目星際之門，預(yù)計(jì)耗資1000億美元。

AI大模型，如此巨量的資金投入，如何收回成本？

對(duì)于其他中小型（甚至包括大型）公司來說，這樣的投入幾乎不可能。難道人工智能，就只能是巨頭的“游戲”？

有挑戰(zhàn)，就必然有技術(shù)進(jìn)步。解決這些問題的方法，我們拋磚引玉。改進(jìn)方向主要有三個(gè)：

Scale Up的優(yōu)化。提升單芯片的性能，如果單芯片性能能夠提升10倍，百萬卡集群就可以縮減到10萬卡集群，并且其集群效率會(huì)更高。

Scale Out的優(yōu)化。進(jìn)一步優(yōu)化節(jié)點(diǎn)間的網(wǎng)絡(luò)互聯(lián)性能和帶寬，進(jìn)一步提升集群交互效率。

成本的優(yōu)化。技術(shù)上的成本優(yōu)化有很多方面，比如上面Scale Up和Scale Out的優(yōu)化，也比如工藝的進(jìn)步。而更關(guān)鍵的成本優(yōu)化，其實(shí)在于生態(tài)。目前，因?yàn)樯鷳B(tài)的影響，我們對(duì)某些計(jì)算平臺(tái)存在依賴，算力客戶很多的成本是在為生態(tài)“溢價(jià)”付費(fèi)，為性能（算力）和實(shí)際價(jià)值付費(fèi)反而占比較少。這樣封閉生態(tài)的狀況，不利于產(chǎn)品的競(jìng)爭(zhēng)和創(chuàng)新。只有在完全開放的生態(tài)下，業(yè)務(wù)不對(duì)特定的芯片產(chǎn)生依賴，芯片的價(jià)格也僅跟芯片的性能和價(jià)值相關(guān)，客戶不需要為生態(tài)“溢價(jià)”付費(fèi)。這才是健康合理的行業(yè)生態(tài)。

3.2 依據(jù)指令復(fù)雜度的處理器劃分

世間萬物由基本粒子組成，復(fù)雜處理由基本計(jì)算組成。軟件和硬件通過一定的“接口”解耦，而指令（集）則是軟件和硬件的“接口”。指令的復(fù)雜度（計(jì)算粒度或密度）決定了系統(tǒng)的軟硬件解耦程度。

ISA（指令集架構(gòu)）之下，CPU、GPU等各種處理器是硬件；ISA之上，各種程序、數(shù)據(jù)集、文件等是軟件。

有的指令非常簡(jiǎn)單，就是基本的加減乘除等標(biāo)量計(jì)算；有的指令是向量、矩向或多維張量計(jì)算；還有的指令非常復(fù)雜，不是純粹的向量、矩陣或多維張量計(jì)算，而是各種維度計(jì)算再組合的一個(gè)混合的宏指令，夸張的甚至一個(gè)算子甚至算法，就對(duì)應(yīng)到一條（單位計(jì)算）指令。

按照指令的復(fù)雜度，典型的處理器平臺(tái)大致分為CPU、協(xié)處理器、GPU、FPGA、DSA、ASIC。從左往右，單位計(jì)算越來越復(fù)雜，性能越來越好，而靈活性越來越低。

CPU、GPU、DSA等各種類型的處理器，本質(zhì)上是在不同層次的軟硬件解耦基礎(chǔ)上的軟硬件協(xié)同。

我們對(duì)各類處理器的情況進(jìn)行分析：

主流的計(jì)算處理器主要是CPU、GPU和DSA，其他類型處理器使用的范圍較小。

CPU。CPU具有極致的靈活可編程能力，幾乎可以通過編程的方式，實(shí)現(xiàn)任何功能。CPU，是最廣泛使用的處理器。

Co-Processor。這里指的是CPU擴(kuò)展的協(xié)處理器。工程形態(tài)上跟CPU是一個(gè)整體，可以認(rèn)為屬于CPU。

GPU。通用的并行加速處理器。是目前大模型時(shí)代，異構(gòu)加速的主流處理器。

NP。相對(duì)于GPU，網(wǎng)絡(luò)處理器因?yàn)槠涫褂梅秶^窄，并且沒有像CUDA這樣的易于編程的開發(fā)框架，并且也沒有非常強(qiáng)的業(yè)務(wù)需求驅(qū)動(dòng)，因此目前大規(guī)模使用的NP產(chǎn)品非常少見。

FPGA。在系統(tǒng)規(guī)模較小的時(shí)候，F(xiàn)PGA開發(fā)門檻相對(duì)低一些，在一些用量較少，但有一定性能要求的場(chǎng)景，F(xiàn)PGA是非常合適的。其在CPU和ASIC之間，找到了自己的定位：比CPU性能要好，比ASIC芯片一次性成本要低。不過，量變引起了質(zhì)變，隨著系統(tǒng)規(guī)模越來越大，F(xiàn)PGA的開發(fā)也越來越困難，基于FPGA開發(fā)的軟硬件耦合性越來越高，相互掣肘，從而大幅度約束了FPGA的業(yè)務(wù)范圍。隨著系統(tǒng)規(guī)模的進(jìn)一步擴(kuò)大，F(xiàn)PGA的未來前景一般。

ASIC。專用集成電路，通常是將業(yè)務(wù)邏輯和算法/算子完全固化的一種芯片。功能確定，無法編程，僅能進(jìn)行簡(jiǎn)單的配置和控制。也跟FPGA類似，隨著系統(tǒng)規(guī)模的增大，量變引起了質(zhì)變，未來幾乎不會(huì)存在完全ASIC形態(tài)的芯片。

DSA。DSA是ASIC向通用可編程能力的一個(gè)回調(diào)，谷歌TPU是全球第一款DSA，目前主流的AI加速芯片幾乎都可以歸屬到DSA范疇。NVIDIA Tensor core也可以理解為一種DSA，但因?yàn)槠涔こ虒?shí)現(xiàn)上是納入到GPU內(nèi)部（CUDA core+Tensor Core），所以把其歸屬到GPU范疇。

GP-DSA。對(duì)目前的大模型來說，GPU太貴，DSA不夠靈活。那我們是否可以在這兩者之間找到一個(gè)平衡點(diǎn)？也就是更加通用的DSA。需要注意的是，雖然從指令復(fù)雜度角度，它和FPGA放在一個(gè)位置，但兩者有本質(zhì)的差別。

量子芯片和類腦芯片，以及其他類似的創(chuàng)新架構(gòu)。通常都擁有相比ASIC更大的指令復(fù)雜度，可以歸屬為超級(jí)ASIC的范疇。這類芯片，在處理特定算法或數(shù)學(xué)難題時(shí)有一定的優(yōu)勢(shì)；但即使解決了相關(guān)的技術(shù)問題，這類芯片大規(guī)模商業(yè)落地仍有非常長(zhǎng)的路要走。

存算一體。存算一體，是一種具體的芯片實(shí)現(xiàn)技術(shù)，和依據(jù)指令復(fù)雜度劃分的各類處理器是不同層次的技術(shù)概念，兩者之間沒有必然的對(duì)應(yīng)關(guān)系。存算一體芯片也可以是CPU、GPU或者DSA等類型的處理器。但從目前的主流實(shí)現(xiàn)上來說，存算一體芯片通常都是面向特定領(lǐng)域（主要是AI）的DSA架構(gòu)。

3.3 依據(jù)靈活性特征的系統(tǒng)分層

復(fù)雜的系統(tǒng)，都是分層分塊的。我們可以把系統(tǒng)中的這些塊，也即工作任務(wù)，按照其靈活性特征進(jìn)行分類。靈活性意味著變化，可以從兩個(gè)方面理解（橫向和縱向的差異）：

橫向。同一個(gè)工作任務(wù)，不同的客戶，其業(yè)務(wù)邏輯會(huì)有差異性嗎？

縱向。這個(gè)工作任務(wù)，未來會(huì)經(jīng)常迭代更新業(yè)務(wù)邏輯嗎？還是已經(jīng)非常成熟，幾乎不會(huì)變更？

依據(jù)任務(wù)的靈活性特征，我們可以把系統(tǒng)分為三層（類）：

基礎(chǔ)設(shè)施層。任務(wù)非常確定，適合DSA甚至ASIC級(jí)別的處理器進(jìn)行加速處理。

業(yè)務(wù)加速層。業(yè)務(wù)變化適中，適合GPU平臺(tái)進(jìn)行加速處理。

業(yè)務(wù)應(yīng)用層。一些控制類任務(wù)，以及場(chǎng)景規(guī)模較少，也包括性能不敏感的計(jì)算任務(wù)，都可以放在業(yè)務(wù)應(yīng)用層，由CPU進(jìn)行處理。CPU同時(shí)承擔(dān)兜底的角色，DSA和GPU都無法處理的任務(wù)，都由CPU處理。

3.4 從同構(gòu)到異構(gòu)，再到異構(gòu)融合

在同構(gòu)計(jì)算、異構(gòu)計(jì)算的基礎(chǔ)上，我們可以定義一個(gè)新的階段，異構(gòu)融合計(jì)算階段：

第一階段，CPU同構(gòu)計(jì)算。所有的計(jì)算任務(wù)都在CPU里運(yùn)行。

第二階段，CPU+GPU異構(gòu)計(jì)算。受“二八定律”影響，通常情況下，有80%左右的計(jì)算任務(wù)適合于加速計(jì)算，而另外20%的計(jì)算任務(wù)仍只能進(jìn)行通用（非加速）計(jì)算。

第三階段，CPU x GPU x DSAs異構(gòu)融合計(jì)算。系統(tǒng)越來越龐大，“二八定律”分層更加明顯，80%左右的計(jì)算任務(wù)由更加高效（相比GPU）的專用加速DSA處理器完成。DSA處理器有很多個(gè)，專門處理不同領(lǐng)域的任務(wù)加速。而20%*80%也就是16%的計(jì)算任務(wù)由GPU加速完成。最后，CPU兜底，完成剩余4%的計(jì)算任務(wù)。

異構(gòu)計(jì)算階段，重心在于GPU。但異構(gòu)融合階段，重心則在“融合”。因此，在異構(gòu)融合階段，采用了“乘號(hào)”，而不是“加號(hào)”。

（關(guān)注軟硬件融合公眾號(hào)，后臺(tái)回復(fù)“白皮書”，下載工信部電子5所發(fā)布的《異構(gòu)融合計(jì)算技術(shù)白皮書》。）

3.5 新一代通用計(jì)算的王者，在哪里？

1971年，Intel發(fā)明了CPU。第一代通用計(jì)算的巨大成功，成就了Intel的王者地位。

1999年，NVIDIA發(fā)明了GPU。隨著深度學(xué)習(xí)和大模型的流行，異構(gòu)計(jì)算成為主流?；贕PU的第二代通用計(jì)算，成就了NVIDIA的成功。

從1971年到1999年，時(shí)間為28年。從1999年，經(jīng)過28年，則到2027年。

那么，2027年，是否會(huì)出現(xiàn)第三代通用計(jì)算處理器？

第三代通用計(jì)算，剛剛開始萌芽。希望國內(nèi)有廠家能夠脫穎而出，抓住“換道超車”的重大歷史機(jī)遇，成就偉大事業(yè)。

（正文完）

計(jì)算架構(gòu)：總結(jié)過去，展望未來——高通收購Intel有感