加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 1 總結(jié)過去:Intel勢(shì)弱的原因
    • 2 肯定現(xiàn)在:新時(shí)代的王者NVIDIA
    • 3 展望未來:未來在哪里?
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

計(jì)算架構(gòu):總結(jié)過去,展望未來——高通收購Intel有感

09/24 09:50
1231
閱讀需 21 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

 

周六早上剛起床,刷朋友圈,就被“高通擬收購Intel”的新聞刷屏了。

每個(gè)時(shí)代有每個(gè)時(shí)代的英雄:在CPU同構(gòu)計(jì)算時(shí)代,Intel是時(shí)代英雄;而隨著摩爾定律失效,大模型流行,行業(yè)快速進(jìn)入異構(gòu)計(jì)算時(shí)代,這個(gè)時(shí)代的英雄是擁有GPU和CUDA的NVIDIA

我們總結(jié)過去,不是簡(jiǎn)單的為了肯定現(xiàn)在,更多的是為了展望未來。

那么,未來在哪里?

這篇文章,我們深入探討。

1 總結(jié)過去:Intel勢(shì)弱的原因

Intel是CPU的發(fā)明者,Intel x86架構(gòu)處理器,占據(jù)了PC和服務(wù)器處理器的絕大部分市場(chǎng)份額,我們的大部分軟件都構(gòu)建在Intel的x86架構(gòu)CPU之上,Intel是無可爭(zhēng)議的時(shí)代王者。

目前,Intel面臨困境,主要有兩個(gè)原因:IDM模式的拖累和CPU時(shí)代的落幕。

1.1 原因一,IDM模式的拖累

IDM(Integrated Device Manufacture)模式是芯片設(shè)計(jì)芯片制造于一體的模式,大型處理器類的芯片公司,采取IDM模式的,目前有Intel和三星,其他IDM模式都是相對(duì)小規(guī)模的芯片,對(duì)工藝要求較低。

而NVIDIA、AMD、高通、博通、Marvell、MTK等一眾巨頭都是無晶圓設(shè)計(jì)(Fabless)模式,也包括其他混業(yè)的公司,如蘋果、谷歌、亞馬遜、微軟自研芯片的公司,自己沒有生產(chǎn)工廠。提供芯片制造的則是臺(tái)積電TSMC、三星、中芯國際SMIC、格羅方德GlobalFoundries等代工廠(Foundry)。

在Finfet工藝之前,不管是微米工藝還是納米工藝,Intel自己的芯片銷售規(guī)模都能很好的覆蓋成熟工藝的成本攤銷和新工藝的研發(fā)投入。但量變引起了質(zhì)變,隨著Finfet工藝資金投入量巨大,臺(tái)積電靠著,除Intel之外的,幾乎所有芯片公司支持它的新工藝研發(fā)和試錯(cuò)(成本攤銷),而Intel僅能靠自己一家公司來消化巨量的研發(fā)成本。于是,出現(xiàn)了AMD CPU比Intel CPU工藝領(lǐng)先兩代的局面。于是,在Intel幾乎獨(dú)占的,并且是Intel利潤主要來源的,服務(wù)器(CPU)處理器領(lǐng)域,被AMD和ARM陣營分去了2-3成的市場(chǎng)份額,同時(shí)還大幅度的壓縮了Intel的利潤空間。

設(shè)計(jì)和制造,本來是相互成就,如今卻成了相互拖累。制造工藝拖累了CPU處理器產(chǎn)品的競(jìng)爭(zhēng)力,而反過來,處理器產(chǎn)品銷量低利潤低,沒有了巨量的資金投入,制造工藝也就無法趕超TSMC。

1.2 原因二,CPU時(shí)代的落幕

CPU之外,Intel也進(jìn)行了很多探索,但這些探索都不算太成功:

探索一,早期打算進(jìn)軍移動(dòng)設(shè)備領(lǐng)域的ARM架構(gòu)CPU XScale,后來賣給了Marvell;

探索二,收購來的Altera FPGA,也是不溫不火,和公司的其他產(chǎn)品協(xié)同效應(yīng)也不顯著,最近在計(jì)劃再獨(dú)立運(yùn)營;

探索三,收購英飛凌的手機(jī)基帶芯片,后來賣給了蘋果;

探索四,網(wǎng)絡(luò)版塊,也做了很多的努力(包括收購Barefoot),但依然不敵被NVIDIA收編的Mellanox。

在Intel的核心CPU領(lǐng)域,Intel其實(shí)沒做錯(cuò)任何事情,他仍然是CPU的王者。問題出在CPU本身,CPU的時(shí)代過去了!

在異構(gòu)加速計(jì)算架構(gòu)下,CPU仍然很重要,CPU、GPU以及其他各種PU里,CPU是那個(gè)管理者(控制)的角色;問題在于,CPU現(xiàn)在承擔(dān)的計(jì)算任務(wù)相對(duì)較少,大家對(duì)CPU的性能需求不足。這樣導(dǎo)致兩個(gè)問題:

一方面,對(duì)新一代CPU產(chǎn)品不夠渴望(上一代,甚至上上代的產(chǎn)品性能能夠滿足要求);

另一方面,因?yàn)镃PU性能需求不足,導(dǎo)致Intel CPU即使有性能優(yōu)勢(shì),但卻沒有了價(jià)值優(yōu)勢(shì),客戶可選擇其他家的CPU產(chǎn)品,雖然性能不如Intel CPU,但性能夠用,并且價(jià)格更便宜。

在這兩個(gè)問題的共同作用下,顯著壓縮了Intel的利潤空間。

2 肯定現(xiàn)在:新時(shí)代的王者NVIDIA

NVIDIA的GPU和CUDA發(fā)展有幾個(gè)關(guān)鍵的節(jié)點(diǎn):

1993年,NVIDIA成立。公司開發(fā)的產(chǎn)品,是面向圖形加速計(jì)算的加速卡。

1999年,NVIDIA推出GeForce 256,這是第一款被命名為GPU的產(chǎn)品。

2003年,兩個(gè)研究小組獨(dú)立發(fā)現(xiàn)了基于GPU解決一些通用計(jì)算問題, GPU比CPU更快。GPGPU概念被首次提出:GPU不再以圖形加速為唯一目的,而能夠用于并行計(jì)算

2006年,NVIDIA發(fā)布GeForce 8系列,這是真正意義上的可用于并行計(jì)算的GPGPU。

2007年,CUDA發(fā)布,CUDA為基于GPGPU的計(jì)算框架,方便開發(fā)者使用GPU進(jìn)行編程,并充分發(fā)揮GPU的計(jì)算能力。

2010年,中國首臺(tái)千萬億巨型機(jī)“天河1A發(fā)布,同年,獲得超算TOP500第一名。天河超算,全球第一次把(NVIDIA)GPU異構(gòu)計(jì)算引入到超算領(lǐng)域,并實(shí)現(xiàn)了超大規(guī)模的異構(gòu)集群計(jì)算,開辟了一個(gè)新的超算時(shí)代。

2012年,AlexNet發(fā)布,深度學(xué)習(xí)流行。開啟了算力需求猛增的時(shí)代。2012-2018年,算力需求每3.4個(gè)月翻倍,遠(yuǎn)高于摩爾定律的芯片性能增長(zhǎng)速度。這一時(shí)期,單臺(tái)GPU服務(wù)器逐漸從單卡到多卡,AI所需算力,也逐漸從單機(jī)到集群。

2018年,AI進(jìn)入大模型發(fā)展時(shí)代,算力需求繼續(xù)加速,每2個(gè)月翻倍。GPU集群規(guī)模進(jìn)一步擴(kuò)大,有了千卡、萬卡的GPU集群。

2022年底,ChatGPT獲得巨大的成功,千億參數(shù)模型成為主流,萬億、十萬億模型也都在路上。AI集群未來很可能繼續(xù)擴(kuò)展到十萬卡、百萬卡的集群規(guī)模。

從上述時(shí)間線內(nèi)容,我們可以得到如下一些觀點(diǎn):

觀點(diǎn)一,產(chǎn)品or平臺(tái)。傳統(tǒng)GPU,僅用于圖形圖像處理,本質(zhì)上是一個(gè)面向圖形領(lǐng)域的ASIC加速卡。而GPGPU,本質(zhì)上,是一個(gè)可編程的并行計(jì)算平臺(tái)。和NVIDIA同期的很多做GPU(加速卡)的公司,都煙消云散了;而NVIDIA做GPGPU(GPGPU+CUDA的平臺(tái)和生態(tài)),才獲得了成功。

觀點(diǎn)二,生態(tài)。Transformer之所以流行,是因?yàn)槠淠軌虬袾V GPU強(qiáng)大的并行計(jì)算能力充分發(fā)揮出來,Transformer具有NVIDIA GPU的親和性,從而才能脫穎而出。CUDA生態(tài)的強(qiáng)大能力,可見一斑。

觀點(diǎn)三,技術(shù)驅(qū)動(dòng)需求 or 需求驅(qū)動(dòng)技術(shù)。經(jīng)常有人說“需求驅(qū)動(dòng)創(chuàng)新”,這句話放在應(yīng)用層的創(chuàng)新是對(duì)的,但對(duì)處理器這種底層的“硬科技”創(chuàng)新,這句話是不太對(duì)的。技術(shù)的創(chuàng)新并不是需求驅(qū)動(dòng)的,而是超前于需求的。國內(nèi)有句話叫“要想富,先修路”(路也是底層的基礎(chǔ)設(shè)施),只有先把路修了,才有可能富;幾乎不太可能等富了再修路,因?yàn)椴恍蘼?,根本不可能富?/p>

觀點(diǎn)四,技術(shù)前瞻。技術(shù)的發(fā)展,需要有一定的前瞻性,這樣才能搶占有利的技術(shù)、市場(chǎng)和生態(tài)地位。如果等需求明顯,再去做研發(fā),可能無法爭(zhēng)到多少收益;還可能因?yàn)閯e人已經(jīng)形成的生態(tài),自己的事情事倍功半。

總之,異構(gòu)計(jì)算時(shí)代的王者是NVIDIA。目前,NVIDIA市值兩萬億美金左右,超過了其他幾個(gè)芯片巨頭的市值總和。

3 展望未來:未來在哪里?

Intel的時(shí)代已經(jīng)落幕,NVIDIA的時(shí)代會(huì)落幕嗎?

答案是,肯定會(huì)。

每個(gè)時(shí)代有每個(gè)時(shí)代的英雄:異構(gòu)計(jì)算時(shí)代也會(huì)過去,會(huì)被新的時(shí)代所代替;新的時(shí)代,必然有新時(shí)代的英雄。

3.1 (超)大模型時(shí)代的算力挑戰(zhàn)和改進(jìn)方向

GPU,是現(xiàn)在大模型的主流計(jì)算平臺(tái);那么,GPU仍然會(huì)是未來超大模型的主流計(jì)算平臺(tái)嗎?

我們看如下兩個(gè)案例:

案例一,百萬卡集群。目前,主流的8卡GPU服務(wù)器價(jià)格在300萬左右(價(jià)格有波動(dòng),新型號(hào)發(fā)布,舊的型號(hào)價(jià)格會(huì)顯著下降),那么百萬卡集群,僅服務(wù)器的費(fèi)用就高達(dá)3750億左右。

案例二,微軟與OpenAI的新一代AI基礎(chǔ)設(shè)施項(xiàng)目。微軟和OpenAI制定的新一代AI算力芯片和基礎(chǔ)設(shè)施項(xiàng)目星際之門,預(yù)計(jì)耗資1000億美元。

AI大模型,如此巨量的資金投入,如何收回成本?

對(duì)于其他中小型(甚至包括大型)公司來說,這樣的投入幾乎不可能。難道人工智能,就只能是巨頭的“游戲”?

有挑戰(zhàn),就必然有技術(shù)進(jìn)步。解決這些問題的方法,我們拋磚引玉。改進(jìn)方向主要有三個(gè):

Scale Up的優(yōu)化。提升單芯片的性能,如果單芯片性能能夠提升10倍,百萬卡集群就可以縮減到10萬卡集群,并且其集群效率會(huì)更高。

Scale Out的優(yōu)化。進(jìn)一步優(yōu)化節(jié)點(diǎn)間的網(wǎng)絡(luò)互聯(lián)性能和帶寬,進(jìn)一步提升集群交互效率。

成本的優(yōu)化。技術(shù)上的成本優(yōu)化有很多方面,比如上面Scale Up和Scale Out的優(yōu)化,也比如工藝的進(jìn)步。而更關(guān)鍵的成本優(yōu)化,其實(shí)在于生態(tài)。目前,因?yàn)樯鷳B(tài)的影響,我們對(duì)某些計(jì)算平臺(tái)存在依賴,算力客戶很多的成本是在為生態(tài)“溢價(jià)”付費(fèi),為性能(算力)和實(shí)際價(jià)值付費(fèi)反而占比較少。這樣封閉生態(tài)的狀況,不利于產(chǎn)品的競(jìng)爭(zhēng)和創(chuàng)新。只有在完全開放的生態(tài)下,業(yè)務(wù)不對(duì)特定的芯片產(chǎn)生依賴,芯片的價(jià)格也僅跟芯片的性能和價(jià)值相關(guān),客戶不需要為生態(tài)“溢價(jià)”付費(fèi)。這才是健康合理的行業(yè)生態(tài)。

3.2 依據(jù)指令復(fù)雜度的處理器劃分

世間萬物由基本粒子組成,復(fù)雜處理由基本計(jì)算組成。軟件和硬件通過一定的“接口”解耦,而指令(集)則是軟件和硬件的“接口”。指令的復(fù)雜度(計(jì)算粒度或密度)決定了系統(tǒng)的軟硬件解耦程度。

ISA(指令集架構(gòu))之下,CPU、GPU等各種處理器是硬件;ISA之上,各種程序、數(shù)據(jù)集、文件等是軟件。

有的指令非常簡(jiǎn)單,就是基本的加減乘除等標(biāo)量計(jì)算;有的指令是向量、矩向或多維張量計(jì)算;還有的指令非常復(fù)雜,不是純粹的向量、矩陣或多維張量計(jì)算,而是各種維度計(jì)算再組合的一個(gè)混合的宏指令,夸張的甚至一個(gè)算子甚至算法,就對(duì)應(yīng)到一條(單位計(jì)算)指令。

按照指令的復(fù)雜度,典型的處理器平臺(tái)大致分為CPU、協(xié)處理器、GPU、FPGA、DSA、ASIC。從左往右,單位計(jì)算越來越復(fù)雜,性能越來越好,而靈活性越來越低。

CPU、GPU、DSA等各種類型的處理器,本質(zhì)上是在不同層次的軟硬件解耦基礎(chǔ)上的軟硬件協(xié)同。

我們對(duì)各類處理器的情況進(jìn)行分析:

主流的計(jì)算處理器主要是CPU、GPU和DSA,其他類型處理器使用的范圍較小。

CPU。CPU具有極致的靈活可編程能力,幾乎可以通過編程的方式,實(shí)現(xiàn)任何功能。CPU,是最廣泛使用的處理器。

Co-Processor。這里指的是CPU擴(kuò)展的協(xié)處理器。工程形態(tài)上跟CPU是一個(gè)整體,可以認(rèn)為屬于CPU。

GPU。通用的并行加速處理器。是目前大模型時(shí)代,異構(gòu)加速的主流處理器。

NP。相對(duì)于GPU,網(wǎng)絡(luò)處理器因?yàn)槠涫褂梅秶^窄,并且沒有像CUDA這樣的易于編程的開發(fā)框架,并且也沒有非常強(qiáng)的業(yè)務(wù)需求驅(qū)動(dòng),因此目前大規(guī)模使用的NP產(chǎn)品非常少見。

FPGA。在系統(tǒng)規(guī)模較小的時(shí)候,F(xiàn)PGA開發(fā)門檻相對(duì)低一些,在一些用量較少,但有一定性能要求的場(chǎng)景,F(xiàn)PGA是非常合適的。其在CPU和ASIC之間,找到了自己的定位:比CPU性能要好,比ASIC芯片一次性成本要低。不過,量變引起了質(zhì)變,隨著系統(tǒng)規(guī)模越來越大,F(xiàn)PGA的開發(fā)也越來越困難,基于FPGA開發(fā)的軟硬件耦合性越來越高,相互掣肘,從而大幅度約束了FPGA的業(yè)務(wù)范圍。隨著系統(tǒng)規(guī)模的進(jìn)一步擴(kuò)大,F(xiàn)PGA的未來前景一般。

ASIC。專用集成電路,通常是將業(yè)務(wù)邏輯和算法/算子完全固化的一種芯片。功能確定,無法編程,僅能進(jìn)行簡(jiǎn)單的配置和控制。也跟FPGA類似,隨著系統(tǒng)規(guī)模的增大,量變引起了質(zhì)變,未來幾乎不會(huì)存在完全ASIC形態(tài)的芯片。

DSA。DSA是ASIC向通用可編程能力的一個(gè)回調(diào),谷歌TPU是全球第一款DSA,目前主流的AI加速芯片幾乎都可以歸屬到DSA范疇。NVIDIA Tensor core也可以理解為一種DSA,但因?yàn)槠涔こ虒?shí)現(xiàn)上是納入到GPU內(nèi)部(CUDA core+Tensor Core),所以把其歸屬到GPU范疇。

GP-DSA。對(duì)目前的大模型來說,GPU太貴,DSA不夠靈活。那我們是否可以在這兩者之間找到一個(gè)平衡點(diǎn)?也就是更加通用的DSA。需要注意的是,雖然從指令復(fù)雜度角度,它和FPGA放在一個(gè)位置,但兩者有本質(zhì)的差別。

量子芯片和類腦芯片,以及其他類似的創(chuàng)新架構(gòu)。通常都擁有相比ASIC更大的指令復(fù)雜度,可以歸屬為超級(jí)ASIC的范疇。這類芯片,在處理特定算法或數(shù)學(xué)難題時(shí)有一定的優(yōu)勢(shì);但即使解決了相關(guān)的技術(shù)問題,這類芯片大規(guī)模商業(yè)落地仍有非常長(zhǎng)的路要走。

存算一體。存算一體,是一種具體的芯片實(shí)現(xiàn)技術(shù),和依據(jù)指令復(fù)雜度劃分的各類處理器是不同層次的技術(shù)概念,兩者之間沒有必然的對(duì)應(yīng)關(guān)系。存算一體芯片也可以是CPU、GPU或者DSA等類型的處理器。但從目前的主流實(shí)現(xiàn)上來說,存算一體芯片通常都是面向特定領(lǐng)域(主要是AI)的DSA架構(gòu)。

3.3 依據(jù)靈活性特征的系統(tǒng)分層

復(fù)雜的系統(tǒng),都是分層分塊的。我們可以把系統(tǒng)中的這些塊,也即工作任務(wù),按照其靈活性特征進(jìn)行分類。靈活性意味著變化,可以從兩個(gè)方面理解(橫向和縱向的差異):

橫向。同一個(gè)工作任務(wù),不同的客戶,其業(yè)務(wù)邏輯會(huì)有差異性嗎?

縱向。這個(gè)工作任務(wù),未來會(huì)經(jīng)常迭代更新業(yè)務(wù)邏輯嗎?還是已經(jīng)非常成熟,幾乎不會(huì)變更?

依據(jù)任務(wù)的靈活性特征,我們可以把系統(tǒng)分為三層(類):

基礎(chǔ)設(shè)施層。任務(wù)非常確定,適合DSA甚至ASIC級(jí)別的處理器進(jìn)行加速處理。

業(yè)務(wù)加速層。業(yè)務(wù)變化適中,適合GPU平臺(tái)進(jìn)行加速處理。

業(yè)務(wù)應(yīng)用層。一些控制類任務(wù),以及場(chǎng)景規(guī)模較少,也包括性能不敏感的計(jì)算任務(wù),都可以放在業(yè)務(wù)應(yīng)用層,由CPU進(jìn)行處理。CPU同時(shí)承擔(dān)兜底的角色,DSA和GPU都無法處理的任務(wù),都由CPU處理。

3.4 從同構(gòu)到異構(gòu),再到異構(gòu)融合

在同構(gòu)計(jì)算、異構(gòu)計(jì)算的基礎(chǔ)上,我們可以定義一個(gè)新的階段,異構(gòu)融合計(jì)算階段:

第一階段,CPU同構(gòu)計(jì)算。所有的計(jì)算任務(wù)都在CPU里運(yùn)行。

第二階段,CPU+GPU異構(gòu)計(jì)算。受“二八定律”影響,通常情況下,有80%左右的計(jì)算任務(wù)適合于加速計(jì)算,而另外20%的計(jì)算任務(wù)仍只能進(jìn)行通用(非加速)計(jì)算。

第三階段,CPU x GPU x DSAs異構(gòu)融合計(jì)算。系統(tǒng)越來越龐大,“二八定律”分層更加明顯,80%左右的計(jì)算任務(wù)由更加高效(相比GPU)的專用加速DSA處理器完成。DSA處理器有很多個(gè),專門處理不同領(lǐng)域的任務(wù)加速。而20%*80%也就是16%的計(jì)算任務(wù)由GPU加速完成。最后,CPU兜底,完成剩余4%的計(jì)算任務(wù)。

異構(gòu)計(jì)算階段,重心在于GPU。但異構(gòu)融合階段,重心則在“融合”。因此,在異構(gòu)融合階段,采用了“乘號(hào)”,而不是“加號(hào)”。

(關(guān)注軟硬件融合公眾號(hào),后臺(tái)回復(fù)“白皮書”,下載工信部電子5所發(fā)布的《異構(gòu)融合計(jì)算技術(shù)白皮書》。)

3.5 新一代通用計(jì)算的王者,在哪里?

1971年,Intel發(fā)明了CPU。第一代通用計(jì)算的巨大成功,成就了Intel的王者地位。

1999年,NVIDIA發(fā)明了GPU。隨著深度學(xué)習(xí)和大模型的流行,異構(gòu)計(jì)算成為主流?;贕PU的第二代通用計(jì)算,成就了NVIDIA的成功。

從1971年到1999年,時(shí)間為28年。從1999年,經(jīng)過28年,則到2027年。

那么,2027年,是否會(huì)出現(xiàn)第三代通用計(jì)算處理器?

第三代通用計(jì)算,剛剛開始萌芽。希望國內(nèi)有廠家能夠脫穎而出,抓住“換道超車”的重大歷史機(jī)遇,成就偉大事業(yè)。

(正文完)

英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號(hào):軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時(shí)兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。