一代女皇武则天三电视剧,边吃奶边摸下面很爽h

一周之內(nèi)，英偉達(dá)和微軟相繼上新自家的AI芯片。

其中，英偉達(dá)新發(fā)布的H200芯片，堪稱“地表最強(qiáng)”AI芯片，性能相較前一代的H100提升約60%到90%。

時(shí)間再往前推移，在9月的2023英特爾On技術(shù)創(chuàng)新峰會(huì)上，英特爾首次公開了三代AI芯片路線圖，按照規(guī)劃，明年將推出采用5nm制程的Gaudi 3。

AMD的蘇媽則在6月重磅發(fā)布了最新AI芯片GPU MI300X，其更大的內(nèi)存和帶寬直接叫板英偉達(dá)的H100。

半導(dǎo)體行業(yè)冷風(fēng)直吹，AI賽道芯片巨頭卻打得火熱。隨著生成式人工智能成為最明確的前進(jìn)方向，AI芯片市場(chǎng)早已成為芯片巨頭的必爭(zhēng)之地。

01、開搶

11月13日晚，英偉達(dá)在全球超算大會(huì)（SC2023）上推出新一代GPU，也是H100的升級(jí)版——NVIDIA HGX H200。

這個(gè)時(shí)間點(diǎn)，AMD最新一代AI芯片GPU MI300X正量產(chǎn)。原本MI300有望成為AMD銷售額最快破10億美元的產(chǎn)品。如今，H200的突然發(fā)布有可能打亂這一節(jié)奏。英偉達(dá)稱H200將在2024年第二季度開始交付，這意味著留給AMD搶占市場(chǎng)的時(shí)間并不多。股市上也給出了直接的反應(yīng)：在H200發(fā)布會(huì)結(jié)束后，AMD收盤股價(jià)下跌1.52%。

在性能上，英偉達(dá)這次不卷頻率，而是卷起了內(nèi)存。過(guò)往GPU升級(jí)，英偉達(dá)都主要在架構(gòu)上下功夫，但此次H200依舊采用了Hopper架構(gòu)。在同架構(gòu)之下，H200的浮點(diǎn)運(yùn)算速率基本上和H100相同。升級(jí)點(diǎn)主要在內(nèi)存容量和帶寬上，H200擁有141GB的HBM3e內(nèi)存，相較H100提升了80%；內(nèi)存帶寬為4.8TB/s，提升了40%。

這升級(jí)幅度，可以說(shuō)英偉達(dá)是在“擠牙膏”，但同時(shí)又不得不佩服老黃的“精準(zhǔn)刀法”。要知道，AMD在6月對(duì)標(biāo)H100發(fā)布的最新一代AI芯片GPU MI300X，其最大亮點(diǎn)就是更大的內(nèi)存和內(nèi)存帶寬。而H200此次的升級(jí)剛好就是在內(nèi)存和內(nèi)存帶寬上做文章。

MI300X擁有192GB的HBM3內(nèi)存，是H100的2.4倍；內(nèi)存帶寬為5.2TB/s，是H100的1.6倍。更大的內(nèi)存容量，令MI300X在運(yùn)行生成式人工智能上獨(dú)具優(yōu)勢(shì)，相較H100，MI300X可以直接在內(nèi)存中運(yùn)行更大的模型。此外，更大的內(nèi)存帶寬，意味著MI300X能實(shí)現(xiàn)更快的數(shù)據(jù)傳輸。

誠(chéng)如蘇媽反復(fù)強(qiáng)調(diào)那般，這確實(shí)是一款具有重要戰(zhàn)略意義的芯片。因?yàn)檫@幾乎是全球范圍內(nèi)，第一款能夠直接對(duì)標(biāo)英偉達(dá)H100的產(chǎn)品。雖然MI300X尚不能取代H100在大模型訓(xùn)練芯片領(lǐng)域的霸主地位，但在H100產(chǎn)能緊張的情況下，搶收部分的算力市場(chǎng)，MI300X還是游刃有余的。

這個(gè)搶收的窗口期有多長(zhǎng)呢？原本至少有6個(gè)月。根據(jù)英偉達(dá)的規(guī)劃，下一代升級(jí)框架的GPU芯片B100最早將于明年Q2發(fā)布。而MI300X定于今年第三季度開始向客戶提供樣品，第四季度進(jìn)行批量生產(chǎn)。

如今，H200的突然發(fā)布有可能打亂MI300X的市場(chǎng)搶收節(jié)奏。畢竟，升級(jí)了內(nèi)存和帶寬之后的H200，在大模型推理表現(xiàn)上提升極其明顯。H200在700億參數(shù)的Llama2大模型上的推理速度比H100快了一倍，且能耗降低一半，是當(dāng)之無(wú)愧的“地表最強(qiáng)”AI芯片，截胡了AMD的MI300X。

這廂英偉達(dá)和AMD正打得火熱，那廂老牌芯片巨頭英特爾，也不想將如此龐大的市場(chǎng)“拱手于人”。根據(jù)Precedence Research數(shù)據(jù)，2022年全球AI芯片市場(chǎng)規(guī)模為168.6億美元，2032年有望增長(zhǎng)至2274.8億美元，年均復(fù)合增速約29.72%。

9月，在美國(guó)圣何塞舉辦的英特爾On技術(shù)創(chuàng)新大會(huì)上，英特爾首次亮出三代AI芯片路線圖。其CEO基辛格宣布采用5nm制程的AI 芯片Gaudi 3將于明年推出，其算力將會(huì)是前一代Gaudi 2的兩倍，網(wǎng)絡(luò)帶寬、HBM容量則會(huì)是Gaudi 2的1.5倍。

“我們正在獲得動(dòng)力，市場(chǎng)開始意識(shí)到，AI 芯片行業(yè)領(lǐng)導(dǎo)者中還有另一個(gè)機(jī)會(huì)?！被粮癖硎?。言語(yǔ)間無(wú)不彰顯英特爾在AI芯片領(lǐng)域的雄心。

02、無(wú)法割舍的中國(guó)市場(chǎng)

作為“史上最強(qiáng)”AI芯片，H200很大程度與中國(guó)客戶無(wú)緣。11月14日，英偉達(dá)在郵件中向鈦媒體App確認(rèn)：如果沒(méi)有獲得出口許可證，H200將無(wú)法在中國(guó)市場(chǎng)銷售。同樣據(jù)鈦媒體App報(bào)道，英偉達(dá)將推出三款針對(duì)中國(guó)市場(chǎng)的AI芯片，以應(yīng)對(duì)美國(guó)最新的芯片出口管制。

根據(jù)10月17日美國(guó)最新的芯片出口管制條款，只要芯片總算力大于或等于4800TOPS，或者芯片總算力低于4800 TOPS但性能密度達(dá)到一定閾值，都將受到管制。此前英偉達(dá)針對(duì)中國(guó)市場(chǎng)推出的A800和H800皆落在管制范圍之內(nèi)。

不過(guò)，盡管新一輪芯片限制措施出現(xiàn)，英偉達(dá)并沒(méi)有放棄中國(guó)AI芯片市場(chǎng)的打算。黃仁勛曾在多個(gè)不同場(chǎng)合強(qiáng)調(diào)過(guò)中國(guó)市場(chǎng)的重要性。

據(jù)TrendForce發(fā)布的數(shù)據(jù)，2022年全球AI芯片市場(chǎng)規(guī)模為300億美元，其中，中國(guó)市場(chǎng)規(guī)模超過(guò)100億美元，是全球最大的AI芯片市場(chǎng)之一。

單從體量上來(lái)看，中國(guó)超過(guò)百億美元的巨大市場(chǎng)是芯片巨頭們不愿錯(cuò)過(guò)的。更深一層的原因則是，芯片巨頭們擔(dān)心此刻一旦錯(cuò)過(guò)了中國(guó)市場(chǎng)，可能就永遠(yuǎn)錯(cuò)過(guò)了中國(guó)市場(chǎng)。“如果（中國(guó)）不能從美國(guó)購(gòu)買，他們就會(huì)自己制造。美國(guó)必須小心，中國(guó)是非常重要的技術(shù)產(chǎn)業(yè)市場(chǎng)?！秉S仁勛曾指出。

規(guī)格文件中顯示，英偉達(dá)即將向中國(guó)客戶推出三款新產(chǎn)品HGX H20、L20 PCle、L2 PCle。其中HGX H20就是“縮水版”的H100。再一次，老黃施展了他的“精準(zhǔn)刀法”。

參數(shù)上，H20依舊擁有96GB的HBM3內(nèi)存，但是計(jì)算密度被大幅削弱以符合出口新規(guī)。據(jù)悉，H20整體算力比英偉達(dá)H100 GPU芯片下降80%左右【1】。

不過(guò)，H20配置了4.0TB/s的內(nèi)存帶寬，比H100還高，卡間、服務(wù)器間帶寬NVlink速度與H100持平，為900GB/s。老黃的算盤打得精巧，這意味著中國(guó)客戶可以通過(guò)多買幾張H20，堆疊起來(lái)以彌補(bǔ)單卡算力不足的問(wèn)題。據(jù)粗略計(jì)算，2.5張H20約等效于一張A100【2】。

如果H20售價(jià)合理，算力堆疊再加上堅(jiān)不可摧的CUDA生態(tài)，對(duì)于國(guó)內(nèi)云廠商們來(lái)說(shuō)，H20依舊會(huì)是誘人的選擇項(xiàng)。對(duì)此，已有國(guó)內(nèi)第三方云計(jì)算服務(wù)商表示，會(huì)考慮采購(gòu)英偉達(dá)改良版AI芯片，待廠商提供芯片后，根據(jù)適配效果來(lái)考量。

據(jù)悉，英偉達(dá)針對(duì)中國(guó)市場(chǎng)推出的這三款新品最快將于11月16日公布，產(chǎn)品送樣時(shí)間在今年11月至12月，量產(chǎn)時(shí)間為今年12月至明年1月。

針對(duì)中國(guó)市場(chǎng)推出特供版的產(chǎn)品，早已成為芯片巨頭們?cè)诘鼐壵魏蜕虡I(yè)利益之間取得平衡的重要舉措。

今年7月11日，英特爾就針對(duì)中國(guó)市場(chǎng)推出了定制版的AI訓(xùn)練處理器Gaudi2，可以在合規(guī)的同時(shí)，為中國(guó)用戶提供加速AI訓(xùn)練及推理的新選擇。

今年8月，AMD在財(cái)報(bào)會(huì)議中透露，正考慮效仿英偉達(dá)的做法，調(diào)整其相關(guān)AI芯片的參數(shù)規(guī)格，以在“合規(guī)”的情況下向中國(guó)市場(chǎng)出貨?！拔覀兿嘈牛覀冇袡C(jī)會(huì)為正在尋找人工智能解決方案的中國(guó)客戶開發(fā)產(chǎn)品，我們將繼續(xù)朝著這個(gè)方向努力?！碧K媽表示。

目前來(lái)看，10月17日發(fā)布的新出口管制規(guī)定，可能會(huì)打亂英特爾和AMD原先的計(jì)劃。但是，可以肯定的是，英特爾和AMD絕不甘心缺席中國(guó)的AI芯片市場(chǎng)。

03、寫在最后

再一次，英偉達(dá)刷新了“地表最強(qiáng)”AI芯片的參數(shù)。過(guò)去十年，英偉達(dá)將單個(gè)GPU的AI推理性能提高了1000倍，這一規(guī)律也被稱為“黃氏定律”。未來(lái)，為了匹配大語(yǔ)言模型的飛速發(fā)展，英偉達(dá)必定會(huì)致力于“黃氏定律”的延續(xù)。對(duì)于中國(guó)的AI芯片企業(yè)來(lái)說(shuō)，如果不奮力追趕，與最先進(jìn)技術(shù)的差距將可能被進(jìn)一步拉大。

美國(guó)芯片新規(guī)出臺(tái)后，不少業(yè)內(nèi)人士將此看做倒逼國(guó)內(nèi)AI芯片企業(yè)發(fā)展的契機(jī)。但同時(shí)需要正視的是，在中國(guó)市場(chǎng)，國(guó)內(nèi)企業(yè)依舊會(huì)面臨海外巨頭激烈的正面競(jìng)爭(zhēng)。以英偉達(dá)的H20為例，即便性能大幅縮水，不過(guò)由于易用性，還是會(huì)成為眾多國(guó)內(nèi)云服務(wù)商的重要選擇甚至首選。因此，接下來(lái)國(guó)內(nèi)AI芯片企業(yè)，仍將面臨一場(chǎng)市場(chǎng)惡戰(zhàn)。

對(duì)國(guó)內(nèi)云服務(wù)器廠商而言，短期來(lái)看，特供版產(chǎn)品可以解一時(shí)之渴；長(zhǎng)期來(lái)看，特供版產(chǎn)品令產(chǎn)業(yè)發(fā)展始終受制于人。

發(fā)展自主可控的AI芯片產(chǎn)業(yè)鏈才能在未來(lái)掌握主動(dòng)權(quán)。除了提供政策和資金支持之外，促進(jìn)AI產(chǎn)業(yè)上下游建立培養(yǎng)國(guó)產(chǎn)AI芯的共識(shí)，也相當(dāng)重要。

參考資料：

【1】英偉達(dá)阻擊國(guó)產(chǎn)AI芯片，“中國(guó)特供版”已成“縮水版”，

【2】最強(qiáng)AI芯片H200？黃仁勛又在擠牙膏了

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F103RBT6	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下載ECAD模型	$10.15	查看
CP2102N-A02-GQFN28R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-28	ECAD模型下載ECAD模型	$2.5	查看
PIC32MX575F512L-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下載ECAD模型	$8.67	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

STM32F103RBT6

STMicroelectronics

Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN