恐怖游泳馆,聚会的秘密

在MLCommons近日發(fā)布的AI性能行業(yè)基準(zhǔn)測試結(jié)果中，代號為Sapphire Rapids的第四代英特爾?至強(qiáng)?可擴(kuò)展處理器和專用于深度學(xué)習(xí)AI訓(xùn)練的Habana? Gaudi?2加速器展現(xiàn)了卓越的訓(xùn)練表現(xiàn)。

英特爾執(zhí)行副總裁兼數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra Rivera表示：“自去年6月提交了領(lǐng)先的MLPerf行業(yè)測試結(jié)果以來，我們團(tuán)隊不斷取得新的進(jìn)步，這讓我感到非常自豪。第四代英特爾至強(qiáng)可擴(kuò)展處理器和Gaudi2 AI加速器支持廣泛的AI功能，為有深度學(xué)習(xí)訓(xùn)練和大規(guī)模工作負(fù)載處理需求的客戶提供業(yè)界領(lǐng)先的性能?！?/p>

在眾多數(shù)據(jù)中心應(yīng)用場景中，基于至強(qiáng)處理器的服務(wù)器平臺可用于運(yùn)行一系列機(jī)器學(xué)習(xí)（ML）和數(shù)據(jù)分析的復(fù)雜管道，而深度學(xué)習(xí)（DL）正是其中的一部分。同時，這些服務(wù)器平臺亦可用于運(yùn)行其他應(yīng)用程序，并能夠適應(yīng)隨時間變化的多種工作負(fù)載。在這些使用場景中，至強(qiáng)可擴(kuò)展處理器能夠極大程度地降低總體擁有成本（TCO），提高全年利用率。

第四代英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置全新AI加速器——英特爾?高級矩陣擴(kuò)展（AMX），旨在幫助用戶通過擴(kuò)展通用至強(qiáng)服務(wù)器平臺，覆蓋包括訓(xùn)練和微調(diào)在內(nèi)的更多深度學(xué)習(xí)使用場景。AMX是一個專用的矩陣乘法引擎，內(nèi)置于第四代至強(qiáng)可擴(kuò)展處理器的每個核心。該AI引擎已經(jīng)過優(yōu)化，基于行業(yè)標(biāo)準(zhǔn)框架，可提供相較于上一代深度學(xué)習(xí)訓(xùn)練模型高達(dá)6倍的性能。

而在服務(wù)器或服務(wù)器集群主要用于深度學(xué)習(xí)訓(xùn)練和推理計算的場景中，Habana Gaudi2則是理想的加速器，針對這些專用場景，它旨在提供優(yōu)異的深度學(xué)習(xí)性能并降低總體擁有成本。

關(guān)于至強(qiáng)處理器的測試結(jié)果：英特爾首先提交了涵蓋一系列不同工作負(fù)載的第四代英特爾至強(qiáng)可擴(kuò)展處理器產(chǎn)品線的MLPerf v2.1行業(yè)測試結(jié)果。作為唯一提交該測試結(jié)果的處理器，Sapphire Rapids再次被證實其優(yōu)異的AI性能，使客戶能夠隨時隨地使用共享基礎(chǔ)設(shè)施進(jìn)行AI訓(xùn)練。內(nèi)置英特爾AMX的第四代至強(qiáng)可擴(kuò)展處理器在多個行業(yè)標(biāo)準(zhǔn)框架中為用戶提供即時可用的性能，并集成了端到端的數(shù)據(jù)科學(xué)工具，以及來自生態(tài)伙伴廣泛的智能解決方案，開發(fā)者僅需使用TensorFlow和PyTorch框架的最新版本，即可充分釋放其性能?，F(xiàn)階段，英特爾至強(qiáng)可擴(kuò)展處理器已經(jīng)可以運(yùn)行并處理全部AI工作負(fù)載。

測試結(jié)果顯示，第四代英特爾至強(qiáng)可擴(kuò)展處理器正通過擴(kuò)大通用CPU在AI訓(xùn)練方面的覆蓋范圍，讓客戶能夠充分利用已經(jīng)部署在商業(yè)應(yīng)用中的至強(qiáng)處理器完成更多工作，尤其是用于中小型模型的訓(xùn)練或微調(diào)，即遷移學(xué)習(xí)。DLRM的結(jié)果便很好地論證了Sapphire Rapids能夠在不到30分鐘（26.73）的時間內(nèi)僅用四個服務(wù)器節(jié)點即可完成模型訓(xùn)練。即使是面對大中型模型，第四代至強(qiáng)處理器亦可分別在50分鐘（47.26）和90分鐘（89.01）內(nèi)成功訓(xùn)練BERT和ResNet-50模型。開發(fā)者可在一杯咖啡的時間內(nèi)便完成小型深度學(xué)習(xí)模型的訓(xùn)練，在一頓午餐的時間內(nèi)訓(xùn)練中型模型，并同時利用這些連接到數(shù)據(jù)存儲系統(tǒng)的相同服務(wù)器，在下午進(jìn)行諸如經(jīng)典機(jī)器學(xué)習(xí)的其他分析。這也意味著企業(yè)能夠?qū)⒅T如Gaudi2的深度學(xué)習(xí)處理器預(yù)留給更大、對性能要求更高的模型。

關(guān)于Habana Gaudi2的測試結(jié)果：Habana今年五月發(fā)布了用于深度學(xué)習(xí)訓(xùn)練的第二代Gaudi處理器——Gaudi2，在MLPerf v2.0訓(xùn)練10天后匯總的成績中表現(xiàn)出了領(lǐng)先的測試結(jié)果。Gaudi2采用7納米制程工藝制造，擁有24個Tensor處理器核心、片內(nèi)封裝容量達(dá)96GB HBM2e和24個100GB RoCE以太網(wǎng)端口。與英偉達(dá)的A100相比，Gaudi2在這項基準(zhǔn)測試中再次展現(xiàn)了領(lǐng)先的8卡服務(wù)器性能。

Gaudi2在TensorFlow中訓(xùn)練BERT和ResNet-50的時間縮短了10%。而Gaudi2的PyTorch結(jié)果則顯示，與5月的Gaudi1結(jié)果相比，其BERT和ResNet-50的訓(xùn)練時間分別縮短了4%和6%。這兩組結(jié)果均在封閉和可用類別中提交。

這些優(yōu)異表現(xiàn)突顯了Gaudi2專用深度學(xué)習(xí)架構(gòu)的獨(dú)特性、Gaudi2軟件的日益成熟以及Habana? SynapseAI?軟件堆棧的擴(kuò)展優(yōu)勢。值得注意的是，該軟件堆棧針對深度學(xué)習(xí)模型開發(fā)和部署進(jìn)行了優(yōu)化。

與5月的測試結(jié)果一致，Gaudi2在BERT和ResNet-50模型訓(xùn)練方面始終優(yōu)于英偉達(dá)A100，進(jìn)一步證明了該測試結(jié)果的有效性。英偉達(dá)H100的ResNet-50訓(xùn)練速度僅比Gaudi2高11%，而盡管H100在BERT方面比Gaudi2快59%，但英偉達(dá)報告的BERT訓(xùn)練時間為FP8數(shù)據(jù)類型，Gaudi2的訓(xùn)練時間則為經(jīng)過驗證的標(biāo)準(zhǔn)BF16數(shù)據(jù)類型（在Gaudi2的軟件計劃中啟用了FP8）。因此，與A100和H100相比，Gaudi2的性價比更高。

未來，英特爾和Habana團(tuán)隊非常期待再次提交的英特爾AI產(chǎn)品組合解決方案的MLPerf測試結(jié)果。