加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

第四代英特爾至強(qiáng)可擴(kuò)展處理器和Habana Gaudi2在深度學(xué)習(xí)訓(xùn)練中展現(xiàn)領(lǐng)先的AI性能

2022/11/11
724
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

在MLCommons近日發(fā)布的AI性能行業(yè)基準(zhǔn)測試結(jié)果中,代號為Sapphire Rapids的第四代英特爾?至強(qiáng)?可擴(kuò)展處理器和專用于深度學(xué)習(xí)AI訓(xùn)練的Habana? Gaudi?2加速器展現(xiàn)了卓越的訓(xùn)練表現(xiàn)。

英特爾執(zhí)行副總裁兼數(shù)據(jù)中心人工智能事業(yè)部總經(jīng)理Sandra Rivera表示:“自去年6月提交了領(lǐng)先的MLPerf行業(yè)測試結(jié)果以來,我們團(tuán)隊不斷取得新的進(jìn)步,這讓我感到非常自豪。第四代英特爾至強(qiáng)可擴(kuò)展處理器和Gaudi2 AI加速器支持廣泛的AI功能,為有深度學(xué)習(xí)訓(xùn)練和大規(guī)模工作負(fù)載處理需求的客戶提供業(yè)界領(lǐng)先的性能?!?/p>

在眾多數(shù)據(jù)中心應(yīng)用場景中,基于至強(qiáng)處理器服務(wù)器平臺可用于運(yùn)行一系列機(jī)器學(xué)習(xí)(ML)和數(shù)據(jù)分析的復(fù)雜管道,而深度學(xué)習(xí)(DL)正是其中的一部分。同時,這些服務(wù)器平臺亦可用于運(yùn)行其他應(yīng)用程序,并能夠適應(yīng)隨時間變化的多種工作負(fù)載。在這些使用場景中,至強(qiáng)可擴(kuò)展處理器能夠極大程度地降低總體擁有成本(TCO),提高全年利用率。

第四代英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置全新AI加速器——英特爾?高級矩陣擴(kuò)展(AMX),旨在幫助用戶通過擴(kuò)展通用至強(qiáng)服務(wù)器平臺,覆蓋包括訓(xùn)練和微調(diào)在內(nèi)的更多深度學(xué)習(xí)使用場景。AMX是一個專用的矩陣乘法引擎,內(nèi)置于第四代至強(qiáng)可擴(kuò)展處理器的每個核心。該AI引擎已經(jīng)過優(yōu)化,基于行業(yè)標(biāo)準(zhǔn)框架,可提供相較于上一代深度學(xué)習(xí)訓(xùn)練模型高達(dá)6倍的性能。

而在服務(wù)器或服務(wù)器集群主要用于深度學(xué)習(xí)訓(xùn)練和推理計算的場景中,Habana Gaudi2則是理想的加速器,針對這些專用場景,它旨在提供優(yōu)異的深度學(xué)習(xí)性能并降低總體擁有成本。

關(guān)于至強(qiáng)處理器的測試結(jié)果:英特爾首先提交了涵蓋一系列不同工作負(fù)載的第四代英特爾至強(qiáng)可擴(kuò)展處理器產(chǎn)品線的MLPerf v2.1行業(yè)測試結(jié)果。作為唯一提交該測試結(jié)果的處理器,Sapphire Rapids再次被證實其優(yōu)異的AI性能,使客戶能夠隨時隨地使用共享基礎(chǔ)設(shè)施進(jìn)行AI訓(xùn)練。內(nèi)置英特爾AMX的第四代至強(qiáng)可擴(kuò)展處理器在多個行業(yè)標(biāo)準(zhǔn)框架中為用戶提供即時可用的性能,并集成了端到端的數(shù)據(jù)科學(xué)工具,以及來自生態(tài)伙伴廣泛的智能解決方案,開發(fā)者僅需使用TensorFlow和PyTorch框架的最新版本,即可充分釋放其性能?,F(xiàn)階段,英特爾至強(qiáng)可擴(kuò)展處理器已經(jīng)可以運(yùn)行并處理全部AI工作負(fù)載。

測試結(jié)果顯示,第四代英特爾至強(qiáng)可擴(kuò)展處理器正通過擴(kuò)大通用CPU在AI訓(xùn)練方面的覆蓋范圍,讓客戶能夠充分利用已經(jīng)部署在商業(yè)應(yīng)用中的至強(qiáng)處理器完成更多工作,尤其是用于中小型模型的訓(xùn)練或微調(diào),即遷移學(xué)習(xí)。DLRM的結(jié)果便很好地論證了Sapphire Rapids能夠在不到30分鐘(26.73)的時間內(nèi)僅用四個服務(wù)器節(jié)點即可完成模型訓(xùn)練。即使是面對大中型模型,第四代至強(qiáng)處理器亦可分別在50分鐘(47.26)和90分鐘(89.01)內(nèi)成功訓(xùn)練BERT和ResNet-50模型。開發(fā)者可在一杯咖啡的時間內(nèi)便完成小型深度學(xué)習(xí)模型的訓(xùn)練,在一頓午餐的時間內(nèi)訓(xùn)練中型模型,并同時利用這些連接到數(shù)據(jù)存儲系統(tǒng)的相同服務(wù)器,在下午進(jìn)行諸如經(jīng)典機(jī)器學(xué)習(xí)的其他分析。這也意味著企業(yè)能夠?qū)⒅T如Gaudi2的深度學(xué)習(xí)處理器預(yù)留給更大、對性能要求更高的模型。

關(guān)于Habana Gaudi2的測試結(jié)果:Habana今年五月發(fā)布了用于深度學(xué)習(xí)訓(xùn)練的第二代Gaudi處理器——Gaudi2,在MLPerf v2.0訓(xùn)練10天后匯總的成績中表現(xiàn)出了領(lǐng)先的測試結(jié)果。Gaudi2采用7納米制程工藝制造,擁有24個Tensor處理器核心、片內(nèi)封裝容量達(dá)96GB HBM2e和24個100GB RoCE以太網(wǎng)端口。與英偉達(dá)的A100相比,Gaudi2在這項基準(zhǔn)測試中再次展現(xiàn)了領(lǐng)先的8卡服務(wù)器性能。

Gaudi2在TensorFlow中訓(xùn)練BERT和ResNet-50的時間縮短了10%。而Gaudi2的PyTorch結(jié)果則顯示,與5月的Gaudi1結(jié)果相比,其BERT和ResNet-50的訓(xùn)練時間分別縮短了4%和6%。這兩組結(jié)果均在封閉和可用類別中提交。

這些優(yōu)異表現(xiàn)突顯了Gaudi2專用深度學(xué)習(xí)架構(gòu)的獨(dú)特性、Gaudi2軟件的日益成熟以及Habana? SynapseAI?軟件堆棧的擴(kuò)展優(yōu)勢。值得注意的是,該軟件堆棧針對深度學(xué)習(xí)模型開發(fā)和部署進(jìn)行了優(yōu)化。

與5月的測試結(jié)果一致,Gaudi2在BERT和ResNet-50模型訓(xùn)練方面始終優(yōu)于英偉達(dá)A100,進(jìn)一步證明了該測試結(jié)果的有效性。英偉達(dá)H100的ResNet-50訓(xùn)練速度僅比Gaudi2高11%,而盡管H100在BERT方面比Gaudi2快59%,但英偉達(dá)報告的BERT訓(xùn)練時間為FP8數(shù)據(jù)類型,Gaudi2的訓(xùn)練時間則為經(jīng)過驗證的標(biāo)準(zhǔn)BF16數(shù)據(jù)類型(在Gaudi2的軟件計劃中啟用了FP8)。因此,與A100和H100相比,Gaudi2的性價比更高。

未來,英特爾和Habana團(tuán)隊非常期待再次提交的英特爾AI產(chǎn)品組合解決方案的MLPerf測試結(jié)果。

英特爾

英特爾

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜