加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • “東數(shù)西算”引導(dǎo)下,IT市場大有可為
    • “加速器”成為新一代CPU重要趨勢
    • “算力神器”詳解和應(yīng)用案例
    • 寫在最后
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

新算力時代,CPU如何“加速”演進

2023/03/31
4503
閱讀需 15 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

今年1月,英特爾正式發(fā)布了第四代英特爾至強可擴展處理器(代號Sapphire Rapids)。日前,英特爾市場營銷集團副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國區(qū)運營商銷售總經(jīng)理莊秉翰、及英特爾多位技術(shù)專家,從本地實踐應(yīng)用案例入手,詳細解讀了第四代至強可擴展處理器的技術(shù)特性及價值。

“東數(shù)西算”引導(dǎo)下,IT市場大有可為

聚焦數(shù)據(jù)中心和基礎(chǔ)設(shè)施建設(shè)方向,我國去年推出了“東數(shù)西算”重要戰(zhàn)略,強調(diào)算力的平衡、以及可持續(xù)性的發(fā)展。莊秉翰談到,“東數(shù)西算”對數(shù)據(jù)中心進行合理分布,再通過高速網(wǎng)絡(luò),可以把東西部的數(shù)據(jù)資源和數(shù)據(jù)中心很合理地結(jié)合在一起,從而達到數(shù)據(jù)中心和IT產(chǎn)業(yè)的持續(xù)增長。他認(rèn)為“東數(shù)西算”作為國家級的整體戰(zhàn)略,在政府指導(dǎo)下,在運營商、互聯(lián)網(wǎng)廠商等共同協(xié)作下將發(fā)揮有力作用。

莊秉翰認(rèn)為,今年下半年市場有望出現(xiàn)正向的回暖跡象,我國在IT方面的支出也會比去年有所增加,“東數(shù)西算”戰(zhàn)略將大有可為。

“加速器”成為新一代CPU重要趨勢

第四代至強可擴展處理器是一個高度創(chuàng)新的平臺,采用Intel 7制程工藝制造,擁有全新的芯片架構(gòu)。通過集成高性能核、更多內(nèi)核數(shù)量、業(yè)內(nèi)高需求的數(shù)據(jù)中心工作負(fù)載的相關(guān)加速器,以及業(yè)界領(lǐng)先的DDR5、CXL1.1、PCIe 5.0等,致力于讓加速無所不在。

“加速器”是第四代至強可擴展處理器最突出的創(chuàng)新點。目前,在數(shù)據(jù)中心常用的工作負(fù)載中,大數(shù)據(jù)、數(shù)據(jù)庫、網(wǎng)絡(luò)、人工智能等帶來了全新功能。通過融入加速器,可以更高效、更低能耗地處理這些工作負(fù)載。莊秉翰指出,以前如果要處理一個工作負(fù)載,可能需要多個核,而在第四代至強可擴展處理器平臺上,通過加速器,有可能只用一個核或部分核就可以處理很復(fù)雜的業(yè)務(wù)。

英特爾技術(shù)專家也表示,CPU的發(fā)展一度是核心數(shù)量越變越多、主頻越變越高。但是隨著數(shù)據(jù)中心應(yīng)用需求的演變,有時候需要做一些壓縮/解壓縮、加/解密,或者會有內(nèi)存搬移的工作。對于這些工作負(fù)載來說,增加CPU核心并不一定是高效的,反而是專有的加速器更高效。與此同時,通過增加加速器,可以提升每瓦性能,提升能效比。

至于內(nèi)置和外置加速器有什么區(qū)別,對英特爾來說有什么難度和挑戰(zhàn)?英特爾技術(shù)專家表示,如果是外置的加速器,可以通過類似PCIe卡的形態(tài)實現(xiàn)。而內(nèi)置加速器雖然挑戰(zhàn)更大,但是可以帶來如下好處:首先是可以節(jié)約功耗,因為PCIe卡的功耗還是很高的。第二,加速器內(nèi)置在CPU里面,離內(nèi)存更近,可以實現(xiàn)大幅的性能提升。

不過,增加加速器的同時,一方面增加了CPU設(shè)計的難度,會對設(shè)計、驗證的時間有一些影響;另一方面,由于每一個硬件加速器都要和廣大的產(chǎn)業(yè)伙伴或終端用戶進行適配,需要英特爾充分發(fā)揮在業(yè)內(nèi)的影響力,在整個生態(tài)系統(tǒng)去構(gòu)建對加速器的支持,才能保證加速器在上市的同時就有大量的軟件去進行支撐。據(jù)介紹,英特爾為了解決加速器帶來的開發(fā)和應(yīng)用挑戰(zhàn),也在強調(diào)使用Chiplet的設(shè)計理念,I/O die也將會和Core die做分解,來幫助業(yè)界應(yīng)對挑戰(zhàn)。

此外,莊秉翰強調(diào),隨著算力市場的需求越來越多,傳統(tǒng)的虛機依然存在很大需求。因此未來CPU的目標(biāo),除了對傳統(tǒng)的虛機性能進一步提升之外,也會基于對多核需求的場景,更有針對性地進行開發(fā)。

“算力神器”詳解和應(yīng)用案例

第四代至強可擴展處理器具備眾多內(nèi)置加速器,包括AMX、IAA、DLB、DSA、QAT等“七大算力神器”,可提高AI、數(shù)據(jù)分析、網(wǎng)絡(luò)、存儲和科學(xué)計算等眾多的性能。值得一提的是,英特爾在MWC 2023期間,發(fā)布集成vRAN Boost的第四代至強可擴展處理器,它可以將物理層加速功能完全集成到芯片中,而無需外置加速卡,從而使得運營商能夠在通用虛擬化平臺上整合所有基站層,帶來很大的性價比提升。

AMX將進一步提升 AI 性能

據(jù)英特爾技術(shù)專家介紹,第四代至強可擴展處理器內(nèi)置了全新的英特爾高級矩陣擴展(AMX)。它是首次在CPU平臺上應(yīng)用的矩陣運算單元,支持兩種數(shù)據(jù)精度:8bit整型數(shù)據(jù)(INT8)和16bit浮點數(shù)據(jù)(即BF16)。人工智能通常有兩種運算場景,一種是訓(xùn)練,即根據(jù)數(shù)據(jù)不斷迭代出一個模型;另一種場景是推理,就是基于已有模型,針對場景做出一個判斷。訓(xùn)練時模型的數(shù)據(jù)精度要得到保證,通常需要BF16以上的數(shù)據(jù)精度進行運算;而對于推理來說,由于運算量相對較小,通常INT8就可以滿足要求。

以阿里的應(yīng)用為例,英特爾技術(shù)專家分享了雙方是如何展開合作,特別是基于第四代至強可擴展處理器的AMX單元實現(xiàn)了整體的性能提升。

首先是地址標(biāo)準(zhǔn)化,一個典型應(yīng)用就是淘寶用戶在增加新的收貨地址時,淘寶系統(tǒng)會不斷給出提示,最終幫助用戶定位到某一地址。這個業(yè)務(wù)涉及到語義分析,在淘寶中的應(yīng)用相當(dāng)廣泛,每天有著千萬級的服務(wù)量。而評價該業(yè)務(wù)的關(guān)鍵性能指標(biāo)是單位時間內(nèi)查詢數(shù),希望每秒能夠提供查詢的數(shù)量越多越好。

以這個需求為導(dǎo)向,英特爾與阿里展開合作,基于AMX INT8數(shù)據(jù)類型的精度,同時輔以軟件優(yōu)化手段(例如軟件運算時的層級融合技術(shù),以及英特爾開發(fā)的高性能運算優(yōu)化庫),最終實現(xiàn)了比第三代Ice Lake整機2.48倍的性能提升。

第二個優(yōu)化案例是手機淘寶APP為客戶推薦的定制化首頁。這個業(yè)務(wù)的服務(wù)量更為龐大,每天服務(wù)請求數(shù)高達億次。基于AMX BF16數(shù)據(jù)類型的精度,同時結(jié)合軟件優(yōu)化、操作融合,以及在AVX-512的深入調(diào)優(yōu),最終性能達到了原來的3倍。

第三個優(yōu)化案例是由太極機器學(xué)習(xí)平臺支撐的搜索和廣告業(yè)務(wù),其對性能指標(biāo)有兩方面要求:首先是能夠滿足的搜索次數(shù)越多越好;其次是搜索的延時要小于5毫秒。與前面兩個部署在物理機上的應(yīng)用實例不同,該業(yè)務(wù)部署在騰訊云上。由于客戶的云服務(wù)實例有高精度和低精度兩種,高精度實例就可以采用BF16進行數(shù)據(jù)處理,低精度實例就可以選擇INT8數(shù)據(jù)處理。經(jīng)過優(yōu)化,最終不僅降低了對云服務(wù)實例CPU數(shù)量的需求,同時性能上也得到了提升(高精實例性能是原來的3倍,低精實例性能是原來的2倍)。

結(jié)合現(xiàn)在非?;鸬?a class="article-link" target="_blank" href="/tag/AIGC/">AIGC應(yīng)用,英特爾技術(shù)專家表示,Stable Diffusion正在驅(qū)動業(yè)務(wù)創(chuàng)新和模型創(chuàng)新,它作為一種深度學(xué)習(xí)模型,有兩個典型的應(yīng)用場景:一是輸入文本生成高清圖片,二是輸入圖片和提示詞生成另外一個圖片。這一類生成式模型,不論Stable Diffusion還是熱度更高的大語言模型,從技術(shù)角度來說,其中大量使用了注意力機制,特別是在Stable Diffusion中,注意力機制的占比較高,通??梢赃_到50%-80%。

而這個注意力機制其實主要包括了矩陣相乘運算和大量的指數(shù)運算。在這類應(yīng)用中,AMX BF16可以加速矩陣計算,AVX-512指令可以加速指數(shù)計算。在使用英特爾PyTorch擴展插件的情況下,可以在512×512這類圖生成上,獲得3.82倍的吞吐提升;在720P上,可以獲得5.26倍的吞吐提升。

目前人工智能OCR/文本識別領(lǐng)域(例如醫(yī)療領(lǐng)域票據(jù)的識別、用于交通領(lǐng)域車牌和路標(biāo)的識別、以及卷宗電子化等應(yīng)用),都可以引入AMX進行軟硬件方面的優(yōu)化,實現(xiàn)數(shù)倍的性能提升。

針對大數(shù)據(jù)和內(nèi)存應(yīng)用的IAA和DSA

IAA(In-Memory Analytics Accelerator),顧名思義是針對大數(shù)據(jù)、內(nèi)存分析類型等數(shù)據(jù)場景,例如數(shù)據(jù)的解壓、查詢、過濾等,都可以交由加速器完成,從而釋放CPU的計算資源,發(fā)揮整體計算的最大性能,提升能效比。

國內(nèi)互聯(lián)網(wǎng)廠商、云廠商等應(yīng)用較多的Clickhouse,在針對大數(shù)據(jù)分析的應(yīng)用實例中,一度有一個痛點,就是對數(shù)據(jù)進行壓縮/解壓縮的同時,勢必會帶來性能損失,因為這個過程會占用CPU資源,基于此,就可以用IAA的壓縮/解壓縮功能去進行加速。

通過在Clickhouse中加入支持IAA -Deflate的插件,從而實現(xiàn)了IAA功能。目前這部分功能已經(jīng)在社區(qū)開源,便于業(yè)界應(yīng)用Clickhouse的最新功能。

DSA全稱是Data Streaming Accelerator,這個加速器旨在加速針對內(nèi)存的搬移和傳輸?shù)裙ぷ?,從而可以將CPU核心資源釋放出來,去做更多業(yè)務(wù)上的場景。目前英特爾有自己的軟件庫DML,同時業(yè)界廣泛應(yīng)用的DPDK、SPDK等軟件,都已經(jīng)集成了DSA。

英特爾技術(shù)專家還分享了數(shù)據(jù)中心業(yè)務(wù)中大范圍應(yīng)用的數(shù)據(jù)服務(wù)類應(yīng)用,包括內(nèi)存數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、大數(shù)據(jù)分析、數(shù)據(jù)倉庫等,以及基于數(shù)據(jù)服務(wù)類應(yīng)用之上的企業(yè)關(guān)鍵業(yè)務(wù)系統(tǒng),比如ERP、SCM和CRM系統(tǒng)等,它們的性能都非常依賴于底層硬件平臺的支撐。

在大數(shù)據(jù)分析的應(yīng)用中,因為對性能有比較高的要求,因此越來越傾向于把數(shù)據(jù)都緩存在內(nèi)存中,這實際對內(nèi)存的帶寬帶來非常高的要求。比如大數(shù)據(jù)分析中常見的SPARK應(yīng)用,在CPU核性能提升的情況下,內(nèi)存帶寬往往是瓶頸。

因此,第四代至強可擴展處理器將內(nèi)存從DDR4升級到DDR5,得到了50%的內(nèi)存帶寬的提升。此外,從PCIe 4.0提升到PCIe 5.0,帶來了兩倍的I/O帶寬提升;而除了CPU核數(shù)提升之外,CPU單核性能也進行了優(yōu)化,提高了CPU各級緩存的大小。

通過這些CPU內(nèi)核的升級,根據(jù)多種應(yīng)用的平均值,總體實現(xiàn)了15%的單核性能提升。除此之外,利用DSA加速器,在處理大的數(shù)據(jù)報文的時候,可以達到1.6倍的性能提升、以及37%的延時降低。在應(yīng)用QAT加速時,對于數(shù)據(jù)壓縮場景,可以達到2倍的壓縮吞吐提升,同時帶來95%核占用率的降低。

國內(nèi)的并行數(shù)據(jù)庫廠商Gbase,其旗艦產(chǎn)品Gbase 8a在業(yè)內(nèi)的分析型數(shù)據(jù)庫評測TPC-DS中,排名世界第三。Gbase 8a專門針對第四代至強可擴展處理器的IAA加速器進行了優(yōu)化,相比第三代Ice Lake,基于兩種不同的加速算法:一是南大通用自研的壓縮算法RapidZ,也是Gbase 8a默認(rèn)的壓縮算法,在沒有任何加速器優(yōu)化的情況下,可以獲得1.58倍的性能提升;對另一種業(yè)內(nèi)常用的壓縮算法ZSTD,在沒有進行加速器優(yōu)化的情況下,可獲得1.64倍的性能提升。

在此基礎(chǔ)上如果使用IAA加速器,對于ZSTD可獲得1.84倍的性能提升,并且可以達到與ZSTD相似的壓縮率;而相對于Gbase 8a默認(rèn)的壓縮算法RapidZ來說,性能提升則是1.66倍。同時,RapidZ為了追求高性能,在壓縮率上做了一些犧牲,而基于第四代至強可擴展處理器,可以在保持較高性能提升的基礎(chǔ)上,壓縮率提高1.51倍。

此外,還有Microsoft SQL Server,通過第四代至強可擴展處理器的QAT加速器用于數(shù)據(jù)的壓縮、解壓縮、加解密等,可以使備份時間降低至小于原來1/3的時間,同時該服務(wù)器基于第四代至強可擴展處理器,還可獲得1.34倍的性能提升。

寫在最后

盡管英特爾至強系列面向的是通用市場,但是,針對千行百業(yè)、越來越細分的計算場景,英特爾通過內(nèi)置豐富的加速器來提供更有針對性、更為差異化的加速功能,來應(yīng)對不同的應(yīng)用負(fù)載需求。

此外在軟件方面,英特爾也在加大開源領(lǐng)域的投入,通過優(yōu)化通用軟件,讓上層應(yīng)用更為容易,為更多計算工作賦能。

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATMEGA64-16AU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$19.46 查看
STM32H743VIT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
$20.56 查看
ATXMEGA32A4U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, LQFP-44

ECAD模型

下載ECAD模型
$13.97 查看
英特爾

英特爾

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~