加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01.數(shù)據(jù)中心下一站:云原生超級計算
    • 02.給高性能業(yè)務(wù)上云開路!解讀云原生超級計算的靈魂
    • 03.開業(yè)界先例實現(xiàn)公有云上的業(yè)務(wù)性能隔離
    • 04.結(jié)語:釋放云的力量奔赴新型數(shù)據(jù)中心未來
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

三年節(jié)省上億人民幣!DPU如何改造大型數(shù)據(jù)中心?

2022/12/12
542
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者?|? 心緣
編輯?|??漠影

將HPC的超高算力搬到云上,什么技術(shù)路子這么強?

沒有云計算廠商,會輕易放過大降成本的機會。云是未來,這在全球各大科技巨頭的最新財報中已經(jīng)得到明確的驗證。最新財季,AWS凈銷售額同比增長27%,微軟智能云收入同比增長20%,谷歌云收入同比增長37%,阿里云營收同比增長4%,百度智能云營收同比增長24%……承載著“讓算力資源大眾化”使命的云計算,形成了撐起科技巨頭未來的新型支柱業(yè)務(wù)。

而要持續(xù)拉高算力峰值、提高客戶上云服務(wù)體驗,推進(jìn)架構(gòu)層的變革已是箭在弦上。技術(shù)迭代的洪流滾滾向前,被冠以數(shù)據(jù)中心“第三顆主力芯片”的DPU,正成為傳統(tǒng)云計算架構(gòu)向云原生超級計算升級的“底牌”。

01.數(shù)據(jù)中心下一站:云原生超級計算

云是未來,已是無可爭議。但如何通過云服務(wù)向暴漲的用戶同時提供更大規(guī)模的算力支持,是擺在每個云大廠面前的核心議題。

▲當(dāng)前云和數(shù)據(jù)中心面臨平衡性能與能耗的挑戰(zhàn)(圖源:NVIDIA

云服務(wù)的優(yōu)勢是隨用隨取、按需分配算力,高性能計算則擁有強大算力。一種“優(yōu)勢互補”的思路開始走向落地:如果將兩者的技術(shù)路線結(jié)合,是不是就能在云上提供媲美超級計算機的性能?乍一想可行,但落到實處,需解決很多的技術(shù)挑戰(zhàn)。

在傳統(tǒng)云原生的算力基礎(chǔ)設(shè)施中,CPU是事無巨細(xì)的芯片“大總管”,既要處理計算任務(wù),又要監(jiān)管通信和存儲,忙著這頭,就顧不上那頭,中間造成大量的排隊等待時間和算力資源浪費。

這就好比餐廳,規(guī)模小、顧客少時,一位大廚還能忙得過來。此時這位大廚包攬了后廚的所有工作,除了忙著炒菜外,還操心采買、倉儲、切配、端菜等等。然而等顧客越來越多,如果還靠他一手包辦,那么炒菜效率就低了,每個顧客的等菜時間都長,體驗都不好。

為解決這些痛點而生的云原生超級計算架構(gòu),正在云計算數(shù)據(jù)中心流行開來。

云原生超級計算的核心思路是“分而治之”,相當(dāng)于給廚師配上幫廚、服務(wù)員等專業(yè)幫手,這樣一來,廚師能夠?qū)P陌巡顺吹糜挚煊趾谩?/p>

如今,越來越多的商業(yè)云開始提供高性能計算(HPC)云服務(wù),大型算力中心也產(chǎn)生更多的上云需求。主要承擔(dān)HPC和大型人工智能AI)訓(xùn)練任務(wù)的算力中心,本身算力資源池非常大,存在算力資源閑置問題。而引入云原生超級計算技術(shù),可以將算力資源切分供給多用戶多業(yè)務(wù),通過編排調(diào)度,讓每個業(yè)務(wù)都能享有堪比獨占所有資源時的高性能。無論是從提升性能、優(yōu)化設(shè)計,抑或是從節(jié)能減排的角度,云原生超級計算對于商業(yè)云和大型算力中心的架構(gòu)優(yōu)化思路都很有借鑒價值。

02.給高性能業(yè)務(wù)上云開路!解讀云原生超級計算的靈魂

云原生超級計算請的專業(yè)幫手,就是DPU。作為替CPU分?jǐn)偣ぷ鞯妮o助“大腦”,DPU接手了通信、存儲、安全等任務(wù),讓CPU能專心處理用戶業(yè)務(wù),這樣各種計算和通信任務(wù)就可以同步進(jìn)行,不再像以往那樣出現(xiàn)擁堵問題。

▲典型的DPU/DOCA卸載及加速通信流程示意圖(圖源:NVIDIA)

經(jīng)過兩年發(fā)展,這個被AI計算巨頭NVIDIA(英偉達(dá))帶火的芯片新秀,已經(jīng)開始廣泛落地于云計算和高性能計算的算力基礎(chǔ)設(shè)施建設(shè)大潮中。具體而言,NVIDIA BlueField DPU對數(shù)據(jù)中心的最大價值,就是實現(xiàn)性能和能效的顯著提升。

首先是性能,提升數(shù)據(jù)中心整體性能的一大關(guān)鍵阻力是網(wǎng)絡(luò)。原本計算能力有十成,多個任務(wù)同時處理后,CPU處理這個計算任務(wù)或者管理調(diào)配通信、存儲等資源時,另一個計算任務(wù)就只能浪費時間等待。

此外,如果兩個任務(wù)在通信過程中狹路相逢,造成網(wǎng)絡(luò)阻塞,那么就會造成延時。在金融銀行等對延時高度敏感的應(yīng)用場景中,這可能給客戶交易造成損失。

而在 NVIDIA BlueField DPU主管網(wǎng)絡(luò)、存儲等基礎(chǔ)架構(gòu)功能后,不僅CPU可以將更多計算資源用在云服務(wù)客戶的業(yè)務(wù)上,整體網(wǎng)絡(luò)阻塞問題得到明顯改善,而且BlueField DPU本身攜帶的計算資源也可以輔助加速計算。

▲典型的DPU/DOCA卸載及加速通信流程示意圖(圖源:NVIDIA)

再從能效來看,隨著數(shù)據(jù)中心規(guī)模越來越大,改善耗電量、降低基礎(chǔ)設(shè)施采購和降低電力成本,已經(jīng)是優(yōu)化現(xiàn)代數(shù)據(jù)中心和主要目標(biāo)。引入NVIDIA BlueField DPU,已是較大數(shù)據(jù)中心提升系統(tǒng)能效的有效途徑之一。在運行基礎(chǔ)設(shè)施任務(wù)時,內(nèi)置專用硬件引擎的NVIDIA BlueField DPU,效率要比CPU高得多。

此外,NVIDIA BlueField DPU上的CPU核心采用Arm架構(gòu),天然比多數(shù)x86服務(wù)器CPU更加節(jié)能,并且可以直接訪問網(wǎng)絡(luò)管線。換個角度來看,同樣的CPU數(shù)量,將計算資源更集中的供給云服務(wù)業(yè)務(wù)后,能夠提供更高性能。

反過來,實現(xiàn)相同的性能,其實要比以前消耗更少的CPU,這相當(dāng)于減少了硬件采購成本,進(jìn)而有助于大幅降低總體擁有成本(TCO)。根據(jù)《NVIDIA BlueField DPU能效白皮書》,通過用NVIDIA BlueField DPU卸載,在3年期間將1萬臺服務(wù)器的每臺服務(wù)器耗電量降低200W,可在中國地區(qū)節(jié)省的成本估算值接近400萬美元(近2800萬人民幣)

▲根據(jù)2020/2021年電價,在不同國家/地區(qū),通過使用DPU卸載在3年期間將1萬臺服務(wù)器的每臺服務(wù)器耗電量降低200瓦,可節(jié)省的成本估算值(圖源:NVIDIA DPU能效白皮書)

如果為擁有1萬臺服務(wù)器的大型數(shù)據(jù)中心計算,將IPsec加密/解密卸載到NVIDIA DPU,那么大型數(shù)據(jù)中心的3年TCO有望節(jié)省約2630萬美元(折合約1.8億人民幣)。

▲為擁有1萬臺服務(wù)器的大型數(shù)據(jù)中心計算將IPSec加密/解密卸載到BlueField DPU的TCO(圖源:NVIDIA DPU能效白皮書)

如此顯著的成本優(yōu)化,得益于英偉達(dá)極有遠(yuǎn)見的前瞻性布局:將硬件做到業(yè)界性能標(biāo)桿,用軟件培養(yǎng)開發(fā)者習(xí)慣,從而構(gòu)建一個普適的高性能生態(tài)環(huán)境。

03.開業(yè)界先例實現(xiàn)公有云上的業(yè)務(wù)性能隔離

與GPU如出一轍,提及DPU,英偉達(dá)絕對是被最先想起的公司,足見英偉達(dá)在業(yè)界的影響力。而軟硬“雙劍合璧”,加上在生態(tài)合作和口碑方面的優(yōu)勢滾雪球般越滾越大,長期是英偉達(dá)能夠站在潮頭、難以復(fù)制的殺手锏。硬件上,NVIDIA BlueField DPU在本地Host Memory和遠(yuǎn)端Host Memory之間建立了一條直接的通信通道,整個過程不需要CPU分神參與任何通信操作,并通過提供Pre-Active擁塞控制技術(shù)實現(xiàn)性能隔離。

▲DPU硬件與DOCA軟件協(xié)作(圖源:NVIDIA)

而硬件性能的充分發(fā)揮,離不開大量的軟件工作。針對BlueField DPU,英偉達(dá)打造了NVIDIA DOCA來提供各種加速庫及標(biāo)準(zhǔn)編程接口,為其客戶不斷降低相應(yīng)應(yīng)用的DPU開發(fā)門檻。再加上與英偉達(dá)其他先進(jìn)網(wǎng)絡(luò)技術(shù)的協(xié)同配合,數(shù)據(jù)中心的網(wǎng)絡(luò)頑疾得以有效優(yōu)化,能夠更充分地發(fā)揮硬件資源的性能。這些優(yōu)勢的疊加,推動云原生超級計算技術(shù)走向落地。最新典例便是在HPC云服務(wù)方面一馬當(dāng)先的云巨頭微軟智能云Azure,在英偉達(dá)BlueField DPU相關(guān)產(chǎn)品及技術(shù)的支持下,它在業(yè)界率先實現(xiàn)了公有云上的業(yè)務(wù)性能隔離。也就是說,讓業(yè)務(wù)在云上擁有像獨享資源時一樣的高性能水平,已經(jīng)從設(shè)想轉(zhuǎn)變?yōu)楝F(xiàn)實。

▲借助云原生超級計算技術(shù),Azure在業(yè)界率先實現(xiàn)公有云上的業(yè)務(wù)性能隔離(圖源:NVIDIA)

NVIDIA網(wǎng)絡(luò)亞太區(qū)高級總監(jiān)宋慶春告訴芯東西,如果現(xiàn)有公有云想將計算平臺升級向云原生超級計算,可以先從英偉達(dá)BlueField DPU或標(biāo)準(zhǔn)網(wǎng)卡著手,在體驗到相應(yīng)的技術(shù)優(yōu)勢后,在逐步演進(jìn)至更多網(wǎng)絡(luò)計算技術(shù)的替換,最終改造成基于云原生超級計算的最優(yōu)計算平臺。目前云原生超級計算主要應(yīng)用于面向高性能業(yè)務(wù)的上云,包括傳統(tǒng)高性能計算業(yè)務(wù)(如氣象預(yù)測、石油勘探、生命科學(xué)等應(yīng)用)、大規(guī)模AI訓(xùn)練任務(wù)、推薦任務(wù)等,并通過多項測試,驗證了NVIDIA BlueField DPU在提升數(shù)據(jù)中心性能和能效的真本事。例如,VMware和英偉達(dá)在服務(wù)器上測試Redis鍵值存儲的測試表明,在25Gb/s網(wǎng)絡(luò)上運行Redis工作負(fù)載的VMware vSphere分布式服務(wù)引擎時,將網(wǎng)絡(luò)功能卸載到NVIDIA BlueField DPU上,可釋放12個CPU核心,同時提高Redis的性能。相比不使用DPU,使用NVIDIA BlueField DPU卸載,可為近萬臺服務(wù)器3年節(jié)省約5650萬美元(近4億人民幣)的總體擁有成本。

▲將VMware ESX網(wǎng)絡(luò)功能卸載到DPU后的TCO計算結(jié)果,其中Redis工作負(fù)載最初運行在1萬臺服務(wù)器上,并支持每臺服務(wù)器每秒處理1400萬個Redis事務(wù)(圖源:NVIDIA DPU能效白皮書)

面向大型科研項目,通過DPU加速通信,分子動力學(xué)模型性能可提升20%,數(shù)據(jù)建模應(yīng)用實現(xiàn)26%的性能提升,天氣預(yù)告模型實現(xiàn)約24%的性能提升。即將走向市場的NVIDIA BlueField-3 DPU將支持400G帶寬,內(nèi)存平衡較上一代提升4倍。

▲DPU卸載和加速帶來的高性能計算性能優(yōu)勢(圖源:NVIDIA)

內(nèi)置NVIDIA BlueField DPU的NVIDIA Quantum InfiniBand網(wǎng)絡(luò)平臺,也已經(jīng)在超級計算領(lǐng)域功勛赫赫,并在全球超算榜單中展現(xiàn)出越來越高的存在感。以最新全球IO500高性能存儲網(wǎng)絡(luò)方案榜單為例,10節(jié)點測試中,前4名系統(tǒng)均采用NVIDIA Quantum InfiniBand網(wǎng)絡(luò)。

▲2022年11月全球IO500高性能存儲網(wǎng)絡(luò)方案榜單(圖源:NVIDIA)

04.結(jié)語:釋放云的力量奔赴新型數(shù)據(jù)中心未來

2020年秋季,當(dāng)“芯片圈知名帶貨王”NVIDIA首席執(zhí)行官黃仁勛在GTC大會上亮出DPU時,DPU對于不少云計算及超級計算從業(yè)者來說還是一個新鮮但不確定有多大價值的新概念。今天,再談起DPU,你也許會想起AWS Nitro,也許會想起阿里云CIPU,會想起英特爾IPU,抑或是這兩年突然涌起的DPU創(chuàng)業(yè)與投資熱潮。而引爆DPU概念的NVIDIA,已經(jīng)低調(diào)地將重心轉(zhuǎn)向部署,讓“第三顆主力芯片”真槍實彈地進(jìn)入一線數(shù)據(jù)中心客戶的真實業(yè)務(wù)戰(zhàn)場,作為云原生超級計算的靈魂,為數(shù)據(jù)中心展現(xiàn)新的架構(gòu)可能。

如今,DPU正呈“神仙打架”之勢,通過推動網(wǎng)絡(luò)和計算架構(gòu)的創(chuàng)新,它將幫助大型數(shù)據(jù)中心的建設(shè)者們穿越周期,奔赴一個高計算密度、智能集約、綠色低碳、安全可靠的數(shù)據(jù)中心未來。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜