加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 智算中心提速,網(wǎng)絡(luò)水平跟上了嗎?
    • 中國為何選擇“原生非無損網(wǎng)絡(luò)”的以太網(wǎng)?
    • 網(wǎng)絡(luò)帶寬大幅提升,倒逼光互聯(lián)方案發(fā)展
    • 智算中心部署仍面臨多重挑戰(zhàn),如何破局?
    • 寫在最后
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

智算中心提速,布線不可忽視

10/21 09:50
1661
閱讀需 12 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

ChatGPT帶火了智算中心的概念,然而從國際的角度來講,并沒有專門定義什么是智算中心(AI DC),但在中國被定義為一個(gè)新的品類。

那么到底什么是智算中心呢?在數(shù)據(jù)中心中,為了能夠完成大模型的訓(xùn)練和推理,引入了GPU服務(wù)器部署,這樣的數(shù)據(jù)中心我們就稱之為智算中心。所以說到底,智算中心是數(shù)據(jù)中心中的一類。

智算中心有三大要素,即:算力、網(wǎng)絡(luò)和數(shù)據(jù),這三者相互關(guān)聯(lián),不可分割。我們以網(wǎng)絡(luò)為例,由于引入了GPU的并行運(yùn)算,算力水平大大提升,就好像馬路上并行行駛的汽車增加了,那么車道數(shù)也要增加一樣,因此網(wǎng)絡(luò)帶寬的能力需要急速提升。

智算中心提速,網(wǎng)絡(luò)水平跟上了嗎?

為什么這里講“急劇提升”,給大家講講實(shí)際情況。前幾年,當(dāng)我們提到400G、800G覺得好像很遙遠(yuǎn),因?yàn)榇蠹页S玫倪€是10G、25G、50G網(wǎng)絡(luò)。但是,GPU并行計(jì)算一下子把網(wǎng)絡(luò)推到了400G以上。

圖 | 2027-2028年前后,數(shù)據(jù)中心中GPU服務(wù)器的數(shù)量將超過CPU服務(wù)器的數(shù)量,來源:康普,與非網(wǎng)攝制

與此同時(shí),近年來,在數(shù)據(jù)中心中,GPU服務(wù)器的占比越來越高。根據(jù)Dell’Oro Group的數(shù)據(jù)顯示,預(yù)計(jì)在3-5年后,即2027-2028年前后,GPU服務(wù)器的數(shù)量將超過CPU服務(wù)器的數(shù)量。

如果一臺智算設(shè)備內(nèi)部有8個(gè)GPU卡,它內(nèi)部通訊要達(dá)到900G,那么外部通信用的InfiniBand網(wǎng)絡(luò)或以太網(wǎng)也需要跟上步伐,提升到400G,甚至800G。換言之,隨著智算的快速推進(jìn),400G以上網(wǎng)絡(luò)的占比將占主導(dǎo)地位,包括400G、800G和1.6T。

此外,我們看到,GPU算力正在以每年翻兩倍的速度增長,10年就是1000倍,那就預(yù)示著,網(wǎng)絡(luò)也需要10年提升1000倍,所以網(wǎng)路的發(fā)展已經(jīng)滯后于算力。

中國為何選擇“原生非無損網(wǎng)絡(luò)”的以太網(wǎng)?

前面提到,CPU、GPU之間的內(nèi)部通信采用的是PCIe、NVLink接口標(biāo)準(zhǔn),而外部傳輸是用的InfiniBand和以太網(wǎng)接口標(biāo)準(zhǔn),在智算中心中我們常稱它們?yōu)?strong>“IB”和“ROCE。那么,這兩種標(biāo)準(zhǔn)間有什么區(qū)別呢?哪種標(biāo)準(zhǔn)更適合中國智算中心市場?

IB技術(shù)來自于Mellanox,是一種專為高性能計(jì)算(HPC)和數(shù)據(jù)中心環(huán)境設(shè)計(jì)的高速通信協(xié)議,以其低延遲和高吞吐量而聞名,后來Mellanox被英偉達(dá)收購了,IB技術(shù)幾乎成為了英偉達(dá)生態(tài)專屬。

相比無損網(wǎng)絡(luò)IB,ROCE屬于后起之秀,它實(shí)際上是一種借助以太網(wǎng)來支持遠(yuǎn)程直接內(nèi)存訪問(RDMA)的機(jī)制。由于從誕生的機(jī)理來講,以太網(wǎng)就不是一個(gè)專用網(wǎng)絡(luò),而是一個(gè)盡力而為的網(wǎng)絡(luò),所以很多人會質(zhì)疑ROCE能否追上IB。

圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健,來源:康普

對此,康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健表示:“IB在整個(gè)智算里面的效率、穩(wěn)定性要比以太網(wǎng)好,同時(shí)以太網(wǎng)很難做到無損也不假,但現(xiàn)在的以太網(wǎng)從協(xié)議層面、硬件層面,以及一些技術(shù)點(diǎn)上做了很多優(yōu)化,幾乎可以做到無損。我認(rèn)為ROCE的速率發(fā)展跟IB的速率發(fā)展差不多,都會快速地進(jìn)入到800G、1.6T時(shí)代。”

此外,吳健認(rèn)為:“當(dāng)前IB跟ROCE是共存的狀態(tài),這是因?yàn)橛ミ_(dá)主導(dǎo)了整個(gè)AI,而英偉達(dá)提倡用IB,但是在中國,以太網(wǎng)取代IB是勢在必行?!?/p>

“在中國,沒有一個(gè)純粹的AI數(shù)據(jù)中心,GPU集群往往是數(shù)據(jù)中心中的一部分,或者屬于Cloud中的一部分,如果要跟Cloud去做融合,那就一定會用到以太網(wǎng),因?yàn)?strong>在融合方面以太網(wǎng)肯定比IB要好。”吳健解釋道。

網(wǎng)絡(luò)帶寬大幅提升,倒逼光互聯(lián)方案發(fā)展

智算中心中的網(wǎng)絡(luò)帶寬急需提升,為了提高端口密度并減少端口所需的空間?,同時(shí)降低系統(tǒng)功耗,可以容納多根光纖的MPO(Multi-fiber Push On)光纖連接器被大量使用,比如MPO16、MPO8;同時(shí)CPO(Co-Package)共封裝光學(xué)連接方案將在800G和1.6T時(shí)代占據(jù)主流。

目前來看,可能IB的情況基本是以MPO8為主,ROCE以太以MPO16為主,它采用的收發(fā)器是有區(qū)別的,但是收發(fā)器出來之后光纖連接對于布線設(shè)計(jì)來講是一樣的。

關(guān)于光互聯(lián)方案,當(dāng)前,數(shù)據(jù)中心光互聯(lián)的方案主要有三種:

圖 | 三種光互聯(lián)方案的對比,來源:康普,與非網(wǎng)攝制

第一種是傳統(tǒng)的光模塊連接方案,其中可插拔的光模塊就是光引擎,光纖插在光模塊上,通過SerDes通道將信號傳送至網(wǎng)絡(luò)交換芯片。這種方案中采用了DSP芯片對高速信號進(jìn)行信號處理,來降低誤碼率,所以在鏈路性能、靈活性、可維護(hù)性和不同廠商間的互操作性方面表現(xiàn)良好,但DSP的功耗較大,以400G光模塊為例,當(dāng)前市場上采用7nm工藝的DSP芯片功耗通常要跑到4W,占整個(gè)光模塊功耗的50%左右,而光模塊的功耗大約占交換機(jī)整機(jī)功耗的40%以上,所以在低功耗方面表現(xiàn)不佳。此外,由于交換芯片和光引擎是分開布局的,所以在信號延遲表現(xiàn)方面也一般。

第二種是LPO線性驅(qū)動可插拔光模塊連接方案,顧名思義,該方案采用了線性直驅(qū)技術(shù),去除了傳統(tǒng)光模塊的DSP/CDR芯片,將系統(tǒng)功耗和延時(shí)做了優(yōu)化,同時(shí)成本也相應(yīng)降低,但也正因?yàn)樽隽撕喕幚恚栽谙到y(tǒng)誤碼率和傳輸距離方面有所犧牲。不過該方案依舊保留了傳統(tǒng)光模塊方案的可熱插拔的特性,所以在后期維護(hù)方面存在優(yōu)勢,不至于單個(gè)元件損壞,要拆機(jī)才能維修。

第三種是CPO共封裝光學(xué)連接方案,在這種方案中,最大的改動就是將交換芯片和光引擎進(jìn)行了合封,不再采用可插拔光模塊的形式,帶來的好處是電信號在光引擎和交換芯片之間的鏈路縮短了,傳輸速率會更快,功耗更低,效率更高,且在尺寸方面也會縮小不少。有行業(yè)數(shù)據(jù)顯示,采用CPO的方案,相比于光模塊的方案,功耗可以降低50%,且能滿足高速、高密度互聯(lián)的傳輸場景,比如未來的智算中心。

吳健認(rèn)為:“CPO方案將在800G和1.6T時(shí)代開始量產(chǎn)出貨。LPO作為這種方案還會存在一段時(shí)間,至于何時(shí)CPO將在智算中心中全面取代LPO,取決于光模塊廠商的‘掙扎’。不過,當(dāng)光互聯(lián)的方式演進(jìn)到CPO(Co-Package,共封裝模式)時(shí),沒有了AOC(Active Optic Cable),就會出現(xiàn)標(biāo)準(zhǔn)布線系統(tǒng),光纖直接和設(shè)備相連,更利好布線設(shè)計(jì)和部署?!?/p>

智算中心部署仍面臨多重挑戰(zhàn),如何破局?

“雖然布線只是智算中心成本支出中的很小部分,但是其重要性不可忽視,我們不能讓布線成為智算中心這個(gè)大工程中的最大短板?!?康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐如是說。

圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐

這道出了布線的重要性,實(shí)際也是如此。舉個(gè)例子,同樣是400G、800G、1.6T也會有很多選擇,如下圖所示。

圖 | 網(wǎng)絡(luò)帶寬部署選擇方案,來源:康普,與非網(wǎng)攝制

更何況,智算中心還面臨AOC等有源跳線施工難、機(jī)房環(huán)境潔凈度差、線纜拉力問題、光纖線槽與物理保護(hù)問題、接頭性能與光線品質(zhì)問題、線纜外皮等級問題等挑戰(zhàn)。

關(guān)于AOC等有源跳線施工難挑戰(zhàn),吳健透露:“當(dāng)前,不論是在傳統(tǒng)的光模塊連接方案還是在LPO線性驅(qū)動可插拔光模塊連接方案部署中,AOC的使用都遇到了很多麻煩,這種形態(tài)的產(chǎn)品在施工的時(shí)候特別容易斷,所以現(xiàn)在基本不會用它,而是采用標(biāo)準(zhǔn)模塊、標(biāo)準(zhǔn)布線的方式?!边@也從側(cè)面印證了AOC將退出時(shí)代舞臺,同時(shí)在智算中心應(yīng)用中,CPO方案下的標(biāo)準(zhǔn)布線將成為未來主流。

所以,在智算中心建設(shè)過程中,選擇一家綜合實(shí)力強(qiáng),產(chǎn)品有保障的網(wǎng)絡(luò)架構(gòu)與布線設(shè)計(jì)公司來輔助部署,就會事半功倍。

值得一提的是,康普在智算中心布線領(lǐng)域,有著較強(qiáng)的前瞻性,在兩年前就推出了模塊化和超低損耗的端到端高速光纖平臺Propel?,來滿足服務(wù)器不同鏈路中不同網(wǎng)絡(luò)帶寬和連接方案的布線所需。

關(guān)于品質(zhì)保障這一塊,陳嵐強(qiáng)調(diào):“康普的光纖產(chǎn)品有25年質(zhì)保期,并且針對25年質(zhì)保期內(nèi)的應(yīng)用和性能提供了一份白皮書,由于在設(shè)計(jì)時(shí)就留了性能余量,因此經(jīng)得起時(shí)間考驗(yàn),客戶一旦測試出不達(dá)白皮書中所述的標(biāo)準(zhǔn),康普會免費(fèi)更換升級?!?/p>

寫在最后

高盛的報(bào)告預(yù)測,智算中心的硬件發(fā)展峰值時(shí)間將出現(xiàn)在2032-2033年間,峰值過后就是后期的軟件、算法、數(shù)據(jù)這方面的事情,這意味著未來的8年里,智算中心硬件將保持快速增長。

而對于中國市場來講,這幾年對智算中心的投入很多源于“熱錢”,還缺乏長期的規(guī)劃和部署,所以中國的智算中心/數(shù)據(jù)中心的生命周期大約在4年左右,遠(yuǎn)低于國外發(fā)達(dá)國家產(chǎn)業(yè)化布局下的15-20年,這將給整個(gè)AI產(chǎn)業(yè)發(fā)展帶來困擾。而其中影響智算中心/數(shù)據(jù)中心生命周期的點(diǎn),涵蓋機(jī)柜電源、布線、網(wǎng)絡(luò)等。

此外,當(dāng)前大家把更多的關(guān)注放在GPU等核心芯片上,事實(shí)上真正國產(chǎn)化低的是高速網(wǎng)卡,目前基本都是外購英偉達(dá)等企業(yè)的,所以這也是接下來AI產(chǎn)業(yè)要克服的重點(diǎn)。

 

相關(guān)推薦

電子產(chǎn)業(yè)圖譜