蝴蝶效应2沙发全过程,顶得你的水流得到处都是的作文

ChatGPT帶火了智算中心的概念，然而從國際的角度來講，并沒有專門定義什么是智算中心（AI DC），但在中國被定義為一個(gè)新的品類。

那么到底什么是智算中心呢？在數(shù)據(jù)中心中，為了能夠完成大模型的訓(xùn)練和推理，引入了GPU服務(wù)器部署，這樣的數(shù)據(jù)中心我們就稱之為智算中心。所以說到底，智算中心是數(shù)據(jù)中心中的一類。

智算中心有三大要素，即：算力、網(wǎng)絡(luò)和數(shù)據(jù)，這三者相互關(guān)聯(lián)，不可分割。我們以網(wǎng)絡(luò)為例，由于引入了GPU的并行運(yùn)算，算力水平大大提升，就好像馬路上并行行駛的汽車增加了，那么車道數(shù)也要增加一樣，因此網(wǎng)絡(luò)帶寬的能力需要急速提升。

智算中心提速，網(wǎng)絡(luò)水平跟上了嗎？

為什么這里講“急劇提升”，給大家講講實(shí)際情況。前幾年，當(dāng)我們提到400G、800G覺得好像很遙遠(yuǎn)，因?yàn)榇蠹页Ｓ玫倪€是10G、25G、50G網(wǎng)絡(luò)。但是，GPU并行計(jì)算一下子把網(wǎng)絡(luò)推到了400G以上。

圖 | 2027-2028年前后，數(shù)據(jù)中心中GPU服務(wù)器的數(shù)量將超過CPU服務(wù)器的數(shù)量，來源：康普，與非網(wǎng)攝制

與此同時(shí)，近年來，在數(shù)據(jù)中心中，GPU服務(wù)器的占比越來越高。根據(jù)Dell’Oro Group的數(shù)據(jù)顯示，預(yù)計(jì)在3-5年后，即2027-2028年前后，GPU服務(wù)器的數(shù)量將超過CPU服務(wù)器的數(shù)量。

如果一臺智算設(shè)備內(nèi)部有8個(gè)GPU卡，它內(nèi)部通訊要達(dá)到900G，那么外部通信用的InfiniBand網(wǎng)絡(luò)或以太網(wǎng)也需要跟上步伐，提升到400G，甚至800G。換言之，隨著智算的快速推進(jìn)，400G以上網(wǎng)絡(luò)的占比將占主導(dǎo)地位，包括400G、800G和1.6T。

此外，我們看到，GPU算力正在以每年翻兩倍的速度增長，10年就是1000倍，那就預(yù)示著，網(wǎng)絡(luò)也需要10年提升1000倍，所以網(wǎng)路的發(fā)展已經(jīng)滯后于算力。

中國為何選擇“原生非無損網(wǎng)絡(luò)”的以太網(wǎng)？

前面提到，CPU、GPU之間的內(nèi)部通信采用的是PCIe、NVLink接口標(biāo)準(zhǔn)，而外部傳輸是用的InfiniBand和以太網(wǎng)接口標(biāo)準(zhǔn)，在智算中心中我們常稱它們?yōu)?strong>“IB”和“ROCE”。那么，這兩種標(biāo)準(zhǔn)間有什么區(qū)別呢？哪種標(biāo)準(zhǔn)更適合中國智算中心市場？

IB技術(shù)來自于Mellanox，是一種專為高性能計(jì)算(HPC)和數(shù)據(jù)中心環(huán)境設(shè)計(jì)的高速通信協(xié)議，以其低延遲和高吞吐量而聞名，后來Mellanox被英偉達(dá)收購了，IB技術(shù)幾乎成為了英偉達(dá)生態(tài)專屬。

相比無損網(wǎng)絡(luò)IB，ROCE屬于后起之秀，它實(shí)際上是一種借助以太網(wǎng)來支持遠(yuǎn)程直接內(nèi)存訪問（RDMA）的機(jī)制。由于從誕生的機(jī)理來講，以太網(wǎng)就不是一個(gè)專用網(wǎng)絡(luò)，而是一個(gè)盡力而為的網(wǎng)絡(luò)，所以很多人會質(zhì)疑ROCE能否追上IB。

圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健，來源：康普

對此，康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健表示：“IB在整個(gè)智算里面的效率、穩(wěn)定性要比以太網(wǎng)好，同時(shí)以太網(wǎng)很難做到無損也不假，但現(xiàn)在的以太網(wǎng)從協(xié)議層面、硬件層面，以及一些技術(shù)點(diǎn)上做了很多優(yōu)化，幾乎可以做到無損。我認(rèn)為ROCE的速率發(fā)展跟IB的速率發(fā)展差不多，都會快速地進(jìn)入到800G、1.6T時(shí)代。”

此外，吳健認(rèn)為：“當(dāng)前IB跟ROCE是共存的狀態(tài)，這是因?yàn)橛ミ_(dá)主導(dǎo)了整個(gè)AI，而英偉達(dá)提倡用IB，但是在中國，以太網(wǎng)取代IB是勢在必行?！?/p>

“在中國，沒有一個(gè)純粹的AI數(shù)據(jù)中心，GPU集群往往是數(shù)據(jù)中心中的一部分，或者屬于Cloud中的一部分，如果要跟Cloud去做融合，那就一定會用到以太網(wǎng)，因?yàn)?strong>在融合方面以太網(wǎng)肯定比IB要好。”吳健解釋道。

網(wǎng)絡(luò)帶寬大幅提升，倒逼光互聯(lián)方案發(fā)展

智算中心中的網(wǎng)絡(luò)帶寬急需提升，為了提高端口密度并減少端口所需的空間?，同時(shí)降低系統(tǒng)功耗，可以容納多根光纖的MPO（Multi-fiber Push On）光纖連接器被大量使用，比如MPO16、MPO8；同時(shí)CPO（Co-Package）共封裝光學(xué)連接方案將在800G和1.6T時(shí)代占據(jù)主流。

目前來看，可能IB的情況基本是以MPO8為主，ROCE以太以MPO16為主，它采用的收發(fā)器是有區(qū)別的，但是收發(fā)器出來之后光纖連接對于布線設(shè)計(jì)來講是一樣的。

關(guān)于光互聯(lián)方案，當(dāng)前，數(shù)據(jù)中心光互聯(lián)的方案主要有三種：

圖 | 三種光互聯(lián)方案的對比，來源：康普，與非網(wǎng)攝制

第一種是傳統(tǒng)的光模塊連接方案，其中可插拔的光模塊就是光引擎，光纖插在光模塊上，通過SerDes通道將信號傳送至網(wǎng)絡(luò)交換芯片。這種方案中采用了DSP芯片對高速信號進(jìn)行信號處理，來降低誤碼率，所以在鏈路性能、靈活性、可維護(hù)性和不同廠商間的互操作性方面表現(xiàn)良好，但DSP的功耗較大，以400G光模塊為例，當(dāng)前市場上采用7nm工藝的DSP芯片功耗通常要跑到4W，占整個(gè)光模塊功耗的50%左右，而光模塊的功耗大約占交換機(jī)整機(jī)功耗的40%以上，所以在低功耗方面表現(xiàn)不佳。此外，由于交換芯片和光引擎是分開布局的，所以在信號延遲表現(xiàn)方面也一般。

第二種是LPO線性驅(qū)動可插拔光模塊連接方案，顧名思義，該方案采用了線性直驅(qū)技術(shù)，去除了傳統(tǒng)光模塊的DSP/CDR芯片，將系統(tǒng)功耗和延時(shí)做了優(yōu)化，同時(shí)成本也相應(yīng)降低，但也正因?yàn)樽隽撕喕幚恚栽谙到y(tǒng)誤碼率和傳輸距離方面有所犧牲。不過該方案依舊保留了傳統(tǒng)光模塊方案的可熱插拔的特性，所以在后期維護(hù)方面存在優(yōu)勢，不至于單個(gè)元件損壞，要拆機(jī)才能維修。

第三種是CPO共封裝光學(xué)連接方案，在這種方案中，最大的改動就是將交換芯片和光引擎進(jìn)行了合封，不再采用可插拔光模塊的形式，帶來的好處是電信號在光引擎和交換芯片之間的鏈路縮短了，傳輸速率會更快，功耗更低，效率更高，且在尺寸方面也會縮小不少。有行業(yè)數(shù)據(jù)顯示，采用CPO的方案，相比于光模塊的方案，功耗可以降低50%，且能滿足高速、高密度互聯(lián)的傳輸場景，比如未來的智算中心。

吳健認(rèn)為：“CPO方案將在800G和1.6T時(shí)代開始量產(chǎn)出貨。LPO作為這種方案還會存在一段時(shí)間，至于何時(shí)CPO將在智算中心中全面取代LPO，取決于光模塊廠商的‘掙扎’。不過，當(dāng)光互聯(lián)的方式演進(jìn)到CPO（Co-Package，共封裝模式）時(shí)，沒有了AOC（Active Optic Cable），就會出現(xiàn)標(biāo)準(zhǔn)布線系統(tǒng)，光纖直接和設(shè)備相連，更利好布線設(shè)計(jì)和部署?！?/p>

智算中心部署仍面臨多重挑戰(zhàn)，如何破局？

“雖然布線只是智算中心成本支出中的很小部分，但是其重要性不可忽視，我們不能讓布線成為智算中心這個(gè)大工程中的最大短板?！?康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐如是說。

圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐

這道出了布線的重要性，實(shí)際也是如此。舉個(gè)例子，同樣是400G、800G、1.6T也會有很多選擇，如下圖所示。

圖 | 網(wǎng)絡(luò)帶寬部署選擇方案，來源：康普，與非網(wǎng)攝制

更何況，智算中心還面臨AOC等有源跳線施工難、機(jī)房環(huán)境潔凈度差、線纜拉力問題、光纖線槽與物理保護(hù)問題、接頭性能與光線品質(zhì)問題、線纜外皮等級問題等挑戰(zhàn)。

關(guān)于AOC等有源跳線施工難挑戰(zhàn)，吳健透露：“當(dāng)前，不論是在傳統(tǒng)的光模塊連接方案還是在LPO線性驅(qū)動可插拔光模塊連接方案部署中，AOC的使用都遇到了很多麻煩，這種形態(tài)的產(chǎn)品在施工的時(shí)候特別容易斷，所以現(xiàn)在基本不會用它，而是采用標(biāo)準(zhǔn)模塊、標(biāo)準(zhǔn)布線的方式?！边@也從側(cè)面印證了AOC將退出時(shí)代舞臺，同時(shí)在智算中心應(yīng)用中，CPO方案下的標(biāo)準(zhǔn)布線將成為未來主流。

所以，在智算中心建設(shè)過程中，選擇一家綜合實(shí)力強(qiáng)，產(chǎn)品有保障的網(wǎng)絡(luò)架構(gòu)與布線設(shè)計(jì)公司來輔助部署，就會事半功倍。

值得一提的是，康普在智算中心布線領(lǐng)域，有著較強(qiáng)的前瞻性，在兩年前就推出了模塊化和超低損耗的端到端高速光纖平臺Propel?，來滿足服務(wù)器不同鏈路中不同網(wǎng)絡(luò)帶寬和連接方案的布線所需。

關(guān)于品質(zhì)保障這一塊，陳嵐強(qiáng)調(diào)：“康普的光纖產(chǎn)品有25年質(zhì)保期，并且針對25年質(zhì)保期內(nèi)的應(yīng)用和性能提供了一份白皮書，由于在設(shè)計(jì)時(shí)就留了性能余量，因此經(jīng)得起時(shí)間考驗(yàn)，客戶一旦測試出不達(dá)白皮書中所述的標(biāo)準(zhǔn)，康普會免費(fèi)更換升級?！?/p>

寫在最后

高盛的報(bào)告預(yù)測，智算中心的硬件發(fā)展峰值時(shí)間將出現(xiàn)在2032-2033年間，峰值過后就是后期的軟件、算法、數(shù)據(jù)這方面的事情，這意味著未來的8年里，智算中心硬件將保持快速增長。

而對于中國市場來講，這幾年對智算中心的投入很多源于“熱錢”，還缺乏長期的規(guī)劃和部署，所以中國的智算中心/數(shù)據(jù)中心的生命周期大約在4年左右，遠(yuǎn)低于國外發(fā)達(dá)國家產(chǎn)業(yè)化布局下的15-20年，這將給整個(gè)AI產(chǎn)業(yè)發(fā)展帶來困擾。而其中影響智算中心/數(shù)據(jù)中心生命周期的點(diǎn)，涵蓋機(jī)柜電源、布線、網(wǎng)絡(luò)等。

此外，當(dāng)前大家把更多的關(guān)注放在GPU等核心芯片上，事實(shí)上真正國產(chǎn)化低的是高速網(wǎng)卡，目前基本都是外購英偉達(dá)等企業(yè)的，所以這也是接下來AI產(chǎn)業(yè)要克服的重點(diǎn)。