加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 什么是智算中心?
    • 智算中心三要素及網(wǎng)絡(luò)互連技術(shù)
    • 智算中心組網(wǎng)
    • 寫在最后
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

智算中心需要怎樣的網(wǎng)絡(luò)架構(gòu)技術(shù)?

10/16 18:40
644
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

人工智能技術(shù)以及大語言模型(LLM)應(yīng)用的普及,對于算力的需求激增,也推動(dòng)了各國對于數(shù)據(jù)中心的建設(shè)。其中,作為數(shù)據(jù)中心的一種,智算中心由于其具有的強(qiáng)大數(shù)據(jù)處理能力和智能計(jì)算能力,正成為最受關(guān)注的數(shù)字基礎(chǔ)設(shè)施。

什么是智算中心?

那什么是智算中心呢?根據(jù)工信部印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,智算中心是指通過使用大規(guī)模異構(gòu)算力資源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開發(fā)、模型訓(xùn)練和模型推理等場景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。

康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健則認(rèn)為,從國際角度來講,智算中心(即所謂的AI DC)還沒有一個(gè)專門的定義。在中國市場則被定義為一個(gè)新的品類,它是數(shù)據(jù)中心的一類,即在數(shù)據(jù)中心中為了完成大模型的訓(xùn)練和推理,部署了GPU的服務(wù)器,這樣的數(shù)據(jù)中心就稱之為智算中心。而且,數(shù)據(jù)中心中GPU服務(wù)器的占比將越來越高,在2027-2028年前后,GPU服務(wù)器數(shù)量將超過CPU服務(wù)器的數(shù)量。

據(jù)悉,目前已經(jīng)建成或正在建的智算中心普遍擁有約100PFLOPS左右的智能計(jì)算能力,可為各類應(yīng)用場景提供強(qiáng)大的支持。據(jù)IDC的不完全統(tǒng)計(jì),到2024年5月下旬,我國共建設(shè)了283座智算中心,其中超過一半處于開工/在建狀態(tài),已投產(chǎn)/運(yùn)營的達(dá)到89座,占比31.45%。

智算中心三要素及網(wǎng)絡(luò)互連技術(shù)

算力、網(wǎng)絡(luò)和數(shù)據(jù)是完成智算的三個(gè)要素。其中,數(shù)據(jù)是智算需要處理的對象;算力是指處理計(jì)算的芯片(如CPU和GPU等)的能力。CPU和GPU它們處理數(shù)據(jù)的方式是不同的,CPU一次只能處理一個(gè)復(fù)雜的任務(wù),而GPU則采用并行計(jì)算,一次可以處理多個(gè)簡單的任務(wù)。如上所述,在智算中心中,GPU的數(shù)量大幅增長,而其采用的并行計(jì)算方式,也大幅提高了算力。算力提高了,也就需要配套的傳輸網(wǎng)絡(luò)與之相匹配。

吳健表示:“GPU算力每年翻兩倍,10年就要翻1000倍。那也就預(yù)示著,網(wǎng)絡(luò)也應(yīng)該10年翻1000倍才能與之相匹配。所以,目前的網(wǎng)路已經(jīng)滯后于算力。智算中心隨著GPU的應(yīng)用,它需要一個(gè)高可靠、高帶寬、低延時(shí)的無損網(wǎng)絡(luò)。”

所以,隨著智算的快速推進(jìn),400G以上網(wǎng)絡(luò)的占比將占主導(dǎo)地位,包括400G、800G和1.6T。

目前,智算中心采用的網(wǎng)絡(luò)互連技術(shù)主要為InfiniBand(IB)和以太網(wǎng)。吳健表示:“AI需要IB和以太網(wǎng)兩種網(wǎng)路設(shè)備來支撐。目前,這兩種技術(shù)的速率發(fā)展較為同步,都會(huì)快速進(jìn)入到800G、1.6T。但I(xiàn)B在整個(gè)智算中的效率、穩(wěn)定性要比以太網(wǎng)好一些。”

物理層而言,IB和以太網(wǎng)是一樣的,但I(xiàn)B和以太網(wǎng)使用的交換機(jī)則是不同的。很多人認(rèn)為,以太網(wǎng)可能無法跟上IB的演進(jìn)速度,因?yàn)镮B是一個(gè)無損網(wǎng)絡(luò),而以太網(wǎng)則不是一個(gè)專用網(wǎng)絡(luò),很難做到無損。吳健表示:“目前,從協(xié)議層和硬件層面進(jìn)行一些技術(shù)的優(yōu)化,以太網(wǎng)也可以做到無損了?!?/p>

所以,未來,吳健認(rèn)為,至少在中國市場,以太網(wǎng)取代IB是勢在必行的。

智算中心組網(wǎng)

智算中心的組網(wǎng)主要分為前端網(wǎng)絡(luò)和后端網(wǎng)絡(luò)。前端網(wǎng)絡(luò)是指智算中心和外部的互連,即將智算中心計(jì)算的結(jié)果通過前端網(wǎng)絡(luò)傳輸出去;而后端網(wǎng)絡(luò)則是指GPU之間的互連。

與傳統(tǒng)網(wǎng)絡(luò)相比,智算中心的前端網(wǎng)絡(luò)沒有多大變化,但后端網(wǎng)絡(luò)變得特別的龐大,涉及AI集群內(nèi)的互連以及AI集群間的互連。智算中心中的網(wǎng)絡(luò)需要高帶寬、低損耗、低延時(shí)以及高密度的連接,可以未來還將需要更小尺寸的連接器進(jìn)行連接,并解決回波損耗等問題。

這些網(wǎng)絡(luò)都是由線纜連接而成,未來,隨著網(wǎng)絡(luò)速率的提高,光線的數(shù)量將會(huì)提高。在整個(gè)AI集群中,除了光纖布線,還有線槽,以及銅纜連接等。

吳健表示:“康普在AI布線市場已經(jīng)布局多年,已取得了非常大的成功,包括一些萬卡集群以及一些高性能的布線系統(tǒng),康普都能提供對應(yīng)的解決方案?!?/p>

康普的布線解決方案不僅滿足客戶當(dāng)下的需求,也能幫助他們實(shí)現(xiàn)長期規(guī)劃。吳健表示:“目前國內(nèi)數(shù)據(jù)中心的設(shè)計(jì)相對來說還比較缺乏前瞻性,只進(jìn)行一兩年的規(guī)劃,而不考慮長遠(yuǎn)使用,這其實(shí)很浪費(fèi)材料,不環(huán)保。”

康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐表示:“現(xiàn)在很多數(shù)據(jù)中心的項(xiàng)目將布線做成了次拋型,這是很不環(huán)保的。網(wǎng)絡(luò)基礎(chǔ)架構(gòu)采用結(jié)構(gòu)化布線,雖然初次成本可能稍微高一點(diǎn),但后續(xù)升級、擴(kuò)展以及維護(hù)的成本很低,且使用的生命周期很長,從長遠(yuǎn)來看反而節(jié)省了成本?!?/p>

寫在最后

隨著人工智能以及大語言模型等技術(shù)的飛速發(fā)展,對于算力的需求大幅增長,而網(wǎng)絡(luò)作為支撐這些技術(shù)的傳輸“骨干”,也需要齊頭并進(jìn)。而在整個(gè)網(wǎng)絡(luò)基礎(chǔ)設(shè)備的構(gòu)建中,布線雖然是不太起眼的一部分,但它可以說是智算中心的“血管”,起著舉足輕重的作用。而隨著對更環(huán)?;?、更據(jù)經(jīng)濟(jì)效益的布線方式需求的增長,結(jié)構(gòu)化布線或許會(huì)是未來智算中心布線的主流方式。對于布線供應(yīng)商來說,著眼現(xiàn)在,布局未來,才能在這一波AI浪潮中立于潮頭。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜