加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • █ 數(shù)據(jù)中心通信網(wǎng)絡(luò),到底出了什么問(wèn)題?
    • █ 華為的零丟包秘技
    • █ 智能無(wú)損技術(shù)的積累沉淀
    • █ 智能無(wú)損技術(shù)的落地實(shí)踐
    • █ 結(jié)語(yǔ)
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

為了實(shí)現(xiàn)零丟包,數(shù)據(jù)中心網(wǎng)絡(luò)到底有多拼?

2022/06/07
1017
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

數(shù)智時(shí)代的最大特點(diǎn),就是AI人工智能的廣泛應(yīng)用。

進(jìn)入21世紀(jì)以來(lái),移動(dòng)通信光通信、云計(jì)算大數(shù)據(jù)等ICT技術(shù)蓬勃發(fā)展,推動(dòng)了企業(yè)的數(shù)字化轉(zhuǎn)型。數(shù)據(jù),變成了企業(yè)最核心的資產(chǎn)。

企業(yè)將這些數(shù)據(jù)資產(chǎn)全部存儲(chǔ)并運(yùn)行在數(shù)據(jù)中心之上。隨著數(shù)字化的不斷深入,數(shù)據(jù)規(guī)模變得越來(lái)越龐大。

2025年新增的數(shù)據(jù)量將達(dá)到180ZB

(數(shù)據(jù)來(lái)源:華為GIV)

傳統(tǒng)的軟件算法,根本無(wú)法處理如此海量的數(shù)據(jù)(更何況,其中95%以上都是語(yǔ)音、視頻等非機(jī)構(gòu)化數(shù)據(jù))。于是,我們找來(lái)了能力更強(qiáng)的幫手,那就是——AI(人工智能)。

AI可以完成海量無(wú)效數(shù)據(jù)的篩選和有用信息的自動(dòng)重組,從而大幅提升數(shù)據(jù)價(jià)值的挖掘效率,幫助用戶更高效地進(jìn)行決策。

然而,想要利用好這個(gè)神器,我們需要三大要素的支持,那就是算法、算力和數(shù)據(jù)。

AI算法強(qiáng)不強(qiáng),訓(xùn)練是關(guān)鍵。深度學(xué)習(xí)的算法訓(xùn)練,離不開(kāi)海量的樣本數(shù)據(jù),以及高性能的計(jì)算能力。

在存儲(chǔ)能力方面,從HDD(機(jī)械硬盤(pán))到SSD(高速閃存盤(pán)),再到SCM(存儲(chǔ)級(jí)內(nèi)存),介質(zhì)時(shí)延降低了100倍以上,可以滿足高性能數(shù)據(jù)實(shí)時(shí)存取需求。

在計(jì)算能力方面,從CPU到GPU,再到專(zhuān)用的AI芯片,處理數(shù)據(jù)的能力也提升了100倍以上。

那么,這是否意味著數(shù)據(jù)中心能夠完全滿足AI規(guī)模應(yīng)用的要求呢?

別急著說(shuō)是,我們不能忘了一個(gè)重要的性能制約因素,那就是——網(wǎng)絡(luò)通信能力。

事實(shí)上,網(wǎng)絡(luò)通信能力確實(shí)拖了存儲(chǔ)能力和計(jì)算能力的后腿。數(shù)據(jù)顯示,在存儲(chǔ)介質(zhì)和計(jì)算處理器演進(jìn)之后,網(wǎng)絡(luò)通信時(shí)延已經(jīng)成為了數(shù)據(jù)中心性能提升的瓶頸。通信時(shí)延在整個(gè)存儲(chǔ)E2E(端到端)時(shí)延中占比,已經(jīng)從10%躍遷到60%以上。

也就是說(shuō),寶貴的存儲(chǔ)介質(zhì)有一半以上的時(shí)間是在等待通信空閑;而昂貴的處理器,也有一半時(shí)間在等待通信同步。

網(wǎng)絡(luò)通信能力,已經(jīng)在數(shù)據(jù)中心形成了木桶效應(yīng),變成了木桶的短板。

█ 數(shù)據(jù)中心通信網(wǎng)絡(luò),到底出了什么問(wèn)題?

上世紀(jì)70年代,TCP/IP和以太網(wǎng)技術(shù)相繼誕生。

它們成本低廉、結(jié)構(gòu)簡(jiǎn)單,為互聯(lián)網(wǎng)的早期發(fā)展做出了巨大貢獻(xiàn)。

但是,隨著網(wǎng)絡(luò)規(guī)模的急劇膨脹,傳統(tǒng)TCP/IP和以太網(wǎng)技術(shù)已經(jīng)跟不上時(shí)代的步伐,它們落后的架構(gòu)設(shè)計(jì),反而制約了互聯(lián)網(wǎng)的進(jìn)一步發(fā)展。

2010年后,數(shù)據(jù)中心的業(yè)務(wù)類(lèi)型逐漸聚焦為三種,分別是高性能計(jì)算業(yè)務(wù)(HPC),存儲(chǔ)業(yè)務(wù)和一般業(yè)務(wù)。

這三種業(yè)務(wù),對(duì)于網(wǎng)絡(luò)有不同的訴求。比如HPC業(yè)務(wù)的多節(jié)點(diǎn)進(jìn)程間通信,對(duì)于時(shí)延要求非常高;而存儲(chǔ)業(yè)務(wù),對(duì)通信可靠性的要求非常高,網(wǎng)絡(luò)需要實(shí)現(xiàn)絕對(duì)的0丟包;一般業(yè)務(wù)的規(guī)模巨大,擴(kuò)展性強(qiáng),要求網(wǎng)絡(luò)低成本易擴(kuò)展。

傳統(tǒng)以太網(wǎng)可以適用于一般業(yè)務(wù),但是無(wú)法應(yīng)對(duì)高性能計(jì)算和存儲(chǔ)業(yè)務(wù)。于是,業(yè)界發(fā)展出了Infiniband(直譯為“無(wú)限帶寬”技術(shù),縮寫(xiě)為IB)網(wǎng)絡(luò),應(yīng)對(duì)有低時(shí)延要求的網(wǎng)絡(luò)IPC通信;發(fā)展出了FC(Fibre Channel,光纖通道)網(wǎng)絡(luò),提供高可靠0丟包的存儲(chǔ)網(wǎng)絡(luò)。

IB專(zhuān)網(wǎng)和FC專(zhuān)網(wǎng)的性能很強(qiáng),但是價(jià)格昂貴,是以太網(wǎng)的數(shù)倍。而且,兩種專(zhuān)網(wǎng)需要專(zhuān)人運(yùn)維,會(huì)帶來(lái)更高的維護(hù)成本。

是不是有辦法,將三種網(wǎng)絡(luò)的優(yōu)勢(shì)進(jìn)行結(jié)合呢?有沒(méi)有一種網(wǎng)絡(luò),可以同時(shí)實(shí)現(xiàn)高吞吐、低時(shí)延和0丟包?

這里,我先賣(mài)個(gè)關(guān)子,不揭曉答案。我們回過(guò)頭來(lái),看看TCP/IP協(xié)議棧的痛點(diǎn)。

傳統(tǒng)的TCP/IP協(xié)議棧,實(shí)在是太老了。它的很多致命問(wèn)題,都是與生俱來(lái)的。比如說(shuō)它的時(shí)延,還有它對(duì)CPU的占用。

為了解決問(wèn)題,專(zhuān)家們提出了一種新型的通信機(jī)制——RDMA(Remote Direct Memory Access,遠(yuǎn)程直接數(shù)據(jù)存?。?,用于取代TCP/IP。

RDMA相當(dāng)于是一個(gè)快速通道技術(shù),在數(shù)據(jù)傳輸時(shí)延和CPU占用率方面遠(yuǎn)遠(yuǎn)強(qiáng)于TCP/IP,逐漸成為主流的網(wǎng)絡(luò)通信協(xié)議棧。

RDMA有兩類(lèi)網(wǎng)絡(luò)承載方案,分別是專(zhuān)用InfiniBand和傳統(tǒng)以太網(wǎng)絡(luò)。

InfiniBand是一種封閉架構(gòu),交換機(jī)是特定廠家提供的專(zhuān)用產(chǎn)品,采用私有協(xié)議,無(wú)法兼容現(xiàn)網(wǎng),加上對(duì)運(yùn)維的要求過(guò)于復(fù)雜,并不是用戶的合適選擇。

除了InfiniBand之外,那就只剩下傳統(tǒng)以太網(wǎng)了。

那比較尷尬的是,RDMA對(duì)丟包率的要求極高。0.1%的丟包率,將導(dǎo)致RDMA吞吐率急劇下降。2%的丟包率,將使得RDMA的吞吐率下降為0。

而傳統(tǒng)以太網(wǎng),工作機(jī)制是“盡力而為”,丟包是家常便飯。

又回到了前面那個(gè)問(wèn)題:我們究竟有沒(méi)有0丟包、高吞吐的新型開(kāi)放以太網(wǎng),用于支撐低延時(shí)RDMA的高效運(yùn)行呢?

Duang!答案揭曉——

辦法當(dāng)然是有的,那就是來(lái)自華為的超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能無(wú)損技術(shù)。

█ 華為的零丟包秘技

華為的智能無(wú)損技術(shù)到底有何神通,可以解決困擾傳統(tǒng)以太網(wǎng)已久的丟包問(wèn)題?

其實(shí),想要實(shí)現(xiàn)零丟包,首先要搞清楚網(wǎng)絡(luò)為什么會(huì)產(chǎn)生丟包。

網(wǎng)絡(luò)丟包的基本原因其實(shí)很簡(jiǎn)單,就是發(fā)生了溢出——網(wǎng)絡(luò)流量超過(guò)了數(shù)據(jù)中心交換機(jī)的處理和緩存能力。

應(yīng)對(duì)溢出,業(yè)界通用的做法,就是控制發(fā)送端的發(fā)送速度,從而避免超過(guò)交換機(jī)處理能力的擁塞形成。

具體來(lái)說(shuō),就是在交換機(jī)端口設(shè)置報(bào)文緩存隊(duì)列,一旦隊(duì)列長(zhǎng)度超過(guò)某一個(gè)閾值(擁塞水線),對(duì)擁塞報(bào)文進(jìn)行擁塞標(biāo)記,流目的端向源端發(fā)送降速信號(hào),即顯式擁塞通知ECN(Explicit Congestion Notification)。

源端收到通知,從而降低發(fā)送速度,規(guī)避擁塞。

我們可以看出,這個(gè)閾值的設(shè)置非常關(guān)鍵。它決定了對(duì)報(bào)文進(jìn)行擁塞標(biāo)記的時(shí)機(jī),是網(wǎng)絡(luò)中是否會(huì)發(fā)生擁塞的決定性因素。

閾值的設(shè)置,是一門(mén)非常深的學(xué)問(wèn)。

如果設(shè)置太保守,就會(huì)降速太多,影響系統(tǒng)吞吐能力。如果設(shè)置太激進(jìn),則無(wú)法達(dá)到無(wú)損的效果。

更關(guān)鍵的是,網(wǎng)絡(luò)的業(yè)務(wù)類(lèi)型是多樣且變化的,有時(shí)候需要高吞吐,有時(shí)候又需要低時(shí)延。即便是有經(jīng)驗(yàn)的專(zhuān)家,好不容易花了幾天的時(shí)間,設(shè)置好了最佳水線位置,結(jié)果它又變了,咋整?

于是,華為想到了最適合干這個(gè)活的角色,那就是——AI。

早在2012年,華為為了應(yīng)對(duì)未來(lái)數(shù)據(jù)洪水挑戰(zhàn),投入了數(shù)十個(gè)科學(xué)家,啟動(dòng)新一代無(wú)損網(wǎng)絡(luò)的研究。

經(jīng)過(guò)多年的潛心鉆研和探索,他們搞出了獨(dú)具創(chuàng)新的iLossless智能無(wú)損算法方案。這是一個(gè)通過(guò)人工智能實(shí)現(xiàn)網(wǎng)絡(luò)擁塞調(diào)度和網(wǎng)絡(luò)自優(yōu)化的AI算法。

華為iLossless智能無(wú)損算法以Automatic ECN為核心,并首次在超高速數(shù)據(jù)中心交換機(jī)引入深度強(qiáng)化學(xué)習(xí)DRL(Deep Reinforcement Learning)。

對(duì)比傳統(tǒng)靜態(tài)閾值配置僵化,無(wú)法動(dòng)態(tài)適應(yīng)網(wǎng)絡(luò)變化的缺點(diǎn),Automatic ECN為以太網(wǎng)的流量調(diào)度提供了智能預(yù)測(cè)能力,可以根據(jù)當(dāng)前流量狀態(tài)精準(zhǔn)預(yù)測(cè)下一刻的擁塞狀態(tài),提前做好預(yù)留和準(zhǔn)備。

基于iLossless智能無(wú)損算法,華為發(fā)布了超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,引領(lǐng)智能無(wú)損進(jìn)入1.0時(shí)代。

2022年,華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)繼續(xù)探索,提出了更強(qiáng)大的智能無(wú)損網(wǎng)算一體技術(shù)和創(chuàng)新直連拓?fù)浼軜?gòu),可實(shí)現(xiàn)270k大規(guī)模算力樞紐網(wǎng)絡(luò)(組網(wǎng)規(guī)模4倍于業(yè)界,可助力構(gòu)建E級(jí)和10E級(jí)大型和超大型算力樞紐),時(shí)延在智能無(wú)損1.0的基礎(chǔ)上,可進(jìn)一步降低25%。

華為的智能無(wú)損2.0,基于在網(wǎng)計(jì)算(In-network computing)和拓?fù)涓兄═opology-Aware Computing)實(shí)現(xiàn)網(wǎng)絡(luò)和計(jì)算協(xié)同。一方面,網(wǎng)絡(luò)參與計(jì)算信息的匯聚和同步,減少計(jì)算信息同步的次數(shù);另一方面,通過(guò)調(diào)度確保計(jì)算節(jié)點(diǎn)就近完成計(jì)算任務(wù),減少通信跳數(shù),進(jìn)一步降低應(yīng)用時(shí)延。

以MPI_allreduce為例,相比傳統(tǒng)網(wǎng)絡(luò)僅做數(shù)據(jù)轉(zhuǎn)發(fā)不參與計(jì)算過(guò)程,華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)可有效降低時(shí)延,提升計(jì)算效率27%。

華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,為數(shù)據(jù)中心構(gòu)建了統(tǒng)一融合網(wǎng)絡(luò),取代了此前的三種不同類(lèi)型網(wǎng)絡(luò)(LAN、SAN、IPC),大幅減少了網(wǎng)絡(luò)建設(shè)成本和運(yùn)維成本,總成本TCO下降了53%。AI業(yè)務(wù)的運(yùn)行效率,則提升了30%以上。

█ 智能無(wú)損技術(shù)的積累沉淀

近年來(lái),華為圍繞智能無(wú)損網(wǎng)絡(luò)和iLossless智能無(wú)損算法,接連發(fā)布了多個(gè)產(chǎn)品和解決方案。

2018年10月,華為就發(fā)布了AI Fabric極速以太網(wǎng)解決方案,幫助客戶構(gòu)建與傳統(tǒng)以太網(wǎng)兼容的RDMA網(wǎng)絡(luò),引領(lǐng)數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)入極速無(wú)損的高性能時(shí)代。

2019年1月,華為又發(fā)布了業(yè)界首款面向AI時(shí)代的數(shù)據(jù)中心交換機(jī)CloudEngine 16800,承載了iLossLess智能無(wú)損交換算法,實(shí)現(xiàn)流量模型自適應(yīng)自優(yōu)化,從而在零丟包的基礎(chǔ)上,獲得更低時(shí)延和更高吞吐的網(wǎng)絡(luò)性能。

2021年6月,華為發(fā)布全無(wú)損以太存儲(chǔ)網(wǎng)絡(luò)解決方案(NoF+)。該方案基于OceanStor Dorado全閃存存儲(chǔ)系統(tǒng)和CloudEngine數(shù)據(jù)中心存儲(chǔ)網(wǎng)絡(luò)交換機(jī)構(gòu)建,可實(shí)現(xiàn)存儲(chǔ)場(chǎng)景端到端數(shù)據(jù)加速,充分釋放全閃存性能潛力。

除了自身積極進(jìn)行技術(shù)研究和產(chǎn)品化之外,華為還積極推動(dòng)相關(guān)技術(shù)標(biāo)準(zhǔn)的成熟。

2021年8月,華為發(fā)布的智能無(wú)損技術(shù)論文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能數(shù)據(jù)中心網(wǎng)絡(luò)中的ECN動(dòng)態(tài)調(diào)優(yōu))入選全球網(wǎng)絡(luò)通信頂級(jí)會(huì)議ACM SIGCOMM 2021,得到業(yè)界專(zhuān)家的一致認(rèn)可,具有世界級(jí)技術(shù)影響力。

在華為主導(dǎo)下,IEEE 802成立了Nendica(“Network Enhancements for the Next Decade” Industry Connections Activity)工作組,聯(lián)合業(yè)界共同探討以太網(wǎng)技術(shù)標(biāo)準(zhǔn)發(fā)展的新方向,為智能無(wú)損網(wǎng)絡(luò)技術(shù)發(fā)展提供了理論研究的開(kāi)放土壤。

█ 智能無(wú)損技術(shù)的落地實(shí)踐

經(jīng)過(guò)實(shí)際項(xiàng)目驗(yàn)證并獲得客戶認(rèn)可的技術(shù),才是可靠的技術(shù)。

華為的超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,已經(jīng)在金融、政府、超算中心、智算中心等客戶廣泛應(yīng)用。包括中國(guó)銀行、云南農(nóng)信、華夏銀行、湖北移動(dòng)、中科院高能物理研究所、武漢人工智能計(jì)算中心、鵬城實(shí)驗(yàn)室等在內(nèi)的眾多高端用戶,都是華為智能無(wú)損技術(shù)的使用者。

中國(guó)銀行聯(lián)合華為打造的新一代智能無(wú)損存儲(chǔ)網(wǎng)絡(luò)“RoCE-SAN”,結(jié)合中行具體的應(yīng)用場(chǎng)景,實(shí)現(xiàn)了智能緩存管理、逐流精準(zhǔn)控速、故障高可用秒級(jí)切換的技術(shù)創(chuàng)新突破,滿足金融級(jí)高可用存儲(chǔ)網(wǎng)絡(luò)要求。

中科院高能物理研究所通過(guò)與華為的聯(lián)合創(chuàng)新,采用零丟包以太網(wǎng)技術(shù),構(gòu)建了由數(shù)萬(wàn)顆CPU核構(gòu)成的跨地域的高性能計(jì)算環(huán)境,很好地滿足了高能物理領(lǐng)域?qū)λ懔Φ男枨蟆?/p>

某互聯(lián)網(wǎng)巨頭布局無(wú)人駕駛,無(wú)人駕駛技能的訓(xùn)練涉及到大量的AI計(jì)算:1天采集的數(shù)據(jù),需要幾百的GPU服務(wù)器7天才能訓(xùn)練完,嚴(yán)重影響無(wú)人駕駛的上市時(shí)間。通過(guò)華為的智能無(wú)損技術(shù),最終使得整體訓(xùn)練的時(shí)長(zhǎng)縮短40%,加速無(wú)人駕駛的商用進(jìn)程。

除了豐富的行業(yè)落地案例,華為智能無(wú)損技術(shù)還獲得了大量的行業(yè)獎(jiǎng)項(xiàng):

2018年6月,日本Interop展Best of Show Award金獎(jiǎng)

2020年12月,中國(guó)銀行業(yè)金融科技應(yīng)用成果大賽“最佳解決方案獎(jiǎng)”

2021年4月,日本Interop展Best of Show Award 2020銀獎(jiǎng)

2021年5月,2021數(shù)博會(huì)領(lǐng)先科技成果獎(jiǎng)之“黑科技”類(lèi)別

2021年10月,高性能計(jì)算領(lǐng)域 “融合架構(gòu)創(chuàng)新獎(jiǎng)”

2022年3月,中國(guó)通信學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)特等獎(jiǎng)

……

這些來(lái)自專(zhuān)業(yè)領(lǐng)域的認(rèn)可,更加證明了華為基于智能無(wú)損技術(shù)的超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,在領(lǐng)導(dǎo)力和先進(jìn)性方面居于行業(yè)領(lǐng)先地位。

█ 結(jié)語(yǔ)

從邏輯上來(lái)看,華為基于智能無(wú)損技術(shù)的超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,是將AI技術(shù)在數(shù)據(jù)中心進(jìn)行落地,用AI賦能數(shù)據(jù)中心,再用數(shù)據(jù)中心,去支撐AI應(yīng)用。這是一種非常有趣的良性循環(huán),引領(lǐng)了整個(gè)ICT行業(yè)的智能化潮流。

這個(gè)方案是為算力時(shí)代量身定制的,可以很好地滿足算力時(shí)代計(jì)算、存儲(chǔ)、業(yè)務(wù)等多種場(chǎng)景數(shù)據(jù)流通的需要。

放眼未來(lái),AI與數(shù)據(jù)中心的深度融合,將完美支撐企業(yè)數(shù)字化轉(zhuǎn)型所需的算力需求,加速數(shù)據(jù)存儲(chǔ)和處理過(guò)程,幫助企業(yè)快速?zèng)Q策,加快邁入數(shù)智時(shí)代。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專(zhuān)家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動(dòng)通信改變中國(guó)》叢書(shū)作者。通信行業(yè)13年工作經(jīng)驗(yàn),曾長(zhǎng)期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級(jí)講師、中興通訊高級(jí)主任工程師,擁有豐富的行業(yè)經(jīng)驗(yàn)和積累。