加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 生成式AI驅(qū)動(dòng),云基礎(chǔ)設(shè)施進(jìn)入新周期
    • 模型越來越大,呼喚更大規(guī)模計(jì)算集群
    • 智算資源短缺,“一云多芯”成為主流選擇
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

騰訊云副總裁:騰訊云智算已服務(wù)國(guó)內(nèi)90%大模型廠商

09/06 09:35
1153
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

9月5日,騰訊2024全球數(shù)字生態(tài)大會(huì)召開。大會(huì)期間,騰訊云正式發(fā)布AI infra品牌“騰訊云智算”,整合騰訊云在HCC、星脈網(wǎng)絡(luò)、AIGC云存儲(chǔ)等優(yōu)勢(shì)單項(xiàng)產(chǎn)品能力,為用戶提供多芯兼容、靈活部署的智算能力。騰訊云副總裁沙開波表示,騰訊云智算目前已經(jīng)服務(wù)了國(guó)內(nèi)90%的大模型廠商,也幫助一大批IDC(數(shù)據(jù)中心)廠商向AIDC(智算中心)廠商轉(zhuǎn)型。

生成式AI驅(qū)動(dòng),云基礎(chǔ)設(shè)施進(jìn)入新周期

ChatGPT點(diǎn)燃市場(chǎng)熱情、各大廠商和資本競(jìng)相入場(chǎng)以來,僅僅一年多的時(shí)間,生成式AI便已從技術(shù)走向?qū)嵺`,逐漸融入各行各業(yè),成為數(shù)字化轉(zhuǎn)型的重要驅(qū)動(dòng)力。Gartner對(duì)于未來生成式AI的預(yù)測(cè)是,到2026年,超過80%的企業(yè)都會(huì)接入生成式AI或大模型,然而這一比例在2023年初還不到5%。

“盡管目前生成式AI仍處于一個(gè)相對(duì)早期的發(fā)展階段,商業(yè)化落地還需進(jìn)一步探索,但從長(zhǎng)期來看,生成式AI一定會(huì)出現(xiàn)一個(gè)大爆發(fā)的‘奇點(diǎn)’?!鄙抽_波指出。他認(rèn)為,生成式AI的快速興起驅(qū)動(dòng)云基礎(chǔ)設(shè)施建設(shè)進(jìn)入一輪全新的周期。

眾所周知,生成式AI背后需要依靠強(qiáng)大的AI模型和海量數(shù)據(jù),其所需要的云服務(wù)算力成本十分龐大。以ChatGPT為例,用戶每次與ChatGPT互動(dòng),產(chǎn)生的算力云服務(wù)成本約0.01美元,如果使用總投資30.2億元、算力500P的數(shù)據(jù)中心來支撐ChatGPT的運(yùn)行,至少需要7-8個(gè)這樣的數(shù)據(jù)中心,基礎(chǔ)設(shè)施的投入都是以百億計(jì)的。AI大模型無疑為整個(gè)云基礎(chǔ)設(shè)施建設(shè)帶來了巨大的市場(chǎng)空間。

“我們的很多業(yè)務(wù)增量都來自于智能計(jì)算這一塊。除了GPU之外,圍繞GPU一些存儲(chǔ)、網(wǎng)絡(luò),也是一塊很大的增量?!鄙抽_波坦言。對(duì)于大模型訓(xùn)練場(chǎng)景來說,算、存、網(wǎng)是一體的。大模型廠商在模型訓(xùn)練和推理場(chǎng)景中,對(duì)云基礎(chǔ)設(shè)施的高性能、高穩(wěn)定性、可運(yùn)維、應(yīng)用性等方面的要求更高,這就要求服務(wù)商不斷打磨自身產(chǎn)品能力,從計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等方面,包括一些軟件框架層面的優(yōu)化,以更好的去滿足這些AI客戶,尤其是大模型廠商的業(yè)務(wù)需求??梢灶A(yù)見,生成式AI或?qū)⑼苿?dòng)云基礎(chǔ)設(shè)施的整體升級(jí)。

模型越來越大,呼喚更大規(guī)模計(jì)算集群

伴隨生成式AI的興起,業(yè)內(nèi)出現(xiàn)一個(gè)趨勢(shì):模型參數(shù)規(guī)模越來越大,從百萬級(jí)逐步進(jìn)入千萬級(jí),甚至是萬億級(jí)。而參數(shù)越大,訓(xùn)練所用的計(jì)算資源就越多,這些大模型的訓(xùn)練動(dòng)輒需要使用成千上萬張GPU卡去做算力支撐,引發(fā)模型廠商的算力焦慮。沙開波指出,智能算力存在比較典型的“木桶短板”效應(yīng),算力的提升不能光靠“堆卡”,而是要讓計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)以及上層的框架等各個(gè)環(huán)節(jié)全面協(xié)調(diào)配合,才能打造出一個(gè)高性能、高帶寬、低延遲的計(jì)算集群。

以網(wǎng)絡(luò)能力為例,千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時(shí),傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。為解決網(wǎng)絡(luò)性能問題,各個(gè)廠商推出了一系列相關(guān)產(chǎn)品和解決方案。

其中,騰訊云星脈網(wǎng)絡(luò)具備3.2T通信帶寬,可支持10萬卡的超大計(jì)算規(guī)模。據(jù)悉,其能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升。數(shù)據(jù)顯示,在穩(wěn)定性和性能上,騰訊云的集群千卡單日故障數(shù)已經(jīng)刷新到0.16,是行業(yè)水平的1/3;1分鐘就能完成萬卡checkpoint寫入,數(shù)據(jù)讀寫效率是業(yè)界10倍;千卡集群的通信時(shí)間縮短到6%,是業(yè)界一半。

同時(shí),通過整合軟硬件技術(shù)能力,騰訊云智算集群從機(jī)器上架到開始訓(xùn)練可以做到只需1天,相比業(yè)界以月為單位也大為縮短。“我們?cè)谧龅氖窃谝?guī)模比較大的計(jì)算集群里面,把卡的利用率盡可能做到極致,減少閑置算力就是減少用戶成本?!鄙抽_波表示。據(jù)他透露,某模型廠商通過使用騰訊云智算大模型訓(xùn)練集群解決方案將千卡一年的模型訓(xùn)練成本降低了2000萬。

智算資源短缺,“一云多芯”成為主流選擇

當(dāng)前,智算中心被視為如同水和電一般的“新基建”,在全國(guó)各地落地開花。據(jù)賽迪顧問統(tǒng)計(jì),截至2024年上半年,國(guó)內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心超過250個(gè)。智算中心招投標(biāo)相關(guān)事件791起,同比增長(zhǎng)高達(dá)407.1%。最新統(tǒng)計(jì)顯示,截至5月底,全國(guó)規(guī)劃具有高性能計(jì)算機(jī)集群的智算中心已達(dá)十余個(gè)。

從算力規(guī)模來看,我國(guó)智能算力在算力總規(guī)模中的比重超過了30%。盡管智算中心建設(shè)如火如荼,但智算資源的供需矛盾依然存在?!爸撬阒行慕ㄔO(shè)方通常手里有卡,也有硬件資源。但是有卡不等于有算力,有算力不等于有模型,有模型也不等于有應(yīng)用。

有了卡和硬件,不代表大模型的訓(xùn)練、推理或者AI的應(yīng)用就可以直接‘跑’出來了,還需要配套的軟件能力,要能夠把所有資源高效管理和調(diào)度起來,還得找到最終應(yīng)用場(chǎng)景或者終端客戶?!鄙抽_波分析稱。為彌合智算資源“供”與“需”之間的溝壑,“一云多芯”成為一個(gè)主流選擇。

過去,智算集群中的多個(gè)模型訓(xùn)練任務(wù)往往是單一廠商芯片服務(wù)于單一任務(wù),不論是不同廠商芯片算力切分、芯片間通信效率或是根本的模型訓(xùn)練效率問題,都使得算力焦慮在在硬件差異之下被無限放大。

云平臺(tái)可以將服務(wù)器芯片等硬件封裝成標(biāo)準(zhǔn)算力,無論底層是x86與ARM指令集的并存、x86或ARM不同廠商架構(gòu)間并存、不同GPU或DPU服務(wù)器并存,抑或是計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)不同芯片架構(gòu)并存,都能給客戶提供體驗(yàn)一致的云計(jì)算服務(wù)。比如,騰訊云智算平臺(tái)便采用了“一云多芯”架構(gòu),可以適配、管理、調(diào)度多種CPU和GPU芯片,能夠有效降低供應(yīng)鏈風(fēng)險(xiǎn),同時(shí)滿足不同業(yè)務(wù)對(duì)于不同算力的需求。

“生成式AI的興起給整個(gè)云基礎(chǔ)設(shè)施建設(shè)提出了更高的要求,我們希望能夠整合高性能計(jì)算、高性能存儲(chǔ)、高性能網(wǎng)絡(luò)等各方面的能力,為企業(yè)用戶提供集‘算、存、網(wǎng)、數(shù)’于一體的技術(shù)底座,幫助大家加速釋放AI生產(chǎn)力?!鄙抽_波說道。

作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東

騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜