加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • AI大模型持續(xù)擴(kuò)展趨勢下,萬卡通用算力成為標(biāo)配
    • “國產(chǎn)智算萬卡集群——做難而正確的事”
    • 相信AGI到來,致力于全功能的通用加速計(jì)算平臺
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

國產(chǎn)GPU:身處通用計(jì)算黃金時(shí)刻,智算萬卡是最低標(biāo)配

07/04 14:18
3127
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

日前,摩爾線程宣布AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案實(shí)現(xiàn)重大升級,從千卡級別大幅擴(kuò)展至萬卡規(guī)模。該集群以全功能GPU為底座,專為萬億參數(shù)級別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì),旨在打造能夠承載萬卡規(guī)模、具備萬P級浮點(diǎn)運(yùn)算能力的國產(chǎn)通用加速計(jì)算平臺。

“摩爾線程推出夸娥(KUAE)萬卡智算集群解決方案,希望能夠建設(shè)一個(gè)規(guī)模超萬卡、場景更通用、生態(tài)兼容好的加速計(jì)算平臺,并優(yōu)先解決大模型訓(xùn)練的難題”,摩爾線程創(chuàng)始人兼CEO張建中表示:“夸娥萬卡智算集群作為摩爾線程全棧AI戰(zhàn)略的一塊重要拼圖,可為各行各業(yè)數(shù)智化轉(zhuǎn)型提供澎湃算力?!?/p>

AI大模型持續(xù)擴(kuò)展趨勢下,萬卡通用算力成為標(biāo)配

張建中指出,“通用加速計(jì)算平臺正處在黃金時(shí)刻,我們看到了Scaling Law這個(gè)演進(jìn)規(guī)律:需要單點(diǎn)規(guī)模夠大并且通用的算力,才能快速跟上技術(shù)演進(jìn)變化。如果規(guī)模夠大、計(jì)算通用、生態(tài)兼容這三點(diǎn)都做好的話,對使用者來說就是非常好用的平臺?!?/p>

摩爾線程創(chuàng)始人兼CEO 張建中

所謂萬卡集群,是指由一萬張及以上的計(jì)算加速卡(如GPU)組成的高性能計(jì)算系統(tǒng),用以訓(xùn)練基礎(chǔ)大模型。該類集群充分整合高性能GPU計(jì)算、高性能RDMA網(wǎng)絡(luò)、高性能并行文件存儲、智算平臺等關(guān)鍵技術(shù),將底層基礎(chǔ)設(shè)施整合成為一臺“超級計(jì)算機(jī)”,可支持千億級甚至萬億級參數(shù)規(guī)模的大模型訓(xùn)練,有助于大幅壓縮大模型訓(xùn)練時(shí)間,以實(shí)現(xiàn)模型能力的快速迭代。

一些重要的趨勢正在演進(jìn):一方面,Transformer架構(gòu)仍在加速進(jìn)步,它雖然是目前的主流架構(gòu),但是并不會大一統(tǒng),其他創(chuàng)新架構(gòu)仍在不斷出現(xiàn),如Mamba、RWKV和RetNet等,旨在提升計(jì)算效率,加速迭代創(chuàng)新。

另一方面,AI+3D+HPC在實(shí)現(xiàn)加速融合,從而帶來計(jì)算范式的變化。比如AI+3D、AI+仿真計(jì)算、AI+FP64科學(xué)計(jì)算等,這些都需要通用加速計(jì)算平臺,才能滿足更多場景對多元計(jì)算的需求。

應(yīng)對上述趨勢,一個(gè)“大且通用”的加速計(jì)算平臺越來越成為標(biāo)配,以縮短訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代。

國際頭部公司正在積極部署千卡乃至超萬卡規(guī)模的計(jì)算集群,比如:Google推出的超級計(jì)算機(jī) A3 Virtual Machines,擁有26000塊 Nvidia H100 GPU,同時(shí)基于自研芯片搭建了TPUv5p 8960卡集群;Meta 今年初公布了2個(gè)24576塊Nvidia H100的集群,用于支持下一代生成式Al模型的訓(xùn)練。

國內(nèi)市場方面,通信運(yùn)營商、頭部互聯(lián)網(wǎng)、大型AI研發(fā)企業(yè)、AI初創(chuàng)企業(yè)等都在超萬卡集群的建設(shè)和使用過程中不斷推動(dòng)技術(shù)革新。例如字節(jié)跳動(dòng)、阿里巴巴、百度等互聯(lián)網(wǎng)公司正在積極推進(jìn)超萬卡集群的建設(shè)。其中,字節(jié)跳動(dòng)搭建了12288 卡的Ampere架構(gòu)訓(xùn)練集群,研發(fā)MegaScale生產(chǎn)系統(tǒng)用于訓(xùn)練大語言模型;科大訊飛在2023年建成了首個(gè)支持大模型訓(xùn)練的超萬卡集群算力平臺“飛星一號”。

“國產(chǎn)智算萬卡集群——做難而正確的事”

萬卡集群并不是一萬張GPU卡的簡單堆疊,而是一個(gè)超級復(fù)雜的系統(tǒng)工程。

張建中指出,萬卡集群當(dāng)前面臨的主要問題,包括超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率、訓(xùn)練高穩(wěn)定與高可用、故障快速定位與可診斷工具、生態(tài)Day0級快速遷移、未來場景通用計(jì)算等。

這其中涉及諸多的技術(shù)難點(diǎn),僅以超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率(MFU)以及訓(xùn)練的高穩(wěn)定性這三項(xiàng)技術(shù)細(xì)節(jié)來看:

超大規(guī)模組網(wǎng)互聯(lián)包括參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)等,而不同的網(wǎng)絡(luò)需要采取不同的組網(wǎng)部署方式。超萬卡集群對參數(shù)面網(wǎng)絡(luò)(計(jì)算網(wǎng)絡(luò))的要求最高,因?yàn)樗饕糜谟?jì)算節(jié)點(diǎn)之間的參數(shù)交換,要求具備高帶寬無損能力。并且,參數(shù)面網(wǎng)絡(luò)的速度與穩(wěn)定性決定著整個(gè)集群的運(yùn)行效率,要通過各種擁塞控制優(yōu)化機(jī)制、負(fù)載均衡以及故障快速感知等技術(shù)手段,才能保證網(wǎng)絡(luò)傳輸?shù)牧銇G包無損、高吞吐與高穩(wěn)定等。

集群有效計(jì)算效率即MFU方面,大量實(shí)踐表明,集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升,因?yàn)槭芟抻谛酒?jì)算性能(芯片及算子使用效率)、GPU顯存的訪問性能(內(nèi)存和I/O訪問瓶頸)、卡間互聯(lián)帶寬、有效的分布式并行策略等。

在訓(xùn)練的高穩(wěn)定與高可用方面,由于超萬卡集群是由數(shù)千臺GPU服務(wù)器、數(shù)千臺交換機(jī)、數(shù)萬根光纖/數(shù)萬顆光模塊構(gòu)成,訓(xùn)練任務(wù)涉及上千萬器件的共同作業(yè),任何一個(gè)部件比如一個(gè)網(wǎng)卡、一個(gè)光模塊或一個(gè)GPU故障,整個(gè)集群就會宕機(jī)導(dǎo)致訓(xùn)練中斷。因此,萬卡集群高穩(wěn)定和高可用是個(gè)非常大的難題。

“盡管萬卡建設(shè)難,挑戰(zhàn)巨大,但摩爾線程堅(jiān)信,這是一條難而正確的道路,我們致力于通過夸娥萬卡智算集群,為AI大模型與通用人工智能的發(fā)展提供堅(jiān)實(shí)的支撐”,張建中表示。

以國產(chǎn)全功能GPU為技術(shù)底座,摩爾線程的夸娥萬卡智算解決方案實(shí)現(xiàn)了幾大核心的護(hù)城河:

  • 大算力,萬卡萬P:單集群規(guī)模超萬卡,浮點(diǎn)運(yùn)算能力達(dá)10Exa-Flops,提供PB級顯存容量和超高速卡間與節(jié)點(diǎn)間互聯(lián)帶寬,實(shí)現(xiàn)算力、顯存和帶寬的協(xié)同優(yōu)化。
  • 超高穩(wěn)定,月級長穩(wěn)訓(xùn)練:平均無故障運(yùn)行時(shí)間超15天,支持30天以上長穩(wěn)訓(xùn)練,周均訓(xùn)練有效率超過99%,采用多級可靠機(jī)制實(shí)現(xiàn)軟硬件故障快速定位和訓(xùn)練任務(wù)快速恢復(fù)。
  • 極致優(yōu)化,超高M(jìn)FU:MFU最高達(dá)60%,通過系統(tǒng)軟件、框架、算法優(yōu)化,支持自適應(yīng)混合并行策略和顯存優(yōu)化,有效縮減計(jì)算時(shí)間和顯存占用,提升訓(xùn)練效率。
  • 全能通用,生態(tài)友好:適用于多種架構(gòu)和模態(tài)的大模型,可加速LLM、MoE、多模態(tài)、Mamba等不同架構(gòu)、不同模態(tài)的大模型?;贛USA編程語言和CUDA兼容能力,可實(shí)現(xiàn)新模型快速遷移和生態(tài)適配,加速業(yè)務(wù)上線。

相信AGI到來,致力于全功能的通用加速計(jì)算平臺

張建中解釋說,集群不是“堆卡“,主要在于單位功耗的算力在提升,而這來源于整個(gè)架構(gòu)的改善、效率的提升,需要整個(gè)系統(tǒng)的調(diào)優(yōu)。實(shí)際上,從千卡到萬卡的升級建設(shè)過程中,萬卡平均每瓦的算力提升了很多。

同時(shí),國產(chǎn)集群具有生態(tài)兼容性優(yōu)勢,開發(fā)者移植到夸娥集群上,幾乎不需要修改代碼,遷移成本接近0,可以在數(shù)小時(shí)之內(nèi)就完成遷移工作,能夠顯著節(jié)約用戶和廠商的資源。

依據(jù)以往千卡級集群的建設(shè)和使用經(jīng)驗(yàn)來看,如果是首次適配,通常數(shù)小時(shí)之內(nèi)就可以在平臺上運(yùn)行起來;而對于已適配的大模型,用戶無需額外工作即可運(yùn)行。對于性能調(diào)優(yōu)來說,是一個(gè)相對耗時(shí)的過程,因不同模型和芯片廠商的策略而有不同。

毫無疑問,在算力規(guī)模持續(xù)擴(kuò)大的趨勢下,網(wǎng)絡(luò)通信能力成為一大關(guān)鍵。特別是對于建設(shè)萬卡以上的集群來說,交換機(jī)技術(shù)是必備的。

據(jù)了解,摩爾線程目前在卡間互連采用自研MTLink,現(xiàn)在已經(jīng)更迭到2.0版本。交換機(jī)方面,采用的行業(yè)的交換機(jī)芯片搭建集群。張建中表示,摩爾線程后續(xù)會進(jìn)行自研,或與行業(yè)合作伙伴共同研發(fā)下一代的大規(guī)模交換機(jī)。

他認(rèn)為,AGI一定會到來。隨著各種不同算法進(jìn)步,真正算力平臺應(yīng)用場景的建設(shè),越來越多的大模型應(yīng)用場景會得到驗(yàn)證。當(dāng)萬卡集群建立起來,Scaling(擴(kuò)展性)向上,準(zhǔn)確度、精度、IQ能力都在提升的話,就會產(chǎn)生實(shí)際價(jià)值,因此未來的集群建設(shè)會是逐步提升的過程。

雖然暫時(shí)可能無法完全解決全行業(yè)的算力短缺問題,但張建中表示有決心解決大模型領(lǐng)域缺少大算力的問題。摩爾線程將提供提供全功能的通用加速計(jì)算平臺,增加行業(yè)選擇,激發(fā)開發(fā)者的創(chuàng)新潛力,鼓勵(lì)他們探索更廣泛的應(yīng)用場景,以促進(jìn)更多的創(chuàng)新。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
ATXMEGA128A1-CUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PBGA100, 9 X 9 MM, 1.20 MM HEIGHT, 0.80 MM PITCH, GREEN, CBGA-100
$10.58 查看
ATXMEGA256D3-AUR 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64TQFP
$6.07 查看
PIC32MX575F512L-80I/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$8.67 查看
摩爾線程

摩爾線程

摩爾線程致力于創(chuàng)新面向元計(jì)算應(yīng)用的新一代GPU,構(gòu)建融合視覺計(jì)算、3D圖形計(jì)算、科學(xué)計(jì)算及人工智能計(jì)算的綜合計(jì)算平臺,建立基于云原生GPU計(jì)算的生態(tài)系統(tǒng),助力驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展。

摩爾線程致力于創(chuàng)新面向元計(jì)算應(yīng)用的新一代GPU,構(gòu)建融合視覺計(jì)算、3D圖形計(jì)算、科學(xué)計(jì)算及人工智能計(jì)算的綜合計(jì)算平臺,建立基于云原生GPU計(jì)算的生態(tài)系統(tǒng),助力驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費(fèi)電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~