他的昂扬对准她湿润的入口,法国小仆女hd中字

金磊發(fā)自凹非寺，量子位 | 公眾號 QbitAI

算力基礎(chǔ)設(shè)施建設(shè)，北京市有了最新的大動作——《北京市算力基礎(chǔ)設(shè)施建設(shè)實施方案（2024-2027年）》。

其中，《方案》在“保障措施”中提出了對企業(yè)利好的辦法：對采購自主可控GPU芯片開展智能算力服務(wù)的企業(yè)，按照投資額的一定比例給予支持，加速實現(xiàn)智算資源供給自主可控。

對主動進行綠色節(jié)能改造的存量數(shù)據(jù)中心，按照投資額的一定比例給予支持。

對企業(yè)擴大資金的舉措，意在提升人工智能算力券政策效能，鼓勵企業(yè)用好智能算力資源，加快推動大模型賦能行業(yè)應(yīng)用。

除此之外，在《方案》的規(guī)劃目標(biāo)中，也釋放出了一個重要的信號——智算資源供給集群化：

改變智算建設(shè)“小、散”局面，集中建設(shè)一批智算單一大集群。

到2025年，本市智算供給規(guī)模達到45EFLOPS，2025-2027年根據(jù)人工智能大模型發(fā)展需要和國家相關(guān)部署進一步優(yōu)化算力布局。

為何會如此？這就要結(jié)合當(dāng)下算力市場的需求和供給展開來看了。

一方面，自從ChatGPT問世引爆AIGC以來，大模型的數(shù)量可謂是極速增長，單是北京這一座城市，就已經(jīng)擁有122家大模型創(chuàng)新團隊，約占全國的一半，大模型數(shù)量更是居全國首位。對于算力市場的需求之大可見一斑。

不僅如此，隨著Sora、Suno等應(yīng)用的問世，大模型的發(fā)展已然加速駛?cè)?strong>多模態(tài)階段，AI算力的需求在Scaling Law為主旋律的當(dāng)下還會持續(xù)上漲。

另一方面，AIGC誠然帶火了“N卡”，但目前著眼于全球已然是一卡難求的態(tài)勢，并且因稀缺導(dǎo)致其價格日益水漲船高。

而且單從GPU的性能角度來看，即便是英偉達也只能接受加速計算到達了臨界點的事實，算力供給方需要另一種方式來進行計算——

通過芯片與芯片間的連接技術(shù)，一步步構(gòu)建出大型AI大規(guī)模算力集群。

聚焦到國內(nèi)，其實這種“集群”模式也已經(jīng)緊鑼密鼓地在展開，國內(nèi)已有不少廠商在不斷探索和實踐，例如云計算巨頭華為云、AI芯片公司摩爾線程等等。

以摩爾線程為例，就在前不久他們發(fā)布了名為夸娥（KUAE）的智算集群解決方案，旨在以一體化交付的方式解決大規(guī)模GPU算力的建設(shè)和運營管理問題，可以大幅降低傳統(tǒng)算力建設(shè)、應(yīng)用開發(fā)和運維運營平臺搭建的時間成本。

從這一點來看，國內(nèi)市場算力的發(fā)展是與《方案》所提出的“智算資源供給集群化”是相契合的，也從側(cè)面印證著國產(chǎn)GPU智算集群已經(jīng)到了勢在必行的階段。

然而，路線雖已清晰，但在實踐過程當(dāng)中，尤其是GPU數(shù)量達到千卡甚至萬卡時，集群落地并非是件易事。

那么難點都有什么？國產(chǎn)GPU又是如何應(yīng)對的？我們繼續(xù)往下看。

千卡GPU集群落地痛點

首先我們需要了解GPU集群在實際落地過程中的規(guī)模會達到什么量級。

以Llama 3為例，在它問世之際，Meta就公布了其基礎(chǔ)設(shè)施詳情：

我們在兩個定制的24K GPU集群上做訓(xùn)練。

與之類似的，馬斯克的Grok 2據(jù)悉訓(xùn)練已經(jīng)用了20000張H100，Grok 3更是傳出需要驚人的100000張；即使是參數(shù)量僅為30億的Sora，GPU的數(shù)量也估算在4200至10500張之間。

而事實上，當(dāng)下要滿足一些基礎(chǔ)模型的算力需求，千卡集群已然是標(biāo)配一樣的存在；這不僅僅是因為千卡是大集群的基本單元，更是因為百卡或更小規(guī)模的GPU數(shù)量往往滿足不了大模型訓(xùn)練需求，只能是實驗性的。

但智算集群中GPU的數(shù)量也還只是一方面，之于GPU本身，在諸如訓(xùn)練大模型等落地過程中的難點也是不少。

因為建設(shè)集群本身還是一個非常復(fù)雜的系統(tǒng)性工程，它不僅是堆GPU這么簡單，從一個GPU到一個服務(wù)器，再到把它們組成群，期間包含了硬件的網(wǎng)絡(luò)、存儲、軟件、再到大模型調(diào)度等各種細節(jié)因素，均會影響到集群的最終性能。

例如同樣是Llama 3，Meta在介紹基礎(chǔ)設(shè)施的時候還提到了一個關(guān)鍵信息：

當(dāng)在16K GPU上同時訓(xùn)練時，我們有效地實現(xiàn)了每個GPU超過400 TFLOPS的計算利用率。

若是每張卡的利率用不夠高，很顯然就會降低最終智算集群的效率。

再如分布式訓(xùn)練過程中，一張卡壞掉就會影響整體的訓(xùn)練，對于千卡甚至更大規(guī)模的集群來說，這種情況出現(xiàn)的概率就會更高；因此對于千卡集群的穩(wěn)定性和可靠性也提出了極高的要求。

聚焦到國產(chǎn)智算集群，還需得具備可以兼容主流GPU軟件的能力（例如CUDA），由此才能應(yīng)對更多且日新月異的主流大模型任務(wù)。

……

一言蔽之，構(gòu)建千卡智算集群難，構(gòu)建國產(chǎn)千卡智算集群難上加難。

如何破局？

雖說困境重重，但也正如上文所言，摩爾線程已經(jīng)在探索與實踐，并且他們在構(gòu)建千卡智算集群這件事上也已交出了“高分作業(yè)”。

我們不妨以摩爾線程的夸娥（KUAE）智算中心解決方案為例，來看下構(gòu)建國產(chǎn)GPU智算集群的破局之道。

整體來看，夸娥（KUAE）智算中心解決方案是一個以全功能GPU為底座，軟硬件一體化的全棧的解決方案。

之所以叫做全棧，是因為夸娥的能力是觸及到了構(gòu)建GPU智算集群中的方方面面，包括最底層的基礎(chǔ)設(shè)施建設(shè)、中間層的智算集群管理，以及上層的大模型服務(wù)。

首先來看基礎(chǔ)設(shè)施。

從內(nèi)容上來看主要包含夸娥（KUAE）計算集群、RDMA網(wǎng)絡(luò)與分布式存儲三大方面。據(jù)了解，其建設(shè)周期只需30天，可支持千億參數(shù)模型的預(yù)訓(xùn)練、微調(diào)和推理，可實現(xiàn)高達91%的千卡集群性能擴展系數(shù)。

并且基于大規(guī)模智算加速卡MTT S4000和雙路8卡GPU服務(wù)器MCCX D800的能力，夸娥集群還支持從單機多卡到多機多卡，從單卡到千卡集群的無縫擴展。

據(jù)悉未來將推出更大規(guī)模的集群，以滿足更大規(guī)模的大模型訓(xùn)練需求。

其次是集群管理平臺。

這一軟硬件一體化平臺主要是用于AI大模型訓(xùn)練、分布式圖形渲染、流媒體處理和科學(xué)計算等工作，深度集成全功能GPU計算、網(wǎng)絡(luò)和存儲，提供高可靠、高算力服務(wù)。

通過這個平臺，用戶可靈活管理多數(shù)據(jù)中心、多集群算力資源，集成多維度運維監(jiān)控、告警和日志系統(tǒng)，幫助智算中心實現(xiàn)運維自動化。

最后是模型服務(wù)。

覆蓋了大模型預(yù)訓(xùn)練、微調(diào)和推理全流程，支持所有主流開源大模型。通過摩爾線程MUSIFY開發(fā)工具，可以輕松復(fù)用CUDA應(yīng)用生態(tài)，內(nèi)置的容器化解決方案，則可實現(xiàn)API一鍵部署。

這個平臺意在提供大模型生命周期管理，通過簡潔、易操作的交互界面，用戶可按需組織工作流，大幅降低大模型的使用門檻。

那么實際效果如何？

據(jù)了解，摩爾線程目前已經(jīng)支持了包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等在內(nèi)的各類主流大模型的訓(xùn)練和微調(diào)：

以200B訓(xùn)練數(shù)據(jù)量為例，智源研究院70B參數(shù)Aquila2可在33天完成訓(xùn)練

1300億參數(shù)規(guī)模的模型可在56天完成訓(xùn)練

至于剛才提到的千卡GPU集群落地難的種種細節(jié)，摩爾線程也有自己的應(yīng)對策略。

例如在提高集群算力利用率這件事上，摩爾線程采用軟硬件協(xié)同設(shè)計和端到端的并行策略，通過對集群通信庫的算法、網(wǎng)絡(luò)拓撲和硬件的規(guī)格進行精心設(shè)計與配置，實現(xiàn)了高度的集群兼容性。

具體到技術(shù)，則是綜合利用了MTLink和PCIe，使得通訊性能提升一倍，綜合調(diào)優(yōu)下MFU提升幅度超過50%。

在穩(wěn)定性方面，摩爾線程在根兒上先保證GPU的質(zhì)量，從卡出廠開始便進行多項嚴(yán)格的檢測。

其后，摩爾線程還開發(fā)了集群系統(tǒng)監(jiān)控和診斷工具，有助于篩選和快速定位到有問題的卡和服務(wù)器，可以自動恢復(fù)和硬件替換。

并且結(jié)合異步檢查點（Checkpoint）加速，寫的時間從10分鐘降到秒級，讀的速度從40分鐘降到2分鐘；即使是遇到訓(xùn)練異常，系統(tǒng)也可以自動重新拉起。

在可擴展性方面，夸娥目前已經(jīng)支持了包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內(nèi)的業(yè)界主流分布式框架。

除此之外，還融合了多種并行算法策略，包括數(shù)據(jù)并行、張量并行、流水線并行和ZeRO，且針對高效通信計算并行和Flash Attention做了額外優(yōu)化。

最后，在兼容性方面，摩爾線程代碼移植Musify工具，可快速將現(xiàn)有的主流遷移至MUSA，零成本完成CUDA代碼自動移植。

借助摩爾線程元計算統(tǒng)一系統(tǒng)架構(gòu)MUSA，用戶還可以復(fù)用PyTorch開源社區(qū)的大量模型算子，降低開發(fā)成本。

整體而言，摩爾線程的夸娥智算集群全棧方案的優(yōu)勢可以歸結(jié)為八點，即：覆蓋主流大模型、兼容CUDA等主流生態(tài)、斷點續(xù)訓(xùn)、大語言模型分布式訓(xùn)練、加速推理、高性能通信、高性能存儲，以及高可靠性。

它就像把所有復(fù)雜的方案打包成了一把鑰匙，交付到用戶手上開箱即用。

而且摩爾線程的夸娥（KUAE）智算集群解決方案不只是說說那么簡單，是已經(jīng)做到了上崗。

據(jù)了解，夸娥目前已經(jīng)完成了三個千卡智算集群的落地，分別位于北京亦莊、北京密云和南京。

不僅如此，摩爾線程仍在持續(xù)譜寫著“打造國產(chǎn)GPU集群”的篇章。

就在前不久，摩爾線程與清華系創(chuàng)業(yè)公司無問芯穹達成合作，成為第一家接入無問芯穹并成功完成千卡級別大模型訓(xùn)練的國產(chǎn)GPU公司。雙方聯(lián)合推進基于夸娥（KUAE）千卡智算集群的“MT-infini-3B”合作大模型實訓(xùn)，目前性能已在同規(guī)模模型中躋身前列。

并且無問芯穹CEO公開肯定了夸娥（KUAE）的實力：

經(jīng)驗證，摩爾線程夸娥千卡智算集群在性能、穩(wěn)定性、易用性和算力利用率上均有優(yōu)異表現(xiàn)，可以為千億參數(shù)級別大模型訓(xùn)練提供持續(xù)高效的高性能算力支持。

由此可見，摩爾線程的夸娥千卡智算集群是得到了實踐驗證的那種，那么最后一個問題便是：為什么是摩爾線程能率先落地？

其實早在2022年的時候，團隊便已經(jīng)設(shè)定了建集群的大方向與策略，這是因為當(dāng)時A100算力也是處于緊缺的狀態(tài)，國內(nèi)市場急需能夠替代它的產(chǎn)品。

從GPU功能情況來看，摩爾線程是在唯一可以對標(biāo)英偉達的國產(chǎn)GPU企業(yè)，雖然單芯片性能還有差距，但若是集成起來便可解決單一性的不足。

而隨著2023年大模型的火爆，這種GPU集群式的方向就顯得更加正確，畢竟黃仁勛在發(fā)布B200之際就表示“我們需要更大的GPU，如果不能更大，就把更多GPU組合在一起，變成更大的虛擬GPU”。

因此，現(xiàn)在回頭再看摩爾線程當(dāng)時的策略和決定，確實是具備前瞻性的。

總而言之，有實力，有技術(shù)，有戰(zhàn)略，也有成績，摩爾線程還將在國產(chǎn)GPU的發(fā)展道路上帶來怎樣的驚喜，是值得期待了。

參考鏈接：
[1]https://www.mthreads.com/product/KUAE
[2]https://jxj.beijing.gov.cn/zwgk/zcjd/202404/t20240425_3637629.html
[3]https://ai.meta.com/blog/meta-llama-3/

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
ATXMEGA64D3-MH	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 64QFN		$13.15	查看
STM32F205RCT6	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 120 MHz CPU, ART Accelerator	ECAD模型下載ECAD模型	$27.28	查看
ATMEGA128A-MU	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 16MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, QFN-64	ECAD模型下載ECAD模型	$5.69	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

ATXMEGA64D3-MH

Microchip Technology Inc

IC MCU 8BIT 64KB FLASH 64QFN