旋风孝子,父女恋

金磊夢(mèng)晨發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

當(dāng)電信網(wǎng)絡(luò)用上了大模型，會(huì)是一種什么體驗(yàn)？

以前網(wǎng)絡(luò)上若是出了問題，運(yùn)維人員需得是先靠著經(jīng)驗(yàn)反復(fù)排查，找到了“病根”再“對(duì)癥下藥”。

而現(xiàn)在有了大模型，這事兒的“打開方式”就變得截然不同了。

首先，網(wǎng)絡(luò)上若是出現(xiàn)了問題，大模型已經(jīng)學(xué)會(huì)自己去找“病根”了，然后會(huì)把它的判斷結(jié)果呈現(xiàn)到運(yùn)維人員的面前。

若是結(jié)果跟運(yùn)維人員的診斷一致，那么OK，“啪的一下”，問題就可以快速得到解決。

其次，即使診斷結(jié)果有所偏差或者描述不夠詳細(xì)，運(yùn)維人員現(xiàn)在也只需做一個(gè)動(dòng)作——問。

大模型不僅會(huì)像一位領(lǐng)域?qū)＜?/strong>一樣，憑借專業(yè)且豐厚的知識(shí)，對(duì)人類提出的問題做詳盡的解答；更重要的是，它還非常得快。

業(yè)界一般認(rèn)為文本生成延時(shí)小于100毫秒是人類覺得較為舒適的閾值，而這個(gè)大模型它的生成速度則是：

首字符時(shí)延在1秒以內(nèi)，生成延時(shí)在50毫秒左右。

因此，即使面對(duì)再多再?gòu)?fù)雜的問題，運(yùn)維人員工作的感覺就好比旁邊有一位“高人”在現(xiàn)場(chǎng)指導(dǎo)一樣了。

值得一提的是，這個(gè)網(wǎng)絡(luò)大模型并不只是個(gè)現(xiàn)象級(jí)產(chǎn)品，而是已經(jīng)實(shí)實(shí)在在的做到了“上崗”。

據(jù)悉，某電信運(yùn)營(yíng)商已經(jīng)在全國(guó)31個(gè)省將它鋪開應(yīng)用，日均調(diào)用量高達(dá)10萬次！

也正因如此，就在剛剛落幕的第二屆“華彩杯”算力大賽·智能計(jì)算專題賽中，它還拿下了一等獎(jiǎng)的好成績(jī)，是獲得了官方認(rèn)證的那種。

另外，方案白皮書《中國(guó)電信攜英特爾積極探索基于至強(qiáng)??CPU 平臺(tái)的網(wǎng)絡(luò)大模型推理算力方案》也在中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)CCSA TC610、歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)ENI產(chǎn)業(yè)標(biāo)準(zhǔn)組主辦的云網(wǎng)運(yùn)營(yíng)自智與網(wǎng)絡(luò)大模型技術(shù)研討會(huì)上正式發(fā)布。

那么接下來，我們就來進(jìn)一步深入了解一下這個(gè)網(wǎng)絡(luò)大模型。

當(dāng)大模型“上崗”電信網(wǎng)絡(luò)

就目前“上崗”的結(jié)果來看，該電信運(yùn)營(yíng)商的各級(jí)運(yùn)維人員均已接入網(wǎng)絡(luò)大模型。

正如我們剛才提到的，他們運(yùn)維的方式已經(jīng)產(chǎn)生了實(shí)質(zhì)性的改變——

專業(yè)知識(shí)問答、信息篩選、總結(jié)信息等等，統(tǒng)統(tǒng)交給大模型來處理即可。

不僅如此，在網(wǎng)絡(luò)規(guī)劃方面，網(wǎng)絡(luò)大模型也在發(fā)揮著作用。

它的推理輸出結(jié)果已經(jīng)涵蓋了網(wǎng)絡(luò)建設(shè)、網(wǎng)絡(luò)維護(hù)、網(wǎng)絡(luò)優(yōu)化和運(yùn)營(yíng)決策等場(chǎng)景。

基層運(yùn)維人員通過這些結(jié)果，就可以實(shí)現(xiàn)精準(zhǔn)理解與分析規(guī)則、自動(dòng)規(guī)則核查；同時(shí)，網(wǎng)絡(luò)大模型提供的專業(yè)領(lǐng)域?qū)I(yè)知識(shí)，還可以幫助電信行業(yè)方案分析與生成。

或許有小伙伴就要問了，這和市面上的眾多大模型問答產(chǎn)品又有什么區(qū)別呢？

重點(diǎn)就在于夠垂直。

網(wǎng)絡(luò)大模型作為行業(yè)的“專家”，它所提供的答案是可以深入理解運(yùn)維人員的用戶需求和意圖的，因此生成的答案和知識(shí)更精準(zhǔn)、更個(gè)性化。

生成內(nèi)容是夠?qū)I(yè)了，接下來我們就要聊聊速度的問題。

眾多的運(yùn)維場(chǎng)景都屬于邊緣端，也正因如此，就會(huì)對(duì)數(shù)據(jù)在邊側(cè)的即時(shí)響應(yīng)速度提出了較高的要求。

畢竟若是等大模型生成答案還要好幾分鐘，那么對(duì)于運(yùn)營(yíng)商網(wǎng)絡(luò)故障修復(fù)來說就成了臃腫的包袱。

對(duì)此，該電信運(yùn)營(yíng)商的“解法”是：

使用滿足OTII標(biāo)準(zhǔn)（邊緣硬件產(chǎn)業(yè)的新標(biāo)桿）的邊緣服務(wù)器。

邊緣服務(wù)器的部署環(huán)境要求要比數(shù)據(jù)中心高，有時(shí)甚至需要部署在一些極端的惡劣情況下。

這意味著邊緣服務(wù)器需要在功耗、體積、耐用性、 TCO 等方面符合特定的要求，能夠在極端高低溫、灰塵、腐蝕、震動(dòng)沖擊、電磁干擾下保持設(shè)備的正常運(yùn)行。

而該電信運(yùn)營(yíng)商所采用的OTII服務(wù)器部署在邊緣場(chǎng)景下就具備了相對(duì)的優(yōu)勢(shì)，例如針對(duì)環(huán)境適應(yīng)的問題，它可以在高溫55°以下工作。

除此之外，它還支持IP65，符合EMC ClassB設(shè)計(jì)，支持9級(jí)地震烈度，機(jī)身小巧，有1U/2U/4U等多種型號(hào)，支持掛墻安裝等等。

不僅如此，服務(wù)器還支持前維護(hù)，適應(yīng)邊緣的運(yùn)維需求，該電信運(yùn)營(yíng)商大量的邊緣機(jī)房無需任何改造，就可以部署基于OTII標(biāo)準(zhǔn)的標(biāo)準(zhǔn)服務(wù)器。

也正因?yàn)樵谌绱?，便讓?shù)據(jù)的及時(shí)交互和響應(yīng)有了強(qiáng)有力的安全保障。

其生成速度也正如剛才所述，已經(jīng)達(dá)到了首字符時(shí)延在1秒以內(nèi)，生成時(shí)延在50毫秒左右，可以滿足大模型推理的功能和性能需求。

就目前來看，網(wǎng)絡(luò)大模型已覆蓋網(wǎng)絡(luò)“規(guī)、建、維、優(yōu)、營(yíng)”全生命周期五大類場(chǎng)景，圍繞知識(shí)問答、輔助助手、智能體三個(gè)維度，已經(jīng)打造了12個(gè)AI助手。

據(jù)悉，該電信運(yùn)營(yíng)商網(wǎng)絡(luò)大模型已實(shí)現(xiàn)問答準(zhǔn)確率85%、方案生成可用率90%、故障處置效率提升30%、高危指令稽核效率提升50%的總體目標(biāo)。

由此可見，網(wǎng)絡(luò)大模型已然是一個(gè)合格有效且可放心“上崗”的AI了。

而在它能夠做到“夠快、夠準(zhǔn)”的背后，該電信運(yùn)營(yíng)商還有一個(gè)殺手锏——

在背后起關(guān)鍵作用的算力“馬達(dá)”，某電信運(yùn)營(yíng)商pick的是CPU。

Why CPU？

從上述”網(wǎng)絡(luò)”大模型的應(yīng)用流程可以看到，模型推理是至關(guān)重要的一個(gè)環(huán)節(jié)，它直接決定了故障定位、處置方案的生成速度和準(zhǔn)確率。

而這恰恰是CPU大顯身手的”主場(chǎng)”。

從電信行業(yè)本身的特點(diǎn)來說，歷來整個(gè)系統(tǒng)中就有大量的CPU存量，無需引入全新的異構(gòu)架構(gòu)，而是繼續(xù)采用成熟的CPU方案，對(duì)電信行業(yè)來說有幾大優(yōu)勢(shì)：

減少采購(gòu)環(huán)節(jié)，降低總擁有成本。

該電信運(yùn)營(yíng)商作為全球規(guī)模最大的通信運(yùn)營(yíng)商之一，其網(wǎng)絡(luò)中部署著數(shù)以百萬計(jì)的X86服務(wù)器。這些服務(wù)器往往還處于使用周期內(nèi)，完全可以通過軟件升級(jí)的方式，快速實(shí)現(xiàn)大模型的部署與應(yīng)用。相比重新采購(gòu)新的硬件設(shè)備，這種方式可以大幅降低前期投入，提高投資回報(bào)率。

電信行業(yè)對(duì)系統(tǒng)穩(wěn)定性要求更高。

電信業(yè)務(wù)覆蓋范圍廣，涉及社會(huì)運(yùn)行方方面面，從醫(yī)療救援到金融交易等等，對(duì)連續(xù)性要求極高，輕微故障也會(huì)直接影響客戶體驗(yàn)?，F(xiàn)代通信網(wǎng)絡(luò)又是全球最復(fù)雜的工程系統(tǒng)之一，一處小小的異常都可能引發(fā)連鎖反應(yīng)，影響整網(wǎng)運(yùn)轉(zhuǎn)。而以X86平臺(tái)為代表的英特爾CPU架構(gòu)安全和穩(wěn)定性經(jīng)過幾十年的積累和驗(yàn)證，經(jīng)得起考驗(yàn)。

已建立成熟的運(yùn)維技術(shù)團(tuán)隊(duì)。

作為ICT領(lǐng)域的傳統(tǒng)企業(yè)，該電信運(yùn)營(yíng)商擁有一支規(guī)模龐大、經(jīng)驗(yàn)豐富的IT技術(shù)團(tuán)隊(duì)。這些工程師、運(yùn)維人員，對(duì)英特爾CPU的微架構(gòu)、指令集、調(diào)優(yōu)工具等都有著深入的理解和掌握。繼續(xù)采用CPU部署大模型無需太多學(xué)習(xí)和培訓(xùn)成本，大大降低了新技術(shù)的采用門檻。

具體到CPU產(chǎn)品的選型，“網(wǎng)絡(luò)”大模型方案使用第五代英特爾??至強(qiáng)??可擴(kuò)展處理器作為算力核心，來應(yīng)對(duì)高強(qiáng)度、高并發(fā)的大模型推理需求。

首先,第五代英特爾??至強(qiáng)??可擴(kuò)展處理器配備了更多的處理器內(nèi)核數(shù)量、更強(qiáng)的單核性能和更大的三級(jí)緩存（LLC）容量。尤其是LLC容量的提升,使得大多數(shù)模型參數(shù)能夠直接駐留其中,從而大幅提升推理速度。此外,每路處理器還支持多達(dá)8個(gè)DDR5-4800內(nèi)存通道,能夠有效緩解高內(nèi)存需求場(chǎng)景下的帶寬瓶頸。

更重要的是,第五代至強(qiáng)??還內(nèi)置了多個(gè)專用于AI加速的引擎。特別是英特爾??AMX(高級(jí)矩陣擴(kuò)展)，采用分塊矩陣乘法的創(chuàng)新方式,通過Tile矩陣乘法單元(TMUL)對(duì)數(shù)據(jù)實(shí)施矩陣運(yùn)算。并且AMX支持INT8、BF16等低精度數(shù)據(jù)類型,在保證精度的前提下顯著提高每時(shí)鐘周期的指令數(shù)。

軟件方面，方案還引入了一系列英特爾AI工具來進(jìn)一步釋放硬件潛力。

例如,英特爾開源的分布式推理優(yōu)化框架xFastTransformer（xFT），可基于至強(qiáng)??平臺(tái)的指令集實(shí)現(xiàn)張量并行、流水線并行等多種性能優(yōu)化，并支持 BF16、INT8、INT4等多種數(shù)據(jù)類型以及多種主流大模型。

這些AI 軟件工具實(shí)現(xiàn)了對(duì)主流AI開發(fā)框架的全面兼容，使得網(wǎng)絡(luò)大模型無需修改代碼即可從GPU遷移到CPU，真正實(shí)現(xiàn)“一次編寫，隨處部署”。

此外,得益于CPU的能效優(yōu)勢(shì),采用第五代至強(qiáng)??方案還能顯著降低模型運(yùn)營(yíng)的能耗成本。數(shù)據(jù)顯示,第五代至強(qiáng)??的開箱即用能耗比較上一代提升高達(dá)34%,啟用BIOS優(yōu)化后還可進(jìn)一步提高。

除了對(duì)CPU本身的選擇，網(wǎng)絡(luò)大模型由于需要部署到生產(chǎn)一線，有時(shí)甚至需要在極端惡劣環(huán)境部署，對(duì)于整個(gè)服務(wù)器的要求非常高。

為了更好地滿足業(yè)務(wù)需求并提升使用體驗(yàn)，該電信運(yùn)營(yíng)商選用了符合OTII標(biāo)準(zhǔn)的邊緣服務(wù)器。

OTII標(biāo)準(zhǔn)由英特爾聯(lián)合中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)、該電信運(yùn)營(yíng)商等企業(yè)共同制定，滿足電信邊緣場(chǎng)景對(duì)開放性、可擴(kuò)展性的要求，涵蓋了服務(wù)器外形、散熱、電源、管理等各方面的規(guī)范，在功耗、體積、耐用性等方面符合特定要求，能在極端高低溫、灰塵、腐蝕、震動(dòng)沖擊、電磁干擾等情況下保持運(yùn)行。

由此可見,選擇CPU進(jìn)行網(wǎng)絡(luò)大模型推理部署,已被該電信運(yùn)營(yíng)商這樣的大型企業(yè)實(shí)際驗(yàn)證。這既是出于技術(shù)成熟度與穩(wěn)定性的考量,更契合了企業(yè)客觀的IT環(huán)境與人才儲(chǔ)備。

該電信運(yùn)營(yíng)商的實(shí)踐表明，在時(shí)延、吞吐、功耗等關(guān)鍵指標(biāo)上，CPU不僅可以滿足嚴(yán)苛的業(yè)務(wù)需求，借助軟硬件的聯(lián)合優(yōu)化，推理成本也大幅下降。

特別是該方案還在2024 華彩杯取得好成績(jī)，為大模型在更多場(chǎng)景應(yīng)用打造了一個(gè)標(biāo)桿。該電信運(yùn)營(yíng)商和英特爾的合作模式，也成為一個(gè)可以值得借鑒的“范本”。

隨著未來技術(shù)發(fā)展，大模型還會(huì)深入走進(jìn)更多行業(yè)，需要在性能、功耗、成本、易用性等多方面實(shí)現(xiàn)最佳平衡。

總的來說，CPU在AI推理加速上仍然大有可為。

最后讓我們打個(gè)小廣告：為了科普CPU在AI推理新時(shí)代的玩法，量子位開設(shè)了《最“in”AI》專欄，將從技術(shù)科普、行業(yè)案例、實(shí)戰(zhàn)優(yōu)化等多個(gè)角度全面解讀。

我們希望通過這個(gè)專欄，讓更多的人了解CPU在AI推理加速，甚至是整個(gè)AI平臺(tái)或全流程加速上的實(shí)踐成果，重點(diǎn)就是如何更好地利用CPU來提升大模型應(yīng)用的性能和效率。