加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1 融合計算的定義
    • 2 KubeCASH簡介
    • 3 特征一:異構(gòu)融合和多元異構(gòu)
    • 4 特征二:從跨集群到跨云邊端
    • 5 特征三:增強算力網(wǎng)絡(luò)
    • 6 特征四:開放的軟硬件接入平臺
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

融合算力調(diào)度:KubeCASH的四大高級特征

09/19 12:10
1591
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

歡迎關(guān)注軟硬件融合:

Kubernetes(K8S)是一個開源的容器編排平臺,是基于容器進(jìn)行算力調(diào)度的核心。AI大模型發(fā)展迅速,K8S對加速計算的支持力度明顯不夠,需要針對加速計算做全方位的優(yōu)化和增強。

KubeCASH,是Kubernetes+CASH(Converged Architecture of Software and Hardware,軟硬件融合架構(gòu))的整合。KubeCASH系統(tǒng),主要從計算架構(gòu)、云邊端協(xié)同、算力網(wǎng)絡(luò)、軟硬件協(xié)同四個方面進(jìn)行了優(yōu)化增強;并且,不僅僅是技術(shù)層面的優(yōu)化,還包含了對產(chǎn)品和業(yè)務(wù)層面的優(yōu)化和支持。

本篇文章,我們詳細(xì)介紹KubeCASH在這四個方面的優(yōu)化。


1 融合計算的定義

算力是一個龐大的系統(tǒng)工程,從軟硬件技術(shù)角度來說,就是要實現(xiàn)融合計算。融合計算指的是,異構(gòu)融合 x 軟硬件融合 x 云邊端融合。

如上圖所示,我們通過XYZ三個維度來進(jìn)一步闡述:

    X軸,異構(gòu)融合:通過異構(gòu)融合計算,把各類異構(gòu)算力和融合算力的價值發(fā)揮到極致。
    Y軸,軟硬件融合:通過核心的開放一致性的跨集群管理系統(tǒng),承上啟下,融合軟硬件堆棧,開源開放。
    Z軸,云邊端融合:跨算力中心、跨不同算力運營商、跨云邊端的融合計算。

只有從微觀到宏觀,實現(xiàn)全方位的整合優(yōu)化,實現(xiàn)融合計算,才能實現(xiàn)算力的最優(yōu)性能和最低成本。

2 KubeCASH簡介

Kubernetes(K8S)是一個開源的容器編排平臺,是基于容器進(jìn)行算力調(diào)度的核心。傳統(tǒng)K8S僅基于CPU優(yōu)化軟件,而針對更多加速計算的支持力度不夠。隨著AI大模型的發(fā)展,加速計算已經(jīng)成為主流,并且加速計算的類型和架構(gòu)會越來越多,K8S已經(jīng)力有不逮。

KubeCASH,則是在K8S基礎(chǔ)上,針對加速計算所需的軟硬件融合(CASH,Converged Architecture of Software and Hardware,軟硬件融合架構(gòu))能力進(jìn)行了優(yōu)化增強,主要表現(xiàn)在如下四個方面:

    (Scale Up,融合計算X軸)在計算的架構(gòu)和芯片方面,增強了對異構(gòu)融合和多元異構(gòu)的支持。
    (Scale Out,融合計算Z軸)在分布式計算方面,增強了對跨集群、跨數(shù)據(jù)中心、跨云邊端協(xié)同計算的支持。
    (算力網(wǎng)絡(luò)增強)技術(shù)層面的算力網(wǎng)絡(luò),關(guān)鍵在于網(wǎng)絡(luò)優(yōu)化;而業(yè)務(wù)層面的算力網(wǎng)絡(luò),是算力行業(yè)逐漸走向分工協(xié)同的發(fā)展趨勢。針對算力網(wǎng)絡(luò),針對客戶業(yè)務(wù)需求,做了相應(yīng)的增強。
    (軟硬件協(xié)同,開源開放,融合計算Y軸)提供南向和北向開放接口,對接各類軟件和硬件。

KubeCASH的核心是算力優(yōu)化,會針對算力的軟硬件持續(xù)優(yōu)化,目標(biāo)是:同成本情況下,算力提升100-1000倍;反過來,同算力情況下,成本降低到1/100以下。

3 特征一:異構(gòu)融合和多元異構(gòu)

算力中心的算力多樣性,主要體現(xiàn)在異構(gòu)融合和多元異構(gòu)兩個方面:

    異構(gòu)融合,關(guān)注的是計算架構(gòu),關(guān)注的CPU、GPU以及多種DSA芯片的更多異構(gòu)之間的協(xié)同計算。而多元異構(gòu),重心在于(同類型)芯片的架構(gòu)多元。以CPU芯片為例,多元異構(gòu)關(guān)注的是x86、ARM以及RISC-v不同架構(gòu)CPU的統(tǒng)一調(diào)度和多架構(gòu)CPU的協(xié)同;以GPU為例,多元異構(gòu)關(guān)注的是NVIDIA GPU及其他架構(gòu)GPU的協(xié)同加速計算。

從計算架構(gòu)的角度,KubeCASH對如下四個類型的計算架構(gòu)進(jìn)行了優(yōu)化支持:

    第一類(K8S默認(rèn)支持),CPU同構(gòu)計算。
    第二類(已完成),CPU+GPU的異構(gòu)協(xié)同。AI是目前最熱點的加速計算,包括TPU在內(nèi)的眾多AI-DSA或AIPU,也是加速計算的重點,KubeCASH也進(jìn)行了增強支持。
    第三類(開發(fā)中),通過SOC(輕量計算)芯片級整合,或主板多芯片(重量計算)服務(wù)器級整合。實現(xiàn)對,包括GPU、AIPU在內(nèi)的,更多加速處理器的支持。
    第四類(長期目標(biāo)),通過SOC芯片級的架構(gòu)重構(gòu),或CPU、GPU、多種加速DSA芯片的芯片級交互優(yōu)化以及定制服務(wù)器優(yōu)化,實現(xiàn)對異構(gòu)融合計算的支持。

實現(xiàn)對多元算力支持的核心在于算力調(diào)度,也就是把最合適的任務(wù)調(diào)度到最合適的計算平臺上去。多元算力調(diào)度最基本的要求是架構(gòu)和功能特征匹配。此外,還需要根據(jù)成本和剩余資源情況等動態(tài)更新優(yōu)先級,從而達(dá)到最優(yōu)的算力調(diào)度。

云計算數(shù)據(jù)中心到AI智算中心,多樣性算力越來越多。多元算力調(diào)度,是智算中心發(fā)展的重要特點之一。并且,多元算力調(diào)度,持續(xù)發(fā)展,未來會形成標(biāo)準(zhǔn)一致的算力調(diào)度平臺,并對算力芯片形成反向約束,所有算力芯片資源按照既定接口接入,而平臺不關(guān)心芯片架構(gòu)實現(xiàn)的差異性。

對智算中心來說,統(tǒng)一標(biāo)準(zhǔn)的多元算力調(diào)度還有一個優(yōu)勢:標(biāo)準(zhǔn)統(tǒng)一的多元算力調(diào)度平臺,智算中心不會被特定平臺“綁架”,“誰性能好、效率高、價格低,就選誰”;沒有了平臺依賴,芯片公司真正“公平競爭”,智算中心不需要為生態(tài)溢價付費。

4 特征二:從跨集群到跨云邊端

目前,邊緣計算的發(fā)展并不是很順利,云邊端協(xié)同計算停留在樣板階段,難以規(guī)?;辉七叾巳诤?,更是遙不可及。我們簡單分析一下問題癥結(jié)所在:

云計算,通常僅關(guān)注到云端服務(wù),無法涉及終端計算和邊緣計算。

終端計算,通常也只能關(guān)注到終端本地。如果需要云端協(xié)作,需要把系統(tǒng)進(jìn)行C/S架構(gòu)劃分,以及各自獨立的終端和云端開發(fā)過程和業(yè)務(wù)運行環(huán)境。并且,系統(tǒng)劃分是靜態(tài)的,無法在運行期間動態(tài)調(diào)整。

如果涉及到邊緣計算,問題就更復(fù)雜了。哪些工作該云端做?哪些工作該邊緣做?哪些工作該終端做?在開發(fā)的早期階段,對如此復(fù)雜的系統(tǒng)架構(gòu)約束,要做好準(zhǔn)確的系統(tǒng)劃分非常困難,發(fā)現(xiàn)問題后修正的代價也很高。并且,云端、邊緣和終端的開發(fā)進(jìn)程和運行環(huán)境都各自獨立,開發(fā)和協(xié)同的成本都非常的高。

要實現(xiàn)跨云邊端的協(xié)同計算,甚至云邊端融合,主要做兩方面事情:

    • 一方面,平臺側(cè)。也就是KubeCASH側(cè)要做的工作:

      1. 把云端、邊緣端和終端的開發(fā)和運行環(huán)境統(tǒng)一;需要把云端、邊緣端和終端的網(wǎng)絡(luò)(靈活)打通,使得三者能夠高效交互(云邊端網(wǎng)絡(luò)優(yōu)化,可歸屬到算力網(wǎng)絡(luò)的范疇,將在算力網(wǎng)絡(luò)章節(jié)進(jìn)行介紹);需要實現(xiàn)跨云邊端(跨集群)的算力調(diào)度,調(diào)度算法需要能夠感知更多需求和更多環(huán)境參數(shù),實現(xiàn)更加精細(xì)化的算力調(diào)度。

另一方面,業(yè)務(wù)側(cè)。業(yè)務(wù)應(yīng)用微服務(wù)化。每個微服務(wù)的重要程度、帶寬、延遲等因素,以及微服務(wù)間的耦合性等因素,都是算力調(diào)度所需的關(guān)鍵參數(shù)。

最終,通過大模型加持的KubeCASH智能化算力調(diào)度,實現(xiàn)業(yè)務(wù)無感的云邊端融合計算。

5 特征三:增強算力網(wǎng)絡(luò)

算力網(wǎng)絡(luò),包含兩層含義:

    一個是技術(shù)層面的算力網(wǎng)絡(luò):指的是通過高速網(wǎng)絡(luò),把更多的算力中心連接起來,統(tǒng)一調(diào)度。更廣泛的,這些算力網(wǎng)絡(luò)包含的算力,既包括大規(guī)模和超大規(guī)模的云端算力中心,也包括中小規(guī)模的邊緣算力中心,還包括各類智能化的海量的終端設(shè)備(算力調(diào)度主要體現(xiàn)在多元算力調(diào)度和跨集群、跨云邊端算力調(diào)度)。
    一個是業(yè)務(wù)層面的算力網(wǎng)絡(luò):指的是算力的統(tǒng)一運營和業(yè)務(wù)接入入口。算力網(wǎng)絡(luò)是傳統(tǒng)云計算發(fā)展到智能云計算時代的一個重要變化,實現(xiàn)了前端和后端的分工:

    1. 后端對應(yīng)算力中心,聚焦算力建設(shè),聚焦算力的低成本;前端對應(yīng)算力運營,聚焦算力落地。對算力客戶來說,技術(shù)的高門檻,使得很多大算力(AI+)的業(yè)務(wù)場景難以落地。算力運營,聚焦幫助算力客戶,實現(xiàn)熱點場景的落地,反過來,才能實現(xiàn)云端和邊緣端算力需求的爆發(fā)式增長。

5.1 技術(shù)層的算力網(wǎng)絡(luò)

云計算有區(qū)域(Region)和可用區(qū)(Available Zone)的概念,以亞馬遜AWS為例,在34個區(qū)域(Region)運營108個可用區(qū)(Available Zone),并計劃在墨西哥等地,增加18個可用區(qū)和6個區(qū)域 。

一個可用區(qū)通常為物理上獨立的機房,然后就近的多個可用區(qū)組成一個區(qū)域。上圖為典型的公有云計算的基于區(qū)域和可用區(qū)的網(wǎng)絡(luò)架構(gòu)示意圖。

網(wǎng)絡(luò),是大模型時代,最大的技術(shù)瓶頸。在傳統(tǒng)的云計算,僅關(guān)注算力中心的網(wǎng)絡(luò)。隨著云邊端進(jìn)一步深度協(xié)同,需要考慮跨云邊端的高性能網(wǎng)絡(luò)解決方案。整體的網(wǎng)絡(luò)架構(gòu),需要從傳統(tǒng)云網(wǎng)絡(luò)架構(gòu),向云邊端網(wǎng)絡(luò)架構(gòu)持續(xù)轉(zhuǎn)變。

5.2 業(yè)務(wù)層的算力網(wǎng)絡(luò)

算力中心,是位于后端的算力生產(chǎn)工廠;算力運營,是位于前端的算力銷售平臺;算力客戶,可以從算力工廠直接批發(fā),也可以從算力運營平臺獲取更多優(yōu)質(zhì)的算力服務(wù)。

以算力需求方(企業(yè)側(cè))為例。傳統(tǒng)的超融合,僅關(guān)注企業(yè)私有云;后來興起了MSP系統(tǒng),則在私有云基礎(chǔ)上加入了公有云算力的接入。而KubeCASH提供了更加豐富的算力資源屬性管理:

    (傳統(tǒng)的)企業(yè)自建自用,也就是私有云集群資源;(新型的)企業(yè)自建閑置資源,可以加入算力網(wǎng)絡(luò)。變支出為收益,為企業(yè)降本增效;(傳統(tǒng)的)類似MSP,支持公有云算力資源接入;(新型的)對接各大主流算力網(wǎng)絡(luò),算力資源來源各大算力網(wǎng)絡(luò),算力的類型也不僅僅局限于云端,也包括邊緣和終端算力;(創(chuàng)新的)終端算力接入。終端算力納管,通過云邊端協(xié)同,支持企業(yè)海量終端算力需求的場景落地。

因此,相比傳統(tǒng)的MSP企業(yè)云管理,KubeCASH升級成了企業(yè)云邊端管理。KubeCASH,針對算力網(wǎng)絡(luò)三方(算力中心、算力運營和算力客戶),提供相應(yīng)的技術(shù)和業(yè)務(wù)支持。

算力中心

      1. 算力中心業(yè)務(wù)分析:核心競爭力在于給用戶提供更低成本的算力。KubeCASH技術(shù)支撐:挖掘算力價值,降低算力成本;軟硬件綜合解決方案,算力數(shù)量級提升。? ?KubeCASH業(yè)務(wù)對接:算力營銷,一鍵接入主流算力網(wǎng)絡(luò),拓展更多商機;算力對接,為算力客戶,推薦相關(guān)算力中心算力。

算力運營

      1. 算力運營業(yè)務(wù)分析:為輕型云計算公司,沒有自建算力中心基礎(chǔ)設(shè)施;需要海量低成本算力接入;需要實現(xiàn)算力價值最大化;還涉及PaaS,以及各類幫助客戶業(yè)務(wù)落地的解決方案。KubeCASH技術(shù)支撐:算力云PaaS服務(wù)體系;行業(yè)+場景+AI大模型+軟硬件的綜合解決方案;支持算力運營商特色解決方案定制開發(fā)。KubeCASH業(yè)務(wù)對接:算力資源,協(xié)助對接優(yōu)質(zhì)算力中心資源,確保技術(shù)棧兼容和高效協(xié)同;算力客戶,作為第三方ISV,協(xié)助算力運營平臺,支持算力客戶業(yè)務(wù)落地。

算力客戶

    1. 業(yè)務(wù)分析:需要海量、優(yōu)質(zhì)、多樣、低成本的算力;需要支撐業(yè)務(wù)的企業(yè)云邊端管理平臺,以及云邊端場景落地的各類解決方案。KubeCASH技術(shù)支撐:支持多類型集群的新一代企業(yè)云邊端管理平臺;低成本的邊緣和終端硬件解決方案;云邊端融合方案,解決終端算力瓶頸問題;打通軟硬件壁壘,加速企業(yè)大算力業(yè)務(wù)場景的規(guī)?;涞亍ubeCASH業(yè)務(wù)對接:算力采購,幫助用戶獲取海量、優(yōu)質(zhì)、多樣、極低成本的算力,幫助用戶優(yōu)選最合適的算力資源。

6 特征四:開放的軟硬件接入平臺

國內(nèi)的許多智算中心建設(shè)運營,有兩個誤區(qū):

    第一個誤區(qū),算力芯片來源單一。選擇某家芯片公司的芯片,此芯片對業(yè)務(wù)場景的覆蓋情況,就成了制約智算中心業(yè)務(wù)發(fā)展的最大“短板”。此外,選擇單一平臺,智算中心對芯片公司形成依賴,會掣肘自身的發(fā)展;我們的建議是,最好是形成芯片平臺無關(guān)的智算中心多樣性算力的調(diào)度和運營平臺。
    第二個誤區(qū),對場景的支持,受大客戶牽引。智算中心,即使支持了某個特定客戶的某個場景,不一定能支持其他客戶的類似場景,更無法做到對其他客戶的其他場景的支持。我們的建議是,這里需要形成一個標(biāo)準(zhǔn)規(guī)范。這個標(biāo)準(zhǔn)誰來定?最好是開源軟件(生態(tài))來定。(因為,包括國際國內(nèi)各個互聯(lián)網(wǎng)大廠的業(yè)務(wù)系統(tǒng),絕大部分都是基于開源系統(tǒng),或基于開源系統(tǒng)優(yōu)化。)

KubeCASH的核心是異構(gòu)算力調(diào)度,它承上啟下:

    • 對下,不需要關(guān)心芯片的各種差異性,只要有開放的算力調(diào)度平臺,就可以實現(xiàn)各類芯片的輕松接入。

      1. KubeCASH提供開放的南向接口,對接主流的大廠的芯片,如x86 CPU、ARM CPU、NVIDIA GPU等。對于其他芯片公司的芯片,平臺方和芯片廠家可以建立深度合作關(guān)系,把其他的GPU/AI算力芯片逐步接入。在此基礎(chǔ)上,形成統(tǒng)一的、開放的南向接口和架構(gòu)規(guī)范,從而支持更多硬件的接入。

對上,也不需要擔(dān)心智算中心的硬件是否能夠匹配客戶的業(yè)務(wù)場景。開放的算力調(diào)度平臺決定了,能夠?qū)崿F(xiàn)對絕大部分場景的支持。

    1. 對接主流的開源軟件,包括基礎(chǔ)設(shè)施層軟件如Linux、 KVM、Kubernetes、CNCF軟件、OVS、Ceph、DPDK/SPDK等,也包括計算框架如CUDA、ROCm等,還包括領(lǐng)域框架如PyTorch、TensorFlow等,以及其他各類主流開源框架。因此,以開源軟件為基礎(chǔ),KubeCASH提供統(tǒng)一的、開放的北向接口,提供開放的業(yè)務(wù)應(yīng)用軟件接入API規(guī)范,支持更多的客戶自研軟件接入。

(正文完)

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。