加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 關(guān)于“邃思2.0”
    • 關(guān)于“云燧T20”訓(xùn)練加速卡和“云燧T21”訓(xùn)練OAM模組
    • 關(guān)于“馭算TopsRider”軟件平臺(tái)以及“云燧集群”
    • 寫在最后
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

國(guó)內(nèi)首發(fā)第二代訓(xùn)練芯片,“邃思2.0”單精度張量TF32突破160T FLOPS

2021/07/08
998
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

近日,燧原科技發(fā)布了第二代人工智能訓(xùn)練產(chǎn)品——“邃思2.0”芯片,和邃思2.0一同發(fā)布的還有基于邃思2.0的“云燧T20”訓(xùn)練加速卡和“云燧T21”訓(xùn)練OAM模組,全面升級(jí)的“馭算TopsRider”軟件平臺(tái)以及全新的“云燧集群”。

關(guān)于“邃思2.0”

作為國(guó)內(nèi)首發(fā)的第二代人工智能訓(xùn)練產(chǎn)品,邃思2.0采用Global Foundries的12nm FinFET工藝,挑戰(zhàn)日月光2.5D封裝的極限,將9顆芯片封裝在了57.5mm x 57.5mm的尺寸中。

?
圖 | 邃思2.0

計(jì)算精度方面,涵蓋FP32、TF32、FP16、BF16和INT8全AI算力空間,是中國(guó)首款支持單精度張量TF32數(shù)據(jù)精度的人工智能芯片。單精度FP32峰值算力達(dá)到40T FLOPS,單精度張量TF32峰值算力達(dá)到160T FLOPS,半精度BF16/ FP16峰值算力達(dá)到160T FLOPS,整數(shù)精度INT8峰值算力達(dá)到320 T FLOPS。

存儲(chǔ)帶寬方面,邃思2.0共搭載了4顆HBM2E片上存儲(chǔ)芯片,高配支持64 GB內(nèi)存,帶寬達(dá)1.8 TB/s,是中國(guó)第一個(gè)支持世界最先進(jìn)存儲(chǔ)HBM2E和單芯片64 GB內(nèi)存的產(chǎn)品。

互聯(lián)能力方面,邃思2.0擁有6個(gè)LARE卡間互聯(lián)端口(燧原自研人工智能訓(xùn)練集群互聯(lián)技術(shù)),每個(gè)端口可提供雙向50 GB/s的互聯(lián)帶寬,因此總集群互聯(lián)帶寬可達(dá)雙向300 GB/s,可支持?jǐn)?shù)千張?jiān)旗軨loudBlazer加速卡互聯(lián)。

關(guān)于“云燧T20”訓(xùn)練加速卡和“云燧T21”訓(xùn)練OAM模組

云燧T20和云燧T21是基于邃思2.0開(kāi)發(fā)的全高全長(zhǎng)PCIE板卡和OAM標(biāo)準(zhǔn)模組,均支持容量為64GB/32GB的HBM2E存儲(chǔ),互聯(lián)帶寬同為300GB/s,但T21的板級(jí)功耗是400W,而T20的板級(jí)功耗為300W,因此在性能方面T21強(qiáng)于T20。

?
圖 | 云燧T21/T20

具體來(lái)講,T21的峰值算力是單精度張量TF32 160T FLOPS、單精度FP32 40T FLOPS,半精度BF16/ FP16 160T FLOPS,整數(shù)精度INT8 320 T FLOPS;T20的峰值算力是單精度張量TF32 134.4T FLOPS、單精度FP32 33.6T FLOPS,半精度BF16/ FP16 134.4T FLOPS,整數(shù)精度INT8 268.8 T FLOPS。

作為國(guó)內(nèi)首發(fā)產(chǎn)品,如何才能有說(shuō)服力,當(dāng)然是測(cè)試數(shù)據(jù),燧原也做了充足的基準(zhǔn)測(cè)試Benchmarking,并在會(huì)上公布了云燧T20和友商次旗艦和旗艦產(chǎn)品的對(duì)比數(shù)據(jù)。

?
圖 | 云燧T20-Benchmark VS 友商次旗艦

?
圖 | 云燧T20-Benchmark VS 友商旗艦

關(guān)于“馭算TopsRider”軟件平臺(tái)以及“云燧集群”

基于云燧T20和T21訓(xùn)練產(chǎn)品、GCU-LARE互聯(lián)技術(shù)和新一代馭算TopsRider軟件平臺(tái),燧原科技可以打造超大規(guī)模的集群產(chǎn)品CloudBlazer Matrix 2.0。

?
圖 | 云燧智算集群CloudBlazer Matrix 2.0

對(duì)比第一代集群產(chǎn)品CloudBlazer Matrix 1.0的全高全長(zhǎng)PCIE板卡,其采用OAM標(biāo)準(zhǔn)模組的2.0產(chǎn)品在性能上可謂突飛猛進(jìn)。散熱形態(tài)從原來(lái)的液冷/風(fēng)冷,全部改為液冷,最高支持板卡數(shù)量從1280張?jiān)黾拥?192張,單精度最高算力從原來(lái)的28P增長(zhǎng)到1300P(1.3E),最高存儲(chǔ)容量(HBM)從原來(lái)的20TB增加到524TB,最大總存儲(chǔ)帶寬(HBM)從原來(lái)的0.65 PB/s增長(zhǎng)到14.7 PB/s,最大互聯(lián)帶寬(LARE)從原來(lái)的0.25 PB/s增長(zhǎng)到2.5 PB/s,與此同時(shí),評(píng)價(jià)數(shù)據(jù)中心能源效率的指標(biāo)卻從1.5降至了1.15。

寫在最后

燧原科技是一家2018年成立的公司,成立至今3年多時(shí)間,期間獲得過(guò)5輪融資,累計(jì)融資額近32億元人民幣。最新一筆融資記錄為今年1月完成的18億人民幣C輪融資,由中信產(chǎn)業(yè)基金、中金資本旗下基金、春華資本領(lǐng)投。

受資本熱捧的本質(zhì)是“燧原科技按計(jì)劃輸出產(chǎn)品,說(shuō)到做到的誠(chéng)信和能力”,根據(jù)燧原科技創(chuàng)始人、COO張亞林公布的燧原五年產(chǎn)品路線圖,到2023年,燧原科技將推出第三代產(chǎn)品——云端訓(xùn)練計(jì)算產(chǎn)品T30/T31和智算集群CloudBlazer Matrix 3.0、云端推理計(jì)算產(chǎn)品i30,以及云端推理計(jì)算軟件平臺(tái)馭算Topsrider 3.X,實(shí)現(xiàn)泛AI生態(tài)。

值得一提的是,發(fā)布會(huì)上,張亞林發(fā)布了“燧原產(chǎn)品定理”,即燧原的每一代產(chǎn)品必須比前一代在“平均業(yè)務(wù)”中每瓦性能提升超3倍,軟件后向兼容可靠。
?

燧原科技

燧原科技

燧原科技專注人工智能領(lǐng)域云端算力平臺(tái),致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案,堅(jiān)持原始創(chuàng)新的技術(shù)研發(fā)路線,提供高算力、高能效比的通用人工智能訓(xùn)練和推理產(chǎn)品。其創(chuàng)新性架構(gòu)、互聯(lián)方案和分布式計(jì)算及編程平臺(tái),可廣泛應(yīng)用于云數(shù)據(jù)中心、超算中心、泛互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)及智慧城市等多個(gè)人工智能場(chǎng)景。

燧原科技專注人工智能領(lǐng)域云端算力平臺(tái),致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案,堅(jiān)持原始創(chuàng)新的技術(shù)研發(fā)路線,提供高算力、高能效比的通用人工智能訓(xùn)練和推理產(chǎn)品。其創(chuàng)新性架構(gòu)、互聯(lián)方案和分布式計(jì)算及編程平臺(tái),可廣泛應(yīng)用于云數(shù)據(jù)中心、超算中心、泛互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)及智慧城市等多個(gè)人工智能場(chǎng)景。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜