加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 目標做“中國的英偉達”,“風華1號”算力對標“英偉達T4”
    • 后摩爾時代,如何通過GPU架構改善功耗問題?
    • 拿了Imagination的IP,國產(chǎn)GPU還算自主可控嗎?
    • 在小池塘練兵,避開英偉達主戰(zhàn)場尋找藍海
    • 本土GPU廠商有望1-2年內(nèi)回本?
    • 寫在最后
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

“風華1號”技術團隊首談國產(chǎn)GPU的性能和出路

2021/12/23
2019
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

目標做“中國的英偉達”,“風華1號”算力對標“英偉達T4”

GPU又稱圖形處理器,它的歷史要追溯到1972年火遍全美的彈珠游戲機,但真正進入高速發(fā)展期是在2006年,往后GPU的發(fā)展速度達到了摩爾定律的2~3倍。

我們以數(shù)據(jù)中心產(chǎn)品為例,今天英偉達Ampere架構下的云端訓練A100顯卡FP32浮點性能19.5T FLOPS,INT8算力1,248 TOPS,而這兩天的消息稱,英偉達的下一代GPU Hopper FP32浮點性能將達到24.2 TFLOPs,幾乎是A100 顯卡的2.5倍。

正因為GPU這些年的高速發(fā)展帶來了技術壁壘的不斷高筑,GPU戰(zhàn)場三四年前還有很多家,而現(xiàn)在只剩下兩三家。高端技術的壟斷代表了議價權,現(xiàn)在一張高端的GPU顯卡,市場售價高達十幾萬元,相當于一輛普通小轎車的價格。再加上國內(nèi)需求的差異化,巨頭們在定制方面確實存在心力不足的問題,所以GPU自主可控下的國產(chǎn)化勢在必行。

在這樣的大環(huán)境下,近幾年本土GPU廠商如雨后春筍般冒出來。不過真正能出產(chǎn)品,實現(xiàn)量產(chǎn)的也沒幾家,并且算力比較低。比如景嘉微2020開始量產(chǎn)出貨的JM7200單精度算力只有0.5T FLOPS,2021年剛流片回來的JM9231實測浮點算力能達到1.5T FLOPS。相比之下,上個月芯動科技發(fā)布的4K級顯卡GPU芯片“風華1號”顯得格外搶眼。

?
圖 | “風華1號”參數(shù)一覽

根據(jù)芯動云計算總裁敖海的介紹,“‘風華1號’GPU成倍提升了現(xiàn)有國產(chǎn)GPU水平,單芯片A卡渲染能力達到160GPixel/s,F(xiàn)P32浮點性能達到5T FLOPS,AI性能為25TOPS(INT8),3D圖形渲染處理管線定制優(yōu)化,支持Linux/龍芯/Windows/安卓操作系統(tǒng)圖形框架,支持32路SRIOV虛擬化?!?/p>

芯動科技SoC體系架構師何穎表示:“如果單從芯片的算力來看,‘風華1號’雙芯片B卡的FP32浮點性能達到10T FLOPS,渲染能力達到320GPixel/s,可以對標英偉達Tesla T4 GPU(FP32 / 8.1T FLOPS,渲染能力/254.4 GPixel/s)?!?/p>

“GPU賽道足夠大,目前英偉達的市值有七千多億,而芯動科技的目標就是做中國的英偉達”,芯動科技工程副總毛鳴明補充道。

后摩爾時代,如何通過GPU架構改善功耗問題?

眾所周知,算力和計算平臺的性能不能劃等號,對于GPU來說,能效比是非常重要的性能參數(shù)。據(jù)悉,英偉達下一代顯卡40系列的TGP整卡功耗標示為550W,這樣的整機得要多大電源才能帶得動?于是我們自然而然會有一個疑問,為什么GPU發(fā)展了這么長時間,功耗還是一步步增長到了這么大的地步?

“這是因為半導體工藝的極限已經(jīng)快到了,從一百多納米到九十多納米到幾納米的時候,一直還可以線性地降低,降低工藝節(jié)點可以獲得更低的功耗、更高的性能,但是半導體工藝快到摩爾定律的物理極限了,工藝節(jié)點的紅利差不多到頭了,再要提高性能的話,只好把功耗相應地變大。我們想做低功耗的顯卡,想做節(jié)能減排,想做綠色,怎么辦?不能在工藝上取得紅利,要在架構上取得紅利,這時候我們的想法是架構上吸取移動端GPU的優(yōu)點,做出真正好的GPU?!保畏f如是說。

那么芯動科技用的GPU架構是什么樣的?據(jù)悉,芯動科技獲得了Imagination的GPU核 IP授權,而這個是移動端級別的,在能效比上存在天然的架構優(yōu)勢。

拿了Imagination的IP,國產(chǎn)GPU還算自主可控嗎?

講到這里,你是否會提出疑問,架構級IP都是買來的,能算是自主可控嗎?舉個例子,蘋果從A4到A10X所有的芯片都是用Imagination的IP,到10之后蘋果有了自己的GPU架構,但是它依然是基于Imagination的TBDR架構,并獲得了專利授權,成為Imagination TBDR重要的分支。蘋果不用大風扇甚至風扇不轉(zhuǎn)就可以實現(xiàn)很好的圖形性能,這是其他筆記本很難做到的事情。蘋果公司做了三個不同的芯片:M1、M1 Pro和M1 MAX,最強的芯片用了32個核,有機地合在一起,達到的效果比桌面獨立顯卡功耗降了70%,它可以用很少的功耗達到接近英偉達3060桌面渲染的性能。這證明TBDR既可以用于移動,也可以用于桌面的操作系統(tǒng),當然大量的優(yōu)化改進工作是必須的,才有可能把一個GPU放大到能夠適應桌面級別的強渲染的要求。所以,你會懷疑蘋果不能自主可控嗎?

事實上,當從單核、雙核擴大到8核、16核、32核時,就不是簡單的堆核了,如何講這些核有機地調(diào)用起來,協(xié)調(diào)好通訊,就必須有芯片廠商自己的方案。所以蘋果有蘋果的方案,而芯動科技的方案特色就是Chiplet,通過Chiplet來打破算力的限制。此外,做大核還必須要配合API接口的升級,圖像GPU領域趨勢的跟進,以及盡量把算力做起來。

?
圖 | “風華1號”桌面顯卡(半高)

說到算力,其實前面也有提到“風華1號”用的是一個移動端的架構,雖然有它功耗和支持云游戲的天生優(yōu)勢,但也存在一些架構弱勢,所以如何把原生移動端的架構拓展到高性能計算、云計算的場景就是芯動科技要做的最重要的工作,也就需要改進GPU內(nèi)核了。

其實,即使是拿了架構授權,要做的工作還是非常多,這也是目前市場上GPU門檻居高不下的原因所在。根據(jù)何穎的介紹,“風華1號”80%以上的IP都是屬于自主研發(fā)。既然已經(jīng)獲得了架構授權,芯動科技就可以不受限制地自行改進,這個技術是能夠自主可控的。

在小池塘練兵,避開英偉達主戰(zhàn)場尋找藍海

毛鳴明說,“每個市場都有很細分的點,比如做桌面,可以先做線上市場,做國產(chǎn)化的統(tǒng)信麒麟的操作系統(tǒng),先找到一個點站住腳,再去考慮挑戰(zhàn)國外的巨頭?!?/p>

確實,桌面市場是一個存量市場,所以對于一家本土GPU廠商而言,在市場上直接挑戰(zhàn)已經(jīng)占據(jù)壟斷地位的世界巨頭并非明智之舉,國內(nèi)信創(chuàng)市場是一個很好的切入點。

目前,國內(nèi)的信創(chuàng)桌面大家用的最多的還是AMD的卡,ARM服務器和AMD顯卡這套方案很成熟,但市場的反饋是一個字“貴”,而芯動的卡性能好價格低,打價格戰(zhàn)是有優(yōu)勢的。

如果只有桌面市場,英偉達也不會到達萬億級別公司的體量,是AI和元宇宙的加持才成就了今天的英偉達。因此,對于像芯動科技這樣的GPU廠商而言,信創(chuàng)市場肯定不是終極目標,而是一個大魚進不來的小池塘,方便練兵站穩(wěn)腳跟,然后向更為廣闊和通用的云端市場過渡。

對于云端市場的看好,毛鳴明是這么形容的,“如果沒有在2019年看到云渲染后面會爆炸式的需求,我們不一定會做GPU?!笨梢娮鳛樵钪婊A建設項目的云渲染市場機會是巨大的。前面提到了“風華1號”其實用的是一款移動端內(nèi)核架構,有做云游戲的天生優(yōu)勢。但是那些巨頭們難道不掌握這個技術嗎?

事實上,作為國際大廠,它們關心的是自己的主要用戶,也就是3A大作,包括谷歌的主流云游戲廠商,考慮的是一張顯卡給兩個用戶用,因此編解碼只要支持兩路。而國內(nèi)的手機游戲廠商比較多,中國客戶的需求不太一樣,它們更追求性價比,成本是重要的考量因素,它們的客戶很多都不愿意每月為云游戲支付較高的價格。因此這些手機游戲廠商希望一個方案可以支持30路、50路、60路,甚至上百路的操作。所以這也算是本土化的藍海市場,由于本土公司可以更貼近這些云游戲廠商的需求,就可以在硬件設計和定制化方面做一些有差異化的東西,從而生存下來。當然,跟著云渲染指數(shù)級增長的事態(tài),未來它們也可以進軍桌面、筆記本,甚至手機市場。不過,國產(chǎn)GPU當前最重要的任務依舊是API升級和算力提升。

本土GPU廠商有望1-2年內(nèi)回本?

前面講了本土GPU技術和市場側(cè)的一些分析,下面我們來聊點“俗話題”。最近,就算是半導體的圈外人也多多少少對GPU的市場熱有所了解,高規(guī)格、市場容量大、國體替代緊迫等關鍵詞是這個賽道能夠吸引大批量資本市場熱錢的原因所在。

正是在這樣的大背景下,你可能不會相信芯動科技竟然是在無需融資的情況下就完成了GPU的架構授權、設計、流片、內(nèi)部測試,到量產(chǎn)發(fā)布等工作。高昂的流片的費用不說,這年頭光是養(yǎng)幾百人的GPU研發(fā)團隊都是一筆不菲的開銷。

我們知道芯動科技原來是做接口IP授權和芯片定制的,雖然公司成立第五年就開始盈利,財務狀況一直不錯,但不免擔心會被“GPU業(yè)務”拖累。面對這個追問,毛鳴明給出的答案是——“風華1號”正在和騰訊、聯(lián)通等大廠進行適配,并開始討論訂購、采購的細節(jié),后面我們每半年會迭代流片一款產(chǎn)品,做更大的架構優(yōu)化迭代工作,如果我們做得好的話,幾年內(nèi)應該可以回本。

迭代這么快,還能在短期內(nèi)賺錢,自信哪來?“信創(chuàng)市場做了幾年后,剩下的體量并不大而且對于成本非常敏感,而服務器顯卡一年有十萬張以上的體量,而且服務器端的成長特別快,單卡的價格也是信創(chuàng)的十倍、幾十倍的體量。所以我們覺得在信創(chuàng)市場上實現(xiàn)盈利比較困難,但是在服務器端的盈利還是比較有希望的?!?毛鳴明補充道。

寫在最后

值得一提的是,對于IP廠商而言,在流片方面存在一些優(yōu)勢,因為芯動開發(fā)產(chǎn)品需要的IP大多數(shù)是自有的,比如“風華1號”中GDDR6x技術的合作就是個很好的例子。而對于Chiplet技術下的GPU來講,能在強大的接口等技術上實現(xiàn)提前驗證,確實是一件事半功倍的事情。

芯動科技

芯動科技

芯動科技是中國一站式IP和芯片定制及GPU賦能型企業(yè),聚焦計算、存儲和連接等三大賽道,提供跨全球六大工藝廠從55納米到5納米的全套IP和芯片定制解決方案,賦能客戶實現(xiàn)產(chǎn)品成功。

芯動科技是中國一站式IP和芯片定制及GPU賦能型企業(yè),聚焦計算、存儲和連接等三大賽道,提供跨全球六大工藝廠從55納米到5納米的全套IP和芯片定制解決方案,賦能客戶實現(xiàn)產(chǎn)品成功。收起

查看更多

相關推薦

電子產(chǎn)業(yè)圖譜