加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01.三年沉淀三百萬片量產(chǎn)驗證,BPU架構(gòu)持續(xù)智能進化,瞄準城區(qū)自動駕駛
    • 02.八項核心技術升級,深入計算微架構(gòu)革新,實現(xiàn)高性能低功耗兼得
    • 03.算法與硬件的“融合劑”、“交響樂團的指揮家”——編譯器
    • 04.自動駕駛芯片圈“一股清流”,地平線為何堅持“Arm+Android”模式?
    • 05.結(jié)語:深耕“軟硬協(xié)同”,地平線給出智能計算架構(gòu)創(chuàng)新新范式
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

計算架構(gòu)邁入“智能進化”時代,解密地平線BPU納什如何實現(xiàn)顛覆式創(chuàng)新?

2023/04/23
1810
閱讀需 21 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

獨家對話地平線CTO黃暢:汽車智能大腦背后的算法、BPU架構(gòu)、編譯器“三駕馬車”。

曾經(jīng)我們還在感嘆充電樁不夠多,而轉(zhuǎn)眼間,我們已經(jīng)聚焦于如何讓車更“聰明”。技術發(fā)展的速度永遠超出我們的想象,而一輪又一輪的技術范式迭代,也在持續(xù)演進中。近年來自動駕駛技術的飛速發(fā)展,給行業(yè)的各方參與者都提出了新的挑戰(zhàn)。從高速到城區(qū),場景的不斷深入對自動駕駛芯片架構(gòu)、算法、軟件都提出了更嚴苛的要求,從L2到L4,數(shù)據(jù)計算量呈爆發(fā)式增長,從感知到?jīng)Q策,全鏈條的計算都在從傳統(tǒng)的邏輯驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動。算法復雜度大幅提升,對芯片功耗發(fā)熱、良率以及極端環(huán)境耐受力、對系統(tǒng)安全性的要求也水漲船高,自動駕駛芯片正在全方位地挑戰(zhàn)半導體設計、開發(fā)、制造的極限。

這樣的自動駕駛智能化變革也驅(qū)動著智能計算研究進入新的范式,自動駕駛芯片的“智能進化”時代已經(jīng)走到我們面前。在2023年上海國際汽車展覽會上,地平線正式亮出了其新一代BPU(Brain Processing Unit)智能計算架構(gòu)——BPU納什,這也是地平線布局未來5到10年的芯片底層技術創(chuàng)新成果。智東西有幸與地平線聯(lián)合創(chuàng)始人兼CTO 黃暢博士進行了獨家深度對話,進一步發(fā)掘了納什架構(gòu)背后的地平線技術護城河。自2015年成立以來,地平線BPU架構(gòu)一直在持續(xù)迭代??梢钥吹剑裉?strong>BPU納什中的算法、BPU架構(gòu)、編譯器已經(jīng)成為并駕齊驅(qū)的“三駕馬車”,而地平線通過軟硬結(jié)合的深度優(yōu)化,對汽車智能化時代的計算架構(gòu)給出了新的定義。

據(jù)了解,BPU納什對大參數(shù)量Transformer、大規(guī)模交互式博弈進行了針對性設計,重點提升了前沿先進算法的運行效率,智能輔助設計的采用則提升了架構(gòu)的可編程性,并且BPU納什在超異構(gòu)計算方面的表現(xiàn)也可圈可點。當下ChatGPT的火爆也不由得讓我們關注到納什架構(gòu)在GPT模型支持方面的表現(xiàn)。在深入交流中黃暢博士特別提到,納什架構(gòu)的高度可拓展性,使得它能夠支持在單顆SoC芯片上進行千億參數(shù)級GPT模型的推理。實際上,ChatGPT的出圈恰恰給了所有芯片設計公司一個啟示,那就是要時刻保持自身技術的靈活性,要能適應不斷涌現(xiàn)出的新變化新挑戰(zhàn)。

納什架構(gòu),恰恰具備了“智能進化”的特點。在黃暢博士看來,地平線通過算法、編譯器、BPU架構(gòu)設計三者相結(jié)合,經(jīng)數(shù)據(jù)驅(qū)動實現(xiàn)自動化驗證,一直在持續(xù)尋找智能計算架構(gòu)最優(yōu)解,這個過程一直是動態(tài)演進的。通過與黃暢博士的進一步深度交流,我們嘗試深入到納什BPU架構(gòu)的算法、硬件架構(gòu)、編譯器等三大核心領域,發(fā)掘其究竟如何實現(xiàn)“進化與迭代”?新一代納什架構(gòu)又是如何在算法效率、靈活性和硬件效率等方面突破行業(yè)瓶頸,成為智能駕駛加速引擎的最優(yōu)解的?

01.三年沉淀三百萬片量產(chǎn)驗證,BPU架構(gòu)持續(xù)智能進化,瞄準城區(qū)自動駕駛

黃暢博士曾在演講中拋出過一個精彩的觀點,他說:“一個時代有一個時代的計算架構(gòu),智能計算架構(gòu)BPU是先進技術的集大成者,是汽車智能化時代的最優(yōu)選擇。”

的確如黃暢博士所說,在自動駕駛這個場景中,算法實際上一直在持續(xù)演進,而與之相對應,最適合高效運行這些算法的架構(gòu)必然也需要持續(xù)演進。自2015年成立至今,地平線BPU架構(gòu)一直在持續(xù)迭代,從伯努利、貝葉斯到今天的納什,而在這個過程中,自動駕駛行業(yè)對于算法的要求也在不斷改變。2017年前后,輕量級、高效能的算法成為學術界主流,而這些算法也對計算架構(gòu)提出的新挑戰(zhàn),地平線把握住這些學術界前沿研究成果,并敏銳地察覺到了這類算法在自動駕駛場景中的潛力,針對性地推出了第一代伯努利架構(gòu),其支持當時業(yè)界最優(yōu)秀的輕量級網(wǎng)絡MobileNet、EficientNet,并在硬件、軟件層面進行了深度優(yōu)化。時間來到2019年,第二代貝葉斯架構(gòu)面對的則是更高等級的自動駕駛解決方案,例如L2+高速甚至是城區(qū),需要解決時間和空間的融合、多傳感器的融合、對未來的預測。面對這些挑戰(zhàn),貝葉斯架構(gòu)選擇在Warping、Vector、Softmax優(yōu)化等方面進行了增強,從而更好地支持LSTM、BEV、Transformer這樣的前沿優(yōu)秀算法。

而今天納什架構(gòu)索要面對的,是自動駕駛場景從高速走向城區(qū),包括越來越多的復雜交互規(guī)劃算法、大量動態(tài)目標相互之間的持續(xù)博弈、不斷爭奪的路權。為此,納什架構(gòu)結(jié)合了類GPT超大規(guī)模參數(shù)模型,以及大規(guī)模、極其復雜的蒙特卡洛樹搜索,這些都是智能計算發(fā)展的最新趨勢。縱觀地平線BPU架構(gòu)的演進,我們可以鮮明地把握到一條主線:架構(gòu)演進的核心驅(qū)動力是針對自動駕駛場景涌現(xiàn)出的新的關鍵問題,找到最優(yōu)算法,并對這些算法,進行軟硬件針對性優(yōu)化。

正如黃暢博士所說,架構(gòu)循環(huán)、持續(xù)的演進,源頭來自于場景、應用拓展,來自于算法的演進,來自于編譯器對問題的持續(xù)分析和優(yōu)化,來自于對BPU架構(gòu)的持續(xù)完善、補充和增強,這是完整的、端到端的系統(tǒng)性能和效率持續(xù)提升的過程。時至今日,地平線BPU架構(gòu)歷經(jīng)從伯努利1.0到伯努利2.0再到貝葉斯的三代進化,已經(jīng)積累了超過300萬片的前裝量產(chǎn)驗證。這種產(chǎn)業(yè)的真實反饋,也印證了其架構(gòu)持續(xù)迭代的旺盛生命力。黃暢博士透露,未來BPU架構(gòu)的迭代將會向兩個大方向發(fā)展,一個是實現(xiàn)城區(qū)自動駕駛,解決復雜場景中的博弈、交互規(guī)劃問題;第二個就是針對大規(guī)模生成式AI模型,提供端到端的自動駕駛解決方案。想要實現(xiàn)這些目標,計算架構(gòu)仍要持續(xù)進化優(yōu)化。

02.八項核心技術升級,深入計算微架構(gòu)革新,實現(xiàn)高性能低功耗兼得

在BPU架構(gòu)的演化過程中,軟硬結(jié)合是地平線的重要技術實現(xiàn)思路,具體來看這次地平線亮出的納什架構(gòu),作為軟硬協(xié)同“三駕馬車”中的基礎,納什BPU的硬件架構(gòu)這次進行了多方面的系統(tǒng)性升級,除了規(guī)模更大、架構(gòu)更加復雜,計算單元也更加豐富,對存儲、計算、數(shù)據(jù)總線帶寬相關技術都進行了重點優(yōu)化。

納什架構(gòu)首次加入了浮點向量加速單元,這一模塊的加入,使得架構(gòu)的可編程性、對于算法支持性進一步提升,能夠讓算法工程師們在更細的顆粒度上進行開發(fā)。

其次,通過虛擬化技術,納什架構(gòu)的一個物理的BPU核能夠在應用過程中表現(xiàn)出多個虛擬化的核,這使得多任務的執(zhí)行可以完全透明化。此外,納什架構(gòu)在功耗優(yōu)化方面采用了數(shù)據(jù)驅(qū)動的方式,地平線深入到神經(jīng)網(wǎng)絡計算過程中的數(shù)據(jù)動態(tài)范圍特性,利用數(shù)據(jù)分布特點來設計計算微架構(gòu),最終能讓架構(gòu)在計算過程中的動態(tài)功耗降低30%以上。在存儲技術優(yōu)化方面,納什架構(gòu)使用了三級存儲架構(gòu),可以降低大規(guī)模參數(shù)下的帶寬瓶頸,實現(xiàn)BPU核與核之間更高效的協(xié)同。

最后,多脈動立方加速引擎技術可以讓引擎間的數(shù)據(jù)流動能效提升、帶寬占用降低;數(shù)據(jù)變換引擎支持了Transformer細小算子;緊耦合異構(gòu)計算單元能夠加速不同類型數(shù)據(jù)處理,而多向數(shù)據(jù)流動技術則實現(xiàn)了計算動態(tài)調(diào)度與靈活調(diào)優(yōu)。在深入交流中黃暢博士特別提到,納什架構(gòu)的規(guī)模并沒有上限,具備高度可擴展性,所能支持多大規(guī)模的SoC可以根據(jù)廠商需求靈活調(diào)整。納什架構(gòu)能夠支持在單顆SoC芯片上進行千億參數(shù)級GPT模型的推理,甚至可以支持單顆芯片在5nm、7nm工藝基礎上達到最高1000TOPS的算力,從而滿足未來城區(qū)自動駕駛的需求。

03.算法與硬件的“融合劑”、“交響樂團的指揮家”——編譯器

正如前文所說,BPU架構(gòu)的迭代是“軟硬結(jié)合”協(xié)同優(yōu)化的過程。要在實際場景中發(fā)揮更多的硬件算力,不僅需要硬件架構(gòu)的改進,還需要編譯器的迭代升級。

為何編譯器如此關鍵?實際上,編譯器將算法轉(zhuǎn)換成能夠在BPU上執(zhí)行的指令序列,并且努力尋求最優(yōu)解,追求最大化效率和收益,包括尋求更低的延遲、更低的功耗、更低的帶寬以及更高的處理能力。黃暢博士在演講中曾作出一個精彩的比喻:“如果說算法方案的開發(fā)者是優(yōu)秀的作曲家,編譯器就是杰出的指揮家,而BPU計算架構(gòu)就是一流的交響樂團?!痹?jīng)行業(yè)對BPU架構(gòu)設計更多聚焦于硬件層面,但實際上,想要把硬件架構(gòu)的能力發(fā)揮到極致,必須要在軟件、編譯器方面做大量工作。因為如何把模型轉(zhuǎn)換為對硬件架構(gòu)來說最好的指令序列,是非常關鍵的問題,編譯器做的恰恰就是這件事。這次在編譯器技術方面,地平線保持讓工具鏈的前端直接對接業(yè)內(nèi)最主流的深度學習框架,比如TensorFlow、PyTorch,從而讓開發(fā)者可以無縫的的從行業(yè)開源主流工具遷移到地平線的工具,保持對開發(fā)者社區(qū)的高度兼容性。

其次,從規(guī)則式編譯方法到Policy Network的升級,提升了決策速度和編譯速度,據(jù)稱在保持相同性能情況下,編譯性能可以最高提升10倍左右。這其實解決了算法工程師面對的一個突出痛點問題:目前大規(guī)模復雜模型編譯往往耗費時間過長,長則一個多小時,很多關于算法迭代想法就不能得到很好的驗證,編譯速度的大幅提升,無疑成為算法工程師們的福音。此外,地平線在編譯器中加入了增強學習框架下的Value Network和蒙特卡洛樹搜索,以提升編譯的結(jié)果以及最優(yōu)的性能,目前這些技術的融入能夠帶來20%以上編譯的性能提升。

值得一提的是,編程范式的改進也是此次編譯器升級的重點之一。新一代編程范式中的DSL部分,可以將基礎的BPU算子用輕代碼的方式整合在一起,去設計一個全新的算子,完成復雜任務,包括模型間的調(diào)度、前處理、后處理。而編程范式中的HPL,則可以提供像Numba或者Triton一樣的底層細粒度計算編程方式,讓開發(fā)者用C語言或者Python代碼去描述想要實現(xiàn)的計算功能,從而提供CUDA級別的編程能力。

通過底層技術創(chuàng)新,地平線解放了算法工程師,讓他們可以實現(xiàn)低代碼編程、細顆粒度編程。這些改進的核心目的,就是將更多計算任務放在更適合的BPU上進行,從而加速計算過程,同時減少數(shù)據(jù)在BPU和CPU之間的搬運,提升了整個系統(tǒng)的計算效率。縱觀地平線納什架構(gòu)在算法、硬件架構(gòu)、編譯器等方面的技術創(chuàng)新,我們可以看到地平線在很多細節(jié)設計上的用心,要知道,在芯片架構(gòu)設計領域“把細節(jié)做好”,是一件需要深厚積累的事情。

黃暢博士告訴智東西,地平線長期在實際用例中持續(xù)分析短板、缺陷,并進行針對性微架構(gòu)設計改進,這些一點一滴的積累,最終形成了地平線對行業(yè)痛點問題的精準把握。地平線的優(yōu)勢不局限于單點硬件、軟件技術的突破,還包括與車企客戶長期實踐的積累的“行業(yè)Know-how”,這些經(jīng)驗不斷疊加融合到硬件架構(gòu)設計的平衡以及與算法、軟件的協(xié)同優(yōu)化中。通過軟硬結(jié)合的方式做芯片,地平線可以讓硬件設計更有針對性,在必要的地方做簡化,讓軟件以更巧妙、靈活的方式解決原本被限制在硬件層面的問題,從而解決更棘手的行業(yè)痛點。

與此同時,地平線在算法領域的前瞻性深入研究,也可以進一步放大這種軟硬結(jié)合的優(yōu)勢,編譯器可以更好的彌補硬件的短板,在硬件架構(gòu)設計和軟件算法之間找到理想的平衡點。這些都是地平線的核心優(yōu)勢所在。在黃暢博士看來,目前行業(yè)都意識到“數(shù)據(jù)驅(qū)動”的重要性,但實際上算法、編譯器、硬件架構(gòu)都需要通過數(shù)據(jù)驅(qū)動的方式進行優(yōu)化迭代,這才是真正的“智能計算架構(gòu)”。芯片架構(gòu)才真的可以實現(xiàn)“智能進化”。

04.自動駕駛芯片圈“一股清流”,地平線為何堅持“Arm+Android”模式?

今天的地平線正作為自動駕駛行業(yè)大生態(tài)的關鍵節(jié)點,通過自身的努力,產(chǎn)生連鎖效應,催動整個行業(yè)生態(tài)更加繁榮,而這必定離不開優(yōu)秀商業(yè)模式的加持。

在過硬的算法、硬件架構(gòu)、編譯器技術能力之上,地平線還提供了更開放的商業(yè)模式。通過開放軟件IP授權、BPU IP授權等多種方式,地平線正在打造一種屬于智能汽車時代的“ARM+Android”模式。從芯片、工具鏈到參考算法,地平線向車企和產(chǎn)業(yè)鏈伙伴開放這些智能駕駛軟硬件技術,從而幫助他們更高效地落地差異化的智能駕駛方案。實際上,這種商業(yè)模式在當下是有著強需求的。在自動駕駛領域,計算呈現(xiàn)集中化趨勢,芯片越來越少,功能越來越集中、越復雜,做芯片的難度也變得更高。但對自身差異化有強訴求的車企,都會有做自研SoC的需求。車廠要自己去定義SoC,目前CPU、GPU有成熟的IP,但是NPU的三方IP卻幾乎找不到,各家汽車都有自己的電子電氣架構(gòu),芯片公司提供的“標品”并不能很好地契合每個車廠的各自特性。車廠自己開發(fā)NPU IP,投入的財力、人力和時間都是不可估量的,且需要大量時間試錯、積累,也很難短時間內(nèi)在這一領域達到足夠深厚的認知和理解。

地平線如今將核心的BPU IP開放出來,正是順應了車企日益迫切的需求和主張。除了BPU IP授權模式,地平線這次還正式發(fā)布了智能駕駛應用開發(fā)套件踏歌OS(TogetheROS·Auto),通過多模塊協(xié)同開發(fā),解決行業(yè)中多供應商協(xié)同開發(fā)的困難,據(jù)稱可以將開發(fā)、集成、驗證效率提升200%。簡單來說,踏歌OS的意義就是幫助車企減少“重復造輪子”的工作。在黃暢博士看來,踏歌OS是地平線多年技術迭代后,逐漸積累和形成的一套智能解決方案,它更加從汽車系統(tǒng)的視角看問題,強調(diào)智能化功能的實現(xiàn)。正如在機器人領域成熟的ROS平臺一樣,踏歌OS實際上就是地平線提供的一套符合車規(guī)可靠性、安全性的類ROS開發(fā)平臺。

黃暢博士談到,地平線的初心,就是做機器人時代的大腦。從軟件和硬件層面支持和服務好機器人智能化功能開發(fā)、部署和應用,在自動駕駛領域也是如此。因此地平線在硬件、軟件層面都要保持更開放的態(tài)度。做自動駕駛領域的“Arm+Android”或“Wintel”,地平線的目標著實不低,但地平線商業(yè)生態(tài)的繁榮恰恰印證了其商業(yè)模式的成功。根據(jù)官方數(shù)據(jù),目前地平線已經(jīng)連接的硬件Tier-1、ODM、IDH、芯片、圖商、傳感器等上下游產(chǎn)業(yè)伙伴已經(jīng)超過了100家,而征程系列芯片出貨量已經(jīng)突破了300萬片,其中征程5出貨量已經(jīng)突破10萬片,獲得了理想、比亞迪、蔚來、埃安等新勢力和新實力車企近20款車型的量產(chǎn)定點。值得一提的是,目前自動駕駛行業(yè)中做芯片的公司很少將IP進行開放授權,因為客戶很可能也會是競爭對手,但地平線選擇打破常規(guī)。與其談競爭,這群人看到的更多是如何推動技術迭代達到理想狀態(tài),如何帶給用戶真正優(yōu)秀的智能化駕駛體驗。或許,推動技術進步體驗升級、讓更多消費者愿意買單,把市場共同做大、取長補短,才是地平線的生存之道。

05.結(jié)語:深耕“軟硬協(xié)同”,地平線給出智能計算架構(gòu)創(chuàng)新新范式

算法領域的前瞻性布局、在硬核技術創(chuàng)新層面的深度扎根,對于軟硬結(jié)合優(yōu)化的深刻理解和執(zhí)著堅持,以及多年來積累的行業(yè)Know-how,都成為了地平線在智能汽車產(chǎn)業(yè)激蕩變革時代的堅實技術護城河,也推動著自動駕駛行業(yè)迎來智能計算架構(gòu)的范式革新。而開放合作的商業(yè)模式,則讓地平線的技術生態(tài)不斷開枝散葉、茁壯成長。如今的智能汽車行業(yè),熱鬧非凡,新玩家、老玩家、跨界玩家交織在一起,不斷碰撞出新的火花,技術也在不斷進步,商業(yè)模式也在快速迭代。隨著生成式AI的入局,智能汽車產(chǎn)業(yè)或許也會迎來新的變革??梢钥隙ǖ氖?,汽車產(chǎn)業(yè)正經(jīng)歷百年未遇的大變革,自動駕駛正向著全場景自動駕駛時期快速邁進,這所有行業(yè)參與者來說,既是機遇也是挑戰(zhàn)。

作者?|??云鵬
編輯?|??漠影

 

地平線

地平線

地平線是邊緣人工智能芯片的全球領導者。得益于前瞻性的軟硬結(jié)合理念,地平線自主研發(fā)兼具極致效能與開放易用性的邊緣人工智能芯片及解決方案,可面向智能駕駛以及更廣泛的通用 AI 應用領域,提供包括高效能邊緣 AI 芯片、豐富算法IP、開放工具鏈等在內(nèi)的全面賦能服務。目前,地平線是國內(nèi)唯一一家實現(xiàn)車規(guī)級人工智能芯片量產(chǎn)前裝的企業(yè)。

地平線是邊緣人工智能芯片的全球領導者。得益于前瞻性的軟硬結(jié)合理念,地平線自主研發(fā)兼具極致效能與開放易用性的邊緣人工智能芯片及解決方案,可面向智能駕駛以及更廣泛的通用 AI 應用領域,提供包括高效能邊緣 AI 芯片、豐富算法IP、開放工具鏈等在內(nèi)的全面賦能服務。目前,地平線是國內(nèi)唯一一家實現(xiàn)車規(guī)級人工智能芯片量產(chǎn)前裝的企業(yè)。收起

查看更多

相關推薦

電子產(chǎn)業(yè)圖譜