双双金鹧鸪,boylove.everyday

引言：在自動駕駛領(lǐng)域，傳統(tǒng)處理器的競爭規(guī)則正發(fā)生急速的變化。一般來說，人工智能的發(fā)展主要取決于兩大基本要素：算力和算法。自動駕駛作為目前技術(shù)投入較大、商業(yè)落地較早、市場前景廣闊的人工智能應(yīng)用，其主控芯片的算力也被業(yè)內(nèi)拿來作為評價優(yōu)劣的主要標準。

為什么自動駕駛需要的算力越來越大呢？

僅僅還在幾年之前，ADAS 智能駕駛輔助的芯片AI算力才幾個TOPS，但轉(zhuǎn)眼間100TOPS已經(jīng)成為中高端自動駕駛車型的標配了。

為何自動駕駛需要的算力越來越大呢？

第一個原因是傳感器的增多。一輛自動駕駛車輛裝載的傳感器，一般包括前視、后視、環(huán)視攝像頭，再加上激光雷達、毫米波雷達，未來車上的傳感器數(shù)量越來越多。傳感器數(shù)量的增多帶來的是傳感器數(shù)據(jù)量呈現(xiàn)幾何數(shù)量的增加。如果不對相關(guān)數(shù)據(jù)進行壓縮或結(jié)構(gòu)化處理，一天能收集到幾百TB的數(shù)據(jù)。這就帶來一個需求，需要對這些本地數(shù)據(jù)進行分析、整理、壓縮，再上傳到云端。這要求在車端擁有強大的數(shù)據(jù)分析能力和計算能力。

第二個原因是大算力模型的突破。ChatGPT讓業(yè)內(nèi)看到了高計算量和大參數(shù)量模型的結(jié)合，對于算力提出了越來越高的要求。

在自動駕駛的早期1.0時代，整套系統(tǒng)從感知到地圖融合再到規(guī)劃控制都是基于規(guī)則構(gòu)建的。輔助駕駛功能更強調(diào)決策控制，如橫向控制和縱向控制。然而，基于規(guī)則的系統(tǒng)與深度學(xué)習神經(jīng)網(wǎng)絡(luò)不同，無法進行端到端訓(xùn)練，導(dǎo)致大量規(guī)則調(diào)試。規(guī)則系統(tǒng)面臨的挑戰(zhàn)包括難以預(yù)期的延遲和響應(yīng)。盡管1.0時代部分模塊采用數(shù)據(jù)驅(qū)動方法，但整個系統(tǒng)仍以人制訂的規(guī)則為主導(dǎo)。

進入了自動駕駛的2.0時代，由人制訂的規(guī)則開始讓位于數(shù)據(jù)驅(qū)動，利用神經(jīng)網(wǎng)絡(luò)為代表的智能計算來取代邏輯計算。ChatGPT就是一個典型的智能計算的代表。以上圖為例，藍色部分是智能計算，可以用數(shù)據(jù)驅(qū)動方式軟件2.0的方式來實現(xiàn)。天藍色部分則是邏輯計算，通過程序表達規(guī)則跑在CPU上，這可以理解為是兩代的計算架構(gòu)。事實上，智能計算對算力需求在7年間提升6倍，如圖像識別和自然語言處理任務(wù)性能持續(xù)提升，但背后算力需求也在快速增長。

簡單來說，傳統(tǒng)的計算架構(gòu)是通過程序?qū)Ω鞣N規(guī)則進行描述。在自動駕駛領(lǐng)域，就是通過很多的ECU來分別實現(xiàn)設(shè)置好的程序。以座艙域為例，座艙域中的HMI功能對用戶了解自動駕駛系統(tǒng)的狀態(tài)、性能、特點和功能非常重要，有助于建立人機互信。特別是L2+、L2++和L3級別的自動駕駛中，沒有良好的HMI，用戶會擔憂自動駕駛的狀態(tài)。而HMI則主要用到智能計算。因此，從大趨勢來講，整個芯片占比越來越高的一定是智能計算，而通用邏輯及規(guī)則計算的占比也會緩慢增長，但是增長速度遠遠比不上智能計算。智能計算的比例提升才是算力需求增長的關(guān)鍵。

第三個變化是汽車電子電氣架構(gòu)的變化。未來汽車電子電氣架構(gòu)將變得更加集中與高效。隨著汽車電氣架構(gòu)從分散的ECU到集中的DCU域控制器，再走向中央計算，各個車控底盤控制呈現(xiàn)中央高度集中式的高效計算和靈活快速計算。智能計算逐步取代邏輯計算，成為核心。類似人體神經(jīng)系統(tǒng)，中央計算相當于大腦，控制域則類似脊柱和神經(jīng)末梢，需要快速響應(yīng)但算力要求相對較低。高成本、高功耗的計算無法部署在車輛各處，仿生角度看也是合理的。

中央計算使汽車硬件升級更容易，如同服務(wù)器可插拔。以前，更換車載硬件或域控較困難，因為專門設(shè)計的硬件盒子涉及供電、散熱等定制設(shè)計。未來電子電氣架構(gòu)將實現(xiàn)高效計算與快速響應(yīng)，為汽車智能化發(fā)展奠定基礎(chǔ)。

第四個變化是芯片計算架構(gòu)的變化。PC時代以CPU為王，智能手機時代CPU和GPU的重要性逐漸平衡，多媒體與圖形渲染需求增加。到了智能汽車時代，AI計算的需求大增，如果仍然用GPU來做AI運算，成本太高，這就需要重新設(shè)計專用計算架構(gòu)。于是各種NPU、XPU應(yīng)運而生。

高算力必然帶來更好的體驗嗎？

既然算力需求在自動駕駛中越來越大，那么是否高算力就會帶來好的用戶體驗?zāi)?？算力是否是衡?a class="article-link" target="_blank" href="/tag/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6%E8%8A%AF%E7%89%87/">自動駕駛芯片的唯一標準？

當然不是，實際上在自動駕駛領(lǐng)域，不少高端車型在量產(chǎn)時搭配了高算力，但實際體驗并不出眾，與低算力的車型體驗并沒有實際差別。而由于芯片受摩爾定律影響，有可能一年后同等算力的平臺價格會大幅度降低。

以特斯拉為例，發(fā)布HW3.0時部署了兩顆72TOPS算力芯片，總算力為144TOPS。與基于英偉達平臺的HW2.5相比，峰值算力提升僅幾倍，但圖像處理幀率提升了21倍。因此，雖然峰值算力提升有限，實際處理性能卻大幅增長。

另一方面，物理算力越大帶來的成本也會越高，但不一定會帶來真實算力的提升。什么是真實的算力？不是每秒鐘能進行多少次的計算，而是每秒鐘能處理多少幀的圖像。很多廠商宣傳的算力是CPU、GPU的頻率，NPU的TOPS，但用戶能體驗到的則是FPS。TOPS和FPS之間差異大，因為算法快速演進，計算架構(gòu)、軟硬件設(shè)計優(yōu)秀程度差異很大。

摩爾定律指出算力每18個月翻倍，但近十幾年速度減緩，半導(dǎo)體芯片性能提升接近飽和。在后摩爾定律時代，芯片優(yōu)化需先進工藝制程、封裝架構(gòu)，以及軟硬件架構(gòu)支撐高速成長。傳統(tǒng)芯片廠商關(guān)注的是每瓦或每美金的峰值算力，給出的則是每秒計算次數(shù)的提升。但對于自動駕駛廠商來說，他們需要的是真實計算效能和每秒處理幀率的提升。實際上過去9年中，圖像識別、語音識別、自然語言處理任務(wù)所需計算次數(shù)每9-14個月降低一半，這得益于算法的迅速提升?？梢哉f，算法的提升已經(jīng)遠遠超過了摩爾定律的發(fā)展。

從最新的神經(jīng)網(wǎng)絡(luò)算法的演進趨勢來看，貝葉斯架構(gòu)高效支持Transformer，如Swin Transformer，獲2021年計算機視覺領(lǐng)域最高獎馬爾獎，是目前效果最好的解決圖像識別、檢測、分割問題的基礎(chǔ)架構(gòu)。

2017年發(fā)布自研的FSD芯片時，特斯拉創(chuàng)始人馬斯克便以此前應(yīng)用的英偉達Drive PX2作比，從算力來看FSD是Drive PX2的3倍，但在執(zhí)行自動駕駛?cè)蝿?wù)時，其FPS是后者的21倍。GPU的看家本領(lǐng)便是圖像識別。為何GPU發(fā)明者英偉達的Orin會在測試中表現(xiàn)不及算力只有一半的地平線征程5？部分核心原因在于安培（Ampere）架構(gòu)和貝葉斯（Bayes）架構(gòu)設(shè)計出發(fā)點的差異。

地平線的征程5芯片于2021年發(fā)布，擁有128TOPS超強算力，是國內(nèi)首款百T算力芯片。目前征程5已用于10個車型，去年出貨10萬+。與主要競品（GPU架構(gòu)，峰值算力2倍以上）對比，征程5在處理速度方面更快。性能達到1500+FPS，端到端處理延遲最快60毫秒，功耗不超30瓦。之所以能做到這一點，得益于地平線的BPU架構(gòu)。

BPU是地平線自主設(shè)計研發(fā)的創(chuàng)新性智能計算架構(gòu)，具有高性能、低功耗、低成本等優(yōu)勢，可將算法集成在智能計算平臺上，提供設(shè)備端上軟硬結(jié)合的智能計算解決方案。貝葉斯是地平線推出的第三代智能計算架構(gòu)，專為高等級智能駕駛應(yīng)用打造，具備高性能、低能耗、低延遲的特點，凝聚了對深度學(xué)習和智能駕駛場景的深度洞察。此外，地平線智能計算開發(fā)平臺基于征程5打造，包含芯片開發(fā)套件、量產(chǎn)級硬件參考設(shè)計、軟件開發(fā)平臺和參考算法等，生態(tài)伙伴能夠在地平線的芯片上快速部署智能駕駛算法應(yīng)用，開發(fā)差異化產(chǎn)品方案，搶占市場先機。

地平線正在研發(fā)名為納什的下一代BPU架構(gòu)，相對于征程5芯片的BPU有顯著改善。納什采用了更深層次的存儲架構(gòu)體系，同時提升了計算陣列規(guī)模，從而進一步提升了峰值算力。此外，納什還增強了數(shù)據(jù)排布的轉(zhuǎn)換引擎和加入了高性能的浮點加速單元，從而使得算法的精度和可驗證性都得到了很好的提升。另外，地平線科技的引擎兼數(shù)據(jù)流動也考慮了能效和靈活性。數(shù)據(jù)排布的轉(zhuǎn)換引擎大幅增強，能更好地應(yīng)對新形態(tài)算法，如以Transformer為代表的算法對于數(shù)據(jù)的data layout進行更靈活、高效的轉(zhuǎn)換需求。這是非常重要的，因為在整個Transformer算法中有大量的數(shù)據(jù)操作，這可能會形成計算架構(gòu)的瓶頸。同時，地平線還首次加入了一個高性能的浮點加速單元，使得算法的精度和可驗證性都得到很好的提升。

點評：不服跑個分，在自動駕駛芯片領(lǐng)域行得通嗎？

最后，如何評價一款好的自動駕駛芯片？對于剛剛接觸自動駕駛汽車的消費者來說，要快速的對不同廠商、不同品牌型號建立一個初步印象，參數(shù)對比是一個比較直接的方法。

自動駕駛芯片主要競爭者與產(chǎn)品對比，來源：光大證券研究所

在2022年之前，自動駕駛芯片的市場宣傳主要還是按照AI算力、功耗、算力/功耗、制程等參數(shù)進行對比，這種宣傳方式不能說是錯的。不過這種參數(shù)確實無法直接反應(yīng)用戶的真實體驗。地平線聯(lián)合創(chuàng)始人兼CTO黃暢博士認為，一款好的自動駕駛芯片應(yīng)該是六邊形戰(zhàn)士，同時具備高能效比、算力、靈活性、適配性、安全認證和開發(fā)便捷性。也就是說，符合木桶原理，自動駕駛芯片的最終用戶體驗取決于最短的那一塊板。

不過到了2022年，似乎游戲規(guī)則發(fā)生了變化。英偉達（NVIDIA）推出的Thor芯片系統(tǒng)在自動駕駛和智能座艙領(lǐng)域引發(fā)了巨大震動，直接將算力干到了2000TOPS。這就讓自動駕駛領(lǐng)域的算法公司和準備自研芯片的車企面臨壓力。過去受限于算力限制，迫使芯片和算法公司不斷研究新的算法和更高效的專用芯片，尋求在有限的算力下實現(xiàn)更高效、輕量化的解決方案。然而，英偉達推出Thor芯片，承諾兩年內(nèi)提供八倍算力，使得4000TOPS成為可能，這似乎使得算法優(yōu)化變得不再那么重要。

這讓人想起比爾蓋茨與喬布斯的邏輯：喬布斯追求專有程序、專有硬件，精打細算；而比爾蓋茨則依賴硬件廠商解決問題。如今，英偉達正是采用這種方法，用算力暴力的解決算法精度問題。如果這條路真的行得通，就算某些廠商的算法不夠好，但仍然可以通過超強的算力來彌補算法的不足。

所以分析了半天，最后似乎又回到了起點：自動駕駛芯片仍然是算力為王？

筆者認為應(yīng)該分階段來看待這個事情?，F(xiàn)階段高算力必然帶來高成本，不是所有的車廠和消費者會為高算力買單，這取決于他們自身的定位。未來自動駕駛市場將在十年內(nèi)轉(zhuǎn)向低算力、中算力和高算力的全場景市場。硬件將隨著普及成本進一步降低。到時候可能市場會自發(fā)的形成高中低三個不同的市場，分別對應(yīng)高中低三種不同的算力。而這三種市場將隨著硬件成本的降低不斷轉(zhuǎn)移。比如目前50-100tops的算力范圍屬于中高端市場，但未來有可能平民化，而2000tops的產(chǎn)品則將在一段時間成為高端旗艦車型標配。

最終有一天，市場和消費者都會對自動駕駛芯片的算力回歸理性，選擇最適合自己的功能和需求。事實上，這種現(xiàn)象在手機市場已經(jīng)發(fā)生過一次了。曾幾何時新手機發(fā)布，廠商動不動“不服跑個分”，但到了今天消費者顯然已經(jīng)不再把手機芯片跑分當成唯一指標。大家都意識到，合適的硬件算力和算法匹配才能發(fā)揮最佳智能化效果，綜合實力才是衡量智能芯片的最重要因素。

最后，筆者認為，隨著算力提升的速度加快，以及硬件成本的下降，未來智能汽車領(lǐng)域?qū)⒊霈F(xiàn)一個新的硬件升級市場：通過更換運算模塊來進行算力提升。這種現(xiàn)象在PC市場也已經(jīng)發(fā)話誰能過一次了。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
ATXMEGA192D3-MH	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64		$5.62	查看
LPC4357FET256,551	1	NXP Semiconductors	LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin	ECAD模型下載ECAD模型	$15.87	查看
MK70FN1M0VMJ12R	1	Freescale Semiconductor	32-BIT, FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256, 17 X 17 MM, MAPBGA-256		暫無數(shù)據(jù)	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風險等級

參考價格

更多信息

ATXMEGA192D3-MH

Atmel Corporation

RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64