高通第一代Ride SoC是SA8540P,這顆芯片與座艙領(lǐng)域的SA8295P以及筆記本電腦領(lǐng)域的SC8280XP非常近似,其中SC8280XP又叫8CX gen3,是三顆芯片中最早推出的,大概是2021年初就有了。第一代Ride有點(diǎn)急急趕工的感覺,復(fù)用了座艙和筆記本電腦芯片的設(shè)計,高通的第二代Ride以SA8650為代表,這是完全針對自動駕駛的設(shè)計,在高通其他產(chǎn)品線找不到與其類似的產(chǎn)品,足以證明高通對自動駕駛的重視。
國內(nèi)企業(yè)大多在2022年初拿到SA8650的開發(fā)板,目前進(jìn)展最快的是高通、中科創(chuàng)達(dá)和立訊精密合資的暢行智駕,預(yù)計2024年即可量產(chǎn)上車,高通產(chǎn)品軟件兼容,基于SA8540的軟件開發(fā)成果基本可以無縫轉(zhuǎn)移到SA8650上。高通的中央計算平臺芯片Ride Flex第一個產(chǎn)品是SA8775,國內(nèi)多稱其為艙駕一體,已有不少企業(yè)在開發(fā)中,預(yù)計2024年底量產(chǎn)上車,比英偉達(dá)的Thor進(jìn)展快半年到一年。
2023年CES展上,基于SA8650的設(shè)計第一次公開問世,上圖左邊為德國大陸汽車的單SA8650設(shè)計,右邊是博世的雙SA8650設(shè)計。
法雷奧近年來在ADAS領(lǐng)域進(jìn)展神速,2022年ADAS領(lǐng)域收入達(dá)25億歐元,拿下寶馬和通用汽車的訂單,寶馬下一代ADAS平臺IPNEXT全面導(dǎo)入SA8650,預(yù)計2025年量產(chǎn)。Veoneer則是奔馳主要供應(yīng)商,Veoneer的軟件部門賣給了高通。
法雷奧為寶馬開發(fā)的自動駕駛控制器,應(yīng)該是行泊一體的設(shè)計,法雷奧是全球最大的泊車控制器廠家,市場占有率近1/4,做自動泊車是法雷奧的強(qiáng)項。
第一代Ride響應(yīng)者不多,第二代Ride得到了不少歐美車企的認(rèn)同,包括寶馬、奔馳、奧迪、保時捷、Stellantis,也得到了不少主流Tier1的認(rèn)可,包括法雷奧、德國大陸汽車、博世和Veoneer。國內(nèi)Tier1中,德賽西威、均勝電子、映馳科技、豪末智行、百度都已經(jīng)基于SA8650開發(fā)了近1年時間;航盛電子、縱目科技、車聯(lián)天下、MEGA、博泰、福瑞泰克正在導(dǎo)入,所有新興造車對SA8650都很感興趣,要不然也不會有如此多Tier1開發(fā)基于SA8650的自動駕駛系統(tǒng)。
SA8650基于最先進(jìn)的4納米設(shè)計,也是高通第一顆車載4納米芯片。
圖片來源:高通
SA8650可能有兩個版本,低版本的AI算力是50TOPS@INT8,高算力是100TOPS@INT8。此外還有一個更低的SA8620,SA8620可能也是4納米芯片,主要挑戰(zhàn)英偉達(dá)的Xavier。CPU算力為230kDMIPs,與Orin頂配相當(dāng),Orin有多個版本,只有頂配的CPU算力是230kDMIPs。推測SA8650是4個Cortex-X3大核心加4個A55小核心,國內(nèi)芯片受限于成本,在CPU方面都比較節(jié)約,最多是8個A55,算力一般是26kDMIPs。CPU遠(yuǎn)比AI更消耗成本,同時CPU對先進(jìn)制程的需求是必須的,X3這種級別必須對應(yīng)4納米,Orin使用了12個A78AE,全部是大核心,才與SA8650旗鼓相當(dāng)。
圖片來源:WikiChip Fuse
X3比X1有本質(zhì)提升,X1比A77有本質(zhì)提升,X2是雞肋,提升不多,且功耗高。X3是ARM目前最強(qiáng)的架構(gòu),X4對應(yīng)的是3納米,X5可能對應(yīng)2納米,3納米或2納米提升不多,但成本增加不少。
SA8650有100TOPS的AI算力,從圖上看可能去除了GPU,不過SA8650的圖形輸出能力很強(qiáng),最高支持4個屏幕。SA8650可以對應(yīng)12個攝像頭,即8個800萬像素,4個400萬像素。SA8650功耗大概25-40瓦,超過25瓦就最好采用水冷設(shè)計,目前SA8650的設(shè)計方案都是水冷。
眾所周知,L3/L4很有可能10年內(nèi)都無法做到,且目前瓶頸不在AI計算,而在存儲帶寬。舉個例子,若自動駕駛運(yùn)行真正的大模型,假設(shè)模型的參數(shù)是1750億,通常用INT8格式來存儲LLM權(quán)重,以便進(jìn)行更低延遲的推理、更高的吞吐量和更低的內(nèi)存需求(比用float16格式來存儲要少兩倍的內(nèi)存)。每個INT8參數(shù)需要1個字節(jié)進(jìn)行存儲。經(jīng)簡單計算可知,模型需要175GB的存儲空間,實(shí)際會需要180-190GB左右。假設(shè)特斯拉用了這么大的模型,特斯拉最新的自動駕駛大腦FSD,不惜血本用上了美光的GDDR6,代號D9ZPR;以特斯拉的16顆GDDR6為例,帶寬是56*16=896GB/s,896/175=5.12,即每秒加載5.12次權(quán)重模型,即便你的算力是100000TOPs,每秒運(yùn)算次數(shù)也不會超過6次。
所以沒必要追求100TOPS以上的算力,至少10年內(nèi)如此。當(dāng)然了,高通也有外接的AI加速器,最高可擴(kuò)展到2000TOPS,這可能需要非常昂貴的HBM3存儲,每GB的價格超過20美元,一般需要100GB以上。所有真正高算力AI芯片都使用了HBM存儲,HBM存儲不僅昂貴,還只能依靠臺積電的CoWoS工藝,成本高昂。
高通從第四代起就不單獨(dú)提供芯片,都以模組形式銷售,模組包含一顆SoC,4顆電源管理,2-4顆LPDDR DRAM。根據(jù)前文的圖片推測,高通的SA8650模組包括一顆SA8650,4顆PMM850U電源管理,2片美光的LPDDR5,1片美光的UFS。美光LPDDR5型號為MT62F3G32D8DV-026 AAT:B,代號D8DHD,8die封裝,每片是12GB,速度為7500Mb/s。一片UFS容量可能是256GB,也有可能是三片LPDDR5。還有一片芯片,可能是PCIe接口或溫度保護(hù)芯片。
圖片來源:高通
目前的設(shè)計方案中,基本都考慮到了行泊一體,也考慮到了兩片模組級聯(lián)或附加加速器,還可以與座艙SoC聯(lián)合,打造中央計算平臺,中央計算可以是一片SA8775,也可以是一片SA8650加一片SA8295。因此都用了非常強(qiáng)大的以太網(wǎng)交換機(jī),暢行智駕的方案用了MARVELL的88Q5192,均聯(lián)智行采用博通的BCM89568,德賽西威采用MARCVELL的88Q6113。這些以太網(wǎng)交換機(jī)的價格估計至少也在80美元以上,相當(dāng)昂貴。
圖片來源:高通
高通Ride提供完整的軟件系統(tǒng)、中間件、工具鏈、開發(fā)環(huán)境和各種算子庫。你可以用,也可以單獨(dú)開發(fā)。
圖片來源:高通
圖片來源:高通
高通視覺算法合作伙伴之一:韓國的StradVision,一樣可以提供特斯拉那樣的Occupancy Network。
圖片來源:高通
高通中央計算平臺或者說艙駕泊一體SoC框架圖,第一代型號為SA8775,未來有SA8797和SA8799,估計明年就能有樣片,并且很可能拋棄ARM架構(gòu),改用NUVIA的架構(gòu)。SA8775的CPU算力超強(qiáng),達(dá)到300kDMIPs,因?yàn)槠囓浖到y(tǒng)非常復(fù)雜,對CPU算力要求很高。
圖片來源:大陸汽車
一個典型的基于HPC(中央計算平臺,高性能計算)的汽車軟件架構(gòu),軟件層數(shù)非常多,驅(qū)動,根目錄,虛擬機(jī)(通常都是在微內(nèi)核OS之上的)、Linux、AutoSAR、RTOS,每一層軟件都要消耗CPU算力。對中央計算平臺來說,最需要的是CPU算力,AI算力不需要太高,一般的L2系統(tǒng),20-50TOPS就足夠,L3/L4則在10年內(nèi)沒有希望,這個我在以前的文章里有詳細(xì)說明。
高通的數(shù)字底盤
圖片來源:高通
高通數(shù)字底盤軟件架構(gòu)
圖片來源:高通
L3/L4短期內(nèi)無法實(shí)現(xiàn)已經(jīng)是汽車行業(yè)內(nèi)共識,存儲瓶頸也限制了高算力AI芯片的發(fā)揮,加之電動車門檻低,玩家眾多,價格戰(zhàn)將是長期主旋律,廠家不得不重視成本控制。高性價比加上強(qiáng)大的生態(tài)系統(tǒng)以及座艙領(lǐng)域的霸主地位,都讓高通在自動駕駛領(lǐng)域足以與英偉達(dá)平分秋色,乃至超過英偉達(dá)。
免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。