秦小曼,44hhh

多模態(tài)是一個切入點(diǎn)，可以最大程度發(fā)揮智能座艙的自有優(yōu)勢。

“AI座艙，過去五年爆發(fā)式增長，現(xiàn)在問題很快出現(xiàn)了。這個領(lǐng)域產(chǎn)品系列發(fā)展的這么快，其它體系跟不上，智能座艙進(jìn)入了’無人區(qū)’，國外沒有國內(nèi)發(fā)展快?！?/p>

清華大學(xué)智能綠色車輛與交通全國重點(diǎn)實(shí)驗(yàn)室教授曹東璞，在剛舉辦的全球智能汽車產(chǎn)業(yè)大會（GIV 2024）表示，疫情前，國內(nèi)座艙產(chǎn)品基本落后國外一到兩代，從去年開始，已經(jīng)基本領(lǐng)先國外一到兩代。

國內(nèi)座艙的爆發(fā)式發(fā)展，AI大模型是主要推動力之一?！邦^部座艙企業(yè)已經(jīng)遇到瓶頸了，如果沒有大模型，座艙業(yè)務(wù)估計要一步步萎縮，很難有質(zhì)的飛躍?！?/p>

今年開始，大模型加持的智能座艙，“多模態(tài)”成了一個熱話題。隨著技術(shù)的持續(xù)迭代和發(fā)展，大模型正在從單一模態(tài)向多模態(tài)演進(jìn)，多模態(tài)大模型，有希望成為未來人機(jī)交互的超級入口。

咨詢公司Gartner 預(yù)測，建立在多模態(tài)大模型上的生成式AI應(yīng)用，將從2023年的1%，激增至2027年的40%，充滿了想象空間。

目前，智能汽車是原生多模態(tài)大模型的絕佳落地場景，GPT-4o和商湯絕影的日日新最新版本，已經(jīng)能感知外部環(huán)境、人的情緒以及其他非語音信號，多模態(tài)實(shí)時交互的方式，也釋放了車企商業(yè)落地的更多想象空間。

在商湯看來，多模態(tài)大模型的座艙落地，突破了空間的限制，實(shí)現(xiàn)艙內(nèi)用戶與更廣闊的物理和數(shù)字世界的聯(lián)接，助推智能汽車向超級智能體進(jìn)化，本質(zhì)上，是一個生態(tài)的集成。

火山引擎汽車行業(yè)總經(jīng)理?xiàng)盍ヒ脖磉_(dá)了類似觀點(diǎn)，大模型天生就跨終端，能夠生態(tài)打通，將來大模型在座艙最大的價值，就是幫助座艙集成好生態(tài)，再打通各個終端，有足夠的想象空間。

01、中國軍團(tuán)，硬剛GPT-4o

何為“多模態(tài)”？

無論是文本、語音、圖像還是視頻，都是我們表達(dá)和傳遞信息、同時也是感知信息的方式。而每一種信息的來源或者形式，都可以稱之為“模態(tài)”（Modality）。

人類通過視覺、聽覺、觸覺等感官來接收和理解外部信息，也可以通過文字、語音、圖像、視頻等模態(tài)來表達(dá)、傳遞和交流信息。更廣義來說，兩種不同的語言，比如中文和英文，也是兩種不同的模態(tài)。

圖像、語音、視頻等單一模態(tài)訓(xùn)練，能在特定的專業(yè)領(lǐng)域表現(xiàn)亮眼、取得很多成就，包括圍棋領(lǐng)域的AlphaGo、蛋白質(zhì)結(jié)構(gòu)預(yù)測的AlphaFold，但這些單一模態(tài)模型仍舊存在一些局限性。

首先，單一模態(tài)的數(shù)據(jù)所傳遞的信息往往不夠全面、完整，難以充分反映真實(shí)世界的復(fù)雜性和多樣性。例如，一段文本可能沒有描述清楚一個場景的所有細(xì)節(jié)，而僅僅依靠一張圖像也無法展現(xiàn)出一個物體的功能和作用。

其次，單一模態(tài)的模型往往是孤立和封閉的，不能有效與其他模態(tài)的數(shù)據(jù)和模型進(jìn)行交互和融合。例如，一個只依靠文本生成的模型可能無法根據(jù)圖像的內(nèi)容來生成合適的描述。

隨著OpenAI的GPT-4V和商湯“日日新5.5”的多模態(tài)大模型發(fā)布，AI公司開始在技術(shù)框架層將語言模型、視覺模型、聲音模型等進(jìn)行融合。這些模型首先獨(dú)立訓(xùn)練，然后將各模型在跨模態(tài)數(shù)據(jù)上繼續(xù)訓(xùn)練，最終實(shí)現(xiàn)多模態(tài)的對齊，通過顯式或隱式的管道模式進(jìn)行連接實(shí)現(xiàn)場景。

那么，何為原生多模態(tài)？

具體來看，原生多模態(tài)就是指從訓(xùn)練階段開始，模型就利用大量不同模態(tài)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，技術(shù)上實(shí)現(xiàn)緊密的耦合，不僅可以在輸入和輸出端實(shí)現(xiàn)多模態(tài)，而且還具備強(qiáng)大的多模態(tài)推理能力以及跨模態(tài)遷移能力。

它和之前的多模態(tài)模型最核心的區(qū)別，在于模型訓(xùn)練過程中，是否同時處理所有模態(tài)的數(shù)據(jù)，還是分別針對不同目標(biāo)進(jìn)行優(yōu)化，是不同模態(tài)之間的相互串聯(lián)、橋接與轉(zhuǎn)化。

前兩月，商湯絕影率先實(shí)現(xiàn)原生多模態(tài)大模型的車端部署，官宣了搭載在200 TOPS+平臺上的8B模型(即80億參數(shù))車端部署方案。相較于有幾秒鐘延遲的云上部署方案，商湯絕影車載端側(cè)8B多模態(tài)模型可實(shí)現(xiàn)首包延遲可低至300毫秒以內(nèi)，推理速度40Tokens/秒。

商湯將多模態(tài)大模型業(yè)務(wù)分為三層——

最下面是模型層，包括車端側(cè)和云端的模型。車端側(cè)的模型可根據(jù)需求部署2.1B、8B等規(guī)模的模型，用于進(jìn)行端側(cè)的多模態(tài)大模型推理。在云端，則可以部署更大規(guī)模的模型，如20B甚至100B以上的模型。

中間是引擎層，主要有兩個產(chǎn)品。

第一個是座艙大腦，感知座艙內(nèi)的情況，如識別人類的穿著、性別、行為以及觀察座艙內(nèi)的其它細(xì)節(jié)特征，對車內(nèi)環(huán)境進(jìn)行意圖推理；第二個是全時駕駛輔助，它利用多模態(tài)大模型的能力感知車外場景，作為行駛策略的輔助。

最上面是業(yè)務(wù)層，包括語音助手、ADAS系統(tǒng)、手機(jī)運(yùn)用以及娛樂功能等，和下面的模型層、產(chǎn)品引擎層進(jìn)行融合。

02、大模型“上車”的新功課

神州數(shù)碼汽車業(yè)務(wù)集團(tuán)CTO劉黎告訴《汽車公社/C次元》，人類數(shù)字化歷史上出現(xiàn)過兩個超級生態(tài)，第一個是微軟和英特爾的PC生態(tài)，第二個是蘋果和安卓的手機(jī)生態(tài)，目前業(yè)界正期待第三個超級生態(tài)的到來——

英偉達(dá)主導(dǎo)的CUDA有其影響力，但還沒有像前兩個超級生態(tài)那樣，出現(xiàn)殺手級的應(yīng)用。智能車具有大量的傳感器，遠(yuǎn)多于手機(jī)，還是移動的隱私空間，極有可能成為下一個超級生態(tài)的突破口。

不過，很多車企的座艙設(shè)計，只是把手機(jī)的卡片式交互移植到了車上，屏幕比較大，堆積了音樂、導(dǎo)航等，本質(zhì)上還是卡片式交互。想要從根本上解決交互屬性，多模態(tài)是一個切入點(diǎn)，可以最大程度發(fā)揮智能座艙的自有優(yōu)勢。

科大訊飛智能汽車事業(yè)部智能座艙業(yè)務(wù)總經(jīng)理呂思南看來，多模態(tài)大模型加速“上車”，座艙深入融合越來越多，算法的需求也越來越強(qiáng)，對于算力也有極大的壓力。

在芯片選擇方面，頂端的是高通、聯(lián)發(fā)科以及英特爾等廠商，但隨著國產(chǎn)替代日漸強(qiáng)勢，芯片選型越來越多樣化，怎么才能更優(yōu)、更好地使用算力，是一個挑戰(zhàn)。

呂思南分析說，集中化跨模態(tài)的全鏈路數(shù)據(jù)打通，包括服務(wù)接口的標(biāo)準(zhǔn)化等方面，是需要座艙域進(jìn)一步努力的，包括芯算融合，硬件的抽象化和標(biāo)準(zhǔn)化。

挑戰(zhàn)主要有兩方面。

一是，車端應(yīng)用大模型，目前常見的承載算力的單元是SOC，SOC供應(yīng)商提供不同的算力單元，非?？简?yàn)AI能力和汽車融合的深度。如果融合不好，則需要更強(qiáng)的算力，成本會更高。

二是，現(xiàn)有的算力會導(dǎo)致整個系統(tǒng)更卡頓，以及多域融合時，互相的打通、分配產(chǎn)生很多困難。此外，OTA迭代、更新也會面臨很大的問題，這些都是當(dāng)前亟需解決的。

另一方面，是實(shí)際需求的取舍。

最近一兩年，座艙大模型如火如荼，但從最終呈現(xiàn)的產(chǎn)品體驗(yàn)來看，很多座艙應(yīng)用成了消費(fèi)者眼中的“雞肋”。在智駕領(lǐng)域，端到端等新趨勢可以提高性能和技術(shù)的天花板，但座艙大模型孵化的諸多新應(yīng)用，卻遭遇了“食之無肉、棄之有味”的尷尬。

火山引擎座艙大模型負(fù)責(zé)人張航強(qiáng)調(diào)，最近幾年，座艙內(nèi)的用戶需求沒有太大變化，它的本質(zhì)是跟車的交互。所以，智能座艙當(dāng)前的重心，不該急于產(chǎn)品創(chuàng)新，而是回歸原點(diǎn)，改變車內(nèi)場景的交互效率。

百度智艙業(yè)務(wù)部總經(jīng)理李濤也表達(dá)了類似的觀點(diǎn)，如果一個功能頻繁被用戶使用，一方面說明該功能非常實(shí)用，用戶對它產(chǎn)生了依賴；但另一方面，也體現(xiàn)了整體車輛設(shè)計的智能化程度比較低，無法理解用戶當(dāng)前所需。

“根據(jù)帕累托定律，整體軟件應(yīng)用也符合八二原則。這意味著，80%甚至更高比例的應(yīng)用不會被使用，這樣一來，不只應(yīng)用端產(chǎn)生浪費(fèi)，主機(jī)廠也需要大量投入，無形中造成了整個社會的浪費(fèi)?！?/p>

作者丨菠蘿蜜

責(zé)編丨查攸吟

編輯丨王? ?越