加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01、中國軍團(tuán),硬剛GPT-4o
    • 02、大模型“上車”的新功課
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

大模型賦能智能座艙,中國軍團(tuán)迎接新挑戰(zhàn)

10/12 11:50
1011
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

多模態(tài)是一個切入點(diǎn),可以最大程度發(fā)揮智能座艙的自有優(yōu)勢。

AI座艙,過去五年爆發(fā)式增長,現(xiàn)在問題很快出現(xiàn)了。這個領(lǐng)域產(chǎn)品系列發(fā)展的這么快,其它體系跟不上,智能座艙進(jìn)入了’無人區(qū)’,國外沒有國內(nèi)發(fā)展快?!?/p>

清華大學(xué)智能綠色車輛與交通全國重點(diǎn)實(shí)驗(yàn)室教授曹東璞,在剛舉辦的全球智能汽車產(chǎn)業(yè)大會(GIV 2024)表示,疫情前,國內(nèi)座艙產(chǎn)品基本落后國外一到兩代,從去年開始,已經(jīng)基本領(lǐng)先國外一到兩代。

國內(nèi)座艙的爆發(fā)式發(fā)展,AI大模型是主要推動力之一?!邦^部座艙企業(yè)已經(jīng)遇到瓶頸了,如果沒有大模型,座艙業(yè)務(wù)估計要一步步萎縮,很難有質(zhì)的飛躍?!?/p>

今年開始,大模型加持的智能座艙,“多模態(tài)”成了一個熱話題。隨著技術(shù)的持續(xù)迭代和發(fā)展,大模型正在從單一模態(tài)向多模態(tài)演進(jìn),多模態(tài)大模型,有希望成為未來人機(jī)交互的超級入口。

咨詢公司Gartner 預(yù)測,建立在多模態(tài)大模型上的生成式AI應(yīng)用,將從2023年的1%,激增至2027年的40%,充滿了想象空間。

目前,智能汽車是原生多模態(tài)大模型的絕佳落地場景,GPT-4o和商湯絕影的日日新最新版本,已經(jīng)能感知外部環(huán)境、人的情緒以及其他非語音信號,多模態(tài)實(shí)時交互的方式,也釋放了車企商業(yè)落地的更多想象空間。

在商湯看來,多模態(tài)大模型的座艙落地,突破了空間的限制,實(shí)現(xiàn)艙內(nèi)用戶與更廣闊的物理和數(shù)字世界的聯(lián)接,助推智能汽車向超級智能體進(jìn)化,本質(zhì)上,是一個生態(tài)的集成。

火山引擎汽車行業(yè)總經(jīng)理?xiàng)盍ヒ脖磉_(dá)了類似觀點(diǎn),大模型天生就跨終端,能夠生態(tài)打通,將來大模型在座艙最大的價值,就是幫助座艙集成好生態(tài),再打通各個終端,有足夠的想象空間。

01、中國軍團(tuán),硬剛GPT-4o

何為“多模態(tài)”?

無論是文本、語音、圖像還是視頻,都是我們表達(dá)和傳遞信息、同時也是感知信息的方式。而每一種信息的來源或者形式,都可以稱之為“模態(tài)”(Modality)。

人類通過視覺、聽覺、觸覺等感官來接收和理解外部信息,也可以通過文字、語音、圖像、視頻等模態(tài)來表達(dá)、傳遞和交流信息。更廣義來說,兩種不同的語言,比如中文和英文,也是兩種不同的模態(tài)。

圖像、語音、視頻等單一模態(tài)訓(xùn)練,能在特定的專業(yè)領(lǐng)域表現(xiàn)亮眼、取得很多成就,包括圍棋領(lǐng)域的AlphaGo、蛋白質(zhì)結(jié)構(gòu)預(yù)測的AlphaFold,但這些單一模態(tài)模型仍舊存在一些局限性。

首先,單一模態(tài)的數(shù)據(jù)所傳遞的信息往往不夠全面、完整,難以充分反映真實(shí)世界的復(fù)雜性和多樣性。例如,一段文本可能沒有描述清楚一個場景的所有細(xì)節(jié),而僅僅依靠一張圖像也無法展現(xiàn)出一個物體的功能和作用。

其次,單一模態(tài)的模型往往是孤立和封閉的,不能有效與其他模態(tài)的數(shù)據(jù)和模型進(jìn)行交互和融合。例如,一個只依靠文本生成的模型可能無法根據(jù)圖像的內(nèi)容來生成合適的描述。

隨著OpenAI的GPT-4V和商湯“日日新5.5”的多模態(tài)大模型發(fā)布,AI公司開始在技術(shù)框架層將語言模型、視覺模型、聲音模型等進(jìn)行融合。這些模型首先獨(dú)立訓(xùn)練,然后將各模型在跨模態(tài)數(shù)據(jù)上繼續(xù)訓(xùn)練,最終實(shí)現(xiàn)多模態(tài)的對齊,通過顯式或隱式的管道模式進(jìn)行連接實(shí)現(xiàn)場景。

那么,何為原生多模態(tài)?

具體來看,原生多模態(tài)就是指從訓(xùn)練階段開始,模型就利用大量不同模態(tài)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,技術(shù)上實(shí)現(xiàn)緊密的耦合,不僅可以在輸入和輸出端實(shí)現(xiàn)多模態(tài),而且還具備強(qiáng)大的多模態(tài)推理能力以及跨模態(tài)遷移能力。

它和之前的多模態(tài)模型最核心的區(qū)別,在于模型訓(xùn)練過程中,是否同時處理所有模態(tài)的數(shù)據(jù),還是分別針對不同目標(biāo)進(jìn)行優(yōu)化,是不同模態(tài)之間的相互串聯(lián)、橋接與轉(zhuǎn)化。

前兩月,商湯絕影率先實(shí)現(xiàn)原生多模態(tài)大模型的車端部署,官宣了搭載在200 TOPS+平臺上的8B模型(即80億參數(shù))車端部署方案。相較于有幾秒鐘延遲的云上部署方案,商湯絕影車載端側(cè)8B多模態(tài)模型可實(shí)現(xiàn)首包延遲可低至300毫秒以內(nèi),推理速度40Tokens/秒。

商湯將多模態(tài)大模型業(yè)務(wù)分為三層——

最下面是模型層,包括車端側(cè)和云端的模型。車端側(cè)的模型可根據(jù)需求部署2.1B、8B等規(guī)模的模型,用于進(jìn)行端側(cè)的多模態(tài)大模型推理。在云端,則可以部署更大規(guī)模的模型,如20B甚至100B以上的模型。

中間是引擎層,主要有兩個產(chǎn)品。

第一個是座艙大腦,感知座艙內(nèi)的情況,如識別人類的穿著、性別、行為以及觀察座艙內(nèi)的其它細(xì)節(jié)特征,對車內(nèi)環(huán)境進(jìn)行意圖推理;第二個是全時駕駛輔助,它利用多模態(tài)大模型的能力感知車外場景,作為行駛策略的輔助。

最上面是業(yè)務(wù)層,包括語音助手ADAS系統(tǒng)、手機(jī)運(yùn)用以及娛樂功能等,和下面的模型層、產(chǎn)品引擎層進(jìn)行融合。

02、大模型“上車”的新功課

神州數(shù)碼汽車業(yè)務(wù)集團(tuán)CTO劉黎告訴《汽車公社/C次元》,人類數(shù)字化歷史上出現(xiàn)過兩個超級生態(tài),第一個是微軟和英特爾的PC生態(tài),第二個是蘋果和安卓的手機(jī)生態(tài),目前業(yè)界正期待第三個超級生態(tài)的到來——

英偉達(dá)主導(dǎo)的CUDA有其影響力,但還沒有像前兩個超級生態(tài)那樣,出現(xiàn)殺手級的應(yīng)用。智能車具有大量的傳感器,遠(yuǎn)多于手機(jī),還是移動的隱私空間,極有可能成為下一個超級生態(tài)的突破口。

不過,很多車企的座艙設(shè)計,只是把手機(jī)的卡片式交互移植到了車上,屏幕比較大,堆積了音樂、導(dǎo)航等,本質(zhì)上還是卡片式交互。想要從根本上解決交互屬性,多模態(tài)是一個切入點(diǎn),可以最大程度發(fā)揮智能座艙的自有優(yōu)勢。

科大訊飛智能汽車事業(yè)部智能座艙業(yè)務(wù)總經(jīng)理呂思南看來,多模態(tài)大模型加速“上車”,座艙深入融合越來越多,算法的需求也越來越強(qiáng),對于算力也有極大的壓力。

芯片選擇方面,頂端的是高通、聯(lián)發(fā)科以及英特爾等廠商,但隨著國產(chǎn)替代日漸強(qiáng)勢,芯片選型越來越多樣化,怎么才能更優(yōu)、更好地使用算力,是一個挑戰(zhàn)。

呂思南分析說,集中化跨模態(tài)的全鏈路數(shù)據(jù)打通,包括服務(wù)接口的標(biāo)準(zhǔn)化等方面,是需要座艙域進(jìn)一步努力的,包括芯算融合,硬件的抽象化和標(biāo)準(zhǔn)化。

挑戰(zhàn)主要有兩方面。

一是,車端應(yīng)用大模型,目前常見的承載算力的單元是SOC,SOC供應(yīng)商提供不同的算力單元,非??简?yàn)AI能力和汽車融合的深度。如果融合不好,則需要更強(qiáng)的算力,成本會更高。

二是,現(xiàn)有的算力會導(dǎo)致整個系統(tǒng)更卡頓,以及多域融合時,互相的打通、分配產(chǎn)生很多困難。此外,OTA迭代、更新也會面臨很大的問題,這些都是當(dāng)前亟需解決的。

另一方面,是實(shí)際需求的取舍。

最近一兩年,座艙大模型如火如荼,但從最終呈現(xiàn)的產(chǎn)品體驗(yàn)來看,很多座艙應(yīng)用成了消費(fèi)者眼中的“雞肋”。在智駕領(lǐng)域,端到端等新趨勢可以提高性能和技術(shù)的天花板,但座艙大模型孵化的諸多新應(yīng)用,卻遭遇了“食之無肉、棄之有味”的尷尬。

火山引擎座艙大模型負(fù)責(zé)人張航強(qiáng)調(diào),最近幾年,座艙內(nèi)的用戶需求沒有太大變化,它的本質(zhì)是跟車的交互。所以,智能座艙當(dāng)前的重心,不該急于產(chǎn)品創(chuàng)新,而是回歸原點(diǎn),改變車內(nèi)場景的交互效率。

百度智艙業(yè)務(wù)部總經(jīng)理李濤也表達(dá)了類似的觀點(diǎn),如果一個功能頻繁被用戶使用,一方面說明該功能非常實(shí)用,用戶對它產(chǎn)生了依賴;但另一方面,也體現(xiàn)了整體車輛設(shè)計的智能化程度比較低,無法理解用戶當(dāng)前所需。

“根據(jù)帕累托定律,整體軟件應(yīng)用也符合八二原則。這意味著,80%甚至更高比例的應(yīng)用不會被使用,這樣一來,不只應(yīng)用端產(chǎn)生浪費(fèi),主機(jī)廠也需要大量投入,無形中造成了整個社會的浪費(fèi)?!?/p>

作者丨菠蘿蜜

責(zé)編丨查攸吟

編輯丨王? ?越

商湯科技

商湯科技

商湯科技以“堅持原創(chuàng),讓 AI 引領(lǐng)人類進(jìn)步”為使命,目前業(yè)務(wù)涵蓋智慧商業(yè)、智慧城市、智慧生活、智能汽車四大板塊。

商湯科技以“堅持原創(chuàng),讓 AI 引領(lǐng)人類進(jìn)步”為使命,目前業(yè)務(wù)涵蓋智慧商業(yè)、智慧城市、智慧生活、智能汽車四大板塊。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

汽車公社 速度、深度、態(tài)度! 汽車公社-官方訂閱號,專注于汽車產(chǎn)業(yè)和新科技領(lǐng)域的前沿資訊報道。