加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 感知表示的多樣性
    • 下游規(guī)控的易用性
    • Sora助力端到端落地
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

爆火的Sora將給自動駕駛帶來怎樣的改變?

03/01 10:50
3084
閱讀需 9 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

近日,OpenAI宣布推出生成式人工智能模型Sora,外界普遍認為,這是AI視頻生成的全新里程碑時刻。僅需只言片語,Sora就可以給你輸出一段最長60秒的視頻,并且能夠全程保持高度的流暢性與穩(wěn)定性,實現(xiàn)了對Runway、Stable Video、Pika等生成式AI的超越。值得一提的是,Sora還能夠根據(jù)靜態(tài)圖像擴展成一段視頻或補充缺失的動態(tài)幀。真賦能也好,蹭熱度也罷,一時間整個行業(yè)都在圍著AI轉(zhuǎn),也在開始認真思考,更先進的AI技術能夠為他們帶來什么不一樣的應用場景。站在汽車行業(yè)的角度,Sora等更超前的大模型是否能助力智能駕駛的真正落地,其中最先從大模型獲益的當屬感知模塊,本文想從大模型助力感知的表達來一探Sora將帶給智駕領域的革命。

感知表示的多樣性

感知的表達形式是多種多樣的,在現(xiàn)如今的主流自動駕駛框架中,感知物體的表達形式往往分為以下幾類:

一是通過bounding box的形式來表示。對于常規(guī)物體例如交通流中的車輛,行人,自行車等等,Box的表達已經(jīng)完全可以勝任,且具備高度抽象和簡潔的優(yōu)勢。但當我們談論到高級別自動駕駛,我們需要關心的是一切不可碰撞物體,其包含了柵欄、非剛體車、異形/未知類別物體、遺落的木頭塊等,Box并不能總適應這樣的物體,尤其在狹窄路段,box的表示往往會過于保守,導致車輛行為笨拙。

那么如果用polygon的形式是否就可以呢?相較于box,polygon的表達可以幾乎不丟信息地完成障礙物的形狀表達,同時兼?zhèn)淞顺橄蠛秃啙嵉男再|(zhì),但與此同時由于其是在連續(xù)空間中的表達,對算力的要求非常高,因此較難以落地。

那么是否可以結合一下離散空間與連續(xù)空間的表達形式,對兩方都有一定的妥協(xié)呢?Tesla的Occupancy Network便給出了一個很好的結合樣例?;贕rid的表示,能從本質(zhì)上解決目前感知完備性的問題,從激進的角度,甚至可能代替掉Box的表示。而這一形式的推出,也立即成為了各家自動駕駛企業(yè)的效仿對象,不僅在論文刷榜中取得了優(yōu)異的成績,也在實車落地上取得了迄今為止最好的表現(xiàn)。但與此同時我們不禁想問,Occupancy Grid已然是最好的感知表達形式了嗎?難道這個討論了十幾年的問題已經(jīng)有了最終答案,沒有再改進的空間了嗎?

下游規(guī)控的易用性

我們知道,感知想要完備地從各個傳感器的輸入中,提取出想要的物體,并將其進行語義上的融合是一項非常困難的任務,也在困擾著諸多的業(yè)界從業(yè)人員。其中非常大的一項挑戰(zhàn)便是,在信息的處理傳遞過程中,肯定會存在信息的損失。而這種信息的損失最終也會造成下游決策規(guī)控的出錯。而要想解決這一問題,最好的方式便是以規(guī)控的目標作為代價函數(shù),來優(yōu)化感知的輸出形式。

一直以來,模塊化處理復雜問題的最大劣勢便是信息的丟失問題,而端到端想要解決的便是徹底消除此間丟失的信息。通常,模塊化系統(tǒng)被稱為中間范式,并被構建為離散組件的管道,連接傳感器輸入和運動輸出。模塊化系統(tǒng)的核心過程包括感知、定位、建圖、規(guī)劃和車輛控制。模塊化流水線首先將原始傳感器數(shù)據(jù)輸入到感知模塊,用于障礙物檢測,并通過定位模塊進行定位。隨后進行規(guī)劃和預測,以確定車輛的最佳和安全行程。最后控制器生成安全操縱的命令。

另一方面,直接感知或端到端驅(qū)動直接從傳感器輸入輸出自車運動。它優(yōu)化了駕駛管道,繞過了與感知和規(guī)劃相關的子任務,允許像人類一樣不斷學習感知和行動。端到端駕駛基于傳感器輸入輸出自車運動,這種運動可以是各種形式的。然而,最突出的是相機、LiDAR、導航命令、和車輛動力學,如速度。這種感知信息被用作主干模型的輸入,主干模型負責生成控制信號。自車運動可以包含不同類型的運動,如加速、轉(zhuǎn)彎、轉(zhuǎn)向和蹬踏。此外,許多模型還輸出附加信息,例如安全機動的成本圖、可解釋的輸出或其他輔助輸出。但整個系統(tǒng)過于龐大,并缺少一個整體的優(yōu)化目標,使得端到端無法真正落地產(chǎn)生效果。隨著UniAD的提出,以planning的目標作為整個系統(tǒng)的優(yōu)化導向,并分模塊對各個子系統(tǒng)進行打分,給從業(yè)者們一個新的思考方向。

Sora助力端到端落地

OpenAI表示,Sora在訓練當中表現(xiàn)出了與其它模型不同的涌現(xiàn)能力,通過涌現(xiàn)學習到了物品的時間與空間的相關性,以及與周圍世界互動的能力等。簡單來說,Sora不單止是擁有感知世界運行法則的能力,它還可以判斷不同事物之間的關系,擁有發(fā)散思考的技能。智能汽車當中的智能駕駛能力也是訓練AI模型得出的結果。當前汽車智能駕駛分為感知、定位、決策、規(guī)劃、控制幾個模塊,每個部分緊密配合,最終實現(xiàn)精確的智能駕駛。智能駕駛的不同模塊,目前都需要單獨訓練,訓練量龐大,研發(fā)人員要通過不斷地“喂數(shù)據(jù)”優(yōu)化迭代,所帶來的沉沒成本自然巨大。

人在駕駛汽車的時候,很多判斷都是基于對這個世界的理解,比如對方的速度、會否發(fā)生碰撞、碰撞的嚴重性如何。這就是當前智能駕駛與真人司機之間的區(qū)別。

但Sora對世界的感知和交互能力,并不是單純的數(shù)據(jù)堆疊就能實現(xiàn)的。想要提高自動駕駛的研發(fā)和運行效率,人為優(yōu)化迭代是必須,更重要的還是要讓AI具備自主發(fā)散,縮短迭代周期,將交互能力賦能到現(xiàn)有的智駕模型當中,更接近人類的駕駛體驗或許就此誕生。

但與此同時,端到端的落地也伴隨著相當多的挑戰(zhàn)。首先是神經(jīng)網(wǎng)絡的可解釋性問題??梢韵胂螅绻詣玉{駛的車輛調(diào)試時出現(xiàn)安全問題,工程師們在排查問題時可不能說一句:“需要多采集點數(shù)據(jù),問題便可能得到解決”就能夠應付的。事關性命安全問題,需要的是像汽車行業(yè)幾百年累積的經(jīng)驗一般,要保障每輛車的安全性,這里容不得概率與可能性作祟。

其次便是用戶的接受程度。在自動駕駛的過程中,用戶肯定希望能看到這輛車的行為,好對行進狀況有個心理預期。而傳統(tǒng)的分模塊方案,感知的表達可以通過各種各樣的形式可視化出來,但端到端卻不具備這樣的能力,其更像是一個黑盒。在這種情況下,銷售如何向用戶保證這套系統(tǒng)的安全都是沒有說服力的,用戶的接受程度將會成為落地上真正困難的一環(huán)。

在過去的幾年里,由于與傳統(tǒng)的模塊化自動駕駛相比,端到端自動駕駛的設計簡單,人們對它產(chǎn)生了濃厚的興趣。在端到端駕駛研究呈指數(shù)級增長的推動下,越來越多的感知表達形式被提出,人們也希望在端到端的框架下,實現(xiàn)一種更加完備的感知表示方案,在保障規(guī)控接收到足夠信息的同時,也減輕感知對于算力的依賴負擔。而Sora的爆火相信也會給智駕行業(yè)指明一條全新的道路。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
AD8310ARMZ 1 Analog Devices Inc Fast, Voltage-Out, DC to 440 MHz, 95 dB Logarithmic Amplifier

ECAD模型

下載ECAD模型
$11.47 查看
LTC6995IS6-1#TRMPBF 1 Analog Devices Inc LTC6995IS6-1#TRMPBF

ECAD模型

下載ECAD模型
$2.16 查看
A3977SLPTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, 2.5A, NMOS, PDSO28, TSSOP-28

ECAD模型

下載ECAD模型
$5.5 查看

相關推薦

電子產(chǎn)業(yè)圖譜