十九岁韩国免费观看动漫下载,渣男渣女一起差差视频,免费看男人露jiji

作者 | 德新，編輯 | 王博

理想的智駕方法論

本文是HiEV出品的#解密端到端自動駕駛技術解讀系列的第八篇。

經(jīng)過100萬到200萬級別短視頻Clips的訓練，理想智駕搭載端到端+VLM視覺語言模型技術的第一個版本（OTA 6.1.0 E2E-VLM Beta 1），已經(jīng)向千人級別的內測用戶開放。

這可能是目前在國內，作為一個普通車主有機會用上的絕少數(shù)搭載了端到端技術的智駕軟件版本。從2023年下半年到眼下，在短短一年之內，端到端和大模型，迅速成為智駕行業(yè)對技術發(fā)展的共識。關于理想的端到端智駕系統(tǒng)，理想團隊曾在7月初的一場線上發(fā)布會上分享過「端到端 + VLM」雙系統(tǒng)的設計思路。一個月后，伴隨新軟件版本向千人團開放，理想智駕副總裁郎咸朋、理想智駕技術研發(fā)負責人賈鵬在北京接受了多家媒體的采訪。

站在百萬級Clips訓練數(shù)據(jù)的節(jié)點上，郎咸朋說，「我們還在摸索數(shù)據(jù)提升和性能提升的邊界，現(xiàn)在還（遠遠）沒有看到上限?！鼓壳袄硐敕e累了超過12億公里可用的駕駛場景數(shù)據(jù)，通過對已有的80萬車主駕駛行為的評分，其中約3%駕駛行為分在90分以上的車主，可以稱為「老司機」。車隊老司機的駕駛數(shù)據(jù)，成為端到端模型訓練源源不斷的燃料。

與特斯拉不同，雙系統(tǒng)設計

純粹的端到端的智駕系統(tǒng)，存在一個天然的缺陷：其訓練的數(shù)據(jù)是基于已知的駕駛場景，如果是沒有見過的場景，系統(tǒng)就沒法很好地工作。理想在內部一直有PD與RD兩支團隊，前者負責產(chǎn)品交付，后者主導技術預研。大約不到一年之前，在RD主導的技術分享會上，內部最早提到了慢思考與快思考兩套系統(tǒng)的設計理念。去年10月的戰(zhàn)略會，理想內部明確了智能駕駛是公司接下來重要的發(fā)展方向。而向AI和端到端技術的切換，也在今年上半年正式提上智駕團隊的日程。雙系統(tǒng)的設計，很自然地成為理想端到端智駕研發(fā)的基礎思考。今年，理想團隊對特斯拉FSD的體驗，也讓團隊更加堅信了雙系統(tǒng)的設計。

賈鵬說，「我們開V12.3發(fā)現(xiàn)，它東西海岸的表現(xiàn)差異非常大。西海岸特別好，舊金山附近非常順，基本沒有太多接管；但是到了東海岸，到波士頓、紐約，它表現(xiàn)急劇下降；到紐約后，紐約非常復雜，接管率會高非常多。」
紐約跟國內的上海、廣州相比還算相對簡單。那么在中國做自動駕駛，在車端芯片算力有限的情況下，僅僅靠一個端到端的模型，真的可以嗎？理想智駕的雙系統(tǒng)設計，是在端到端模型的基礎上，再加一個有泛化能力、邏輯思考能力的系統(tǒng)，也就是VLM（視覺語言大模型）。VLM不直接輸出控制信號，但會給端到端的模型提供決策依據(jù)。賈鵬介紹車端的端到端與VLM模型之間的關系：「兩個系統(tǒng)都是實時運行。端到端因為模型小一些，它幀率比較高，比如跑十幾赫茲；VLM參數(shù)量就大得多，是22億參數(shù)，目前能跑到3 - 4赫茲之間?！褂绕湓谝恍┐蟮膹碗s場景，比如高速收費站選通道走ETC還是人工、施工路段、學校路段、連續(xù)坑洼路段，VLM會給到端到端模型一些信息輸入。HiEV在實車體驗理想的端到端+VLM內測版本時，也發(fā)現(xiàn)系統(tǒng)會針對施工、學校等特殊路段給出提醒。理想的工作人員介紹：目前這部分信息直接來自于VLM，而不是來自導航信息。賈鵬認為，接下來車端的模型會有兩個趨勢：

第一，模型規(guī)模變大。系統(tǒng)一和系統(tǒng)二兩個模型有可能合一，從松耦合走向緊耦合；

第二，借鑒多模態(tài)大模型的趨勢，向原生多模態(tài)發(fā)展，既能做語言也能做語音，也能做視覺，也能做激光雷達。這樣一套范式能夠支撐機器人、具身智能的應用，走向通用人工智能。

理想的世界模型

端到端和VLM都是車端的模型，稱為系統(tǒng)1和系統(tǒng)2。而理想的云端模型，內部稱之為系統(tǒng)3，也就是大家熟知的「世界模型」。

端到端時代，迭代后的新模型版本是完全的黑盒，沒有中間結果。這也意味著，對新版本的評價和驗證工作，假設在原來多模塊架構的情況下下，只需要評估其中改動更新的1%，那現(xiàn)在變成了需要100%地進行驗證。

「肯定不可能每發(fā)一個版本，就搞很多車全國各地跑跑，跑也跑不過來，而且能力也不是這么測試的?！估上膛笳f。理想的世界模型設計，類比人類的駕照考試、教師資格證考試或者律師考試，核心是建立對專業(yè)能力的評價體系。世界模型被用于能力重建，或者說生成考題。

「我們有自己的真題庫，是人在路上駕駛的正確行為。還有錯題庫，是正常的測試和開車過程中，用戶接管、退出的數(shù)據(jù)。還有一些模擬題，根據(jù)所有的數(shù)據(jù)舉一反三，比如這個地方出匝道老有問題，那針對匝道的場景再生成一些內容。」

有了這些題目之后，團隊了解模型迭代前的上一個版本的能力，在哪些題上會出錯；而訓練完的新模型，要檢驗之前的題還會不會錯，同時保證之前對的題依然正確。再根據(jù)新版模型的打分，決定是否可以迭代到車端，投入到更大范圍的千人早鳥測試，再進一步下發(fā)給更多用戶。這樣的考核，蘊含了大量的里程數(shù)，首先考題本身具有一定規(guī)模，其次這些題目「基本上是上萬公里，但不是真正只跑幾萬公里就能得出來的，是綜合的結果」。

就像高考一樣，高考題的設計，并不是把高中的每一本書都考一遍，但需要實現(xiàn)能力評估的作用。而「世界模型」作為考題，它的設計也是一項復雜的工作。理想目前的「出題團隊」是一支混合團隊，包含了產(chǎn)品團隊、主觀評價團隊，也包括一部分當前在無圖版本中負責功能開發(fā)的工程師。理想認為智駕在未來很長一段時間內，大部分的工作會集中在一頭和一尾?！钢虚g模型本身的設計，可能沒有那么多人?！官Z鵬說，「一頭是數(shù)據(jù)，一頭是考試。大部分人都在做這兩件事。」

端到端時代的智駕開發(fā)模式

12億公里的行駛數(shù)據(jù)庫，再加上80萬車主中3%的老司機，成為一個龐大的數(shù)據(jù)資源池子。理想當前的OTA 6.1.0版，使用了100多萬條Clips來訓練。什么概念呢？200萬條短視頻基本上對應40億幀，如果采用人工標注3D框的方式，單人每天大概可以標注3幀。

所以無論從時間還是金錢的角度，端到端的訓練數(shù)據(jù)必須是自動標注了。在百萬條Clips中，理想主要使用了兩類數(shù)據(jù)：一類是30秒，一類是1分鐘的數(shù)據(jù)。人類的大部分駕駛決策集中在5秒以內，30秒就意味著覆蓋幾個小的場景；但一些長決策，比如當前本車在最左車道，之后要從最右車道下匝道，這樣的行為有時需要一分鐘或者更久。長決策則需要將有持續(xù)關系的數(shù)據(jù)拼接在一起，讓模型能夠理解場景的前后關系。

數(shù)據(jù)規(guī)模和數(shù)據(jù)配比，是影響模型表現(xiàn)的其中兩個關鍵因素。理想之前的端到端模型，在80萬Clips訓練數(shù)據(jù)規(guī)模時，還實現(xiàn)不了過環(huán)島；但到了100萬Clips規(guī)模時，突然驚喜地發(fā)現(xiàn)模型能夠自主通過環(huán)島了。另一個案例則是，剛開始做端到端模型訓練時，團隊發(fā)現(xiàn)訓練出來的模型，一般情況下開得可以，但在等紅燈的時候，車輛行為有一些奇怪，總是非常急躁想要變道或者加塞。

后來團隊才意識到，原來訓練時，因為等紅燈時周圍場景沒有變化，所以當時刪掉了很多等紅燈前十幾秒或者一分鐘的數(shù)據(jù)?！肝覀儼l(fā)現(xiàn)訓練端到端模型，跟古代煉丹沒什么區(qū)別。」郎咸朋類比了古代煉制火藥，「一硝二磺三木炭，做出來的炸藥威力比較大；其他配比，可能也能點個火。」因此，數(shù)據(jù)的配比十分關鍵。修復紅綠燈的案例，在于恢復車輛等待紅燈變綠之前的信息，而要定位這樣的問題，跟過去智駕的開發(fā)方式也有很大差別。

理想為此設計了一套專門的工具鏈：當一個問題案例（bad case）出現(xiàn)時，內部有一套分診臺Triage的機制，來自動地分析是屬于哪一類問題的場景，這個分診機制也是通過模型訓練實現(xiàn)的，這樣定位出需要補充或者替代什么樣的數(shù)據(jù)，再進行下一步的訓練，這個過程可能涉及同時訓練多個版本的模型，「現(xiàn)在最多同時訓十來個模型，再通過評分系統(tǒng)來打分?！?/p>

而如何通過數(shù)據(jù)鏈和基礎設施，把所需要的數(shù)據(jù)高效地挖出來，則是一項需要多年積累的能力?！改撤N意義上甚至大于模型的能力，因為沒有這些良好的基建和數(shù)據(jù)，再好的模型也訓練不出來?！估上膛笳J為。

10億級美元投入，華蔚小理決戰(zhàn)端到端

從7月底到本周，在幾乎不到10天的時間內，蔚來、小鵬、理想、華為先后召開發(fā)布會，公布了各自在端到端智駕上的進展。端到端上車的效果也是十分明顯的。HiEV在體驗理想端到端+VLM內測版本時，明顯感受到它在一些相對復雜場景的處理上更加細膩、擬人。

端到端將支撐智駕功能，從之前的「點到點」晉級到「車位到車位」，也意味著斷點更少、連續(xù)性更強，并且可以隨時啟動（不要求車輛在車道線內居中后開啟）。端到端還帶來了整個鏈路執(zhí)行速度的提升。

賈鵬告訴我們，過去分模塊的系統(tǒng)從傳感器信息進入到控制信號輸出大概需要300 - 400毫秒，改為端到端后這個時間變成了100多毫秒。人很難感知到這樣短的時間變化，但對于系統(tǒng)來說，這意味著更早發(fā)現(xiàn)、更加安全的能力，以及提前規(guī)劃、更加絲滑的控制。并且，當前端到端模型上車，仍然在非常早期的階段，我們還難以想象千萬級Clips訓練獲得的模型將實現(xiàn)什么樣讓人驚喜的效果。

端到端系統(tǒng)的上限在哪里？「VLM現(xiàn)在應該是站在了一個無人區(qū)的邊界。我們在做的過程中，發(fā)現(xiàn)數(shù)據(jù)規(guī)模帶來的性能提升，現(xiàn)在還沒有看到上限。」郎咸朋說。目前就車端而言，上限在于芯片的算力以及內存帶寬。

理想目前車端的端到端模型大概在3億左右的參數(shù)量，3億參數(shù)模型其能消化的訓練數(shù)據(jù)，存在上限。VLM則要比端到端模型參數(shù)規(guī)模高一個級別，而跑在云端的世界模型，參數(shù)規(guī)模要大得多，可以說是幾乎沒有上限。理想預估，明年在云端的訓練算力上將會有一個指數(shù)級的上升，因為對于世界模型，理想情況下是要重建物理世界所有的信息，其需要的數(shù)據(jù)和算力消耗是難以預估的。

「如果做到 L3和L4級的自動駕駛，一年光訓練算力花銷就得到10億美金。將來拼的就是算力和數(shù)據(jù)，背后拼的是錢。歸根到底，拼的還是盈利能力?！?/p>

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
VCA824IDGST	1	Texas Instruments	Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85	ECAD模型下載ECAD模型	$10.23	查看
L6234PD	1	STMicroelectronics	Three phase motor driver	ECAD模型下載ECAD模型	$7.18	查看
TPS2410PWRG4	1	Texas Instruments	0.8-V to 16.5-V 1.2A IQ 290-uA Igate source N+1 and OR-ing power rail controller 14-TSSOP -40 to 85	ECAD模型下載ECAD模型	暫無數(shù)據(jù)	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風險等級

參考價格

更多信息

VCA824IDGST

Texas Instruments

Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85