加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 聊端到端
    • 世界模型
    • 智能駕駛四大關(guān)鍵技術(shù)要素
    • L2+向L4升維
    • 激光雷達(dá)裝不裝,看成本考量
    • L3是自動(dòng)駕駛的iPhone 4時(shí)刻嗎?
    • 回應(yīng)李斌“靈魂之問(wèn)”時(shí),在回應(yīng)什么?
    • 自動(dòng)駕駛與機(jī)器人
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

對(duì)話(huà)任少卿:世界模型是自動(dòng)駕駛與機(jī)器人的新范式

09/06 11:06
877
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

一凡 整理自 副駕寺,智能車(chē)參考?| 公眾號(hào) AI4Auto

任少卿的對(duì)話(huà),是從最基本的一個(gè)智能駕駛使用場(chǎng)景開(kāi)始的——

在北上廣城市快速路的限時(shí)段公交車(chē)道,智能駕駛系統(tǒng)如何能像人類(lèi)一樣,限制的時(shí)間段避開(kāi),非限制時(shí)段高效利用?

在過(guò)去,AI系統(tǒng)會(huì)嚴(yán)格按照人類(lèi)寫(xiě)好的規(guī)則駕駛。但現(xiàn)在,端到端自動(dòng)駕駛模型的范式之下,手寫(xiě)規(guī)則的方法開(kāi)始被剔除,意味著AI系統(tǒng)需要自己去學(xué)習(xí)“限時(shí)公交車(chē)道”的特殊路況和場(chǎng)景,這需要時(shí)間,也可能短期內(nèi)無(wú)法直接滿(mǎn)足需求。

所以是不是智能汽車(chē)業(yè)內(nèi)業(yè)外,過(guò)于迷信“端到端”了?

自動(dòng)駕駛作為一個(gè)綜合工程,為什么要端到端?

端到端又為何會(huì)出現(xiàn)在此時(shí)此刻?其本質(zhì)是什么?

對(duì)智能汽車(chē)研發(fā)和車(chē)圈變革又會(huì)帶來(lái)怎樣的影響?

上述問(wèn)題,沒(méi)有人比任少卿更有發(fā)言權(quán)了。他既是世界級(jí)AI科學(xué)家,深度學(xué)習(xí)經(jīng)典成果ResNet作者之一,近十年來(lái)也躬身產(chǎn)業(yè)一線,見(jiàn)證和實(shí)踐自動(dòng)駕駛技術(shù)從研發(fā)到上車(chē),當(dāng)前是蔚來(lái)智能駕駛副總裁、蔚來(lái)自動(dòng)駕駛研發(fā)的負(fù)責(zé)人。

任少卿認(rèn)為端到端是一種必然,類(lèi)似造車(chē)會(huì)走向一體化的必然,有技術(shù)難度但不存在誰(shuí)有獨(dú)家秘籍,甚至“被強(qiáng)調(diào)太多了”……在他分享的四大關(guān)鍵技術(shù)要素中,模型只是第一點(diǎn)——數(shù)據(jù)、優(yōu)化機(jī)制和功能體驗(yàn),四位一體,缺一不可。

在他的視角里,AI也好,自動(dòng)駕駛也好,這幾年有變化,但本質(zhì)沒(méi)有變化。于是對(duì)于很多業(yè)內(nèi)熱議的具體問(wèn)題,他都有著從本質(zhì)出發(fā)的回答:

原來(lái)不考慮端到端是高速NOA場(chǎng)景簡(jiǎn)單。

AI發(fā)展本質(zhì)就2件事:一是更好效果,二是更強(qiáng)泛化性、更通用。

不需要有擁抱端到端的建議,我覺(jué)得被強(qiáng)調(diào)得太多了。

世界模型是打開(kāi)通用自動(dòng)駕駛的方式。

如果L4追求的就是Robotaxi,那我覺(jué)得社會(huì)意義沒(méi)那么大。

L5實(shí)現(xiàn)后,變革的不光是汽車(chē)、交通,還會(huì)是整個(gè)城市組織模式。

智能輔助駕駛和無(wú)人駕駛,技術(shù)架構(gòu)上不一樣的東西沒(méi)有那么多。

激光雷達(dá)是成本問(wèn)題不是技術(shù)問(wèn)題,純視覺(jué)只能說(shuō)系統(tǒng)更簡(jiǎn)單,兩種路線沒(méi)有優(yōu)劣高下之分。

L3會(huì)是自動(dòng)駕駛里程碑,可能就是ChatGPT時(shí)刻。

城區(qū)能不能開(kāi),是當(dāng)前智能駕駛第一梯隊(duì)的分水嶺要素。

自動(dòng)駕駛是泛機(jī)器人領(lǐng)域

世界模型的框架也能做機(jī)器人

AI一步一步地從不如人,然后超過(guò)人,是AI發(fā)展的規(guī)律

我們希望從今年開(kāi)始,每年能實(shí)質(zhì)性地減少10%-20%的事故

重構(gòu)是對(duì)于時(shí)空理解和對(duì)原始數(shù)據(jù)理解最深刻的表現(xiàn)形式

以下是對(duì)話(huà)實(shí)錄:

聊端到端

智能車(chē)參考:端到端怎么識(shí)別公交車(chē)道,實(shí)現(xiàn)按時(shí)段規(guī)避和利用?

任少卿:如果說(shuō)要特別精確的識(shí)別,可能還要學(xué)習(xí)怎么識(shí)別文字。

智能車(chē)參考:現(xiàn)在還不行?

任少卿:還沒(méi)加識(shí)別文字(的能力),現(xiàn)在更多的是以歷史的經(jīng)驗(yàn)去看,歷史的經(jīng)驗(yàn)里可能噪聲比較多。

現(xiàn)在系統(tǒng)其實(shí)一部分是靠歷史的經(jīng)驗(yàn),一部分是實(shí)際的(感知)。比如說(shuō)旁邊如果有個(gè)車(chē)進(jìn)去(公交車(chē)道)了,那系統(tǒng)可能考慮也進(jìn)去。旁邊一直沒(méi)有車(chē)進(jìn)去,系統(tǒng)就也不會(huì)進(jìn)去。

我覺(jué)得這確實(shí)是一個(gè)核心的點(diǎn),需要去解決。

智能車(chē)參考:這兩年大家都在聊端到端, 很多玩家All In進(jìn)去。

假設(shè)沒(méi)那么原教旨主義,就寫(xiě)一條規(guī)則,告訴系統(tǒng)什么時(shí)間能走公交車(chē)道,從而解決這個(gè)問(wèn)題不是也挺好嗎?為什么一定要把手寫(xiě)的規(guī)則都剔除掉?

任少卿:舉個(gè)例子,比如說(shuō)不同城市,北京(公交車(chē)道)可能相對(duì)來(lái)說(shuō)還規(guī)則一些。大部分都是早上7點(diǎn)到 9 點(diǎn),晚上5-7點(diǎn)在高峰期(不能走)。

很多其他的城市,有各種各樣的規(guī)則。

比如說(shuō)上海的71路公交車(chē),什么時(shí)間都不讓你走,還專(zhuān)門(mén)給它搞紅燈,連紅燈都跟別人不一樣。

那這個(gè)問(wèn)題,如果讓工程師一個(gè)一個(gè)去搞,搞不定。

所以第一個(gè)事情就是剛才說(shuō)的,這種案例太多了。

再比如說(shuō)做AEB ,原來(lái)其實(shí)是有一個(gè)法規(guī)清單和測(cè)試標(biāo)準(zhǔn)。按照測(cè)試標(biāo)準(zhǔn),一個(gè)一個(gè)案例去搞。

比如去判斷一下前面一輛車(chē)跟我自車(chē)的角度。

做測(cè)試時(shí),為了提高通過(guò)標(biāo)準(zhǔn),減少誤剎,原來(lái)寫(xiě)規(guī)則時(shí)的邏輯是:

這個(gè)車(chē)的角度發(fā)生抖動(dòng),或者這個(gè)車(chē)的角度大于某個(gè)度數(shù)就不剎。

但是實(shí)際場(chǎng)景中,車(chē)子各種各樣,甚至你前車(chē)可能就是一個(gè)奇形怪狀的車(chē),檢測(cè)出來(lái)的Object框一直在晃。

那AEB在這種情況下,怎么去剎車(chē)?

如果讓人去寫(xiě)這個(gè)規(guī)則的話(huà),有很多的工作要去做,整體來(lái)說(shuō)效率低。

原來(lái)為什么大家不考慮端到端?

比如三五年前,大家都在高速NOA的時(shí)候,因?yàn)閳?chǎng)景簡(jiǎn)單。

在高速上,就看前面三輛車(chē):

本車(chē)前面那輛車(chē),然后左邊車(chē)道一輛車(chē),右邊車(chē)道一輛車(chē),三輛車(chē)一起建模,然后寫(xiě)個(gè)規(guī)則結(jié)束。

雖然也得寫(xiě)好幾萬(wàn)行的代碼,但是它畢竟場(chǎng)景簡(jiǎn)單。

現(xiàn)在到了城區(qū),還要做主動(dòng)安全,想去處理各種各樣的復(fù)雜場(chǎng)景,比如說(shuō)城區(qū)路口的場(chǎng)景,拐進(jìn)來(lái)的兩輪車(chē)你都不知道什么角度、什么速度,什么樣的都有可能。

如果讓人一個(gè)一個(gè)規(guī)則去寫(xiě),從根本上來(lái)說(shuō),第一個(gè)是效率的問(wèn)題,第二個(gè)是效果的問(wèn)題。

我覺(jué)得這是自動(dòng)駕駛要搞端到端的核心原因。

如果我們跳出自動(dòng)駕駛的領(lǐng)域,還有一個(gè)原因就是,大家要做更統(tǒng)一的東西

其實(shí)只有自動(dòng)駕駛領(lǐng)域的人才會(huì)說(shuō)端到端和非端到端,別的領(lǐng)域不說(shuō)這事,基本看不到。

比如做語(yǔ)言模型的、做機(jī)器人的,就不會(huì)蹦出來(lái)說(shuō),我端到端了,我就厲害了。

那是因?yàn)樽詣?dòng)駕駛它本身有歷史的原因。

自動(dòng)駕駛的歷史比較長(zhǎng),在很多年前算法模型的能力沒(méi)有這么強(qiáng),所以大家只能把這件事情變成一個(gè)流水線。

跟造車(chē)一樣,比如說(shuō)壓鑄件,之前工藝不行,就只能給它分成一小塊,先造出來(lái),然后再焊。

其實(shí)自動(dòng)駕駛跟這很像。

因?yàn)樽詣?dòng)駕駛用自回歸模型用得比較早,早期不成熟,所以自動(dòng)駕駛就有一項(xiàng)非端到端的事,也是因?yàn)樗鼏?wèn)題復(fù)雜。

到了今天大家覺(jué)得模型性能提升了,就把它合起來(lái)。

還是跟工廠一樣,工廠為什么用一體壓鑄,其實(shí)就是時(shí)間效率。

而且理論上自動(dòng)駕駛開(kāi)發(fā),肯定比工廠更麻煩,因?yàn)楣S可以堆很多工人,但如果也堆很多工程師,其實(shí)更復(fù)雜。

所以端到端本質(zhì)是用一個(gè)更統(tǒng)一的方式,去提升計(jì)劃效率,包括時(shí)間的效率,包括人的效率。

實(shí)際上再進(jìn)一步說(shuō)的話(huà), 從AI 的發(fā)展來(lái)看,其實(shí)深度學(xué)習(xí)就是這個(gè)邏輯。

最近10到15 年,所有AI 算法的發(fā)展,包括應(yīng)用,本質(zhì)上就是兩件事

第一件事情是產(chǎn)生更好的效果,第二件事情是產(chǎn)生更好的泛化性。

產(chǎn)生更好的泛化性,就是用同一個(gè)方法解決更多領(lǐng)域的問(wèn)題。

整個(gè)15 年的 AI就是不停地在做這兩件事情的循環(huán)。

第一件事情比較容易理解,原來(lái)一個(gè)任務(wù),可能AI去做比人差很多,比如說(shuō)大家現(xiàn)在用得最多的是人臉識(shí)別,至少對(duì)于一個(gè)陌生人的人臉識(shí)別,一開(kāi)始AI沒(méi)有人做得好,后來(lái)跟人差不多,現(xiàn)在是絕對(duì)比人好。

其他任務(wù)其實(shí)也都這樣:

AI一步一步地從不如人,然后超過(guò)人,這是性能提升,是AI發(fā)展的第一個(gè)方向。

第二個(gè)發(fā)展方向,實(shí)際就是通用性。

比如說(shuō)一個(gè)圖像識(shí)別的算法,和物體檢測(cè)的算法,分別用來(lái)判斷一張圖是什么類(lèi)別和判斷這張圖里面有什么物體,開(kāi)始都是不同的算法、不同的框架,后來(lái)這些東西就融合了。

再后來(lái)所有圖像類(lèi)的任務(wù)基本上都融合了,現(xiàn)在說(shuō)圖像類(lèi)的任務(wù)跟語(yǔ)音類(lèi)的任務(wù)也快融合了。

在自動(dòng)駕駛上也是一樣,實(shí)際上是希望它最后變成所有智能體的任務(wù),自動(dòng)駕駛開(kāi)車(chē)也好,機(jī)器人走路也好,機(jī)器狗爬山也好,所有任務(wù)都是用同樣一套框架去做,這也是端到端之后要做的事情。

智能車(chē)參考:所以Transformer是一個(gè)很重要的變量,帶來(lái)了效果上或者是算法能力上的提升,還帶來(lái)了什么?

任少卿:Transformer算是一個(gè)工具。

但是我想說(shuō)AI 的發(fā)展,實(shí)際上大家都在追求這兩件事情,沒(méi)有transformer,可能也會(huì)有其他的(工具),但大家追求的這個(gè)方向?qū)嶋H上是沒(méi)有變的,就是想追求更好和更通用。

回到我們剛才說(shuō)的這個(gè)事情上,自動(dòng)駕駛的端到端實(shí)際上是某種程度上追求更好。

另外的就是什么樣的框架,除了自動(dòng)駕駛外,相關(guān)的所有的智能體或者類(lèi)機(jī)器人的方向,都能用同樣的方式去解決。

這個(gè)是我覺(jué)得一定會(huì)有人去做,大家想做的事。

智能車(chē)參考:在三年前我們講自動(dòng)駕駛還是要講四個(gè)堆棧。那時(shí)候可能也有人說(shuō)一定要做一個(gè)模型,但那個(gè)時(shí)候?qū)崿F(xiàn)不了。

這兩年大家都覺(jué)得可以這樣做了,中間是什么關(guān)鍵的要素發(fā)生了變化?

任少卿:如果我們先不考慮算力的話(huà),為了做一個(gè)任務(wù),肯定是要有數(shù)據(jù)的。算法現(xiàn)在是要依賴(lài)數(shù)據(jù),當(dāng)然也有人在說(shuō)要做一些小數(shù)據(jù)量的算法。

反正現(xiàn)在這一代的人工智能的算法,肯定都是 data onwards。

現(xiàn)在要解決的問(wèn)題,針對(duì)一個(gè)任務(wù),可以標(biāo)注一些數(shù)據(jù),但是沒(méi)有必要標(biāo)注很大的量。

針對(duì)另外一個(gè)任務(wù),又要標(biāo)注很多數(shù)據(jù),所以我覺(jué)得這里面第一個(gè)跨領(lǐng)域的核心點(diǎn),實(shí)際上是怎么把這個(gè)數(shù)據(jù)的描述統(tǒng)一,以及把數(shù)據(jù)量拉上去

但實(shí)際上為了統(tǒng)一,就要標(biāo)得更復(fù)雜,數(shù)據(jù)量要拉上去就更難。

同時(shí)為了統(tǒng)一需要數(shù)據(jù)量更大,如果標(biāo)注方法或者訓(xùn)練方法本身沒(méi)有辦法去承擔(dān)更大的量的話(huà),就是標(biāo)不起更多的數(shù)據(jù),量也拉不上去。

之前因?yàn)闆](méi)有辦法統(tǒng)一兩個(gè)領(lǐng)域的數(shù)據(jù),也沒(méi)有辦法把這兩個(gè)領(lǐng)域的數(shù)據(jù)都搞到足夠大的量。

比如一個(gè)領(lǐng)域搞1, 000 張圖,另外一個(gè)領(lǐng)域搞 1, 000 張圖,獨(dú)立的分置就變簡(jiǎn)單了。

那現(xiàn)在的狀態(tài)是什么呢?有這個(gè)數(shù)據(jù)的基礎(chǔ),可以讓它不分置。

那不分置的基礎(chǔ),一個(gè)是數(shù)據(jù)量增大,一個(gè)更根本的基礎(chǔ),實(shí)際上就是數(shù)據(jù)標(biāo)注,從人工標(biāo)注變到自動(dòng)化,以及從自動(dòng)化變到完全不需要標(biāo)注,這是非常大的進(jìn)展。

所以回答這個(gè)問(wèn)題,我們?cè)倏偨Y(jié)一下。

原來(lái)的問(wèn)題是要分置,我沒(méi)辦法做到統(tǒng)一,因?yàn)橛袃蓚€(gè)限制,一個(gè)數(shù)據(jù),一個(gè)算力,所以我要分置。

現(xiàn)在就是說(shuō)數(shù)據(jù)和算力都能支持,不要分置,合在一起搞。

數(shù)據(jù)的角度能支持合在一起搞的話(huà),從要標(biāo)注到自動(dòng)標(biāo)注再到不需要標(biāo)注,自動(dòng)標(biāo)注跟不需要標(biāo)注還不一樣,不需要標(biāo)注是一個(gè)更好的狀態(tài)。

如果這個(gè)東西徹底不需要標(biāo)注了,那你的算力又能頂住更大的數(shù)據(jù)量扔進(jìn)去,就相當(dāng)于把兩個(gè)東西合在一起做,這個(gè)是核心。

所以回到自動(dòng)駕駛這件事情上,很重要一點(diǎn)就是要把這個(gè)標(biāo)注給取消。

智能車(chē)參考:現(xiàn)在自動(dòng)駕駛的標(biāo)注成本,到什么程度了?

任少卿:自動(dòng)駕駛這幾年變化很大,五年前可能標(biāo)一個(gè)框幾毛錢(qián)。

前兩年,整個(gè)標(biāo)注還需要花錢(qián),但是它通過(guò)自動(dòng)化標(biāo)注的方式,每兩年可能效率提升100倍,三年可能效率提升了萬(wàn)倍到百萬(wàn)倍。

現(xiàn)在我們其實(shí)追求的,就是想不標(biāo)注。

因?yàn)闊o(wú)論自動(dòng)標(biāo)注什么東西,雖然它效率提高了,原來(lái)可能 5 毛錢(qián)一個(gè)框,現(xiàn)在5 毛錢(qián)能標(biāo)1萬(wàn)個(gè)框,或者說(shuō)能標(biāo) 100 萬(wàn)個(gè)框,但是畢竟還是要耗時(shí)間的。

現(xiàn)在就想不標(biāo)注了,就是原始視頻直接進(jìn)入(模型)。

智能車(chē)參考:現(xiàn)在用戶(hù)都會(huì)去關(guān)注,車(chē)企的智駕是不是端到端的系統(tǒng)。

多少有點(diǎn)詭異,因?yàn)槎说蕉诉@個(gè)的事情它更大的意義是在于研發(fā),在于廠商本身,對(duì)于用戶(hù)其實(shí)沒(méi)有那么大的意義。我不在乎我的這個(gè)車(chē)是不是端到端的系統(tǒng),我覺(jué)得他能處理很多或體驗(yàn)很好就行。

任少卿:我覺(jué)得挺有意思一件事,就是說(shuō)這個(gè)事情本身也只存在于先鋒用戶(hù),或者說(shuō)這個(gè)早期體驗(yàn)用戶(hù)里面。

我覺(jué)得這里面其實(shí)有兩點(diǎn),首先用戶(hù)愿意去關(guān)注這些工作還挺好的。

就比如說(shuō)做語(yǔ)言模型的相關(guān)用戶(hù),他甚至關(guān)心你模型怎么訓(xùn)練的一樣,大家關(guān)心關(guān)心這事也挺好。

第二個(gè)事情,也是因?yàn)槲矣X(jué)得最近半年功能上的熱點(diǎn)沒(méi)有那么多,因?yàn)槟阆肴ツ昴甑椎浇衲昴瓿?,大家也不是說(shuō)沒(méi)在做端到端,沒(méi)在做模型化,只是說(shuō)有一個(gè)可能,更貼近產(chǎn)品的所謂的城區(qū)開(kāi)城的事,吸引到大家的注意力。

今年開(kāi)始,頭部幾家開(kāi)城開(kāi)得差不多了、故事幾乎講完了。蔚來(lái)在4月開(kāi)完全域全量智駕發(fā)布會(huì)后,這也不是個(gè)故事。尤其是對(duì)于早期領(lǐng)航用戶(hù)來(lái)說(shuō),討論的這些話(huà)題對(duì)他來(lái)說(shuō)是有意思的,他才參與這個(gè)過(guò)程。

那現(xiàn)在討論啥呢?

現(xiàn)在不是只能討論端到端嘛?

那我覺(jué)得,再往后那是不是也許大家會(huì)討論點(diǎn)到點(diǎn),討論 L3 ,只是說(shuō)廠商還沒(méi)有去引導(dǎo)這個(gè)方向。

智能車(chē)參考::端到端對(duì)于廠商研發(fā)的變革會(huì)有很大嗎?

有兩派的觀點(diǎn),一派覺(jué)得車(chē)輛是一個(gè)系統(tǒng)性的工程,你不要迷信端到端。

有一派則認(rèn)為這是新范式,得All in一樣擁抱。

你是怎么看?

任少卿我覺(jué)得說(shuō)的都沒(méi)有錯(cuò)。

我們一直不是二極管邏輯,這本質(zhì)上是大家用開(kāi)發(fā)工具一樣,都是寫(xiě)的代碼,或者說(shuō)我都是編輯個(gè)視頻,或者說(shuō)大家都寫(xiě)文章。

拿文章舉例,那我們都是寫(xiě)文章,那chatgpt 用不用好像也沒(méi)事。

用了后你可能也帶來(lái)一些額外的問(wèn)題,但是用了之后如果用順手了,可能效率能更高一點(diǎn)。

說(shuō)你不用ChatGPT就落后了,或者說(shuō)你用了這個(gè)就太激進(jìn)了——這沒(méi)什么必要爭(zhēng),對(duì)吧?

只是說(shuō)大家挑自己順手的效率工具。

第二個(gè)從長(zhǎng)期的角度來(lái)說(shuō),那可能會(huì)是個(gè)趨勢(shì),只是說(shuō)大家進(jìn)入端到端的時(shí)間,用起來(lái)的時(shí)間和你自己的學(xué)習(xí)時(shí)間不一樣。

智能車(chē)參考:端到端會(huì)給你們研發(fā)的流程帶來(lái)什么樣改變?

任少卿這其實(shí)就是個(gè)模型化的事,大家現(xiàn)在過(guò)多地關(guān)注這個(gè)事。

模型化對(duì)于自動(dòng)駕駛而言,絕對(duì)不是只是半年的事。

自動(dòng)駕駛最早可能2013年就開(kāi)始用深度學(xué)習(xí),逐漸地在增多比例,只是說(shuō)最近可能大家其他的話(huà)題也不多,所以就多說(shuō)一說(shuō)。

智能車(chē)參考:端到端是一個(gè)模型化的事。

后進(jìn)入端到端的玩家能夠通過(guò)開(kāi)源模型,再投入自己的數(shù)據(jù),實(shí)現(xiàn)后發(fā)優(yōu)勢(shì)嗎?

任少卿:這就跟打魔獸或者打星際一樣,本質(zhì)上就是你先爆兵還是先點(diǎn)科技的問(wèn)題,一個(gè)意思。

當(dāng)你點(diǎn)科技就意味著說(shuō)你的生產(chǎn)力,你的錢(qián),花在了科技上,那你爆出來(lái)的兵就少一點(diǎn)。

其實(shí)就是說(shuō)你的功能少一點(diǎn),或者說(shuō)你的細(xì)節(jié)上,用戶(hù)體驗(yàn)調(diào)整少一點(diǎn)。

智能車(chē)參考:所以你覺(jué)得還是不同的選擇的問(wèn)題?

任少卿:但是這件事對(duì)于頭部玩家實(shí)際上是個(gè)長(zhǎng)期的事,當(dāng)然短期也要照顧。

所以說(shuō)科技總得點(diǎn),只是說(shuō)你在什么時(shí)間點(diǎn),有的早升級(jí),有的晚升級(jí)。

那節(jié)奏的話(huà)就很難說(shuō)了。

因?yàn)樗愕姆N族相關(guān),跟你的資源相關(guān),跟你選擇英雄相關(guān),跟你想打什么,出什么兵也相關(guān),所以大家自然按自己的節(jié)奏來(lái)了,最后就看結(jié)果唄

智能車(chē)參考:端到端對(duì)研發(fā)的要素會(huì)有什么樣的改變嗎?比如數(shù)據(jù)的自動(dòng)化之類(lèi)的。

任少卿:我覺(jué)得數(shù)據(jù)一直都是重點(diǎn)。

只是說(shuō)大家這個(gè)重視度不一樣,但是我覺(jué)得這個(gè)方向是沒(méi)有變的,大家肯定是越來(lái)越重視。曲線有一點(diǎn)不一樣。

智能車(chē)參考:你有什么擁抱端到端的建議?

任少卿:我覺(jué)得不需要,就是強(qiáng)調(diào)端到端有點(diǎn)太多了,本質(zhì)上就是AI的一個(gè)應(yīng)用。

人工智能應(yīng)用實(shí)際上就是兩個(gè)核心,第一個(gè)是基礎(chǔ)的能力:模型數(shù)據(jù)。

第二個(gè)是對(duì)于專(zhuān)業(yè)的應(yīng)用領(lǐng)域的理解,就這么兩件事。一撥人可能更多的點(diǎn)的是通用技術(shù)棧,一撥人點(diǎn)的更多的是 domain knowledge。

智能車(chē)參考:所以其實(shí)算法、算力和數(shù)據(jù),這三要素是沒(méi)有變化的。

任少卿:只是說(shuō)現(xiàn)在模型的基礎(chǔ),模型的變化使得它的通用性變得更強(qiáng)一些,那大家需要去升級(jí)自己的技術(shù)棧。

智能車(chē)參考:端到端會(huì)改變自動(dòng)駕駛好與不好的評(píng)價(jià)標(biāo)準(zhǔn)嗎?

任少卿:我覺(jué)得好與不好一定是由用戶(hù)體驗(yàn)定義的。

這跟技術(shù)是沒(méi)什么特別強(qiáng)關(guān)聯(lián)。只能說(shuō)有的技術(shù)可能去做這件事情花的精力更少一些。

智能車(chē)參考:就現(xiàn)在來(lái)看,評(píng)價(jià)系統(tǒng)的好壞,更多的還是從數(shù)據(jù)層面,比如接管間隔時(shí)長(zhǎng)。

任少卿:對(duì),因?yàn)槿绻瑯右粋€(gè)用戶(hù),接管的傾向是一樣的,那接管的比例或者接管的里程,是一個(gè)比較重要的參考。

但是不同的用戶(hù)其實(shí)也不一樣,因?yàn)橛械挠脩?hù),你可能對(duì)他造成了驚嚇,或者說(shuō)不安全感的,這個(gè)優(yōu)先級(jí)會(huì)更高一些,或者換句話(huà)說(shuō),有不安心的監(jiān)管和正常的監(jiān)管,就只是用戶(hù)覺(jué)得說(shuō)沒(méi)什么不安全,也沒(méi)什么不安心,只是我覺(jué)得你這個(gè)效率低,可能需要分一下。

智能車(chē)參考:自動(dòng)駕駛會(huì)不會(huì)犯類(lèi)似“分不清9.11和9.9哪個(gè)大”的常識(shí)性錯(cuò)誤?

任少卿:有的,其實(shí)是一樣的,語(yǔ)言模型里面叫幻覺(jué),自動(dòng)駕駛就叫?Corner case。

什么叫Corner Case,或者說(shuō)誤檢,漏檢。

比如說(shuō),語(yǔ)言模型突然輸出了一句莫名其妙的話(huà),自動(dòng)駕駛的感知模型突然間有一幀沒(méi)了,或突然間蹦出來(lái)一個(gè)實(shí)際上不存在的東西,其實(shí)都是類(lèi)似的事。

所以自動(dòng)駕駛解決這個(gè)問(wèn)題,相對(duì)來(lái)說(shuō)比較早了。

那更多的是,通過(guò)時(shí)序的切割機(jī)制,通過(guò)校驗(yàn)機(jī)制等去解決。

實(shí)際上像語(yǔ)言模型里面管控承諾也是這樣, COT(思維鏈)?的一方面的邏輯實(shí)際上就是讓系統(tǒng)自我校驗(yàn)

通過(guò)一個(gè)更復(fù)雜的輸出表達(dá),然后自我去校驗(yàn)。

現(xiàn)在也有什么MOE ,還有其他的一些方法,比如說(shuō)實(shí)際應(yīng)用端的后端的校驗(yàn),都是同樣的邏輯,所以整體來(lái)說(shuō)就是模型訓(xùn)練,性能對(duì)齊,主要是輸出一個(gè)跟人類(lèi)偏好差不多東西。

第三個(gè)就是有錯(cuò)的問(wèn)題,通過(guò)多次的校驗(yàn),用神經(jīng)網(wǎng)絡(luò),非神經(jīng)網(wǎng)絡(luò)的方法,再加上一些人力規(guī)則的方法去校驗(yàn)這個(gè)事情,把錯(cuò)的東西挑出來(lái)變成正確。比如你用的這些聊天軟件的,其實(shí)就是把錯(cuò)的東西挑出來(lái),跟你說(shuō)這個(gè)東西我不要了。

世界模型

智能車(chē)參考:進(jìn)入系統(tǒng)的視頻數(shù)據(jù),一方面是標(biāo)注的真實(shí)數(shù)據(jù),另外一方面就是世界模型的生成數(shù)據(jù),有點(diǎn)像LLM中合成數(shù)據(jù)。

任少卿:如果要定義一個(gè)任務(wù)的話(huà),最終要回答一個(gè)問(wèn)題,這個(gè)問(wèn)題就是你定義的任務(wù)有多通用。

從自回歸的角度來(lái)說(shuō),你定義的任務(wù)越通用越fundamental,從學(xué)術(shù)的角度意義越大,從應(yīng)用的角度也是一樣。

10 年前大家說(shuō)計(jì)算機(jī)視覺(jué)領(lǐng)域的三大 fundamental 的任務(wù),圖像分類(lèi),檢測(cè)和分割。

大家想一想,去理解一個(gè)圖像,能對(duì)它進(jìn)行分類(lèi),進(jìn)行提框,找出里面的物體進(jìn)行分割,確實(shí)是根本任務(wù)。

但是到了今天,這個(gè)fundamental的定義不夠了。我們需要一個(gè)更根本的問(wèn)題。

語(yǔ)言問(wèn)題定義的根本問(wèn)題,是預(yù)測(cè)下一個(gè)token,下一個(gè)詞。

實(shí)際上對(duì)視覺(jué)也是一樣。

如果能定義一個(gè)更fundamental的任務(wù)解決問(wèn)題,因?yàn)樗黤undamental,所以在上面找應(yīng)用,它覆蓋的范圍就更廣。

智能車(chē)參考:用視頻生成視頻,本質(zhì)上也是對(duì)問(wèn)題的窮舉?

任少卿:是的,作為一個(gè)基礎(chǔ)任務(wù),最根本、最本質(zhì)就是要定義這個(gè)東西。

所以現(xiàn)在的定義就是,視頻去生成視頻這件事情更本質(zhì),因?yàn)樗馨械钠渌赡苄浴?/p>

輸出視頻是一個(gè)分類(lèi),把中間的物體摳出來(lái),那它就是可以做物體檢測(cè)的任務(wù)。

輸出的是一個(gè)分割的結(jié)果,就是可以做分割的任務(wù)。

輸出的是一個(gè)三維重建,換個(gè)角度的結(jié)果,就可以做三維重建的任務(wù)。

所以視頻生成視頻這件事情,實(shí)際上從問(wèn)題的定義上來(lái)說(shuō)是一個(gè)更fundamental 的問(wèn)題。

而且我們認(rèn)為,重建是對(duì)于時(shí)空理解和對(duì)原始數(shù)據(jù)理解最深刻的表現(xiàn)形式

因?yàn)榛旧显瓉?lái)的信息量,都需要重構(gòu)出來(lái),才能去做中間的事情。

智能車(chē)參考:現(xiàn)在的世界模型和更早前的虛擬仿真,本質(zhì)不同是什么?

任少卿虛擬仿真實(shí)際上我覺(jué)得完全是一個(gè)另外的邏輯。

實(shí)際上是兩個(gè)方向。

一個(gè)方向,我們叫做計(jì)算機(jī)視覺(jué),一個(gè)方向是計(jì)算機(jī)圖形學(xué)。

其實(shí)是分別干了兩件事,一個(gè)事情是理解世界,一個(gè)事情是再造世界,就是虛構(gòu)一個(gè)視覺(jué)。

但是最近兩年兩個(gè)方向也越來(lái)越近了。從總體上來(lái)說(shuō),完全地理解這個(gè)世界是世界模型要干的事。

那現(xiàn)在也有一些用原始視頻的方式來(lái)仿真,但它本質(zhì)上不是要完全理解這個(gè)事情,不是說(shuō)給它一個(gè)輸入,就要把輸入完全理解,而是說(shuō)要重構(gòu)一個(gè)東西出來(lái)。

重構(gòu)的東西不見(jiàn)得是這個(gè)世界的全部。

所以仿真的問(wèn)題是仿真不包含這個(gè)世界的全部信息

比如說(shuō)最早的仿真,拿游戲來(lái)舉例,游戲其實(shí)某種情況下就是仿真。

最早的仿真就是大家打紅白機(jī)游戲,有(像素化)粗的信息,但是很多精細(xì)的東西是沒(méi)有的。所以仿真一直的問(wèn)題就是它不斷地逼近真實(shí)世界,但它離真實(shí)世界還有距離。

智能車(chē)參考:蔚來(lái)講世界模型的時(shí)候,用了類(lèi)人腦的方式,將其劃分成兩個(gè)部分,這是為了方便聽(tīng)眾理解,還是系統(tǒng)本身就是劃分成了兩塊?

任少卿:為了讓大家理解,我們會(huì)把它切得很開(kāi)。

但實(shí)際上做的時(shí)候是耦合在一起做的,也不是完全分開(kāi)。本質(zhì)上其實(shí)也要想辦法,就是說(shuō)有一些概念去處理。但是實(shí)際做的時(shí)候不會(huì)像跟大家說(shuō)的時(shí)候分得這么開(kāi),分這么開(kāi)是為了方便大家理解。

實(shí)際上我們講的時(shí)候,第一部分關(guān)于重構(gòu),其實(shí)也是重構(gòu)成視頻。

那重構(gòu)成視頻,某種程度上里面也包含時(shí)間的信息,只是說(shuō)我們給大家講例子它不會(huì)那么長(zhǎng)。

我們講第一部分的時(shí)候,重構(gòu)可能就是一個(gè)很小的范圍,那講第二部分的時(shí)候,我們就可以更強(qiáng)調(diào)它的時(shí)間長(zhǎng),它的變化多,但是實(shí)際上它是耦合在一起的。

智能車(chē)參考:對(duì)生成式AI關(guān)注多嗎?

任少卿:我覺(jué)得挺好,最近實(shí)際上變化很大呀。

就是我為什么要去說(shuō)世界模型這件事,會(huì)往這個(gè)方向走?

因?yàn)榫褪腔氐絼偛拍莻€(gè)話(huà)題,端到端、非端到端只是智能駕駛領(lǐng)域的一個(gè)大家討論的事。

從技術(shù)角度來(lái)說(shuō),實(shí)際上從更大的范圍之內(nèi),那自動(dòng)駕駛和機(jī)器人與大語(yǔ)言模型的融合是什么樣的方式?

智能車(chē)參考:世界模型,就是你們給出的一個(gè)方式。

任少卿:對(duì),它是一個(gè)更貼近通用的一個(gè)方式,自動(dòng)駕駛能用,機(jī)器人能用。

那語(yǔ)言模型,后面的原生規(guī)模也會(huì)是類(lèi)似的框架。

當(dāng)然我們其實(shí)還有更激進(jìn)的方式,就融合所有域,但是那個(gè)后面再說(shuō)。

智能車(chē)參考:規(guī)模很宏大,會(huì)遇到工程問(wèn)題嗎?

任少卿:很多工程問(wèn)題,所以現(xiàn)在給大家講的世界模型,它會(huì)更貼近于下一個(gè)階段的機(jī)器人、自動(dòng)駕駛,以及語(yǔ)言模型的基本框架。

智能車(chē)參考:什么是世界模型的多元自回歸生成結(jié)構(gòu)?

任少卿:其實(shí)這里面的這三個(gè)東西,和大家實(shí)際上都在研發(fā)的語(yǔ)言模型,機(jī)器人框架,很類(lèi)似。

里邊有三個(gè)關(guān)鍵詞,從右往左說(shuō),第一個(gè)是生成,這個(gè)生成的方式,它有很多的優(yōu)勢(shì),你不用標(biāo)數(shù)據(jù)了,你的學(xué)習(xí)效率更高,所以語(yǔ)言模型早就是生成了

機(jī)器人的數(shù)據(jù)更少,它也只能生成它,它標(biāo)也標(biāo)不動(dòng),那自動(dòng)駕駛往這個(gè)方向走也沒(méi)問(wèn)題。

自回歸本質(zhì)上可以解決長(zhǎng)時(shí)序的問(wèn)題,所以語(yǔ)言模型long contacts也是類(lèi)似的方式。自動(dòng)駕駛和機(jī)器人要解決長(zhǎng)時(shí)序的問(wèn)題,也得用這種方式。

多元是什么呢?

多元就是這個(gè)multivariable input 和output(多模態(tài)輸入與輸出),本質(zhì)上是要解決多數(shù)據(jù)源的問(wèn)題,那之后自動(dòng)駕駛想用互聯(lián)網(wǎng)的數(shù)據(jù),或者互聯(lián)網(wǎng)想用更多領(lǐng)域的數(shù)據(jù),其實(shí)都要用類(lèi)似的這種方式。

我們是希望通過(guò)這些框架,去打通跨領(lǐng)域的事。

智能駕駛四大關(guān)鍵技術(shù)要素

智能車(chē)參考:現(xiàn)在NAD(蔚來(lái)智能駕駛)的迭代過(guò)程中,車(chē)主的反饋也是一個(gè)很重要的機(jī)制?

任少卿:比如說(shuō)一個(gè)模型上車(chē)了之后,舉個(gè)簡(jiǎn)單例子,模型這個(gè)時(shí)間點(diǎn)執(zhí)行不減速,那車(chē)主突然一腳踩下剎車(chē),肯定就是有問(wèn)題。

拿出來(lái)看看問(wèn)題在哪,需不需要重新讓模型學(xué)一下。

智能車(chē)參考:現(xiàn)在都在做城區(qū)NOA,但每一家最后呈現(xiàn)的體驗(yàn)不同,你覺(jué)得是什么因素決定的?

任少卿:可以認(rèn)為有四大因素:

第一是模型,第二是數(shù)據(jù),第三是優(yōu)化——模型總是會(huì)出問(wèn)題,出了問(wèn)題之后怎么用其他的方式、基于優(yōu)化的方式去做聯(lián)動(dòng)。

第四個(gè)是功能的多少,你 feature 有多少,實(shí)際上就是基于前面三塊,但并不是完全相關(guān)。

所以模型的角度實(shí)際上就是我們這次所說(shuō)的核心。

每家其實(shí)會(huì)有不一樣,甚至說(shuō)每家不一樣的點(diǎn)還不少,這是模型的角度。

第二個(gè)就是數(shù)據(jù)的角度,數(shù)據(jù)多還是少、頻率快還是慢。這方面其實(shí)車(chē)廠會(huì)有一些優(yōu)勢(shì)。

因?yàn)閿?shù)據(jù)變化跟這些供應(yīng)商比,車(chē)廠會(huì)更好一些。

對(duì)于我們來(lái)說(shuō),蔚來(lái)數(shù)據(jù)閉環(huán)做的,我覺(jué)得可能是全球最好。

第三個(gè)實(shí)際上就是說(shuō),模型輸出的結(jié)果也會(huì)有問(wèn)題,那處理的方式,導(dǎo)致的效果更好還是效果更差?

效果好,其實(shí)有兩點(diǎn),第一點(diǎn)是說(shuō)不要誤殺它的結(jié)果。

第二個(gè)是,如果不是誤殺了模型的結(jié)果,模型做得不好的時(shí)候相對(duì)來(lái)說(shuō)更絲滑:

不要出現(xiàn)這個(gè)模型前半段這么開(kāi)的,后半段不是了,后半段輸出的軌跡不平緩。

比如說(shuō),系統(tǒng)突然打方向盤(pán),雖然做對(duì)了沒(méi)撞墻,那對(duì)用戶(hù)來(lái)說(shuō)肯定也不好,明顯有段落感,體驗(yàn)不好。

第四個(gè)就是說(shuō)基于以上有什么新的功能。

從功能的角度,從用戶(hù)體驗(yàn)的角度來(lái)說(shuō),能不能做得更好。

這就包括用戶(hù)的監(jiān)控,跟用戶(hù)的交互,那往后的點(diǎn)到點(diǎn)、L3要做得怎么樣。

總結(jié)來(lái)看,技術(shù)能不能做到一個(gè)層級(jí),這個(gè)事情很重要。

因?yàn)槟撤N程度上來(lái)說(shuō),模型數(shù)據(jù)根本上是為了提高效率,這是第一點(diǎn)。

第二個(gè)是提升上限,但是實(shí)際上它并不能保證它的下限一定在提高,它有可能下限在下降。

所以后面包括融合模型和優(yōu)化方法,實(shí)際上就要保證下限能提回去或者提得更高,同時(shí)又不降低效率。

第四個(gè)就是前面都有了,需要讓用戶(hù)用得爽,需要讓用戶(hù)有更多的功能,因?yàn)榍懊孢@些都不涉及功能。

智能車(chē)參考:你自己現(xiàn)在會(huì)坐其他的車(chē)嗎?

你主要關(guān)注一些什么?

任少卿:我覺(jué)得分短期、長(zhǎng)期吧。

從蔚來(lái)自己的價(jià)值體系,我一直說(shuō)解放精力、減少事故,說(shuō)白了實(shí)際上第一個(gè)就是讓用戶(hù)用得更舒心,用得時(shí)間更長(zhǎng),第二個(gè)就是更安全。

如果我們從這兩個(gè)角度來(lái)說(shuō),回溯前面十年自動(dòng)駕駛的發(fā)展,從解放精力的角度來(lái)說(shuō),功能從ACC變成了LCC,變成了高速領(lǐng)航,再到現(xiàn)在做城區(qū)領(lǐng)航。

前面三個(gè)實(shí)際上都是相當(dāng)于走完了1到N的階段,基本上已經(jīng)很成熟。

城區(qū)NOA從去年到今年可能早一些時(shí)候,走完了 0 到 1 的,還要走 1 到 n 的。1 到 n 當(dāng)然需要一些時(shí)間,差不多要一年,就能比較成熟。但是這個(gè)是說(shuō)已有的。

那下面從實(shí)際解放精力的角度,這個(gè)角度肯定還有新的0到1出現(xiàn)。

不是說(shuō)前面的1 到n做完了,才做下面的 0 到 1 。比如說(shuō)城區(qū)的,0到1,開(kāi)始的時(shí)候高速還沒(méi)有完全成熟,其實(shí)還有再下一個(gè)節(jié)點(diǎn)。

現(xiàn)在大家會(huì)說(shuō),我在城區(qū)里面覆蓋更多的場(chǎng)景,比如做點(diǎn)到點(diǎn);同時(shí)也會(huì)做L3,就是說(shuō)讓人解放得更多,因?yàn)槲覀冏罱K都是要解放精力。做點(diǎn)到點(diǎn)的意思是說(shuō)能覆蓋的范圍更大,覆蓋的用戶(hù)時(shí)間更多。

那做L3,或者說(shuō)脫手脫眼的這個(gè)功能的話(huà),實(shí)際上就在原來(lái)已有的范圍之內(nèi),能讓解放的比例更高。

從減少事故的角度來(lái)說(shuō),主要是主動(dòng)安全,一直在進(jìn)步,覆蓋的場(chǎng)景在變多。

但是我們覺(jué)得這個(gè)還不是特別夠。

它相當(dāng)于從大的層面上,比如說(shuō)真實(shí)世界是張餅,原來(lái)只是餅的左邊有兩粒芝麻,我現(xiàn)在希望拿這個(gè)芝麻撒餅,差不多都能覆蓋到。

我最終還是希望主動(dòng)安全能做到真正減少事故。

但從個(gè)體的角度來(lái)說(shuō),這件事情的不確定性很大。

因?yàn)榭赡芙裉靹幉涿魈鞗](méi)剮蹭,這個(gè)是有一些偶然因素的,但從群體的角度來(lái)說(shuō),所有的車(chē)主的車(chē),今年產(chǎn)生一共多少次事故?

我們希望說(shuō),從今年開(kāi)始,每年能實(shí)質(zhì)性地往下走10%-20%。

對(duì)于個(gè)人用戶(hù)來(lái)說(shuō)可能沒(méi)有這么明顯,但從一個(gè)群體的角度來(lái)說(shuō),進(jìn)展會(huì)非常明顯。

實(shí)際上我們發(fā)現(xiàn)高速上開(kāi)輔助駕駛的安全性,已經(jīng)是不開(kāi)輔助駕駛的六點(diǎn)幾倍了。

但是因?yàn)槲覀冏罱K的目標(biāo)是解決全量車(chē)主在所有時(shí)間,不管在什么狀態(tài)下,實(shí)際上的事故總量的減少。

如果要做這件事情,實(shí)際上輔助駕駛在這里面的比例還是比較低的。更大的比例是人駕的狀態(tài)。就是需要減少人駕狀態(tài)的事故。有提醒有剎車(chē),能真正降低全量事故的比例。

所以我們?yōu)槭裁聪茸龆说蕉说腁EB。

是因?yàn)槲覀儼l(fā)現(xiàn)全量事故里面將近30%左右的場(chǎng)景,是因?yàn)橐惠v車(chē)正在開(kāi),尤其是國(guó)內(nèi)過(guò)路口的時(shí)候,一輛電瓶車(chē)從各種角度過(guò)來(lái),行人從不同角度過(guò)來(lái),更多的是這樣。

那原來(lái)的AEB功能,更多的是一輛車(chē),如果是完全垂向接近的時(shí)候能剎車(chē),當(dāng)它帶點(diǎn)角度的時(shí)候,成功率就會(huì)下降很多。

寫(xiě)規(guī)則搞不定這事,所以為什么上端到端去搞這些事?實(shí)際上我們希望這種場(chǎng)景先往下降,后面我們也會(huì)去上針對(duì)于通用障礙物更強(qiáng)的主動(dòng)安全功能。

智能車(chē)參考:實(shí)際上還是整體系統(tǒng)基礎(chǔ)的技術(shù)能力不斷地在提升?

任少卿:瞄的目標(biāo)也不一樣。

其實(shí)大家之前做的主動(dòng)安全絕大多數(shù)的廠商包括供應(yīng)商都是,做主端安全的目標(biāo)是拿到5星,就是拿到比如說(shuō)E-NCAP、 C-NCAP的 4 星或5 星成績(jī),這是大家最主要的目標(biāo)。

最近也多了一些評(píng)測(cè)機(jī)構(gòu)又搞了一些新型的評(píng)測(cè)。大家可能也想拿個(gè)高分。

但是我們?cè)谶@個(gè)基礎(chǔ)之上,更希望去做的是,能實(shí)質(zhì)性地減少事故數(shù)。

NIOIN也說(shuō)了,我們統(tǒng)計(jì)下來(lái)的數(shù)字,如果只是做這些標(biāo)準(zhǔn)場(chǎng)景的AEB,實(shí)際上在真實(shí)場(chǎng)景里面可能只能搞定 10%?。

因?yàn)閷?shí)際上 AEB 即使觸發(fā),也不是100%能完全停下來(lái)。

只做法規(guī)清單的這些要求,可能最高才能解決10%的場(chǎng)景。但如果要再考慮一下有沒(méi)有響應(yīng)、有沒(méi)有剎停,比例肯定會(huì)到一個(gè)比較低的個(gè)位數(shù)。那還剩 95% 以上的場(chǎng)景怎么解決呢?

L2+向L4升維

智能車(chē)參考:L2+能通過(guò)端到端,堆數(shù)據(jù)、算力、傳感器,向L3和L4躍遷嗎?

任少卿:我覺(jué)得實(shí)際上分開(kāi)看, L4 是什么,如果說(shuō)L4是Robotaxi,讓車(chē)自己,或者讓私家車(chē)自己出去拉貨或者拉人,我覺(jué)得反正不太現(xiàn)實(shí)。

技術(shù)上可能某年某月能實(shí)現(xiàn),但這件事情從社會(huì)的意義上也沒(méi)那么大。

本身交通運(yùn)營(yíng)中有人在這里面去提供服務(wù)去賺錢(qián),這事挺好。

那私家車(chē)都去干這個(gè)事,然后呢?你怎么去平衡這些關(guān)系?所有的私家車(chē)如果都沒(méi)事就上街溜,那我覺(jué)得這路就沒(méi)法開(kāi)了。

這根本是一件我覺(jué)得很莫名其妙的事。

智能車(chē)參考:你質(zhì)疑這個(gè)底層的邏輯,或者它的社會(huì)價(jià)值。

任少卿:我是有疑問(wèn)的。

很簡(jiǎn)單,現(xiàn)在不要說(shuō)所有的私家車(chē)了,有一半的私家車(chē)上路,這路就不用動(dòng)了。

智能車(chē)參考:那未來(lái)Robotaxi隨叫隨到了,大家都不買(mǎi)車(chē)了,可能嗎?

任少卿不可能。

這個(gè)事情其實(shí)我?guī)啄昵熬拖朊靼住?/p>

我買(mǎi)車(chē)之前也是這么覺(jué)得的。那時(shí)候我天天打車(chē),但是實(shí)際上因?yàn)橛么蜍?chē)軟件,比較好算。到了年底,算一下你今年花了多少錢(qián)?肯定沒(méi)有養(yǎng)車(chē)貴,所以我覺(jué)得好像不需要養(yǎng)輛車(chē)。

但是當(dāng)我自己真的買(mǎi)車(chē)后,我覺(jué)得還是不一樣。因?yàn)槲矣X(jué)得網(wǎng)約車(chē)只能產(chǎn)生一個(gè),比公交車(chē),比地鐵可能更深化一些的出行手段。

但是有車(chē)是加大了你可到達(dá)的范圍。但是網(wǎng)約車(chē)是不解決這個(gè)問(wèn)題的。自己有車(chē)之后,可能周末出去的空間范圍就會(huì)更大。

智能車(chē)參考:從技術(shù)上講,一輛車(chē)有一個(gè)虛擬的司機(jī),任何時(shí)候、任何場(chǎng)景能自己去開(kāi),現(xiàn)在已經(jīng)能夠?qū)崿F(xiàn)了嗎?

任少卿那個(gè)定義實(shí)際上叫L5。

你看現(xiàn)在沒(méi)有人提L5,因?yàn)楸举|(zhì)上說(shuō)L3,是在某些限定場(chǎng)景,有一個(gè)虛擬司機(jī)——其實(shí)都不算司機(jī),因?yàn)橄到y(tǒng)可能會(huì)叫你立刻回去接管。

那L4是說(shuō)在一些固定的場(chǎng)景,一些點(diǎn)到點(diǎn),系統(tǒng)能開(kāi)車(chē)。

剛才說(shuō)的實(shí)際上是需要一個(gè)完全私家司機(jī),他能去應(yīng)對(duì)任何場(chǎng)景,這個(gè)叫L5,現(xiàn)在大家提都不提,因?yàn)樗容^遠(yuǎn)。

智能車(chē)參考:“比較遠(yuǎn)”的原因你覺(jué)得是什么?

任少卿:我覺(jué)得是各種各樣的場(chǎng)景,還比較復(fù)雜。

L5更接近一個(gè)通用人工智能,同時(shí)我覺(jué)得需要解決各種各樣的復(fù)雜場(chǎng)景的 corner case,隨著技術(shù)進(jìn)步慢慢弄。

對(duì)于價(jià)值點(diǎn)上來(lái)說(shuō),我覺(jué)得如果要實(shí)現(xiàn)L5并不只是一個(gè)技術(shù)上的問(wèn)題。

因?yàn)槿绻幸粋€(gè) L5 的話(huà),我認(rèn)為可能城市都會(huì)因此發(fā)生變化。

我舉個(gè)例子,如果真的有一個(gè) L5 的車(chē),我為什么還要住在城市里呢?

我希望下了班之后就上車(chē),我上車(chē)該干嘛干嘛,該洗澡洗澡,該開(kāi)會(huì)開(kāi)會(huì),該睡覺(jué)睡覺(jué),該吃飯吃飯,然后我想下車(chē)的時(shí)候他就在一個(gè)風(fēng)景很好的地方。比如說(shuō)我晚上干完活,想出去溜達(dá)的時(shí)候,已經(jīng)在山里的湖邊了。

我為什么要住在城區(qū)里呢?

如果是L5出現(xiàn),整個(gè)社會(huì)都會(huì)改變,它已經(jīng)不是單純的一個(gè)技術(shù)方式。

智能車(chē)參考:L5級(jí)自動(dòng)駕駛相對(duì)來(lái)講,是更終極的目標(biāo),但為什么從業(yè)者又不把它當(dāng)做一個(gè)目標(biāo)?

任少卿:我覺(jué)得沒(méi)有說(shuō)不能把它當(dāng)成一個(gè)目標(biāo),只是大家覺(jué)得這個(gè)事還比較遠(yuǎn)。

如果從長(zhǎng)期的角度,我覺(jué)得它總有一天會(huì)實(shí)現(xiàn)。
只是說(shuō)現(xiàn)在從商業(yè),從技術(shù)角度來(lái)說(shuō)大家并不是說(shuō),我今天就是瞄了這個(gè)事,然后我就不干別的了。

因?yàn)閺牧慨a(chǎn)的角度,從賺錢(qián)的角度來(lái)說(shuō),單獨(dú)商業(yè)模式的角度L2、L3、 L4 都是成立的。那就相當(dāng)于心理路徑上,你有一個(gè)點(diǎn)在那,就先做這個(gè)。

智能車(chē)參考:有人說(shuō),自動(dòng)駕駛分有人和無(wú)人這兩條路,會(huì)越分越開(kāi)。你認(rèn)同嗎?

任少卿:沒(méi)有,因?yàn)槲矣X(jué)得他們說(shuō)這是兩條路,沒(méi)看到是兩條路,現(xiàn)在做L5又是什么路呢?

現(xiàn)在不還是用同樣的邏輯在做?

智能車(chē)參考:就比如說(shuō)我們做有人的這個(gè)智能輔助駕駛,根本上還是為了輔助人,所以最后一定有個(gè)車(chē)主作為兜底,或者車(chē)主作為最后的一道把關(guān)。

而做無(wú)人的,他從系統(tǒng)設(shè)計(jì)開(kāi)始,到整個(gè)過(guò)程和結(jié)束,他就一定是要把人的因素給剔除出去的。所以可能會(huì)導(dǎo)致這兩個(gè),大家最后設(shè)計(jì)的時(shí)候,一個(gè)是面向了舒適,一個(gè)是面向了車(chē)主的體驗(yàn),一個(gè)是面向了安全,就是我絕對(duì)不能任何情況下我都不保證說(shuō)是這個(gè)人要去接管的。

任少卿:我覺(jué)得宏觀上可以這么說(shuō),但是這個(gè)事情如果我們這么說(shuō),其實(shí)就很難得到一個(gè)結(jié)論,還是要拆到微觀上到底有多少東西是不一樣。

那主要從現(xiàn)在這個(gè)技術(shù),我覺(jué)得不一樣的東西沒(méi)有這么多?;蛘哂植皇钦f(shuō)主要的部分是不一樣的,主要的部分反而是相對(duì)比較像,這個(gè)是問(wèn)題。

智能車(chē)參考:所以你覺(jué)得這些要素的構(gòu)成,沒(méi)有長(zhǎng)出兩個(gè)不同的東西。

任少卿它當(dāng)然有不同,但是你要看它的比例,它的比例上這個(gè)絕大多數(shù)是比較類(lèi)似的東西。

激光雷達(dá)裝不裝,看成本考量

智能車(chē)參考:有激光雷達(dá)的融合感知,和純視覺(jué)路線,你是怎么看的?

任少卿:本質(zhì)上智能駕駛是一個(gè)冗余的系統(tǒng),這套系統(tǒng)設(shè)計(jì)上,你愿意為冗余花多少代價(jià)。

智能車(chē)參考:用不用激光雷達(dá),你覺(jué)得是技術(shù)問(wèn)題還是還是成本問(wèn)題?

任少卿:我覺(jué)得就是從成本和落地,如果今天激光雷達(dá)一個(gè)50萬(wàn)美金,那可能Robotaxi也不會(huì)上。如果今天激光雷達(dá),還是一個(gè)1萬(wàn)美金,那量產(chǎn)車(chē)也不會(huì)上,那就是因?yàn)樗裉毂阋肆耍橇慨a(chǎn)車(chē)也上了。

智能車(chē)參考:多一個(gè)傳感器的信息,會(huì)不會(huì)加大處理數(shù)據(jù)的難度?

任少卿:比如說(shuō)我們拿醫(yī)療舉例子,那為啥不拿一個(gè)攝像頭去盯人看CT?為啥非得搞個(gè) CT 出來(lái)。

同樣的邏輯,本質(zhì)上就是說(shuō)產(chǎn)出和你的投入能不能算得過(guò)來(lái)

其實(shí)某種程度上,如果我們估計(jì)激光雷達(dá)的性能不變的話(huà),投入就是越來(lái)越低。

特斯拉決定現(xiàn)在這套傳感器的時(shí)候,應(yīng)該已經(jīng)在 10 年到 15 年之前,那時(shí)候不可能(用激光雷達(dá))。如果我換到馬斯克的位置上,我都已經(jīng)產(chǎn)了 100 萬(wàn)、 200 萬(wàn)輛車(chē),現(xiàn)在上個(gè)激光雷達(dá),我前面的車(chē)怎么辦。

智能車(chē)參考:所以你覺(jué)得,從商業(yè)的那個(gè)維度上,馬斯克必須要一條路走到底?

任少卿:他沒(méi)有辦法,他怎么選擇呢?比如說(shuō)即使他今天覺(jué)得激光雷達(dá)好,同時(shí)現(xiàn)在激光雷達(dá)便宜了,原來(lái)可能覺(jué)得原來(lái)激光雷達(dá)很貴,那我不上。

那現(xiàn)在便宜了,如果說(shuō)激光雷達(dá)就是 200 塊錢(qián),他依然會(huì)面臨問(wèn)題,他上還是不上,就雖然他從 ROI的角度來(lái)說(shuō)他已經(jīng)完全能算得過(guò)來(lái)了,但是問(wèn)題是說(shuō)他上了之后,他前面的車(chē)怎么辦,以及整體的用戶(hù)口碑怎么辦。

智能車(chē)參考:如果說(shuō)一開(kāi)始就確定了激光雷達(dá)的冗余方案,現(xiàn)在又要把激光雷達(dá)拿掉,用視覺(jué)的方案,它在技術(shù)上有什么不一樣?

任少卿:技術(shù)上完全是一樣的。

因?yàn)楝F(xiàn)在模型很多都是一體化的。

原來(lái)是訓(xùn)練數(shù)據(jù)是攝像頭、激光雷達(dá)都進(jìn)去,出來(lái)結(jié)果。現(xiàn)在把激光雷達(dá)結(jié)束,代碼上改了,就這么簡(jiǎn)單。

智能車(chē)參考:所以,現(xiàn)在用激光雷達(dá)還是用戶(hù)的一個(gè)心智問(wèn)題?

任少卿:這其實(shí)是個(gè)成本的問(wèn)題,就是斌哥說(shuō)的那句我們其實(shí)越來(lái)越認(rèn)同。就是一個(gè)氣囊,你多裝幾個(gè),有的車(chē)裝 10 個(gè),有的車(chē)裝 18 個(gè),那你裝幾個(gè)?

你當(dāng)然是便宜的車(chē),你裝 18 個(gè),這可能不太現(xiàn)實(shí),那你貴的車(chē)多裝點(diǎn)。

這跟這個(gè)大家在車(chē)上的抗扭剛度,你用的這個(gè)材料,比如說(shuō)防撞梁的厚度其實(shí)都類(lèi)似,對(duì)吧?就是相當(dāng)于說(shuō)大家都知道安全好,那我這個(gè)加得多好,但是問(wèn)題是你怎么平衡你的成本和收益?

原來(lái)可能十年前,奔馳的S級(jí)上也有激光雷達(dá)的,只是說(shuō)一個(gè)激光雷達(dá)可能要十幾萬(wàn),對(duì)吧?那它就不是一個(gè)民用車(chē)的配置。

只是說(shuō)現(xiàn)在它越來(lái)越便宜了,所以你越來(lái)越多的車(chē)有,但是它畢竟還沒(méi)便宜到說(shuō)一個(gè)3萬(wàn)塊錢(qián)的車(chē)也能裝的成本,所以它自然就是有的車(chē)有的車(chē)沒(méi)有罷了

智能車(chē)參考:拋開(kāi)成本的角度,去講技術(shù)的體驗(yàn),有激光雷達(dá)和純視覺(jué)的方式,不同方式間你覺(jué)得現(xiàn)在差別大嗎?

任少卿:我們很難去定義大與小這個(gè)事嘛。就是說(shuō)怎么說(shuō)大與?。?/p>

比如說(shuō)一個(gè) 30 萬(wàn)車(chē)的座椅和 20 萬(wàn)車(chē)的座椅大還是?。坎町惔筮€是?。课艺娴臎](méi)辦法回答這個(gè)問(wèn)題,那有些人覺(jué)得說(shuō)那我就是想買(mǎi)更好的,那你就去買(mǎi)更好。

那有人覺(jué)得說(shuō),還是需要,相對(duì)來(lái)說(shuō)性?xún)r(jià)比更高一點(diǎn),或者相對(duì)來(lái)說(shuō)這個(gè)價(jià)格更低一些。

智能車(chē)參考:就是個(gè)人選擇和廠商選擇的問(wèn)題,因?yàn)檫x擇,所以相信?

任少卿:是,因?yàn)楸举|(zhì)上這個(gè)事情就客觀存在。

比如說(shuō)十幾萬(wàn)的車(chē),你現(xiàn)在市場(chǎng)上沒(méi)有哪家有激光雷達(dá)的,對(duì)吧?

那50 萬(wàn)以上的新車(chē)可能就全都有,就是這么一個(gè)現(xiàn)實(shí)的情況,對(duì)吧?

那這個(gè)我們說(shuō)它是好是壞,這些東西我覺(jué)得沒(méi)有意義。

智能車(chē)參考純視覺(jué)信號(hào)更純粹,產(chǎn)出的結(jié)果會(huì)不會(huì)更絲滑一些?

任少卿:只能說(shuō)它的系統(tǒng)更簡(jiǎn)單。那你當(dāng)然是說(shuō)你的東西少,你就更簡(jiǎn)單了。

那跟造車(chē)一樣,你說(shuō)有的車(chē),上面這個(gè)密密麻麻裝 20 個(gè)麥克風(fēng),跟裝兩個(gè)麥克風(fēng),哪個(gè)系統(tǒng)更簡(jiǎn)單?一定是裝兩個(gè)麥克風(fēng)的系統(tǒng)更簡(jiǎn)單,這不廢話(huà)嘛。

一定是裝20 個(gè)麥克風(fēng),還想把它的性能發(fā)揮出來(lái),要更麻煩,比如蔚來(lái)車(chē)上裝了7.1.4沉浸聲音響,那一開(kāi)始上線的時(shí)候硬件是裝上去了,沒(méi)有音源,那還得去搞音源,那么又花一堆時(shí)間搞音源。

那當(dāng)然復(fù)雜了。

那你如果不裝這玩意,那你就隨便該用什么放用什么放唄。

其實(shí)是類(lèi)似的邏輯,你說(shuō)激光雷達(dá)和攝像頭進(jìn)去了,你必然這個(gè)系統(tǒng)并不是完全對(duì)齊的,那你需要有更復(fù)雜的軟件,去解決這個(gè)問(wèn)題。

人也是一樣啊,我前兩天看那個(gè)關(guān)于人腦的書(shū),就是我們的腦耳朵和眼睛的延時(shí)是不一樣,那你的大腦也需要去處理這個(gè)問(wèn)題,就是耳朵是更快,眼睛是更慢,但是我們平時(shí)完全感覺(jué)不到這件事情是因?yàn)榇竽X去做了這個(gè)處理。

但是在某些場(chǎng)景上,某些場(chǎng)景下它是有區(qū)別的,比如說(shuō)就是短跑發(fā)令的時(shí)候,都是用槍?zhuān)皇怯霉猓瑢?duì)吧?但是我們說(shuō)你光的傳遞速度一定比槍快、比聲音快,你為啥不用光呢?是因?yàn)樗X子里面光傳得更慢,就視覺(jué)信號(hào)傳得更慢。

智能車(chē)參考:所以你不會(huì)面臨這樣的挑戰(zhàn)或者是質(zhì)疑:

你們不用純視覺(jué),所以技術(shù)沒(méi)有用純視覺(jué)的好?

任少卿樂(lè)道就是純視覺(jué),更多的我們不認(rèn)為說(shuō)它是一個(gè)技術(shù)的原因,而是因?yàn)樗褪钱a(chǎn)品定義的問(wèn)題,那你需要讓用戶(hù)用一個(gè)合理的價(jià)格去買(mǎi)到一個(gè)對(duì)它來(lái)說(shuō)性?xún)r(jià)比更高的事情,所以為什么說(shuō)我們樂(lè)道用純視覺(jué)?因?yàn)槲覀兿M膬r(jià)格更便宜,對(duì)吧?所以我們就是說(shuō)需要在這方面去降本。

智能車(chē)參考有算力成本下降的原因嗎??即芯片的算力成本,下降的速度比激光雷達(dá)要更快,所以可以用更大的算力去承載視覺(jué)方案。

任少卿:會(huì)有一個(gè)取舍。

比如你如果說(shuō)在一個(gè)方案上你都想往下降 3, 000 塊錢(qián),那你到底是砍激光雷達(dá),還是別的傳感器,或者砍芯片?

你當(dāng)然都是會(huì)有這樣的一個(gè)平衡。比如說(shuō)我們樂(lè)道的方案,其實(shí)我們就會(huì)面臨,如果我把激光雷達(dá)加上去,可能要把芯片做得更小,對(duì)吧?

那我們從系統(tǒng)上的評(píng)估來(lái)說(shuō),我可能還是維持這個(gè)單 orin的芯片,然后把激光雷達(dá)去了,然后再加一個(gè)我們自己定制的毫米波雷達(dá),自己定制的比這個(gè)傳統(tǒng)的毫米波雷達(dá)稍微好一些,但是實(shí)際上就是原來(lái)可能前兩年的市面上的一般的毫米波雷達(dá)是要更便宜,性能我們通過(guò)前融合的方式去提高。那最終產(chǎn)生一個(gè),這樣的一個(gè)bom成本下,那最好的體驗(yàn)。

智能車(chē)參考:假設(shè)你有朋友要買(mǎi)車(chē),然后他最看重智駕能力,一個(gè)車(chē)有激光雷達(dá)比如蔚來(lái),一個(gè)沒(méi)有激光雷達(dá)比如樂(lè)道,你的建議是什么?

任少卿:看你愿意出多少錢(qián),就很簡(jiǎn)單,就是有錢(qián)就上蔚來(lái)。

本質(zhì)上我覺(jué)得這個(gè)事情很難給消費(fèi)者建議,因?yàn)榇蠹业念A(yù)算都是根據(jù)自己的實(shí)際情況來(lái),對(duì)吧?

對(duì)于消費(fèi)者來(lái)說(shuō),你多5萬(wàn)塊錢(qián),那對(duì)于這樣一個(gè) 20 萬(wàn)的車(chē)還是一個(gè)不小的差別,所以我覺(jué)得大家還是按照自己的預(yù)算來(lái)就好。

我們其實(shí)要做的就相當(dāng)于說(shuō)在同樣的價(jià)錢(qián)上,把體驗(yàn)的性?xún)r(jià)比做的更高,比如說(shuō)樂(lè)道L60,這樣一個(gè)車(chē),20萬(wàn)塊錢(qián)左右。

然后空間大,還能換電,同時(shí)這個(gè)自動(dòng)駕駛也能去開(kāi)城區(qū)NOA。那我們就說(shuō)這樣的一個(gè)功能和這樣的一個(gè)價(jià)格,它是性?xún)r(jià)比更高了。

智能車(chē)參考:樂(lè)道和蔚來(lái)不會(huì)說(shuō)因?yàn)閮r(jià)錢(qián)的不同,所以智駕體驗(yàn)就要低一些?

任少卿:智能駕駛這個(gè)能力,我們肯定是說(shuō)每一個(gè)平臺(tái),我肯定都希望說(shuō)在它的硬件基礎(chǔ)上做到最好,但是我們本身應(yīng)該怎么做,它本身有硬件的差距,這個(gè)大家也得客觀承認(rèn)。有的多花錢(qián),有的少花錢(qián)。

L3是自動(dòng)駕駛的iPhone 4時(shí)刻嗎?

智能車(chē)參考::你覺(jué)得我們智能駕駛有ChatGPT或者說(shuō)iPhone時(shí)刻嗎?有這種可以期待的節(jié)點(diǎn)嗎?

任少卿:我覺(jué)得其實(shí)之前也有挺多節(jié)點(diǎn),比如說(shuō)你可能回到兩三年前,大家覺(jué)得說(shuō)中國(guó)的這個(gè)城區(qū)NOA能推得這么快嗎?好像也不太可能,也沒(méi)想到過(guò),對(duì)吧?

高速NOA現(xiàn)在這么成熟,如果回到五年前也沒(méi)想到過(guò)。

所以我覺(jué)得它有一個(gè)里程碑級(jí)別的特別具體的點(diǎn)。

比如說(shuō)我們剛才回憶說(shuō),第一次高速NOA或者說(shuō)城區(qū)NOA第一次開(kāi)通,那其實(shí)如果回想起來(lái)也是很重要的時(shí)間點(diǎn),只是說(shuō),可能增量也會(huì)更多一些。

后面可能等到哪一天正式 L3 量產(chǎn)了,那也是一個(gè)(里程碑)。甚至說(shuō)我覺(jué)得十年之后回憶,比如說(shuō)百度robotaxi出圈,那可能現(xiàn)在這個(gè)時(shí)間點(diǎn)也是一個(gè)。

智能車(chē)參考:站在未來(lái),現(xiàn)在我們很難去定義一個(gè)時(shí)刻?

任少卿:這么想嘛,就是說(shuō) iPhone 4 發(fā)布的時(shí)候,誰(shuí)能想到iPhone從iPhone 4 之后就,越來(lái)越不行了,從變革的角度看的話(huà),對(duì)吧?誰(shuí)能想到說(shuō) iPhone 4 是最大的一代變革?我當(dāng)年買(mǎi)iPhone4的時(shí)候,沒(méi)覺(jué)得是這樣。

智能車(chē)參考:所以是不是意味著比如說(shuō)L3,大概可能是自動(dòng)駕駛的iPhone 4時(shí)刻?

任少卿:不知道。

我覺(jué)得這只能說(shuō),本質(zhì)上如果之后自動(dòng)駕駛發(fā)展,確實(shí)越來(lái)越慢了,那就是這樣。

但如果之后越來(lái)越快了,可能又蹦出來(lái)一次(iPhone 4時(shí)刻)。

那你站在 iPhone 3 的時(shí)候,你怎么知道后面有沒(méi)有出現(xiàn)iPhone 4?

還是說(shuō)另外一個(gè)平行時(shí)空iPhone 3是個(gè)頂峰,然后后面就越來(lái)越慢了。

因?yàn)檫@個(gè)東西確認(rèn)的不是你自己做的好與壞,而是后面的人,后面的是給你個(gè)評(píng)價(jià),對(duì)吧?

后面做的這些哥們兒,他是不是比你厲害?

如果這些哥們兒實(shí)際上都沒(méi)你厲害,那你就最強(qiáng)了,對(duì)吧?那你沒(méi)法預(yù)測(cè),因?yàn)檫@是后人的事情。

智能車(chē)參考:說(shuō)我們?yōu)槭裁匆欢ㄒ鯨3?

任少卿::沒(méi)啥,我覺(jué)得對(duì)于輔助駕駛你需要一個(gè)更強(qiáng)的使用,是對(duì)于用戶(hù)的解放。

對(duì)于用戶(hù)的價(jià)值也很清楚,就是說(shuō)對(duì)女生來(lái)說(shuō),那我能不能上車(chē)化個(gè)妝?

對(duì)男人來(lái)說(shuō),那我想要說(shuō)能不能上車(chē)打局游戲,就這么簡(jiǎn)單的事,那就怎么滿(mǎn)足用戶(hù)吧。

智能車(chē)參考:所以L3相對(duì)來(lái)講,是你們內(nèi)部比較明確的一個(gè)實(shí)現(xiàn)目標(biāo)?

任少卿:肯定是需要,但它叫什么都行。我只是說(shuō) L3 其實(shí)不是我們內(nèi)部常規(guī)的叫法。

我們內(nèi)部是不拿這些東西說(shuō)概念的,就是說(shuō)你能不能讓用戶(hù)去打電話(huà),讓用戶(hù)上車(chē)開(kāi)播,讓用戶(hù)上周打游戲,對(duì)吧?類(lèi)似這樣的。那再下一個(gè)是能不能讓用戶(hù)上車(chē)睡覺(jué)。

但我們從來(lái)我們不打算做讓用戶(hù)上車(chē)睡覺(jué)的事,覺(jué)得離我們比較遠(yuǎn)。

所以現(xiàn)在可能考慮,下一個(gè)階段讓用戶(hù)上車(chē)吃個(gè)飯,上車(chē)打個(gè)游戲。

智能車(chē)參考:每一個(gè)任務(wù)都有這種場(chǎng)景性的定義。

任少卿:對(duì),因?yàn)槟阏f(shuō)不定你到底給用戶(hù)產(chǎn)生了啥價(jià)值。對(duì) toc產(chǎn)品公司來(lái)說(shuō),你一定是要給用戶(hù)產(chǎn)生一個(gè)具體的價(jià)值。

否則說(shuō)你就跟用戶(hù)說(shuō)這個(gè)多好,但是到底能讓他干啥,說(shuō)不清楚,沒(méi)意義。

回應(yīng)李斌“靈魂之問(wèn)”時(shí),在回應(yīng)什么?

智能車(chē)參考:你回答斌哥的靈魂之問(wèn),認(rèn)為蔚來(lái)絕對(duì)是智駕第一梯隊(duì)。你的依據(jù)是什么?

你怎么去判斷這個(gè)梯隊(duì)?

任少卿:我覺(jué)得每個(gè)人的定義不一樣,我也不知道啥叫第一梯隊(duì),只在我的這個(gè)印象中,或者在我的這個(gè)邏輯里面,那現(xiàn)在你就要做幾件事:

第一個(gè)是說(shuō)城區(qū)能開(kāi),因?yàn)檫@是 0-1 的階段,對(duì)吧?

其實(shí)大家能看到,0-1一個(gè)階段完成,然后剩下的城區(qū)實(shí)際上就是進(jìn)入優(yōu)化的階段,那優(yōu)化其實(shí)每家可能有些優(yōu)化多一點(diǎn),那個(gè)點(diǎn)優(yōu)化少一點(diǎn),我覺(jué)得這個(gè)也屬于比較焦灼,然后不是一個(gè)特別具體的階段。

大家說(shuō)的現(xiàn)在關(guān)心的比較多的端到端模型化的事,但是我覺(jué)得這都是屬于更偏底層的事,那更偏上層的事,那這個(gè)說(shuō)點(diǎn)到點(diǎn),然后那其實(shí)我們現(xiàn)在說(shuō)了應(yīng)該也可以很快適配。

然后這個(gè) L3、L4,其實(shí)都沒(méi)上車(chē),但是我們?nèi)脒x了L3的第一批試點(diǎn)。

然后這個(gè)L4我們不算L4,我們不叫它L4,但是從用戶(hù)的角度來(lái)說(shuō)是可以讓你下車(chē)的,這應(yīng)該后面也會(huì)上,就換電站,離車(chē)的換電,實(shí)際上從技術(shù)手段上來(lái)說(shuō)它不是個(gè)L4,但是從用戶(hù)體驗(yàn)上是。從這個(gè)減少精力的角度來(lái)說(shuō),從減少事故的角度來(lái)說(shuō),我覺(jué)得那我們其實(shí)265算是一個(gè)比較大的版本

因?yàn)槲覀兊淖罱K目的就是要減少事故,我們265因?yàn)楝F(xiàn)在時(shí)間還比較短,大概發(fā)出去兩周,我們實(shí)際上從 265 的版本的報(bào)案數(shù)據(jù)已經(jīng)明顯比 260 要少,是一個(gè)能看到的比例,我覺(jué)得在這個(gè)點(diǎn)上實(shí)際上我們是走上了一個(gè)更正確的道路,就不要老是貼小視頻說(shuō)我到底有多強(qiáng)

因?yàn)槊考叶寄苜N出來(lái)小視頻。其實(shí)說(shuō)真的就每家都能貼出來(lái),但這個(gè)事更多的還是一個(gè)營(yíng)銷(xiāo)手段。

我覺(jué)得還是希望從技術(shù)角度來(lái)說(shuō),希望說(shuō)我們確實(shí)真正地減少事故,這個(gè)事情是確定的,同樣能證明的事。

你像斌哥說(shuō)的,中國(guó)現(xiàn)在一年可能因?yàn)榻煌ㄊ鹿仕劳鰩兹f(wàn)人,這個(gè)是我們主動(dòng)安全要做的。

其實(shí)我們也在跟一些部委在考慮一些其他的方式,那么進(jìn)一步減少事故。

我覺(jué)得這些東西本質(zhì)上回歸價(jià)值,回歸用戶(hù)體驗(yàn),對(duì)吧?

那我覺(jué)得在這些點(diǎn)上其實(shí)我們都是某種程度從已有的東西上有,那從遠(yuǎn)期的東西上我們覺(jué)得思考得可能更全面一些,就逐漸給大家交付。

智能車(chē)參考:所以歸根結(jié)底,城區(qū)NOA,能不能開(kāi),是檢驗(yàn)?zāi)芰Ρ容^核心的一個(gè)標(biāo)準(zhǔn)?

任少卿:只是一個(gè)標(biāo)準(zhǔn),我覺(jué)得反正也不能說(shuō)是核心的標(biāo)準(zhǔn),只是一個(gè)標(biāo)準(zhǔn)。

剩下就剛才說(shuō)的這個(gè)模型能力,然后以及之后的這個(gè)新的價(jià)值體現(xiàn),新的這些價(jià)值體現(xiàn)可能就更偏創(chuàng)造性一些,前面的這些就是開(kāi)城的,這就更偏一個(gè)既有的東西。

模型這一塊更偏于底層的,然后新的這些功能就更偏向價(jià)值怎么創(chuàng)造。

所以反正三個(gè)方面放一起看,一個(gè)是過(guò)去,或者對(duì)于頭部就是過(guò)去,那對(duì)于模型這一塊可能就是最近。

那后面這些可能就是將來(lái),當(dāng)然它也可能也不會(huì)特別長(zhǎng)。逐步地,短到中期,再到長(zhǎng)期。

智能車(chē)參考:把用戶(hù)駕駛的個(gè)性化習(xí)慣和體驗(yàn),加進(jìn)去,是不是更符合智能駕駛的體驗(yàn)?
。
任少卿:對(duì),那其實(shí)最終是剛才說(shuō)的第四個(gè)部分,功能。

怎么做得更好?

我覺(jué)得也確實(shí)我們需要去進(jìn)一步提高效率,比如說(shuō)之前在交互上好一些,但是上次說(shuō)的這些可能還是有一些缺失,就比如說(shuō)我們265版本上給旁邊車(chē)讓主駕位的,那這個(gè)可能就不同的用戶(hù)就很不一樣的反饋,所以他這個(gè)后面版本可能也需要進(jìn)一步地去能讓用戶(hù)更多的選擇吧。

有的就覺(jué)得說(shuō)我給主駕讓出來(lái),我自己可能下車(chē)位置小一些,可以接受,挺好。那有的用戶(hù)就覺(jué)得說(shuō)這就挺偏了。

智能車(chē)參考:所以智駕做到真正的因人而異,對(duì)齊AI助手,更個(gè)性化還是有差距的。

任少卿::對(duì),反正就是可能大家都會(huì)面臨的問(wèn)題,第一個(gè)說(shuō)機(jī)器能搞定,然后要對(duì)齊人類(lèi)的預(yù)期,后面可能還要千人千面。所以就是我覺(jué)得千人千面這個(gè)現(xiàn)在都還是一個(gè)比較高的要求了,都還做不到。

自動(dòng)駕駛與機(jī)器人

智能車(chē)參考:現(xiàn)在好多機(jī)器人創(chuàng)業(yè)公司,說(shuō)要打通虛擬世界跟物理世界,和打通不同領(lǐng)域有什么不一樣?

任少卿:那個(gè)是另外一個(gè)工程模型。

我說(shuō)打通不同領(lǐng)域,就是說(shuō)打通不同應(yīng)用。就比如說(shuō)自動(dòng)駕駛和機(jī)器人和大語(yǔ)言模型這些東西的融合,就他得徹底用同樣一套框架去作用。

因?yàn)檫@里面其實(shí)有個(gè)最根本的,就是機(jī)器人這玩意,為啥之前做不動(dòng),以及現(xiàn)在還有啥問(wèn)題?

最終其實(shí)大家很容易理解,實(shí)際上自動(dòng)駕駛是一個(gè)特殊的機(jī)器,這是第一層,第二層的話(huà)是自動(dòng)駕駛是所有機(jī)器人應(yīng)用里面最大的一個(gè)應(yīng)用之一。啥意思呢?就是說(shuō)機(jī)器人的應(yīng)用非常的復(fù)雜。

那自動(dòng)駕駛是里面價(jià)值最大的,其實(shí)大家發(fā)現(xiàn)說(shuō)之前的自動(dòng)駕駛,或者直到現(xiàn)在自動(dòng)駕駛,為了做它的這個(gè)研發(fā)成本是非常非常高,對(duì)吧?

那如果機(jī)器人用跟現(xiàn)在的自動(dòng)駕駛同樣一代技術(shù)棧去做,沒(méi)有任何一個(gè)機(jī)器人的應(yīng)用能撐得起來(lái)這個(gè)投入。

這是原來(lái)做不了的原因,是因?yàn)橥恫黄稹?/p>

如果說(shuō)做自動(dòng)駕駛,因?yàn)樗捌诘纳虡I(yè)場(chǎng)景很大,所以比如說(shuō)一個(gè)自動(dòng)駕駛公司一年燒10個(gè)億人民幣,那一個(gè)機(jī)器人公司能做到嗎?他做不了。

但是我們就認(rèn)為說(shuō)你長(zhǎng)期再往后走,那自動(dòng)駕駛也是個(gè)泛機(jī)器人領(lǐng)域,所以那能不能用同樣一套框架,用更高的這個(gè)可共享度,然后用更低的成本去用同樣一套框架做所有的機(jī)器人,就泛機(jī)器人能力這個(gè)事情。我們覺(jué)得一定是能做的。

那只是說(shuō)要找到相應(yīng)的技術(shù)的這個(gè)方式,本質(zhì)上前面說(shuō)的這些世界模型,我們覺(jué)得自己的框架他也能去做機(jī)器人。

智能車(chē)參考:暗示蔚來(lái)也能做機(jī)器人?

任少卿:主要是我覺(jué)得從技術(shù)的維度上來(lái)說(shuō),這件事情它一定是這么個(gè)搞法實(shí)現(xiàn)的。

否則的話(huà)那機(jī)器人怎么辦,對(duì)吧?

就是兩種方式,第一個(gè)機(jī)器人別做了,第二個(gè)機(jī)器人探索出來(lái)一套它統(tǒng)一的框架。那如果機(jī)器人探索出來(lái)它統(tǒng)一的框架,它一定能回來(lái)做自動(dòng)駕駛。因?yàn)樗旧砭秃芟?。但是從這個(gè)角度來(lái)說(shuō),因?yàn)檫@些方式肯定都是要用大量的數(shù)據(jù)的。

那在自動(dòng)駕駛上把這樣的一套充分認(rèn)知的框架,做出來(lái)的可能性更大,因?yàn)樗臄?shù)據(jù)量更大了。

當(dāng)機(jī)器人覺(jué)得還是要分三層,我們有很多事情沒(méi)講,我們認(rèn)為它實(shí)際上有三層的能力,第一層能力叫做概念認(rèn)知,第二層叫時(shí)空認(rèn)知,第三層叫做運(yùn)動(dòng)的,或者說(shuō)叫交互。

第一層就是說(shuō)概念認(rèn)知實(shí)際上就是大于模型解讀。第二層時(shí)空認(rèn)知的話(huà)就是剛才我們說(shuō)的這些。

第三層說(shuō)這個(gè)運(yùn)動(dòng)能力實(shí)際上某種程度上看,就是怎么去控制輪子,怎么去控制腿,怎么去用只手,或者怎么去拿一個(gè)工具出來(lái),拿個(gè)小刀去把它用起來(lái)。三個(gè)東西簡(jiǎn)化一下,把這個(gè)分開(kāi),但是也有融在一起做,但是通用來(lái)說(shuō)這個(gè)第二層的這個(gè)能力,就是這個(gè)時(shí)空認(rèn)知的這個(gè)能力是一個(gè)很通用的能力。

智能車(chē)參考:如何看待這幾年整個(gè)產(chǎn)業(yè)的變化?

任少卿:其實(shí)我覺(jué)得在整個(gè)產(chǎn)業(yè)上,你從技術(shù)的角度來(lái)說(shuō),自動(dòng)駕駛前面幾年技術(shù)都沒(méi)什么特別大的變化,最近這半年一年倒是變化挺大。

很多的變化也不來(lái)自自動(dòng)駕駛領(lǐng)域,來(lái)自于我們前面說(shuō)的這些其他領(lǐng)域的東西。

智能車(chē)參考:可能最后還是會(huì)追求變成一個(gè)通用的模型,打造一個(gè)像人一樣的這種智能體?

任少卿:是這樣的。剩下的問(wèn)題是怎么把它打造出來(lái)。做機(jī)器人這些公司也挺好玩。

反正這些東西,現(xiàn)在都是相互交互越來(lái)越多,我覺(jué)得做智能駕駛也不能只關(guān)注智能駕駛。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
A4989SLDTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, PDSO38, TSSOP-38

ECAD模型

下載ECAD模型
$4.29 查看
L9953XP 1 STMicroelectronics Door Actuator Driver

ECAD模型

下載ECAD模型
暫無(wú)數(shù)據(jù) 查看
AD694ARZ 1 Analog Devices Inc 4-20mA Monolithic Current Transmitter

ECAD模型

下載ECAD模型
$16.95 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜