动漫靠比视频,n0646

小米汽車未公布小米自動(dòng)駕駛算法的詳細(xì)信息，不過(guò)通過(guò)小米汽車發(fā)布的學(xué)術(shù)論文可以一窺小米自動(dòng)駕駛算法。目前，小米汽車的學(xué)術(shù)論文主要有兩篇，一篇是《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》，作者有新加坡國(guó)立大學(xué)的，小米汽車僅有兩人。另一篇是《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》，署名作者有8位，其中六位是小米汽車的，還有兩位是西安交通大學(xué)軟件工程學(xué)院的，這兩位當(dāng)中還有一位是后來(lái)加盟小米汽車的。兩篇論文的核心都是Occupancy占用網(wǎng)絡(luò)，這一點(diǎn)雷軍在小米汽車發(fā)布會(huì)上也有所提及。

這兩篇論文前一篇側(cè)重于3D感知，后一篇側(cè)重于3D場(chǎng)景重建，3D感知的論文都不免要在nuScenes測(cè)試數(shù)據(jù)集上打榜。艱深晦澀的論文大多數(shù)人都沒(méi)興趣讀完，所以我們先看小米這兩篇算法論文的得分。

NDS得分58.1，這個(gè)得分應(yīng)該說(shuō)很低，華為在2021年10月的TransFusion得分都有71.7，零跑汽車的EA-LSS得分有77.6。不過(guò)后兩者基本都是Bounding-Box的，而不是基于占用網(wǎng)絡(luò)的，這樣對(duì)比有一點(diǎn)不公平。

與另一個(gè)頂級(jí)占用網(wǎng)絡(luò)結(jié)構(gòu)TPVFormer比，基本相差不大，TPVFormer是北航提出來(lái)的。

《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》這篇論文算法的得分，在一眾占用網(wǎng)絡(luò)模式里mIoU得分第一。mIoU (Mean Intersection over Union，均交并比)：為語(yǔ)義分割的標(biāo)準(zhǔn)度量。其計(jì)算兩個(gè)集合的交并比，這兩個(gè)集合為真實(shí)值（ground truth）和預(yù)測(cè)值（predicted segmentation）。計(jì)算公式如下：i表示真實(shí)值，j表示預(yù)測(cè)值：

圖片來(lái)源：《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》論文

3D場(chǎng)景重建的得分，基本上也可以算是第一。

下面來(lái)具體看這兩篇論文。

SOGDet就是將3D感知與3D語(yǔ)義分割占用網(wǎng)絡(luò)預(yù)測(cè)結(jié)合，主要是提高非道路環(huán)境的感知，構(gòu)建一個(gè)完整的真實(shí)3D場(chǎng)景，使得自動(dòng)駕駛決策系統(tǒng)更好地理解周邊環(huán)境，給出正確的道路規(guī)劃，非道路環(huán)境包括了植被（綠化帶、草地等等）、人行道、地形以及人工建筑。

小米SOGDet的網(wǎng)絡(luò)架構(gòu)，并無(wú)獨(dú)特之處，畢竟網(wǎng)絡(luò)基礎(chǔ)都是谷歌和META構(gòu)建的。目前頂級(jí)自動(dòng)駕駛網(wǎng)絡(luò)基本都是三部分，其中骨干Backbone部分，還是基于CNN，沒(méi)辦法，Transofrmer運(yùn)算量太大，無(wú)法使用，大家基本還是用ResNet50/100。也有少數(shù)使用谷歌的ViT，但實(shí)際無(wú)法落地。多頭部分使用View Transformer做BEV變換。這里仍然使用英偉達(dá)提出的經(jīng)典的LSS方法，其中：

Splat——結(jié)合相機(jī)內(nèi)外參把所有相機(jī)的視錐（點(diǎn)云）分配到BEV網(wǎng)格中，對(duì)每個(gè)柵格中的多個(gè)視錐點(diǎn)進(jìn)行sum-pooling計(jì)算，形成BEV特征圖；

Shoot——用task head處理BEV特征圖，輸出感知結(jié)果。LSS是2020年提出的，目前還做了不少改進(jìn)，主要是深度修正(Depth Correction)和具有相機(jī)感知能力的深度估計(jì)(Camera-aware Depth Prediction)。

另外，還提出了高效體素池化(Efficient Voxel Pooling)來(lái)加速BEVDepth方法，以及多幀融合(Multi-frame Fusion)來(lái)提高目標(biāo)檢測(cè)效果和運(yùn)動(dòng)速度估計(jì)。任務(wù)級(jí)用反卷積和MLP輸出語(yǔ)義分割網(wǎng)絡(luò)占用或目標(biāo)檢測(cè)Bounding Box。

再來(lái)看小米汽車成份更高的那篇論文即《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》，這篇論文主要就是3D語(yǔ)義分割占用網(wǎng)絡(luò)，因此主要指標(biāo)就是mIoU。

小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)

簡(jiǎn)單解釋一下SDF，有符號(hào)距離場(chǎng)(SDF：Signed Distance Field) 是距離場(chǎng)的一種變體，它在 3D(2D) 空間中將位置映射到其到最近平面（邊緣）的距離。距離場(chǎng)在圖像處理、物理學(xué)和計(jì)算機(jī)圖形學(xué)等許多研究中都有應(yīng)用。在計(jì)算機(jī)圖形的上下文中，距離場(chǎng)通常是有符號(hào)的，表示某個(gè)位置是否在網(wǎng)格內(nèi)。無(wú)論2D或者3D圖形都有隱式（implicit）和顯式（explicit）兩種存儲(chǔ)方式，比如3D模型就可以用mesh直接存儲(chǔ)模型數(shù)據(jù)，也可以用SDF、點(diǎn)云(point cloud)、神經(jīng)網(wǎng)絡(luò)(neural rendering)來(lái)表示，2D資產(chǎn)（這里指貼圖）亦是如此。比如貼圖一般直接使用RGB、HSV等參數(shù)來(lái)進(jìn)行表示，但這樣子再放大圖片后會(huì)出現(xiàn)鋸齒，所以想要獲取高清的圖像就需要較大的存儲(chǔ)空間，這時(shí)候就需要矢量表示，SDF就是為了這種需求產(chǎn)生的，也就是雷軍所說(shuō)的超高分辨率矢量。這個(gè)技術(shù)是用在手機(jī)游戲中的，最典型的就是手機(jī)游戲第一名《原神》，面部陰影就是用SDF做的。

小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)和上一篇論文只有最后輸出頭有區(qū)別，骨干網(wǎng)、LSS和Voxel都是完全一致的。

SurroundSDF旨在解決自動(dòng)駕駛系統(tǒng)中基于視覺(jué)的3D場(chǎng)景理解的挑戰(zhàn)。具體來(lái)說(shuō)，它試圖解決以下問(wèn)題：連續(xù)性和準(zhǔn)確性：現(xiàn)有的無(wú)對(duì)象（object-free）方法在預(yù)測(cè)離散體素網(wǎng)格的語(yǔ)義時(shí)，未能構(gòu)建連續(xù)且準(zhǔn)確的障礙物表面。SurroundSDF通過(guò)隱式預(yù)測(cè)有符號(hào)距離場(chǎng)（Signed Distance Field, SDF）和語(yǔ)義場(chǎng)，來(lái)實(shí)現(xiàn)從環(huán)繞圖像連續(xù)感知3D場(chǎng)景。

缺乏精確的SDF真實(shí)值（ground truth）：由于獲取精確的SDF真實(shí)值是困難的，論文提出了一種新的弱監(jiān)督范式，稱為Sandwich Eikonal formulation，通過(guò)在表面兩側(cè)施加正確和密集的約束來(lái)提高表面的感知精度。Eikonal方程是在處理波傳播問(wèn)題時(shí)需要求解的一類非線性偏微分方程。這里科普一下：Eikonal方程可以求出地震波從源點(diǎn)到空間任意一點(diǎn)的傳播時(shí)間，從而描述波在介質(zhì)中的傳播時(shí)間場(chǎng)；快速求解Eikonal方程對(duì)于加速重建地震波傳播時(shí)間場(chǎng)從而減少地震災(zāi)害對(duì)社會(huì)財(cái)產(chǎn)的損失具有重要意義。在圖像處理領(lǐng)域，Eikonal方程被用于計(jì)算多個(gè)點(diǎn)的距離場(chǎng)、圖像去噪，提取離散和參數(shù)化表面上的最短路徑。

3D語(yǔ)義分割和連續(xù)3D幾何重建：SurroundSDF旨在在一個(gè)框架內(nèi)同時(shí)解決3D語(yǔ)義分割和連續(xù)3D幾何重建的問(wèn)題，利用SDF的強(qiáng)大表示能力。

長(zhǎng)尾問(wèn)題和3D場(chǎng)景的粗糙描述：盡管3D目標(biāo)檢測(cè)算法取得了進(jìn)展，但長(zhǎng)尾問(wèn)題和3D場(chǎng)景的粗糙描述仍然是挑戰(zhàn)，需要更深入地理解3D幾何和語(yǔ)義。

特斯拉的AI Day上也提出了“隱式神經(jīng)表示“ （Implicit Neural Representation，INR）。以圖像為例，其最常見(jiàn)的表示方式為二維空間上的離散像素點(diǎn)。但在真實(shí)世界中，我們看到的世界可以認(rèn)為是連續(xù)的，或者近似連續(xù)。于是，可以考慮使用一個(gè)連續(xù)函數(shù)來(lái)表示圖像的真實(shí)狀態(tài)，然而我們無(wú)從得知這個(gè)連續(xù)函數(shù)的準(zhǔn)確形式，因此有人提出用神經(jīng)網(wǎng)絡(luò)來(lái)逼近這個(gè)連續(xù)函數(shù)，這就是INR，在3D圖像、視頻、Voxel重建中，INR函數(shù)將二維坐標(biāo)映射到RGB值。對(duì)于視頻，INR函數(shù)將時(shí)刻t以及圖像二維坐標(biāo)XY映射到RGB值。對(duì)于一個(gè)三維形狀，INR函數(shù)將三維坐標(biāo)XYZ映射到0或1，表示空間中的某一位置處于物體內(nèi)部還是外部。INR是一個(gè)連續(xù)的函數(shù)，函數(shù)（網(wǎng)絡(luò)）的復(fù)雜程度和信號(hào)的復(fù)雜程度成正比，但與信號(hào)的分辨率無(wú)關(guān)。比如一個(gè)16*16的圖像，和一個(gè)32*32的圖像，如果內(nèi)容一樣，那么INR就會(huì)一樣。也就是再低的分辨率也可以連續(xù)擴(kuò)展高分辨率的效果。

SurroundSDF使用有符號(hào)距離函數(shù)（SDF）來(lái)隱式地表示3D場(chǎng)景，這允許連續(xù)地描述3D場(chǎng)景并通過(guò)重建平滑表面來(lái)表達(dá)場(chǎng)景的幾何結(jié)構(gòu)。利用SDF約束通過(guò)Eikonal公式來(lái)準(zhǔn)確描述障礙物的表面。這種方法可以準(zhǔn)確地從環(huán)繞圖像中感知連續(xù)的3D場(chǎng)景。為了減少幾何優(yōu)化和語(yǔ)義優(yōu)化之間的不一致性，論文設(shè)計(jì)了一種聯(lián)合監(jiān)督策略。該策略使用SoftMax函數(shù)將每個(gè)體素網(wǎng)格的最小SDF值轉(zhuǎn)換為自由概率，并將其與語(yǔ)義logits結(jié)合，通過(guò)Dice損失進(jìn)行聯(lián)合優(yōu)化。

自動(dòng)駕駛算法的基礎(chǔ)部分基本上都被谷歌和META定型了，即骨干2D CNN網(wǎng)絡(luò)加FPN，中間Transformer變換，最后任務(wù)級(jí)MLP或隱式表達(dá)。包括特斯拉在內(nèi)都跳不出這個(gè)框架，沒(méi)有人的算法水平會(huì)特別好，大家基本都在一個(gè)水平上，比拼的不是數(shù)據(jù)，而是投入的人力，足夠的人力才能做反復(fù)的實(shí)驗(yàn)微調(diào)，才能略略勝出一點(diǎn)，能做徹底改變的只有谷歌或META抑或是微軟。

免責(zé)說(shuō)明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng)，不具有任何指導(dǎo)、投資和決策意見(jiàn)。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ACS723LLCTR-40AU-T	1	Allegro MicroSystems LLC	Analog Circuit, 1 Func, BICMOS, PDSO8, LEAD FREE, MS-012AA, SOIC-8	ECAD模型下載ECAD模型	$4.46	查看
NCP45560IMNTWG-H	1	onsemi	Load Switch, Integrated, ecoSWITCH™, 17 A, Fault Protection, DFN12 3x3, 0.5P, 3000-REEL	ECAD模型下載ECAD模型	$1.77	查看
INA240A2D	1	Texas Instruments	-4 to 80V, bidirectional, ultra-precise current sense amplifier with enhanced PWM rejection 8-SOIC -40 to 125	ECAD模型下載ECAD模型	$3.91	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ACS723LLCTR-40AU-T

Allegro MicroSystems LLC

Analog Circuit, 1 Func, BICMOS, PDSO8, LEAD FREE, MS-012AA, SOIC-8