极速飞车电影,2023年满江红电影免费观看

自動駕駛汽車（AV）是如何觀看外部世界的？

你可能聽說過LiDAR或其他奇怪的攝像頭。但它們是如何工作的，它們?nèi)绾文芸吹竭@個(gè)世界，與人類相比，它們到底看到了什么？如果我們想讓AV上路，了解它們的工作原理是至關(guān)重要的，尤其是如果你在政府工作參與到制定法規(guī)，或作為被服務(wù)的對象。

我們通過Tesla AI DAY了解過特斯拉的車輛是如何工作的，但它們與傳統(tǒng)的AV不同。特斯拉只使用攝像頭來了解世界，而大多數(shù)其它公司，如Waymo，使用普通攝像頭和3D LiDAR。這些LiDAR相當(dāng)簡單易懂，它們不會像普通攝像頭那樣產(chǎn)生圖像，而是產(chǎn)生3D點(diǎn)云。LiDAR測量物體之間的距離，計(jì)算它們投射到物體上的脈沖激光的飛行時(shí)間。

這樣一來，它們就會產(chǎn)生很少的數(shù)據(jù)點(diǎn)，這些數(shù)據(jù)點(diǎn)都是有價(jià)值的、準(zhǔn)確的距離信息，正如你在這里看到的。這些數(shù)據(jù)點(diǎn)被稱為點(diǎn)云，它只是意味著我們看到的只是在相應(yīng)位置上的許多點(diǎn)，創(chuàng)造了某種世界的3D模型。

在這里，你可以看到右邊的LiDAR并不是那么精確地了解它所看到的東西，但它只用了很少的信息便獲得了解深信息，這對于有效地實(shí)時(shí)計(jì)算數(shù)據(jù)是完美的。

這種最小的數(shù)據(jù)量和高空間精度是完美的，因?yàn)榧由蟁GB圖像，如左圖所示，我們既有準(zhǔn)確的距離信息，又有單獨(dú)使用LiDAR數(shù)據(jù)所缺乏的準(zhǔn)確物體信息，特別是遠(yuǎn)處的物體或人。這就是為什么Waymo和其它AV公司使用這兩種傳感器。

盡管如此，我們?nèi)绾尾拍苡行У亟Y(jié)合這些信息，并讓車輛理解這些信息？而車輛最終看到的是什么？只有那些點(diǎn)嗎？這對在道路上行駛來說足夠了嗎？我們將通過Waymo和Google Research的新研究論文來研究這個(gè)問題，該論文名為“4D-Net: Learning Multi-Modal Alignment for 3D and Image Inputs in Time”。

這篇論文總結(jié)到，“我們提出了4D-Net，它學(xué)會了如何結(jié)合3D點(diǎn)云和RGB攝像頭圖像，以便在自動駕駛中廣泛地應(yīng)用3D物體檢測。”

這就是我們所說的3D物體檢測。這也是汽車最終會看到的東西。這是一個(gè)非常準(zhǔn)確的車輛周圍世界的表現(xiàn)，所有物體都出現(xiàn)并被精確識別。

這看起來很酷。但更有趣的是，他們是如何得到這個(gè)結(jié)果的？

他們使用LiDAR數(shù)據(jù)（PCiT，Point Clouds in Time）和普通攝像頭（或這里稱為RGB視頻）制作了這個(gè)視圖。這些都是四維輸入，就像我們?nèi)祟惪创屠斫馐澜缫粯?。這四個(gè)維度來自拍攝的視頻，因此車輛可以訪問過去的幀幫助理解上下文和對象，以猜測未來的行為，就像我們一樣，創(chuàng)造了第四維度。其他三個(gè)是我們所熟悉的3D空間。

我們把這項(xiàng)任務(wù)稱為場景理解，它在計(jì)算機(jī)視覺中得到了廣泛的研究，并隨著該領(lǐng)域和機(jī)器學(xué)習(xí)算法的最新進(jìn)展而取得了許多進(jìn)步。在AV中，它也是至關(guān)重要的，我們希望對場景有一個(gè)近乎完美的理解。

如果我們回到上面看到的網(wǎng)絡(luò)，你可以看到這兩個(gè)網(wǎng)絡(luò)總是通過連接互相“交談”。這主要是因?yàn)楫?dāng)我們拍攝圖像時(shí)，在鏡頭中有不同距離和不同比例的物體。

你面前的車看起來會比遠(yuǎn)處的車大得多，但你仍然需要考慮這兩方面。

就像我們一樣，當(dāng)我們看到遠(yuǎn)處的人，感覺是自己的朋友，但等走近了確定后才會喊他的名字，對于這種遠(yuǎn)處的物體，車輛會缺乏細(xì)節(jié)。

為了解決這個(gè)問題，我們將從網(wǎng)絡(luò)的不同層次中提取和分享信息。在整個(gè)網(wǎng)絡(luò)中共享信息是一個(gè)強(qiáng)大的解決方案，因?yàn)?a class="article-link" target="_blank" href="/tag/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/">神經(jīng)網(wǎng)絡(luò)使用固定大小的小檢測器來壓縮圖像，我們越深入到網(wǎng)絡(luò)。

意味著早期的層將能夠檢測到小物體，且只能檢測到大物體的邊緣或部分。更深的層將失去小物體，但能夠非常精確地檢測大物體。

這種方法的主要挑戰(zhàn)是通過這些連接將這兩種不同類型的信息結(jié)合起來，LiDAR 3D空間數(shù)據(jù)和更常規(guī)的RGB幀。如前所述，在所有的網(wǎng)絡(luò)步驟中使用這兩種信息，是更好地理解整個(gè)場景的最好方法。

但我們?nèi)绾尾拍軐蓚€(gè)不同的信息流合并起來，并有效地利用時(shí)間維度？這兩個(gè)分支之間的數(shù)據(jù)轉(zhuǎn)換是網(wǎng)絡(luò)在訓(xùn)練過程中以一種有監(jiān)督的方式學(xué)習(xí)的，其過程與self-attention機(jī)制類似，試圖重新創(chuàng)建世界的真實(shí)模型。但是為了促進(jìn)這種數(shù)據(jù)轉(zhuǎn)換，他們使用了一個(gè)叫做PointPillars的模型，它采用點(diǎn)云并給出一個(gè)二維的表示。

你可以把它看作是點(diǎn)云的偽圖像，正如他們所說的那樣，創(chuàng)造出某種程度上代表點(diǎn)云的常規(guī)圖像，其屬性與我們在其他分支中的RGB圖像相同。像素不是RGB的顏色，而是簡單地代表物體的深度和位置（x,y,z）坐標(biāo)。這個(gè)偽圖像也確實(shí)非常稀疏，這意味著這種表示的信息只在重要物體周圍密集，而且很可能對模型有用。關(guān)于時(shí)間，我們只是在輸入圖像中設(shè)置了第四維來跟蹤幀。

我們看到的這兩個(gè)分支是卷積神經(jīng)網(wǎng)絡(luò)，它們對圖像進(jìn)行編碼，然后對這些編碼信息進(jìn)行解碼，重新創(chuàng)建我們在這里看到的3D表示。因此，這兩個(gè)分支都使用了非常相似的編碼器，彼此共享信息，并使用解碼器重建世界的3D模型。

這就是Waymo車輛如何看世界的，通過我們在上圖右邊看到的這些世界的3D模型。它可以在164ms內(nèi)處理32個(gè)點(diǎn)云和16個(gè)RGB幀，產(chǎn)生比其他方法更好的結(jié)果。這看起來可能沒什么，所以我們可以把它與次好的方法進(jìn)行比較，后者的精確度較低，需要300ms，處理時(shí)間幾乎是兩倍。

[參考文章]Combine Lidar and Cameras for 3D object detection - Waymo