加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 對(duì)標(biāo)方法
    • 目標(biāo)設(shè)備
    • 功耗測(cè)量
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Occula的效率成果(一)

2022/04/05
445
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

繼續(xù)Seeing Machines對(duì)DMS商業(yè)化落地遇到的挑戰(zhàn)的總結(jié)。

本節(jié)針對(duì)DMS系統(tǒng)中常見的三類任務(wù),檢驗(yàn)Occula的設(shè)計(jì)效率。(i) 人臉檢測(cè),(ii) 人臉跟蹤,(iii) MobileNet(一種常用的NN架構(gòu))的推理。

對(duì)標(biāo)方法

如前所述,Occula不是一個(gè)普通的NPU,而是與基于NN的算法相匹配(或共同設(shè)計(jì))的加速硬件,而這些算法又可以在其上高效運(yùn)行。因此,重要的是要把Occula看成是一個(gè)NPU和一套算法,它們是不可分割的。

因此,為了使效率測(cè)試有意義,我們需要將Occula NPU+NN系統(tǒng)與其他潛在的NPU+NN系統(tǒng)進(jìn)行比較,例如那些Seeing Machines的競(jìng)爭(zhēng)對(duì)手可能開發(fā)的系統(tǒng)。

為此,我們?cè)诤蜻x的NPU上創(chuàng)建了人臉檢測(cè)和人臉追蹤的對(duì)標(biāo)算法,這些算法很適合這些NPU,我們認(rèn)為這些算法將代表任何負(fù)責(zé)在這些設(shè)備上實(shí)施最先進(jìn)的DMS軟件解決方案的機(jī)器學(xué)習(xí)專家工程師所采取的開發(fā)路徑。

我們的想法是比較Occula作為一個(gè)特定應(yīng)用的設(shè)計(jì)所實(shí)現(xiàn)的“開箱即用”的效果與在任何其他通用NPU上開發(fā)人臉檢測(cè)和人臉追蹤NN的結(jié)果。我們認(rèn)為,這種方法很好地代表了將“與硬件無關(guān)”的DMS軟件移植到隨機(jī)SoC上的現(xiàn)實(shí),這也是我們的競(jìng)爭(zhēng)對(duì)手必須做的。

人臉檢測(cè)任務(wù)

在人臉檢測(cè)方面,我們的對(duì)標(biāo)測(cè)試采用了使用TensorFlow的MobileNet SSD-V2,在人臉圖像庫中進(jìn)行訓(xùn)練。在撰寫本文時(shí),SSD(Single-Shot Detectors)是使用NN進(jìn)行一般2D物體檢測(cè)的最先進(jìn)技術(shù)。此外,MobileNet NN架構(gòu)產(chǎn)生的模型很小,通常用于高性能的嵌入式解決方案。我們認(rèn)為這種方法是機(jī)器學(xué)習(xí)工程師為DMS解決方案開發(fā)人臉檢測(cè)時(shí)最可能選擇的方法。SM-DETECT和MobileNet SSD-V2網(wǎng)絡(luò)都是針對(duì)320*320分辨率的圖像運(yùn)行的。

人臉跟蹤任務(wù)

對(duì)于人臉跟蹤,我們的對(duì)標(biāo)測(cè)試采用了3D“人臉對(duì)齊(face alignment)”技術(shù)的開源實(shí)現(xiàn),該技術(shù)最初在ECCV 2020上提出。這篇論文的題目是“Towards Fast, Accurate and Stable 3D Dense Face Alignment”,追求使用NN技術(shù)實(shí)現(xiàn)最大效率的快速實(shí)時(shí)人臉對(duì)齊。ECCV的論文和3DFFA_V2 GitHub項(xiàng)目都是由Jianzhu Guo共同撰寫的,他是人臉處理領(lǐng)域中被高度引用和尊重的專家。在我們的對(duì)標(biāo)中,我們測(cè)量了人臉對(duì)齊階段所花費(fèi)的時(shí)間,這與SM-TRACK在應(yīng)用于追蹤人臉時(shí)所做的工作有直接的可比性。每個(gè)方法都是在核心算法模型的原始分辨率下執(zhí)行的,以避免圖像縮放影響結(jié)果。3DFFA_V2代碼在128128分辨率的圖像上運(yùn)行,而SM-DETECT處理1280968分辨率的圖像。注意,這使得3DFFA_V2處理的輸入像素更少(因此有帶寬優(yōu)勢(shì))。

通用的NN推理任務(wù)

對(duì)于通用的NN推理,同一模型在所有目標(biāo)設(shè)備上執(zhí)行,包括Occula。網(wǎng)絡(luò)架構(gòu)是MobileNet-V3,有一個(gè)由8位量化系數(shù)組成的10MB模型。任務(wù)是使用ImageNet11數(shù)據(jù)執(zhí)行簡(jiǎn)單分類。

目標(biāo)設(shè)備

對(duì)于對(duì)標(biāo)測(cè)試,我們有意選擇(i)通用的NPU設(shè)計(jì),(ii)因其低功耗的嵌入式性能而被認(rèn)為是“最先進(jìn)的”,但(iii)沒有出現(xiàn)在車載產(chǎn)品中。

排除任何出現(xiàn)在汽車SoC中的NPU的原因是Seeing Machines也在開發(fā)和提供車載NPU軟件,而這些設(shè)備的性能與Occula相比是商業(yè)上的敏感信息。簡(jiǎn)而言之,我們不想給我們的任何SoC合作伙伴帶來麻煩。

在我們的研究中,我們選擇了Google Coral Edge TPUNVIDIA Xavier NX,因?yàn)镚oogle和Nvidia都可以說在高性能通用NPU設(shè)計(jì)方面處于市場(chǎng)領(lǐng)先地位,而且最近還發(fā)布了嵌入式版本。這兩款芯片還擁有業(yè)界領(lǐng)先的工具鏈。

功耗測(cè)量

Google Coral

Coral TPU是一個(gè)純粹的NPU設(shè)備(而不是一個(gè)帶有CPU和其他子系統(tǒng)的SoC)。Google提供的測(cè)試系統(tǒng)使用帶有USB Coral TPU加密狗的Raspberry Pi v4進(jìn)行操作。測(cè)量Coral TPU的功耗,只需觀察Coral TPU進(jìn)行處理時(shí)與移除Coral TPU加密狗時(shí)Raspberry系統(tǒng)功率的差異。

NVIDIA Xavier NX

我們?cè)贜VIDIA Xavier NX系統(tǒng)的兩個(gè)不同的子組件上運(yùn)行該對(duì)標(biāo)測(cè)試,(i)GPU(384核NVIDIA Volta™ GPU,帶48個(gè)Tensor Core),以及(ii)深度學(xué)習(xí)加速器(NVDLA引擎),在該系統(tǒng)上獲得的功耗測(cè)量結(jié)果如下:

上表通過考慮以下因素來比較設(shè)計(jì)效率:(i)NPU執(zhí)行任務(wù)的速度(FPS);(ii)NPU執(zhí)行計(jì)算的額外功耗(W);(iii)NPU內(nèi)核消耗的芯片面積(mm2)。請(qǐng)注意,對(duì)于Occula來說,該測(cè)試是在FOVIO芯片的環(huán)境下進(jìn)行的,它是一個(gè)28nm的FPGA設(shè)備,而Google和Nvidia的設(shè)備被認(rèn)為是12nm的部件,因此應(yīng)該更節(jié)能。

最右邊的一列是對(duì)Occula設(shè)計(jì)部署在12nm器件中的性能結(jié)果的模擬預(yù)測(cè),它提供了一個(gè)更好的平行的效率比較。這個(gè)模型的細(xì)節(jié)將在下一節(jié)討論。

一個(gè)有趣的結(jié)果是,在所有三個(gè)任務(wù)中,Google TPU的性能明顯優(yōu)于Nvidia設(shè)備。我們注意到,Google設(shè)備顯然是為執(zhí)行量化的NN而優(yōu)化的,而Nvidia設(shè)備則保留了完整的浮點(diǎn)支持。

這些結(jié)果揭示了一個(gè)眾所周知的行業(yè)現(xiàn)象,即特定應(yīng)用的設(shè)計(jì)通常能夠比通用設(shè)計(jì)(在特定應(yīng)用領(lǐng)域進(jìn)行比較時(shí))的性能至少高出一個(gè)數(shù)量級(jí)。事實(shí)上,這就是協(xié)處理器存在的原因。也許這里更深刻的認(rèn)識(shí)是,雖然NPU本身是遠(yuǎn)離更多通用的CPU的專業(yè)化,但大多數(shù)NPU(甚至是嵌入式的)仍然是高度通用的設(shè)計(jì),可以被特定應(yīng)用的協(xié)同設(shè)計(jì)方法所超越。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

C.A.S.E.及大出行領(lǐng)域?qū)W習(xí)及知識(shí)分享。歡迎業(yè)內(nèi)朋友交流~!