加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

AlphaGo又給人工智能添了把柴,Vision C5 DSP想要這樣燒

2017/05/26
12
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

AlphaGo 對(duì)戰(zhàn)柯潔勝了兩局,人工智能繼去年大敗李世石又火了一把,雖然人們針對(duì)未來機(jī)器人是否會(huì)殺死人類的話題爭(zhēng)論不休,但是我們也不得不被人工智能的強(qiáng)大所折服,未來它或許會(huì)在各個(gè)領(lǐng)域超越并替代人類。隨著人工智能的發(fā)展,無人機(jī)、安防監(jiān)控、手機(jī) / 可穿戴將會(huì)更智能化自動(dòng)駕駛離上路也更近一步。

但是人工智能背后的強(qiáng)力支撐是大數(shù)據(jù)分析,對(duì)智能要求越高,計(jì)算任務(wù)越繁重復(fù)雜,實(shí)時(shí)系統(tǒng)面臨著一個(gè)前所未有的挑戰(zhàn):不僅要快速處理所有數(shù)據(jù)還要針對(duì)下一步工作作出智能的決策,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是快速處理海量數(shù)據(jù)的關(guān)鍵。CNN 的應(yīng)用領(lǐng)域非常廣泛,主要包括圖像和模式識(shí)別、語音識(shí)別、自然語言處理,以及視頻分析。隨著半導(dǎo)體技術(shù)的發(fā)展,芯片尺寸更小,高度并行處理器的功耗更低,基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺解決方案將會(huì)發(fā)揮巨大作用。

Tensilica Vision C5 DSP:靈活編程,適應(yīng)未來變化

從 2012 年到 2015 年,3 年間神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算量的要求增長(zhǎng) 16 倍,市面上很多芯片廠家都針對(duì)神經(jīng)網(wǎng)絡(luò)開發(fā)了 SoC,但是 SoC 從開始設(shè)計(jì)到制造,再到真正使用該 SoC 的產(chǎn)品上市需要經(jīng)過 2 到 3 年的時(shí)間。在這個(gè)期間,神經(jīng)網(wǎng)絡(luò)的算法和廠商需求一直在變化,SoC 廠商要設(shè)計(jì)怎樣的芯片來適應(yīng)這期間的變化?產(chǎn)品設(shè)計(jì)廠商也不愿意采用 3 年前的芯片設(shè)計(jì)當(dāng)前的產(chǎn)品,因此芯片需要更高的靈活性。相對(duì)于市場(chǎng)上固化的硬件加速器,DSP 更加靈活,更能適應(yīng)未來的變化,降低設(shè)計(jì)風(fēng)險(xiǎn)。

近日,Cadence 公司針對(duì)車載、監(jiān)控安防、無人機(jī)和移動(dòng) / 可穿戴設(shè)備應(yīng)用,推出業(yè)界首款獨(dú)立完整的神經(jīng)網(wǎng)絡(luò)處理器—Vision C5 DSP。Cadence 公司 Tensilica 事業(yè)部資深市場(chǎng)群總監(jiān) Steve Roddy 介紹,“它在不到 1mm2 的芯片面積可以實(shí)現(xiàn) 1TMAC/秒的計(jì)算能力(吞吐量較目前 Tensilica Vision P6 DSP 提高 4 倍),為深度學(xué)習(xí)內(nèi)核提供極高的計(jì)算吞吐量;1024 8-bit MAC 或 512 16-bit MAC 確保 8-bit 和 16-bit 精度的出色性能;128 路 8-bit SIMD 或 64 路 16-bit SIMD 的 VLIW SIMD 架構(gòu)。不同的應(yīng)用對(duì)神經(jīng)網(wǎng)絡(luò)的計(jì)算量要求不同,這款 DSP 可以支持無人駕駛、智能手機(jī)、智能安防等應(yīng)用?!?/p>

圖像處理和神經(jīng)網(wǎng)絡(luò)加速二者合一


數(shù)據(jù)中心工程師可以用成千上萬的 CPU 或 GPU 一起做計(jì)算,但是嵌入式設(shè)備對(duì)功耗和體積有很高的要求,這樣做顯然不適用。通過上圖綜合對(duì)比,DSP 相對(duì)于 CPU、GPU 和硬件加速器在開發(fā)易用性、功耗效率、可編程性和計(jì)算速度方面都具有諸多優(yōu)勢(shì)。
?


?

如上圖,通過“DSP/CPU/GPU +卷積加速硬件”的模式來進(jìn)行數(shù)據(jù)處理時(shí),數(shù)據(jù)通過 AXI 總線在 CPU/GPU 和硬件加速器之間傳輸,不僅占用更多資源,而且增加整體功耗。

拿實(shí)際應(yīng)用來解釋,基于攝像頭的視覺系統(tǒng)在汽車、無人機(jī)和安防領(lǐng)域最為常見,這種架構(gòu)需要兩種最基礎(chǔ)的視覺優(yōu)化計(jì)算模式。首先,利用傳統(tǒng)視覺算法對(duì)攝像頭捕捉到的照片或圖像進(jìn)行增強(qiáng);其次,使用基于神經(jīng)網(wǎng)絡(luò)的認(rèn)知算法對(duì)物體進(jìn)行檢測(cè)和識(shí)別?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案皆依賴與圖像 DSP 連接的硬件加速器;神經(jīng)網(wǎng)絡(luò)代碼被分為兩部分,一部分網(wǎng)絡(luò)層運(yùn)行在 DSP 上,卷積層則運(yùn)行在硬件加速器上。這種架構(gòu)不但效率低下,且耗能較高。

Vision C5 DSP 是專門針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了特定優(yōu)化的 DSP,可以實(shí)現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計(jì)算(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺/圖像 DSP 能力得以釋放,獨(dú)立運(yùn)行圖像增強(qiáng)應(yīng)用,Vision C5 DSP 則負(fù)責(zé)執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)。通過移除神經(jīng)網(wǎng)絡(luò) DSP 和主視覺/圖像 DSP 之間的冗余數(shù)據(jù)傳輸,Vision C5 DSP 的功耗遠(yuǎn)低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。同時(shí),Vision C5 DSP 還提供針對(duì)神經(jīng)網(wǎng)絡(luò)的單核編程模型。

Steve Roddy 表示,“由此可見,Vision C5 DSP 是一款靈活前瞻的永不過時(shí)解決方案,支持各類內(nèi)核尺寸、深度和輸入規(guī)格。Vision C5 DSP 采用多項(xiàng)系數(shù)壓縮/解壓技術(shù),支持未來添加的新計(jì)算層。同時(shí),Vision C5 DSP 搭載 Cadence 神經(jīng)網(wǎng)絡(luò) Mapping 工具鏈,可將 Caffe 和 TensorFlow 等映射為在 Vision C5 DSP 上高度優(yōu)化過的可執(zhí)行代碼,充分發(fā)揮手動(dòng)優(yōu)化神經(jīng)網(wǎng)絡(luò)庫(kù)的豐富功能?!?/p>

通過 AlphaGo 和柯潔的本場(chǎng)人機(jī)大賽,人工智能會(huì)更加強(qiáng)大,DSP 的作用也不言而喻,相信基于 Cadence Tensilica Vision C5 DSP 的芯片也會(huì)很快面世。

與非網(wǎng)原創(chuàng)報(bào)道,不經(jīng)允許,不得轉(zhuǎn)載!

相關(guān)推薦

電子產(chǎn)業(yè)圖譜