少林豪侠传,野花高清中文免费观看电视剧

2024年8月8日下午，英特爾在深圳召開(kāi)“英特爾AI座艙暨車(chē)載獨(dú)立顯卡發(fā)布會(huì)”，重磅發(fā)布了旗下首款銳炫?車(chē)載獨(dú)立顯卡——Arc A760-A。英特爾之所以選擇在深圳發(fā)布車(chē)載獨(dú)立顯卡，再次彰顯中國(guó)汽車(chē)電子的先進(jìn)程度，也只有在中國(guó)，車(chē)載獨(dú)立顯卡才可能有市場(chǎng)，即便特斯拉也只是出貨量低到可以忽略的Model S Plaid使用過(guò)AMD的獨(dú)立顯卡，而且主力車(chē)型還是AMD的嵌入式平臺(tái)，沒(méi)有獨(dú)立顯卡。中國(guó)汽車(chē)市場(chǎng)尤其注重座艙體驗(yàn)，并以此為賣(mài)點(diǎn)和差異化，車(chē)企都不惜成本來(lái)打造先進(jìn)的座艙。

要流暢運(yùn)行AI大模型主要依賴(lài)三個(gè)條件：① 存儲(chǔ)帶寬，② 存儲(chǔ)容量，③算力。這里的“流暢”，對(duì)大模型推理來(lái)說(shuō)，首個(gè)token產(chǎn)生要低于1秒，后續(xù)token產(chǎn)生要低于2秒。

目前AI大模型都是針對(duì)因果建模目標(biāo)進(jìn)行預(yù)訓(xùn)練的，本質(zhì)上是作為下一個(gè)詞預(yù)測(cè)器。這些 LLM 將一系列tokens作為輸入，并自回歸生成后續(xù)tokens，直到滿足停止條件（例如，生成tokens數(shù)量的限制或遇到停止詞）或直到生成特殊的標(biāo)記生成結(jié)束的tokens。該過(guò)程涉及兩個(gè)階段：預(yù)填充階段和解碼階段。

在預(yù)填充階段，LLM處理輸入token以計(jì)算中間狀態(tài)（keys和value），用于生成“第一個(gè)”token。每個(gè)新的token都依賴(lài)于所有先前的token，但由于輸入的全部已知，因此在運(yùn)算上，都是高度并行化矩陣運(yùn)算，可以有效地使用GPU。也就是說(shuō)首個(gè)token的延遲取決于算力。

在解碼階段，LLM一次自回歸生成一個(gè)輸出token，直到滿足停止條件。每個(gè)輸出tokens都需要直到之前迭代的所有輸出狀態(tài)（keys和values）。這與預(yù)填充輸入處理相比，就像矩陣向量運(yùn)算未充分利用GPU計(jì)算能力。數(shù)據(jù)（weights, keys, values, activations）從內(nèi)存?zhèn)鬏數(shù)紾PU的速度決定了延遲，而不是計(jì)算實(shí)際時(shí)間消耗。即，這是一個(gè)內(nèi)存限制操作。解碼階段，或者說(shuō)后續(xù)token生成階段推理延遲時(shí)間是由大模型參數(shù)與存儲(chǔ)帶寬的之比決定。

首先來(lái)看存儲(chǔ)容量，在GPU做推理時(shí)，一般把存儲(chǔ)直接寫(xiě)成顯存，但車(chē)載領(lǐng)域除非是獨(dú)立顯卡或者蘋(píng)果那樣的統(tǒng)一內(nèi)存UMA（Unified Memory Architecture），都是AI加速器（GPU）和CPU共享內(nèi)存，實(shí)際用于AI大模型的存儲(chǔ)容量會(huì)遠(yuǎn)低于共享內(nèi)存的容量。高端車(chē)機(jī)的DRAM內(nèi)存容量在8-22GB之間，絕大多數(shù)基于高通SA8155的DRAM內(nèi)存容量是8GB，基于高通SA8295的DRAM內(nèi)存容量一般是12GB或16GB。

目前LLM大模型參數(shù)量一般有四檔，最低一檔是針對(duì)嵌入式，參數(shù)在60-80億之間，第二檔是130-450億，第三檔是700-800億，第四檔是1500億以上。座艙的AI大模型有可能同時(shí)運(yùn)行兩個(gè)大模型，最高參數(shù)上限大約是140億參數(shù)，車(chē)載領(lǐng)域最低的INT8精度，140億參數(shù)就是14GB的容量。車(chē)機(jī)那種共享存儲(chǔ)的方式，車(chē)機(jī)操作系統(tǒng)、中間層、虛擬機(jī)等等所占存儲(chǔ)巨大，為保證車(chē)機(jī)流暢，分給AI大模型的容量不會(huì)超過(guò)50%。也就是說(shuō)要支持140億參數(shù)，那么車(chē)機(jī)的DRAM至少要28GB，這是大模型的最低下限。對(duì)于真正的大模型，參數(shù)一般是700億，需要140GB的DRAM，這在車(chē)載領(lǐng)域完全不可想象，體積巨大，成本高昂。對(duì)于有獨(dú)立顯存的獨(dú)立顯卡只需要14GB就足夠，英特爾的獨(dú)立顯卡的顯存容量正是16GB。

如果DRAM容量低于大模型存儲(chǔ)容量，那么與電腦一樣，會(huì)轉(zhuǎn)入硬盤(pán)，對(duì)車(chē)機(jī)來(lái)說(shuō)就是UFS，UFS目前高端的3.1版本，連續(xù)讀取速度很低，只有2.1GB/s，而英偉達(dá)Orin的帶寬是204.8，相差近百倍，延遲估計(jì)超過(guò)1分鐘，完全無(wú)法接受。

對(duì)大模型來(lái)說(shuō)，存儲(chǔ)容量是最重要的，算力遠(yuǎn)不及存儲(chǔ)容量，這也是為何算力不到300TOPS的Mac Studio with an M2 Ultra頂配可以運(yùn)行高達(dá)3140億參數(shù)的超級(jí)大模型，Mac Studio with an M2 Ultra頂配統(tǒng)一內(nèi)存容量高達(dá)192GB，價(jià)格近9000美元。

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限，假設(shè)一個(gè)大模型參數(shù)為70億，按照車(chē)載的INT8精度，它所占的存儲(chǔ)是7GB，如果是英偉達(dá)的RTX4090，它的顯存帶寬是1008GB/s，也就是每7毫秒生成一個(gè)token，這個(gè)就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s，也就是每110毫秒生成一個(gè)token，幀率不到10Hz，自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz，英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s，即每34毫秒生成一個(gè)token，勉強(qiáng)可以達(dá)到30Hz，注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需要的時(shí)間，數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了，實(shí)際速度要遠(yuǎn)低于這個(gè)數(shù)據(jù)。并且一個(gè)token也不夠用，至少需要兩個(gè)token，端到端的最終輸出結(jié)果用語(yǔ)言描述就是一段軌跡，比如直行，直行需要有個(gè)限制條件，至少有個(gè)速度的限制條件，多的可能需要5個(gè)以上token，簡(jiǎn)單計(jì)算即可得出存儲(chǔ)帶寬需要1TB/s以上。

座艙領(lǐng)域不需要那么高的幀率，但座艙領(lǐng)域的模型更大，存儲(chǔ)帶寬最好在500GB/s以上。

汽車(chē)SoC芯片存儲(chǔ)帶寬一覽

來(lái)源：佐思汽研整理

YE180FC3T4MFG就是目前特斯拉車(chē)機(jī)用的主芯片。Snapdragon X-lite是高通第四代芯片，還沒(méi)有與之對(duì)應(yīng)的車(chē)載版本。而最常見(jiàn)的SA8155P其存儲(chǔ)帶寬是很低的。

最后是AI算力，這個(gè)只關(guān)系首個(gè)token的生成，重要程度很低，當(dāng)然算力越高越好。

英特爾這次推出的獨(dú)立顯卡ARC A760-A基本上就是其2022年產(chǎn)品ARC A750的車(chē)載版。

來(lái)源：佐思汽研整理

不過(guò)在面向汽車(chē)時(shí)，Arc A760-A自然有一些特有技能。符合車(chē)規(guī)要求，包括寬溫、嚴(yán)苛環(huán)境的高等級(jí)可靠性、穩(wěn)定性特性是基本屬性。再有就是對(duì)OS和虛擬機(jī)的支持，ACRN是英特爾主導(dǎo)的開(kāi)源虛擬機(jī)平臺(tái)，奇瑞和紅旗都曾經(jīng)用過(guò)，Yocto可以看做是嵌入式的Linux。

A750與A760-A最大的區(qū)別是存儲(chǔ)容量不同，A760-A增加到了16GB，其余硬件特性基本相同。我們可以大致推測(cè)出A760-A的一些硬件特性，采用臺(tái)積電的6納米N6工藝制造，217億晶體管，die size為406平方毫米。

矢量引擎改進(jìn)了ALU單元，提供專(zhuān)用的FP浮點(diǎn)執(zhí)行接口，共享的INT/EM整數(shù)執(zhí)行接口，每個(gè)時(shí)鐘周期可以執(zhí)行16個(gè)FP32操作、32個(gè)FP16操作、64個(gè)INT8操作。

由于AI算法核心幾乎完全圍繞矩陣乘法、累加算法，所以Xe核心里加入了單獨(dú)的矩陣引擎，專(zhuān)門(mén)用于執(zhí)行XMX指令。它具備獨(dú)立的執(zhí)行端口，每個(gè)時(shí)鐘周期可以執(zhí)行128個(gè)FP16/BF16操作、256個(gè)INT8操作，512個(gè)INT4/INT2操作。MAC作為圖形渲染中的基本SIMD矢量指令，也是Xe矢量引擎的核心，可以執(zhí)行8次并行乘法，然后執(zhí)行8次并行加法，每個(gè)時(shí)鐘周期就是16個(gè)操作。

DP4a指令是針對(duì)不需要32位精度的AI計(jì)算所做的優(yōu)化，工作原理是將所有32位輸入分成8位塊，然后獨(dú)立執(zhí)行，總共32次并行乘法(紫色方塊)，每個(gè)時(shí)鐘周期就是64個(gè)操作，相比標(biāo)準(zhǔn)SIMD MAC提高了4倍。XMX指令也是每個(gè)操作分成4個(gè)塊，然后獨(dú)立相乘、累加，共有64個(gè)操作，每個(gè)時(shí)鐘周期4個(gè)階段就是256個(gè)操作，由此帶來(lái)16倍的算力提升。

根據(jù)存儲(chǔ)16GB的信息來(lái)看，英特爾肯定不會(huì)單獨(dú)出售芯片，出售的方式應(yīng)該是板卡或者干脆就是A750那樣的整機(jī)。由于獨(dú)立顯卡的供電也是汽車(chē)領(lǐng)域常用的12伏，所以A760-A的供電完全可以照搬A750的供電設(shè)計(jì)。

A750顯卡的正面PCB

上圖是A750顯卡的正面PCB，GPU供電是六相設(shè)計(jì)，電源管理是MPS的MPS2134，DrMOS是MPS的MP86956，可以對(duì)應(yīng)高達(dá)70A的電流，存儲(chǔ)的電源管理也是MPS的MPS2134。DrMOS是MPS的MP86950，對(duì)應(yīng)50A的電流，DP轉(zhuǎn)HDMI是Realtek的RTD2173。MP86956值得一提，它輸入電壓介于3-16伏之間，輸出電流穩(wěn)定在70A，最高瞬間125A，最高運(yùn)行溫度高達(dá)125度，junction溫度高達(dá)150度。

根據(jù)英特爾介紹，A760-A支持6路攝像頭輸入，顯卡一般只有PCIe接口，攝像頭一般是MIPI CSI-2格式，英特爾應(yīng)該是加了轉(zhuǎn)換卡，將MIPI CSI-2轉(zhuǎn)換為PCIe或以太網(wǎng)格式。如果是以太網(wǎng)，那就是采用Marvell的88QB5224，將MIPI CSI-2信號(hào)轉(zhuǎn)換為符合802.3ch標(biāo)準(zhǔn)的車(chē)載以太網(wǎng)信號(hào)，可以使用非屏蔽的單對(duì)雙絞線，最高傳輸速率10Gbps，最高可以支持800萬(wàn)像素的攝像頭，也可以支持多個(gè)攝像頭，只需要增加以太網(wǎng)交換機(jī)即可。

88QB5224的框架如上圖，后端可以輸出也可以直接給PC系統(tǒng)的萬(wàn)兆網(wǎng)卡接口，萬(wàn)兆網(wǎng)卡再通過(guò)PCIe輸入到CPU。

基于FPGA的MIPI CSI-2轉(zhuǎn)PCIe框架圖

第二種是PCIe，采用LATTICE的FPGA，將MIPI CSI-2輸出信號(hào)即原始的RAW信號(hào)首先放進(jìn)一個(gè)ISP中，將RAW信號(hào)轉(zhuǎn)換成RGB信號(hào)再轉(zhuǎn)換YUV422信號(hào)，然后通過(guò)直接存儲(chǔ)接入即DMA引擎，根據(jù)輸出端的視頻幀率調(diào)整緩沖幀。FPGA內(nèi)的Transaction Layer Packet即TLP對(duì)YUV422信號(hào)進(jìn)行解碼，再生成PCIe格式數(shù)據(jù)，最高傳輸速率為3.1Gbps。

PCIe的成本要高很多，還需要更貴的PCIe交換機(jī)，推測(cè)還是以太網(wǎng)的可能性大，不過(guò)這令人十分困惑，顯卡不需要單獨(dú)外接攝像頭信號(hào)，直接接收攝像頭信號(hào)的是CPU，顯卡再通過(guò)PCIe與CPU連接。

英特爾A750獨(dú)立顯卡性能大概是英偉達(dá)的RTX3060。A750價(jià)格約為1800-2000元人民幣左右，RTX3060價(jià)格基本上是翻倍的3600-4000元人民幣，A760-A加了一倍內(nèi)存，還可能加了MIPI CSI-2轉(zhuǎn)接卡，價(jià)格估計(jì)要高1000-1500元人民幣。不過(guò)最難的應(yīng)該是功耗，TDP功耗高達(dá)225瓦，這是一個(gè)不容忽視的耗電源。散熱和可靠性也要考慮，最好是水冷散熱，否則要在機(jī)艙內(nèi)給顯卡留出足夠的空間空氣對(duì)流。

最麻煩的還是獨(dú)立顯卡是外設(shè)，它不能獨(dú)立工作，它需要CPU配合，配合最好的自然是英特爾自家的CPU，英特爾獨(dú)立顯卡的DeepLink技術(shù)正是基于此開(kāi)發(fā)，別的CPU用起來(lái)效率應(yīng)該是不如英特爾自己的CPU。

免責(zé)說(shuō)明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng)，不具有任何指導(dǎo)、投資和決策意見(jiàn)。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
VCA824IDGST	1	Texas Instruments	Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85	ECAD模型下載ECAD模型	$10.23	查看
L6234PD	1	STMicroelectronics	Three phase motor driver	ECAD模型下載ECAD模型	$7.18	查看
TPS2410PWRG4	1	Texas Instruments	0.8-V to 16.5-V 1.2A IQ 290-uA Igate source N+1 and OR-ing power rail controller 14-TSSOP -40 to 85	ECAD模型下載ECAD模型	暫無(wú)數(shù)據(jù)	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

VCA824IDGST

Texas Instruments

Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85