山中艳谭,少女大人电视剧

作者 |??程茜，編輯?|??漠影

存算一體架構(gòu)已經(jīng)為邊端大模型部署提供了一種高效解決方案。

大模型這把火，已經(jīng)燒到了邊端設(shè)備！一段時(shí)間以來，能更好適配手機(jī)、PC等邊緣設(shè)備的端側(cè)模型如雨后春筍般接連冒出，微軟、蘋果、Hugging Face、OpenAI、Mistral、谷歌等連珠炮式甩下輕量級模型；AI PC、AI手機(jī)、汽車座艙等大模型加持的邊端設(shè)備層出不窮，產(chǎn)業(yè)鏈上下游玩家爭相入場。

隨著技術(shù)的成熟和應(yīng)用場景的拓展，端側(cè)大模型市場已經(jīng)成為AI領(lǐng)域的一個(gè)重要增長點(diǎn)，但對于邊端設(shè)備而言，承載大模型能力非一日之功，即便參數(shù)規(guī)模下降為大模型落地部署提供了條件，邊端設(shè)備本身的硬件載體同樣至關(guān)重要。

因此，連接大模型與邊端設(shè)備能力的底層芯片玩家成為其中的關(guān)鍵變量。那么，在邊端大模型部署落地加速的背景下，還是非GPU不可嗎？什么樣的芯片架構(gòu)將成為邊端玩家首選？

01.大模型向邊端側(cè)下沉多種應(yīng)用方向探索已涌現(xiàn)

大模型加速落地應(yīng)用已經(jīng)成為共識，云端大模型向邊端下沉的產(chǎn)業(yè)趨勢日漸明顯，邊端大模型爆發(fā)前夜已至。一方面，邊端大模型的參數(shù)規(guī)模、性能表現(xiàn)與企業(yè)的需求正相互契合。

首先，動(dòng)輒千億、萬億參數(shù)規(guī)模的大模型背后是無底洞似的燒錢游戲，與尚沒有探索出高利潤商業(yè)模式的現(xiàn)狀相比，鮮少有企業(yè)能持續(xù)投入。因此，“大模型反卷小型化”成為一大趨勢，性能優(yōu)越、更易部署、更具性價(jià)比的小模型成為玩家們爭奪市場的關(guān)鍵。部署在邊端設(shè)備上的模型可以滿足不同需求，使得所有規(guī)模的企業(yè)和組織都能找到適合自己的最優(yōu)解。

其次，從實(shí)際性能表現(xiàn)來看，云端大模型對于企業(yè)核心痛點(diǎn)需求、個(gè)性化任務(wù)的處理能力，都遠(yuǎn)不如距離業(yè)務(wù)、用戶更近的邊緣端。因此其在私有化部署、個(gè)性化處理、數(shù)據(jù)安全與隱私等方面都更具差異化優(yōu)勢。另一方面，軟硬件的提升為邊端大模型走向現(xiàn)實(shí)提供了必要條件。諸多小參數(shù)模型已經(jīng)展現(xiàn)出強(qiáng)大性能表現(xiàn)，邊端設(shè)備承載大模型能力的可能性顯著提高。

微軟發(fā)布的參數(shù)規(guī)模僅為3.8B、7B、14B的Phi-3系列模型，在下圖的性能對比中，參數(shù)規(guī)模較小的模型與GPT-3.5的性能差距并不大，且在一些評測指標(biāo)上已經(jīng)超過GPT-3.5?？梢钥闯觯瑓?shù)規(guī)模、模型大小不再是決定模型性能的唯一指標(biāo)。

同時(shí)，模型的量化壓縮、模型裁剪、知識蒸餾等技術(shù)加速演進(jìn)，使得大模型可以在不影響性能的前提下減小模型尺寸和計(jì)算量，從而可以部署到邊端設(shè)備中。邊緣設(shè)備需具備更強(qiáng)的計(jì)算性能，包括更高的算力、足夠的顯存和合理的功耗等。專門為邊緣計(jì)算設(shè)計(jì)的AI芯片涌現(xiàn)，在硬件層面為邊端大模型落地提供了基石。可以說，不論從模型能力本身，還是邊端設(shè)備的升級優(yōu)化來看，大模型向邊端下沉已經(jīng)成為必然，且是讓大模型能為企業(yè)帶來經(jīng)濟(jì)效益提升的有效路徑。

如今，AI PC、汽車座艙大模型、智慧商顯等領(lǐng)域已經(jīng)率先展現(xiàn)出爆發(fā)潛力，成為邊端大模型落地的主要方向。全球市研機(jī)構(gòu)Canalys發(fā)布的數(shù)據(jù)顯示，今年第二季度，全球AI PC出貨量達(dá)880萬臺，占當(dāng)季所有PC出貨量的14%。大模型與PC的結(jié)合使得這一設(shè)備的生產(chǎn)力工具屬性被無限放大。曾經(jīng)PC只是被用于制作PPT、處理工作的工具載體，而現(xiàn)在基于內(nèi)置AI能力，用戶只需要語音、手勢等交互，就可以讓其輔助生產(chǎn)、創(chuàng)作，快速完成一份PPT或者生成一篇文章的文章。

AI PC為用戶帶來了更好體驗(yàn)，能實(shí)際解決曾經(jīng)用戶使用傳統(tǒng)PC時(shí)的諸多痛點(diǎn)，并實(shí)現(xiàn)降本增效。

第二大較為突出的場景就是汽車座艙，大模型對于自然語言的理解、生成能力，使得其可以綜合處理語音、視覺、視覺等多模態(tài)數(shù)據(jù)，并能夠提供千人千面的語音識別、娛樂信息及駕駛輔助個(gè)性化定制服務(wù)。相比于只能通過傳統(tǒng)物理按鍵進(jìn)行交互的傳統(tǒng)座艙，大模型加持的座艙功能可實(shí)現(xiàn)的范圍邊界逐漸外延。這也使得智能座艙市場的規(guī)模正處于飛速增長階段，全球交易咨詢服務(wù)提供商畢馬威中國預(yù)計(jì)，2026年中國智能座艙市場規(guī)模將達(dá)到2127億元，5年復(fù)合增長率將超過17%。還有如今國內(nèi)企業(yè)出海加速，需要與海外客戶合作、開會等場景，智慧商顯、會議軟件等內(nèi)置的大模型加持工具可以提供實(shí)時(shí)翻譯、會議紀(jì)要生成等。這些能夠切實(shí)解決用戶辦公特點(diǎn)的功能幾乎已經(jīng)成為設(shè)備標(biāo)配。

國內(nèi)市研機(jī)構(gòu)洛圖科技的數(shù)據(jù)顯示，2024年，中國大陸會議場景中顯示產(chǎn)品的市場規(guī)模將達(dá)130億元，同比2023年增長6.5%。這些適用于大模型應(yīng)用落地的場景有一個(gè)共同特點(diǎn)就是，能夠真正基于邊端大模型的能力，為客戶真正解決痛點(diǎn)帶來價(jià)值。

02.借創(chuàng)新架構(gòu)之力破局邊端大模型落地的算力難題

大模型真正落地部署到邊端設(shè)備上，還有一個(gè)被考驗(yàn)的關(guān)鍵角色就是底層芯片玩家，其背后的挑戰(zhàn)巨大。原因在于邊端往往只有一個(gè)獨(dú)立設(shè)備，其散熱條件、體積大小等都會受限，需要芯片兼具體積小、性能強(qiáng)、功耗低。且在成本和數(shù)據(jù)方面，邊端設(shè)備玩家也更為敏感，邊端設(shè)備往往需要處理企業(yè)或個(gè)人的內(nèi)部數(shù)據(jù)，數(shù)據(jù)隱私和安全更為敏感，需要防止數(shù)據(jù)泄漏和濫用。此外在一些實(shí)時(shí)性要求較高的自動(dòng)駕駛、工業(yè)控制等場景，需要大模型能夠更快響應(yīng)作出決策。

這些既對芯片玩家提出了不小的挑戰(zhàn)，同時(shí)也是邊端大模型落地部署的必要條件，底層芯片玩家只有將這些已經(jīng)擺在桌子上的難題逐個(gè)擊破，才能占據(jù)先機(jī)。隨著大模型應(yīng)用落地加速，推理需求增加，芯片格局已經(jīng)從GPU一家獨(dú)大的局面向異構(gòu)CPU、NPU各路芯片群雄逐鹿的時(shí)代變遷。起初，擁有強(qiáng)大并行計(jì)算能力的GPU無疑是大模型訓(xùn)練的首選，其可以在短時(shí)間內(nèi)完成大量計(jì)算任務(wù)。

但在AI推理階段，一些場景下GPU的整體性能表現(xiàn)并非最佳。對功耗、成本敏感的邊端設(shè)備就是一大典型場景。除了居高不下的價(jià)格，GPU還因?yàn)閾碛写罅康暮诵暮途€程，需要處理大量數(shù)據(jù)，但每個(gè)核心都需要消耗電能，隨之上升的就是整體能耗，再加上需要足夠高效的散熱系統(tǒng)來保證GPU在適宜溫度運(yùn)行，就會進(jìn)一步增加能耗。這一背景下，在邊端場景催生了異構(gòu)CPU和NPU兩種方案。異構(gòu)CPU就是將NPU集成于CPU之上，使其可以更好適應(yīng)不同種類任務(wù)，能實(shí)現(xiàn)性能、功耗、成本的平衡，適應(yīng)多元化且復(fù)雜的計(jì)算需求。

這種設(shè)計(jì)的好處在于，一方面可以將更多的晶體管資源用在能夠進(jìn)一步提升多核性能的能效核上，或用于提升總體性能的緩存上；另一方面可以留出散熱空間，提升運(yùn)行頻率來獲取最高的單核性能。然而，集成多種不同類型的核心和技術(shù)，也為邊端設(shè)備集成異構(gòu)CPU帶來了更高的設(shè)計(jì)和制造成本。再加上其編程和優(yōu)化相對復(fù)雜，需要開發(fā)者更熟知不同核心的性能和特點(diǎn)。

因此，這一架構(gòu)對于邊端設(shè)備玩家而言并不是最佳方案。專為AI設(shè)計(jì)的NPU芯片，在當(dāng)下幾乎已經(jīng)成為大模型在邊端應(yīng)用的最優(yōu)解之一。相比于異構(gòu)CPU和GPU，NPU在神經(jīng)網(wǎng)絡(luò)高效運(yùn)行方面的適配性都要更高，且其具備的高性能、低功耗優(yōu)勢也與邊端大模型部署十分契合。NPU可以根據(jù)特定應(yīng)用場景優(yōu)化，能在有效降低功耗的同時(shí)，滿足邊端設(shè)備對功耗的限制。這對邊端設(shè)備部署大模型時(shí)的功耗、性能、成本等都帶來了更為靈活且可擴(kuò)展的解決方案。一方面，通過先進(jìn)工藝制程、低功耗設(shè)計(jì)技術(shù)以及算法與硬件的協(xié)同優(yōu)化，能夠提升芯片性能和能效比。另外一方面，通過架構(gòu)創(chuàng)新，提高芯片計(jì)算速度和效率。

值得一提的是，在邊端大模型落地中，芯片架構(gòu)創(chuàng)新越來越成為關(guān)鍵。存算一體、可重構(gòu)計(jì)算架構(gòu)、DSA專用領(lǐng)域架構(gòu)等諸多創(chuàng)新涌現(xiàn)，為邊緣設(shè)備提供了更為強(qiáng)大的計(jì)算能力。在這之中，因?yàn)榇竽Ｐ退璧挠?jì)算量和數(shù)據(jù)存儲量激增，因此在強(qiáng)大算力背后，高效存儲和數(shù)據(jù)通信機(jī)制同樣重要，如何解決內(nèi)存墻和存儲墻問題成為拉開NPU利用率的關(guān)鍵。

正因如此，存算一體架構(gòu)成為其提升計(jì)算效率和降低功耗的重要途徑。存算一體架構(gòu)的優(yōu)勢，主要體現(xiàn)在高效計(jì)算、功耗、性能三個(gè)維度。首先，存算一體架構(gòu)將存儲與計(jì)算集成在統(tǒng)一芯片上，可以避免傳統(tǒng)架構(gòu)中數(shù)據(jù)在存儲器和處理器之間頻繁傳輸所產(chǎn)生的延遲?；诖?，邊端大模型應(yīng)用時(shí)能更快獲取和處理數(shù)據(jù)，提高響應(yīng)速度，滿足實(shí)時(shí)性要求。這也在一定程度上能減少數(shù)據(jù)的搬運(yùn)，減少對內(nèi)存帶寬的需求，避免大模型因內(nèi)存帶寬不足而導(dǎo)致出現(xiàn)性能瓶頸。

同時(shí)，這一架構(gòu)通過在存儲單元中直接進(jìn)行計(jì)算，能夠同時(shí)對多個(gè)數(shù)據(jù)進(jìn)行處理，提高了計(jì)算效率和吞吐量，能夠快速處理邊端大模型應(yīng)用中語義理解、圖像識別、特征提取等復(fù)雜的計(jì)算任務(wù)。其次，功耗方面，存算一體架構(gòu)省去了傳統(tǒng)計(jì)算架構(gòu)中數(shù)據(jù)搬運(yùn)過程，能降低損耗，保證需要長時(shí)間待機(jī)或間歇性工作的邊端設(shè)備，能夠在非工作期間降低功耗損耗。因此與傳統(tǒng)架構(gòu)相比，在相同的算力輸出下，存算一體架構(gòu)的能效比有顯著提升。綜上，通過優(yōu)化數(shù)據(jù)處理方式、降低功耗、提高性能的存算一體架構(gòu)，已經(jīng)為邊端大模型的部署提供了一種高效的解決方案。

03.國內(nèi)AI芯片創(chuàng)企邊端大模型系列產(chǎn)品落地最高算力100TOPS

大幅提升計(jì)算能力的存算一體芯片概念隨之日趨火熱，主攻這一技術(shù)路線的國內(nèi)AI芯片創(chuàng)企后摩智能在當(dāng)下拿出了自己的最新成果。近日，后摩智能基于存算一體推出了邊端大模型AI芯片后摩漫界M30，并基于這一芯片構(gòu)建了智算模組和力謀AI加速卡。

從M30來看，存算一體架構(gòu)已經(jīng)成為其加速邊端大模型部署落地的殺手锏。這也是一直以來后摩智能技術(shù)路線的演進(jìn)方向，用更高的性能、更低的成本、更低的功耗提供大模型運(yùn)行的計(jì)算底座。后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭透露，將持續(xù)沿著架構(gòu)創(chuàng)新這條路為邊端大模型的商業(yè)化落地，實(shí)現(xiàn)真正普惠的AI提供算力保障。

面向?qū)嶋H應(yīng)用落地場景，后摩智能考慮的維度是要兼顧計(jì)算性能以及成本、功耗以及易用性。

他補(bǔ)充說，一方面即便在端側(cè)部署，模型大小繼續(xù)上漲的趨勢仍然可能存在，更大參數(shù)規(guī)模的模型更為智能，隨之而來的就是更好的用戶體驗(yàn)、更大的商業(yè)前景，實(shí)現(xiàn)商業(yè)閉環(huán)；另一方面就是持續(xù)降成本、降功耗，這也是邊端設(shè)備玩家一直關(guān)注的重點(diǎn)。

目前，后摩漫界M30最高算力可達(dá)100TOPS，典型功耗為12W，可以支持ChatGLM、Llama 2、通義千問等主流大模型，實(shí)時(shí)運(yùn)行性能可以達(dá)到每秒15-20 Tokens。同時(shí)，在賦予邊端側(cè)設(shè)備大模型能力這件事，后摩智能堅(jiān)持的還有讓企業(yè)付出的成本、時(shí)間都更少。這塊芯片可以通過“+AI”的方式為邊端設(shè)備提供大模型能力。信曉旭解釋說，“+AI”的方式主要考慮企業(yè)的技術(shù)落地成本，其可以通過標(biāo)準(zhǔn)的PCIe口和原來的主處理器對接，讓企業(yè)以最少的成本和改變就能直接調(diào)用大模型能力，縮短企業(yè)的開發(fā)周期與落地部署時(shí)間。

對于數(shù)據(jù)隱私保護(hù)，信曉旭認(rèn)為，大模型輸入輸出的內(nèi)容已經(jīng)從簡單的圖像、文字向音視頻、3D等形態(tài)延伸，未來用戶家庭中的攝像頭等智能終端采集到的信息，如果被送往云端其隱私安全無法被保證。而本地私有化部署的邊端大模型就可以基于這些數(shù)據(jù)生成更懂用戶的AI。在產(chǎn)品布局與技術(shù)創(chuàng)新的同步推進(jìn)下，為了加速存算一體AI芯片產(chǎn)業(yè)化，后摩智能還與中國移動(dòng)正式簽署戰(zhàn)略合作，聯(lián)合推進(jìn)存算一體AI芯片的創(chuàng)新研發(fā)和量產(chǎn)應(yīng)用。同時(shí)，中國移動(dòng)也是后摩智能布局邊端大模型落地業(yè)務(wù)中的重要合作伙伴。雙方的合作重點(diǎn)聚焦于智慧中屏、家庭智能終端、機(jī)器人等高度適配“+AI”模式的邊端應(yīng)用場景。

在AI PC方面，后摩智能已經(jīng)與行業(yè)頭部玩家聯(lián)想達(dá)成戰(zhàn)略合作，信曉旭談道，如果用激進(jìn)的眼光看待PC產(chǎn)業(yè)的發(fā)展，AI PC未來的核心計(jì)算單元可能會是AI，CPU可能會變成輔助。

因此，在AI PC的技術(shù)布局下，作為底層芯片玩家的后摩智能正融入頭部玩家的生態(tài)中占據(jù)先機(jī)。大模型向邊端設(shè)備下沉的產(chǎn)業(yè)趨勢已經(jīng)不可逆轉(zhuǎn)，在信曉旭看來，設(shè)備更加多元化的端側(cè)和邊緣側(cè)，其承載AI能力在未來會比云端更具生命力，這也是將成為真正讓AI能夠讓更多人受益的更廣泛技術(shù)和場景。身處其中的AI芯片玩家，如何實(shí)現(xiàn)芯片性能突破、產(chǎn)業(yè)鏈協(xié)同等將成為這一產(chǎn)業(yè)趨勢下?lián)屨际袌鱿葯C(jī)的護(hù)城河。

04.結(jié)語：邊端大模型亟待起飛AI芯片創(chuàng)企迎新機(jī)遇

在應(yīng)用落地端，國內(nèi)大模型產(chǎn)業(yè)已經(jīng)風(fēng)起云涌，參數(shù)規(guī)模龐大的通用大模型目前尚未看到高性價(jià)比的落地應(yīng)用場景，但靠近用戶與企業(yè)業(yè)務(wù)的邊端設(shè)備玩家已經(jīng)開始探索大模型的深度應(yīng)用。考慮到邊端設(shè)備的核心特性，后摩智能的目標(biāo)很明確，就是為合作伙伴提供足夠便宜、功耗低、易用性強(qiáng)的芯片，這樣的產(chǎn)品目標(biāo)與當(dāng)下大模型產(chǎn)業(yè)下沉趨勢的需求十分契合。

伴隨著更靠近數(shù)據(jù)源、響應(yīng)更快、延遲更低的邊端大模型展現(xiàn)出騰飛的可能，芯片玩家與之協(xié)同探索產(chǎn)業(yè)變革的機(jī)遇點(diǎn)，以后摩智能為代表的國內(nèi)AI芯片玩家已經(jīng)拿出了更強(qiáng)的解決方案，這也同樣是在GPU、CPU架構(gòu)之外，創(chuàng)新架構(gòu)的市場機(jī)遇。在此背景下，錨定對解決大模型存儲墻有著天然優(yōu)勢存算一體架構(gòu)的后摩智能，將有望更快找到大模型深入行業(yè)的更大價(jià)值。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
DSPIC33EP512MU814-I/PH	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144	ECAD模型下載ECAD模型	$13.09	查看
FT2232HL-REEL	1	FTDI Chip	USB Bus Controller, CMOS, PQFP64, LEAD FREE, LQFP-64	ECAD模型下載ECAD模型	$6.27	查看
ATXMEGA128A3U-MH	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64		$6.98	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

DSPIC33EP512MU814-I/PH

Microchip Technology Inc

16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144