亚洲黑丝在线,安娜贝尔1在线观看高清免费观看电视剧对手免费全集在线观看

6月13日消息，近日芬蘭著名的 VTT 技術(shù)研究中心旗下的一家科技初創(chuàng)公司Flow Computing宣布一則爆炸性的聲明稱，其推出的并行處理單元 (PPU)可以“使任何 CPU 架構(gòu)的性能提高 100 倍”！

據(jù)介紹，F(xiàn)low的FPU能夠集成到任何當(dāng)前已有或即將推出的CPU設(shè)計(jì)架構(gòu)、指令集或工藝幾何結(jié)構(gòu)中，可提供革命性的 100 倍加速，可立即用于基于馮·諾依曼的標(biāo)準(zhǔn)計(jì)算機(jī)設(shè)計(jì)，以實(shí)現(xiàn)“CPU 2.0”級(jí)別的吞吐量。PPU還消除了在高性能應(yīng)用程序中對(duì) CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。

Flow稱，片上集成的 PPU 內(nèi)核越多，獲得的性能提升就越高。同時(shí)，SoC當(dāng)中的其他計(jì)算單元也將受益于PPU的性能的提升，以及PPU對(duì)CPU性能的提升。

此外，通過(guò)Flow提供的編譯器對(duì) PPU 進(jìn)行重新編譯，PPU 與該 CPU 架構(gòu)的每個(gè)現(xiàn)有軟件應(yīng)用程序可完全向后兼容，可以大大加速所有現(xiàn)有軟件和應(yīng)用程序中的現(xiàn)有并行功能，而無(wú)需更改任何軟件。

從應(yīng)用來(lái)看，F(xiàn)low的突破性架構(gòu)將可增強(qiáng)嵌入式系統(tǒng)和數(shù)據(jù)中心的性能，適用于邊緣和云計(jì)算、AI 云、跨 5G/6G 的多媒體編解碼器、自動(dòng)駕駛汽車系統(tǒng)、軍用級(jí)計(jì)算等用途。

目前，F(xiàn)low 已經(jīng)在與來(lái)自世界各地的主要半導(dǎo)體供應(yīng)商進(jìn)行初步討論，以尋求下一代 CPU 性能的“圣杯”。更多技術(shù)細(xì)節(jié)將在 2024 年下半年公開(kāi)分享。

Flow Computing聯(lián)合創(chuàng)始人兼首席執(zhí)行官Timo Valtonen表示：“在過(guò)去的幾十年里，CPU性能只有漸進(jìn)式的改進(jìn)，這導(dǎo)致了CPU實(shí)際上已成為計(jì)算中最薄弱的環(huán)節(jié)，因?yàn)樗捻樞蚣軜?gòu)并不理想。為了滿足對(duì)更多計(jì)算性能的不斷增長(zhǎng)的需求，CPU性能的新時(shí)代已成為必要條件，這在很大程度上是由人工智能以及邊緣和云計(jì)算的需求推動(dòng)的。Flow 打算通過(guò)其全新的并行性能單元（PPU）架構(gòu)引領(lǐng) SuperCPU 革命，使任何 CPU 的性能提升 100 倍，無(wú)論架構(gòu)如何，并具有完全的向后軟件兼容性?！?/p>

Butterfly Ventures的合伙人兼聯(lián)合創(chuàng)始人Juho Risku也表示：“由于CPU改進(jìn)速度在過(guò)去十年中放緩，科技行業(yè)的每個(gè)行業(yè)都繼續(xù)受到影響。Flow 是這一趨勢(shì)的第一個(gè)重大變革者，它提供了數(shù)倍的性能，而不是幾個(gè)百分點(diǎn)。而且在我們看來(lái)，F(xiàn)low 將對(duì)計(jì)算市場(chǎng)的基線性能產(chǎn)生比量子計(jì)算等更廣泛的影響。盡管很多公司在人工智能方面投入了大量資金，但通用計(jì)算將主導(dǎo)其成本并限制其能力。Flow Computing正在通過(guò)使下一代SuperCPU輕松超越當(dāng)前的行業(yè)領(lǐng)導(dǎo)者，如Apple M系列，Nvidia Grace，Google Axion和Microsoft Azure Cobalt 100來(lái)解決這個(gè)問(wèn)題，“

據(jù)悉，F(xiàn)low公司剛剛獲得了 400 萬(wàn)歐元的種子輪融資。參與種子輪融資的實(shí)體包括Butterfly Ventures（領(lǐng)投）、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬蘭商務(wù)促進(jìn)局。

一、什么是并行處理單元？

據(jù)Flow公司官網(wǎng)介紹，并行處理單元（PPU）是一個(gè) IP 模塊，可以與同一芯片上的 CPU 緊密集成。它被設(shè)計(jì)為高度可配置，以滿足眾多用例的特定要求。

支持的自定義選項(xiàng)包括：

PPU 中的內(nèi)核數(shù)（4、16、64、256 等）

功能單元的數(shù)量和類型（如 ALU、PPU、MU、GU、NU）

片上存儲(chǔ)器資源（緩存、緩沖區(qū)、暫存器）的大小

對(duì)指令集進(jìn)行了修改，以補(bǔ)充 CPU 的指令集擴(kuò)展

對(duì) CPU 的修改很少，包括將 PPU 接口集成到指令集中，并可更新 CPU 內(nèi)核的數(shù)量，以利用新的性能水平。

Flow的參數(shù)化設(shè)計(jì)允許廣泛的定制，包括 PPU 內(nèi)核的數(shù)量、功能單元的種類和數(shù)量以及片上存儲(chǔ)器資源的大小。性能會(huì)隨著 PPU 內(nèi)核數(shù)量的增加而增加。4 核的 PPU 非常適合智能手表等小型設(shè)備，16 核 PPU 非常適合智能手機(jī)，而 64 核 PPU 可為 PC 提供出色的性能；256 核 PPU 最適合 AI、云和邊緣計(jì)算服務(wù)器等高需求環(huán)境，使它們能夠輕松處理最苛刻的計(jì)算任務(wù)。

二、擁有三大核心優(yōu)勢(shì)

據(jù)介紹，F(xiàn)low的并行處理單元 (PPU)具有三大核心優(yōu)勢(shì)：

1、Flow 創(chuàng)新的并行處理單元（PPU）將 CPU 性能提升 100 倍，開(kāi)創(chuàng)了 SuperCPU 時(shí)代。

創(chuàng)新的并行處理單元（PPU）專為完全向后兼容而設(shè)計(jì)，可在重新編譯后增強(qiáng)現(xiàn)有軟件和應(yīng)用程序。功能越并行，性能提升就越大。

同時(shí)，F(xiàn)low的技術(shù)還增強(qiáng)了整個(gè)計(jì)算生態(tài)系統(tǒng)。比如，輔助組件（矩陣單元、矢量單元、NPU 和 GPU）也可通過(guò)增強(qiáng)的 CPU 功能獲得了增強(qiáng)的性能。這一切都要?dú)w功于 PPU。

2、傳統(tǒng)軟件和應(yīng)用程序速度提高 2 倍

Flow 的 PPU 不僅可以在不改變?cè)紤?yīng)用程序的情況下增強(qiáng)遺留代碼，而且在與重新編譯的操作系統(tǒng)或編程系統(tǒng)庫(kù)配對(duì)時(shí)也能提高性能。

因此，PPU可以幫助各種應(yīng)用程序中大幅提高速度，特別是那些顯示并行性但受到傳統(tǒng)基于線程的處理限制的應(yīng)用程序。PPU 釋放了這些應(yīng)用的全部潛力，而在以前的架構(gòu)終無(wú)法實(shí)現(xiàn)這樣的性能顯著提升。

3、參數(shù)化設(shè)計(jì)

可配置的參數(shù)化設(shè)計(jì)使PPU能夠適應(yīng)多種用途。一切都可以定制，以滿足多個(gè)用例的特定要求。PPU 內(nèi)核數(shù)支持4核、16核、64核、256核或更多功能單元（如 ALU、PPU、MU、GU 和 NU）的類型和數(shù)量。甚至片上存儲(chǔ)器資源（緩存、緩沖區(qū)和暫存器）的大小也可以根據(jù)特定要求進(jìn)行定制。性能的可擴(kuò)展性與 PPU 內(nèi)核的數(shù)量直接相關(guān)。

三、100倍的CPU性能提升是如何實(shí)現(xiàn)的？

那么，F(xiàn)low公司是如何通過(guò)其PPU來(lái)實(shí)現(xiàn)對(duì)于CPU性能100倍提升的呢？據(jù)介紹，F(xiàn)low解決了 CPU 面臨的延遲、同步和虛擬級(jí)并行性方面的挑戰(zhàn)，在這些技術(shù)中的創(chuàng)新和關(guān)鍵專利被實(shí)施到 PPU 中，它們將共同推動(dòng)CPU實(shí)現(xiàn) 100 倍的性能提升。

1、延遲隱藏

當(dāng)前馮·諾依曼架構(gòu)的多核 CPU面臨內(nèi)存訪問(wèn)延遲問(wèn)題，尤其是共享訪問(wèn)，對(duì)多核 CPU 來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。頻繁的內(nèi)存存取會(huì)減慢執(zhí)行速度，核心間通信網(wǎng)絡(luò)會(huì)導(dǎo)致額外的延遲。傳統(tǒng)的緩存層次結(jié)構(gòu)會(huì)導(dǎo)致一致性和可伸縮性問(wèn)題。

Flow公司的PPU則是將內(nèi)存引用的延遲，通過(guò)在訪問(wèn)內(nèi)存時(shí)執(zhí)行其他線程來(lái)進(jìn)行隱藏。這沒(méi)有一致性問(wèn)題，因?yàn)闆](méi)有緩存放置在網(wǎng)絡(luò)的前面?？蓴U(kuò)展性通過(guò)高帶寬片上網(wǎng)絡(luò)提供。

2、同步

當(dāng)前多核 CPU使用并行性會(huì)帶來(lái)額外的挑戰(zhàn)。由于 CPU 處理器內(nèi)核固有的異步性，每當(dāng)存在線程間依賴關(guān)系時(shí)，就需要同步線程。這些同步代價(jià)很大，通常需要 100 到 1000 個(gè)時(shí)鐘周期。

相比之下， PPU每個(gè)步驟只需要同步一次，因?yàn)榫€程在一個(gè)步驟中彼此獨(dú)立，將開(kāi)銷成本降低到 1。同步與執(zhí)行重疊，將開(kāi)銷成本降低到 1/100。

3、虛擬ILP/LLP

當(dāng)前多核 CPU對(duì)低級(jí)并行性的次優(yōu)處理。只有當(dāng)指令是獨(dú)立的時(shí)，才能在多個(gè)功能單元中執(zhí)行多個(gè)指令。管道危險(xiǎn)會(huì)減慢指令執(zhí)行速度。

相比之下，PPU功能單元被組織為一個(gè)鏈，其中單元可以使用其前身的結(jié)果作為操作數(shù)?？梢栽趫?zhí)行的一個(gè)步驟內(nèi)執(zhí)行依賴代碼，消除管道危險(xiǎn)。

四、提升現(xiàn)有軟件和應(yīng)用程序的性能

Flow技術(shù)完全向后兼容所有現(xiàn)有的傳統(tǒng)軟件和應(yīng)用程序。PPU 的編譯器會(huì)自動(dòng)識(shí)別代碼的并行部分，并在 PPU 內(nèi)核中執(zhí)行這些部分。

此外，F(xiàn)low 正在開(kāi)發(fā)一種 AI 工具，以幫助應(yīng)用程序和軟件開(kāi)發(fā)人員識(shí)別代碼的并行部分，并提出簡(jiǎn)化這些部分以實(shí)現(xiàn)最大性能的方法。

小結(jié)：

雖然Flow表示其PPU能夠?yàn)槿魏萎?dāng)前的馮·諾依曼架構(gòu)的CPU帶來(lái)最高100倍的性能提升，但是并未給出明確的指標(biāo)數(shù)據(jù)來(lái)進(jìn)行解釋，只是說(shuō)明了會(huì)從延遲、同步和虛擬ILP/LLP等方面進(jìn)行入手來(lái)進(jìn)行改進(jìn)。并且正如其官網(wǎng)所介紹的，PPU還擁有4到256核的配置，需要配備多少核PPU才能帶來(lái)100倍性能提升，F(xiàn)low并未解釋。另外，軟件的重新編譯也是實(shí)現(xiàn) 100 倍性能改進(jìn)的必要條件。該公司表示，軟件的重新編譯可以使得現(xiàn)有代碼的運(yùn)行速度將提高 2 倍。

另外，PPU是并行處理單元，而GPU的優(yōu)勢(shì)也是在于并行計(jì)算。Flow甚至還表示，PPU消除了在高性能應(yīng)用程序中對(duì) CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。那么是否意味著，CPU+PPU的組合在某種程度上可以實(shí)現(xiàn)超越GPU的AI加速能力？

Flow還在一份常見(jiàn)問(wèn)題解答文檔中解釋了其 PPU 與現(xiàn)代 GPU 之間的主要區(qū)別?！癙PU 針對(duì)并行處理進(jìn)行了優(yōu)化，而 GPU 針對(duì)圖形處理進(jìn)行了優(yōu)化。”這家初創(chuàng)公司對(duì)比稱：“PPU 與 CPU 的集成度更高，你可以將其視為一種協(xié)處理器，而 GPU 是一個(gè)獨(dú)立計(jì)算單元，與 CPU 的連接更為松散。”它還強(qiáng)調(diào)了 PPU 不需要單獨(dú)內(nèi)核及其可變并行寬度的重要性。

Flow表示，它將在今年下半年提供有關(guān)PPU的更多技術(shù)細(xì)節(jié)。至于Flow PPU的商業(yè)化進(jìn)展，它提到了與 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 強(qiáng)調(diào)了其對(duì) IP 許可模式的偏好，類似于Arm的授權(quán)模式，客戶需要付費(fèi)獲取其PPU IP，以便嵌入到其CPU設(shè)計(jì)當(dāng)中。

編輯：芯智訊-浪客劍

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F103RBT6	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下載ECAD模型	$10.15	查看
CP2102N-A02-GQFN28R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-28	ECAD模型下載ECAD模型	$2.5	查看
PIC32MX575F512L-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下載ECAD模型	$8.67	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

STM32F103RBT6

STMicroelectronics

Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN