色99,西红柿首富

在一個(gè)由Nvidia完全主導(dǎo)的AI市場(chǎng)中，要顛覆這個(gè)GPU巨頭對(duì)任何人來(lái)說(shuō)都是極大的挑戰(zhàn)，即便是傳奇的CPU架構(gòu)師也不例外。然而，Jim Keller的秘密武器并不是他的聲望，而是他堅(jiān)信開源策略能加速創(chuàng)新。

Jim Keller是一位傳奇的CPU架構(gòu)師，他的名字與一系列商業(yè)上成功的處理器緊密相連。在三十多年的職業(yè)生涯中，Keller在幾家組織中帶領(lǐng)團(tuán)隊(duì)或參與工作，開發(fā)了從Digital Equipment Corporation的Alpha，到AMD的K8、K12和Zen，再到Apple的A4、A5等AP，以及特斯拉的FSD芯片等各種架構(gòu)。

Keller是一位非常具有才華的工程師。然而，他是否能讓Tenstorrent（一家AI硬件初創(chuàng)公司，Keller從早期投資人晉升為今日的CEO）在不斷演變的AI競(jìng)爭(zhēng)中勝出，仍有待觀察。

誰(shuí)都無(wú)法打包票Tenstorrent一定會(huì)成功，其不確定的未來(lái)恰恰反映了AI技術(shù)和商業(yè)模式快速變化的狀態(tài)。

AI用戶（數(shù)據(jù)中心、云計(jì)算、消費(fèi)類電子和汽車）一直在制定自己的AI策略。一種新興趨勢(shì)是，許多人選擇通過(guò)購(gòu)買AI或CPU的chiplet IP來(lái)構(gòu)建AI解決方案。大量購(gòu)買新的AI處理器并不在他們的計(jì)劃中。

前不久，Keller在東京的RISC-V Day Tokyo活動(dòng)上發(fā)表了主題演講。

談到Tenstorrent計(jì)劃如何顛覆由Nvidia主導(dǎo)的AI市場(chǎng)。Keller直截了當(dāng)?shù)卣f(shuō)：“我們并不試圖打敗Nvidia?！彼硎荆瑢?duì)于一家初創(chuàng)公司來(lái)說(shuō)，挑戰(zhàn)年收入超過(guò)250億美元的巨人并不是一個(gè)好計(jì)劃。

然而，在AI世界中，AI模型的數(shù)學(xué)和操作規(guī)?？偸窃诓粩嘧兓?。沒有什么是永恒不變的。Keller找出了一些機(jī)會(huì)，可能讓客戶選擇在Tenstorrent的芯片上對(duì)他們的AI模型進(jìn)行編程，而不是在Nvidia的GPU上。

Keller分享了兩個(gè)可能預(yù)示Tenstorrent生存的基本理念。一個(gè)是編程的“開源”。另一個(gè)是讓那些需要的人可以得到使用AI/CPU IP的授權(quán)。

開源API

今年夏天，Tenstorrent計(jì)劃為其AI硬件引入一個(gè)開源的硬件堆棧。Keller解釋說(shuō)，BudaM是基于純C++并帶有API的Tenstorrent內(nèi)核，它允許直接寫入硬件。與CUDA相比，BudaM的優(yōu)勢(shì)在于，程序員可以完全控制Tenstorrent提供的每一個(gè)RISC-V內(nèi)核，包括RISC-V處理器、NoC（Network on Chip）、矩陣和向量引擎以及SRAM。

Keller說(shuō)：“有很多客戶告訴我，他們用PyTorch編寫測(cè)試程序，但在低級(jí)別的CUDA中編寫實(shí)際模型?！彼私獾剿麄冋嬲胍氖恰耙环N在硬件上編程的方法”。

Keller說(shuō)，例如，一些生物科學(xué)公司正在編寫大量迷你程序來(lái)分析數(shù)據(jù)?！皩?duì)于這個(gè)，他們希望能寫入硬件?！彼a(bǔ)充說(shuō)，一個(gè)AI編譯器公司也想使用BudaM。

Tesla的FSD芯片與Tenstorrent的AI芯片在Tesla開發(fā)FSD芯片時(shí)，Keller的任務(wù)是構(gòu)建一個(gè)非常高效的推理引擎。Keller說(shuō)：“足夠好到能駕駛一輛汽車?！蓖ㄟ^(guò)設(shè)計(jì)一個(gè)雙AI引擎，他的團(tuán)隊(duì)“使FSD計(jì)算機(jī)有冗余，且足夠便宜，可以安裝在每輛車上”。

在那期間，Keller遇到了20到30家公司，包括向Tesla推銷他們的AI硬件的Tenstorrent。Keller將Tenstorrent視為“一個(gè)非常通用的AI處理器”，位于光譜的另一端。Keller預(yù)見到，當(dāng)未來(lái)出現(xiàn)不運(yùn)行在Tesla的FSD計(jì)算機(jī)上的AI模型時(shí)，“我們會(huì)在Tesla使用Tenstorrent”。

路線圖

當(dāng)時(shí)，Tenstorrent已經(jīng)擁有了比競(jìng)爭(zhēng)對(duì)手更強(qiáng)大、更靈活、可編程性更強(qiáng)的AI硬件。這種架構(gòu)適用于推理和訓(xùn)練。Tenstorrent的AI硬件涵蓋了CNN、LLM和NLP。

為了實(shí)現(xiàn)其產(chǎn)品路線圖，Tenstorrent首先提出了一個(gè)簡(jiǎn)單的、嵌入式的用于AI的RISC-V處理器。接著，它提出了一個(gè)集成了16個(gè)通用目的RISC-V內(nèi)核的標(biāo)準(zhǔn)ML計(jì)算機(jī)。Tenstorrent的信念是，AI需要RISC-V內(nèi)核和AI加速器，緊密地集成在同一塊芯片上。在路線圖的最遠(yuǎn)端，Tenstorrent的目標(biāo)是異構(gòu)高性能ML計(jì)算機(jī)。

Chiplet授權(quán)

那款高度集成的異構(gòu)CPU/AI芯片仍在Tenstorrent的路線圖上。但Keller和他的團(tuán)隊(duì)已經(jīng)看到，潛在的客戶正在走向一條不同的道路。他們更喜歡更模塊化的AI解決方案，以滿足他們的需求。

有些人對(duì)Keller說(shuō)，“忘掉AI。我們只想要CPU授權(quán)?！?/p>

還有一些人回到Keller那里說(shuō)，“嘿，我們喜歡你的CPU。讓我們談?wù)凙I。但我們可以獲得授權(quán)嗎？”

Keller說(shuō)，“這有點(diǎn)讓我們吃驚，因?yàn)槲以詾榈侥菚r(shí)，市場(chǎng)上會(huì)有一些好的AI IP?！笔聦?shí)卻是沒有一個(gè)可以授權(quán)的。Keller的客戶已經(jīng)對(duì)Tenstorrent的AI引擎進(jìn)行了測(cè)試，“他們發(fā)現(xiàn)它相當(dāng)好，他們喜歡我們的編譯器?！?/p>

所以，就有了與LG達(dá)成的授權(quán)Tenstorrent chiplet的協(xié)議。

Keller說(shuō)，“他們有一堆想法，他們想試試看。由于Tenstorrent能夠使用編譯器交付其硬件，LG在上面運(yùn)行了他們的模型，他們喜歡它。然后我們授權(quán)給他們IP?！眱杉夜镜穆?lián)合新聞發(fā)布稿稱，他們已經(jīng)合作，“打造新一代的RISC-V、AI和視頻編碼chiplet，可能為L(zhǎng)G的高端電視和未來(lái)的汽車產(chǎn)品，以及Tenstorrent的數(shù)據(jù)中心產(chǎn)品提供動(dòng)力。”

Tenstorrent的chiplet授權(quán)交易并非僅限于LG。Keller說(shuō)還有幾個(gè)也在pipeline中。

阻礙

盡管Tenstorrent在行業(yè)內(nèi)被認(rèn)為是一家AI芯片公司，但Keller正在將其定位為一家設(shè)計(jì)公司?！拔覀?cè)O(shè)計(jì)基于RISC-V的AI計(jì)算機(jī)，我們?cè)O(shè)計(jì)RISC-V處理器。我們?cè)敢庖阅阆胍姆绞戒N售。”與潛在客戶的頻繁溝通促使Tenstorrent進(jìn)行了轉(zhuǎn)變。

Keller說(shuō)，新的玩家急于利用開源、可授權(quán)的技術(shù)來(lái)推出他們自己的解決方案，他們認(rèn)為傳統(tǒng)的芯片公司阻礙了他們的道路。

凱勒親身體驗(yàn)過(guò)這一點(diǎn)。他說(shuō)：“作為一名CPU架構(gòu)師，我想在CPU中添加適合AI的數(shù)據(jù)類型。但I(xiàn)ntel或AMD當(dāng)然不會(huì)這樣做，因?yàn)樗麄儾粫?huì)向任何人授權(quán)?！眲P勒找到了Arm，他說(shuō)，“他們靠授權(quán)處理器為生。但也說(shuō)不行?！?/p>

“我認(rèn)識(shí)Arm那邊的人。我告訴他們這里有一些數(shù)據(jù)類型……如果你們能加入就太好了。我不會(huì)收費(fèi)?！?Arm仍然拒絕了。

于是，Keller轉(zhuǎn)向了RISC-V。他首先找到了SiFve，SiFve同意與Tenstorrent合作。不幸的是，SiFive并沒有與初創(chuàng)公司想要的兼容的路線圖。Keller說(shuō)：“我認(rèn)為他們正在努力使之變得更好……但在那個(gè)時(shí)候，我告訴我的投資者，我可以雇傭世界上最好的CPU團(tuán)隊(duì)，我們可以打造一個(gè)非常有競(jìng)爭(zhēng)力的RISC-V處理器。”于是就有了Ascalon，Tenstorrent可授權(quán)的RISC-V處理器。

GPU效果出奇的好

在Keller看來(lái)，“GPU實(shí)際上效果出奇的好”，原因有兩個(gè)。一是Nvidia在軟件上投入了大量的資金。另一個(gè)是滲透效應(yīng)?！耙坏㎞vidia取得了領(lǐng)先，開發(fā)者傾向于構(gòu)建在GPU上運(yùn)行的模型。他們不會(huì)構(gòu)建一些在例如Tenstorrent硬件上可能會(huì)運(yùn)行更好的模型，因?yàn)橛布c他們所熟悉的不同?！?/p>

話雖如此，Keller說(shuō)，有一些人“真正想要的東西與Nvidia提供的不同”。

在某種程度上，GPU的評(píng)價(jià)并不高，Keller說(shuō)：“因?yàn)樗浅０嘿F，且功耗很高。編程GPU需要大量的程序員。成千上萬(wàn)的程序員正在用CUDA編寫庫(kù)。”

Keller解釋說(shuō)，當(dāng)AI程序員在CUDA中編寫代碼并且出現(xiàn)問(wèn)題時(shí)，他們會(huì)要求Nvidia進(jìn)行編譯并返回一個(gè)可運(yùn)行的二進(jìn)制文件。這種關(guān)系（AI程序員和Nvidia之間的關(guān)系）形成了一個(gè)反饋循環(huán)。

但是這個(gè)循環(huán)并不能保證AI程序員能立即從Nvidia那里得到解決方案。

Keller說(shuō)，“我在Tesla時(shí)使用過(guò)Nvidia的AI計(jì)算機(jī)。當(dāng)出現(xiàn)問(wèn)題時(shí)，我們無(wú)法弄清楚問(wèn)題所在?！被蛘?，“當(dāng)它崩潰時(shí)，我們最后發(fā)現(xiàn)了Nvidia的一個(gè)bug。我們告訴他們，但有時(shí)從他們那里得到反饋需要幾周時(shí)間?！?/p>

這就是為什么Keller在推動(dòng)開源?！叭绻浖情_源的，即使它出現(xiàn)問(wèn)題，專家級(jí)的軟件人員可以進(jìn)去閱讀代碼并找出問(wèn)題所在?！?/p>

他總結(jié)說(shuō)：“當(dāng)多人紛紛進(jìn)行改變時(shí)，會(huì)發(fā)生令人振奮的事。當(dāng)它是開源的，他們就必須發(fā)布它。本質(zhì)上，這加速了創(chuàng)新?！?/p>

Tenstorrent不太可能在短時(shí)間內(nèi)在AI市場(chǎng)上取代Nvidia。然而，Keller的重點(diǎn)是去滿足那些從Nvidia那里無(wú)法得到真正所需的客戶。Tenstorrent有可能扭轉(zhuǎn)乾坤或趕超Nvidia的關(guān)鍵是，開源技術(shù)的發(fā)展趨勢(shì)，以及客戶對(duì)通過(guò)chiplet進(jìn)行AI和CPU IP授權(quán)的無(wú)盡需求。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F103RBT6	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下載ECAD模型	$10.15	查看
CP2102N-A02-GQFN28R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-28	ECAD模型下載ECAD模型	$2.5	查看
PIC32MX575F512L-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下載ECAD模型	$8.67	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

STM32F103RBT6

STMicroelectronics

Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN