北京女子图鉴电视剧,极限挑战第二季免费版在线观看

替換英偉達，甚至說干掉英偉達已經(jīng)不是什么新鮮事了。

憑借其GPU的領(lǐng)先優(yōu)勢，英偉達過去幾年炙手可熱，乘著ChatGPT熱潮，公司的市值從今年年初至今更是大漲了93.6%，過去五年的漲幅更是達到驚人的385%。雖然GPU是英偉達的最重要倚仗，但這絕不是美國芯片“當(dāng)紅炸子雞”的唯一武器。

通過過去幾年的收購和自研，英偉達已經(jīng)打造起了一個涵蓋DPU、CPU和Switch，甚至硅光在內(nèi)的多產(chǎn)品線巨頭，其目的就是想在一個服務(wù)器甚至一個機架中做很多的生意。但和很多做GPGPU或者AI芯片的競爭對手想取替GPU一樣，英偉達的“取替”計劃似乎也不是不能一帆風(fēng)順。

近日，三巨頭更是再次出手，想把英偉達拒之門外。

博通芯片，瞄準(zhǔn)Infiniband

熟悉博通的讀者應(yīng)該知道，面向Switch市場，美國芯片巨頭擁有三條高端產(chǎn)品線，分別是面向高帶寬需求的Tomahawk、面向更多功能的 Trident，以及雖然帶寬不高，但是卻擁有更深的Buffer和更高可編程性的Jericho。

昨日，他們帶來了Jericho系列最新的產(chǎn)品Jericho3-AI。在他們看來，這是比英偉達Infiniband更適合AI的一個新選擇。

據(jù)博通所說，大公司（甚至 NVIDIA）都認為 AI 工作負載會受到網(wǎng)絡(luò)延遲和帶寬的限制，而Jericho3-AI 的存在則旨在減少 AI 訓(xùn)練期間花在網(wǎng)絡(luò)上的時間。其結(jié)構(gòu)的主要特性是負載平衡以保持鏈路不擁塞、結(jié)構(gòu)調(diào)度、零影響故障轉(zhuǎn)移以及具有高以太網(wǎng)基數(shù)（radix）。

博通強調(diào)，AI 工作負載具有獨特的特征，例如少量的大型、長期流，所有這些都在 AI 計算周期完成后同時開始。Jericho3-AI 結(jié)構(gòu)為這些工作負載提供最高性能，具有專為 AI 工作負載設(shè)計的獨特功能：

完美的負載均衡將流量均勻分布在結(jié)構(gòu)的所有鏈路上，確保在最高網(wǎng)絡(luò)負載下實現(xiàn)最大網(wǎng)絡(luò)利用率。

端到端流量調(diào)度的無擁塞操作可確保無流量沖突和抖動。

超高基數(shù)獨特地允許 Jericho3-AI 結(jié)構(gòu)將連接擴展到單個集群中的 32,000 個 GPU，每個 800Gbps。

零影響故障轉(zhuǎn)移功能可確保在 10 納秒內(nèi)自動收斂路徑，從而不會影響作業(yè)完成時間。

利用這一獨特的功能，與 All-to-All 等關(guān)鍵 AI 基準(zhǔn)測試的替代網(wǎng)絡(luò)解決方案相比，Jericho3-AI 結(jié)構(gòu)的工作完成時間至少縮短了 10%。這種性能改進對降低運行 AI 工作負載的成本具有乘法效應(yīng)，因為它意味著昂貴的 AI 加速器的使用效率提高了10%。此外，Jericho3-AI 結(jié)構(gòu)提供每秒 26 PB 的以太網(wǎng)帶寬，幾乎是上一代帶寬的四倍，同時每千兆比特的功耗降低 40%。

此外，Broadcom 表示，因為它可以處理 800Gbps 的端口速度（對于 PCIe Gen6 服務(wù)器）等等，所以它是一個更好的選擇。對于將“AI”放在產(chǎn)品名稱中，Broadcom 并沒有做出過多解讀，甚至關(guān)于網(wǎng)絡(luò) AI計算功能，他們也沒涉及，這著實讓人摸不著頭腦，因為這是英偉達Infiniband 架構(gòu)的主要賣點。

盡管如此，Broadcom 表示其 Jericho3-AI 以太網(wǎng)在 NCCL 性能方面比 NVIDIA 的 Infiniband 好大約 10%。

“Jericho3-AI 結(jié)構(gòu)的一個獨特之處在于它提供了最高的性能，同時還實現(xiàn)了最低的總擁有成本。這是通過長距離 SerDes、分布式緩沖和高級遙測等屬性實現(xiàn)的，所有這些都使用行業(yè)標(biāo)準(zhǔn)以太網(wǎng)提供。這些因素為最大的硬件和軟件提供商生態(tài)系統(tǒng)提供了網(wǎng)絡(luò)架構(gòu)和部署選項的高度靈活性?！辈┩◤娬{(diào)。

微軟，自研芯片再曝進展

因為ChatGPT大火的企業(yè)除了英偉達外，作為ChatGPT投資人的微軟也備受關(guān)注。在半導(dǎo)體行業(yè)觀察日前發(fā)布的文章《英偉達H100市面價格飆升！Elon Musk：每個人都在買GPU》中我們也披露，為了發(fā)展ChatGPT，微軟已經(jīng)搶購了不少GPU。隨著算力需求的增加，微軟在后續(xù)必須要更多的芯片支持。

如果一如既往地購買英偉達GPU，這對英偉達來說會是一筆昂貴的支出，他們也會為此不爽。于是，就恰如其分地，微軟的自研芯片有了更多信息曝光。

據(jù)路透社引述The Information 的報道，微軟公司正在開發(fā)自己的代號為“Athena”的人工智能芯片，該芯片將為 ChatGPT 等人工智能聊天機器人背后的技術(shù)提供支持。

根據(jù)該報告，這些芯片將用于訓(xùn)練大型語言模型和支持推理——這兩者都是生成 AI 所需要的，例如 ChatGPT 中使用的 AI 來處理大量數(shù)據(jù)、識別模式并創(chuàng)建新的輸出來模仿人類對話。報告稱，微軟希望該芯片的性能優(yōu)于目前從其他供應(yīng)商處購買的芯片，從而為其昂貴的 AI 工作節(jié)省時間和金錢。

雖然目前尚不清楚微軟是否會向其 Azure 云客戶提供這些芯片，但據(jù)報道，這家軟件制造商計劃最早于明年在微軟和 OpenAI 內(nèi)部更廣泛地提供其 AI 芯片。據(jù)報道，該芯片的初始版本計劃使用臺積電 (TSMC) 的 5 納米工藝，不過作為該項目的一部分，可能會有多代芯片，因為微軟已經(jīng)制定了包括多個后代芯片的路線圖。

據(jù)報道，微軟認為自己的 AI 芯片并不能直接替代 Nvidia 的芯片，但隨著微軟繼續(xù)推動在Bing、Office 應(yīng)用程序、GitHub和其他地方推出 AI 驅(qū)動的功能，內(nèi)部的努力可能會大幅削減成本。研究公司 SemiAnalysis 的 Dylan Patel 也告訴The Information，“如果 Athena 具有競爭力，與 Nvidia 的產(chǎn)品相比，它可以將每芯片的成本降低三分之一。”

關(guān)于微軟造芯，最早可以追溯到2020年。據(jù)彭博社在當(dāng)時的報道，微軟公司正在研究用于運行公司云服務(wù)的服務(wù)器計算機的內(nèi)部處理器設(shè)計，以促進全行業(yè)減少對英特爾公司芯片技術(shù)依賴的努力。知情人士透露，這家全球最大的軟件制造商正在使用Arm的設(shè)計來生產(chǎn)將用于其數(shù)據(jù)中心的處理器。它還在探索使用另一種芯片來為其部分 Surface 系列個人電腦提供動力。

近年來，微軟加大了處理器工程師的招聘力度，在英特爾、超微、英偉達等芯片制造商的后院招聘。2022年，他們甚至還從蘋果公司挖走了一位經(jīng)驗豐富的芯片設(shè)計師，以擴大自身的服務(wù)器芯片業(yè)務(wù)。據(jù)報道，這位名為Mike Filippo 的資深專家將在由 Rani Borkar 運營的微軟 Azure 集團內(nèi)從事處理器方面的工作。微軟發(fā)言人證實了 Filippo 的聘用，他也曾在 Arm和英特爾公司工作過。

今年年初，微軟更是宣布收購了一家名為Fungible的DPU芯片公司。

微軟 Azure 核心部門的 CVP Girish Bablani 在一篇博文中寫道：“Fungible 的技術(shù)有助于實現(xiàn)具有可靠性和安全性的高性能、可擴展、分解、橫向擴展的數(shù)據(jù)中心基礎(chǔ)設(shè)施”。他進一步指出：“今天的公告進一步表明微軟致力于數(shù)據(jù)中心基礎(chǔ)設(shè)施進行長期差異化投資，這增強了公司的技術(shù)和產(chǎn)品范圍，包括卸載、改善延遲、增加數(shù)據(jù)中心服務(wù)器密度、優(yōu)化能源效率和降低成本?！盕ungible 在其網(wǎng)站上的一份聲明中寫道?！拔覀兒茏院滥艹蔀橐患覔碛?Fungible 愿景的公司的一員，并將利用 Fungible DPU 和軟件來增強其存儲和網(wǎng)絡(luò)產(chǎn)品?！?/p>

由此我們可以看到微軟在芯片上做更多的發(fā)布也不足為奇。

谷歌TPU，已經(jīng)第四代

在取代英偉達的這條路上，谷歌無疑是其中最堅定，且走得最遠的一個。

按照谷歌所說，公司谷歌早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建專用集成電路 (ASIC)，但到 2013 年情況變得緊迫。那時他們意識到神經(jīng)網(wǎng)絡(luò)快速增長的計算需求可能需要我們將數(shù)量增加一倍我們運營的數(shù)據(jù)中心。從2015年開始，谷歌就將其TPU部署到了服務(wù)器中，并在后續(xù)的測試中獲得了不邵的反饋，以迭代其產(chǎn)品。

近日，谷歌對其TPUv4及其基于這個芯片的打造的超級計算系統(tǒng)進行了深度披露。

據(jù)他們在一篇博客中介紹，得益于互連技術(shù)和領(lǐng)域特定加速器 (DSA) 方面的關(guān)鍵創(chuàng)新，谷歌云 TPU v4 在擴展 ML 系統(tǒng)性能方面比 TPU v3 有了近 10 倍的飛躍；與當(dāng)代 ML DSA 相比，提高能源效率約 2-3 倍。在與Nvidia A100 相比時，谷歌表示，TPU v4比前者快 1.2-1.7 倍，功耗低 1.3-1.9 倍。在與Graphcore的IPU BOW相比，谷歌表示，其芯片也擁有領(lǐng)先的優(yōu)勢。

基于這個芯片，谷歌打造了一個擁有 4,096 個張量處理單元 (TPU)的TPU v4 超級計算機。谷歌表示，這些芯片由內(nèi)部開發(fā)的行業(yè)領(lǐng)先的光電路開關(guān) (OCS) 互連，OCS 互連硬件允許谷歌的 4K TPU 節(jié)點超級計算機與 1,000 個 CPU 主機一起運行，這些主機偶爾（0.1-1.0% 的時間）不可用而不會引起問題。

據(jù)谷歌介紹，OCS 動態(tài)重新配置其互連拓撲，以提高規(guī)模、可用性、利用率、模塊化、部署、安全性、功率和性能。與 Infiniband 相比，OCS 和底層光學(xué)組件更便宜、功耗更低且速度更快，不到 TPU v4 系統(tǒng)成本的 5% 和系統(tǒng)功耗的 5% 以下。下圖顯示了 OCS 如何使用兩個 MEM 陣列工作。不需要光到電到光的轉(zhuǎn)換或耗電的網(wǎng)絡(luò)分組交換機，從而節(jié)省了電力。

值得一提的是，TPU v4 超級計算機包括 SparseCores，這是一種更接近高帶寬內(nèi)存的中間芯片，許多 AI 運算都發(fā)生在該芯片上。SparseCores 的概念支持 AMD、英特爾和高通等公司正在研究的新興計算架構(gòu)，該架構(gòu)依賴于計算更接近數(shù)據(jù)，以及數(shù)據(jù)進出內(nèi)存之間的協(xié)調(diào)。

此外，谷歌還在算法-芯片協(xié)同方面做了更大的投入。如半導(dǎo)體行業(yè)觀察之前的文章《從谷歌TPU 看AI芯片的未來》中所說；“隨著摩爾定律未來越來越接近物理極限，預(yù)計未來人工智能芯片性能進一步提升會越來越倚賴算法-芯片協(xié)同設(shè)計，而另一方面，由于有算法-芯片協(xié)同設(shè)計，我們預(yù)計未來人工智能芯片的性能仍然將保持類似摩爾定律的接近指數(shù)級提升，因此人工智能芯片仍然將會是半導(dǎo)體行業(yè)未來幾年最為熱門的方向之一，也將會成為半導(dǎo)體行業(yè)未來繼續(xù)發(fā)展的重要引擎?！?/p>