繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

谷歌新一代TPU即將發佈:AI推理時代向英偉達發起關鍵一擊

2026-04-21 08:40

在AI算力戰場從訓練全面轉向推理之際,谷歌正準備打出關鍵一擊。智通財經APP獲悉,該公司計劃在本周於拉斯維加斯舉行的Google Cloud Next大會上,宣佈其新一代定製化AI芯片——張量處理單元(TPU)。負責谷歌AI算力基礎設施和芯片研發工作的Amin Vahdat拒絕就一款能夠加快AI輸出速度的推理芯片計劃置評,但表示,在「相對不久的將來」很可能會分享更多信息。

這一信號釋放的背景是,全球AI算力競爭正在發生結構性轉移——從以模型訓練為核心,轉向以大規模推理為主導。隨着AI應用軟件與AI智能體(AI Agent)採用規模激增,衡量算力的標準正從「峰值性能」,轉向「單位token成本、延迟與能效」。而這恰恰是以TPU為代表的AI ASIC路線最具優勢的領域。

TPU加速出圈:谷歌向英偉達算力霸權發起實質衝擊

在上述趨勢之下,谷歌正試圖以自研TPU體系,對當前佔據AI芯片市場約80%至90%份額的英偉達發起正面挑戰。

短短几個月內,谷歌獨家研發並在谷歌數據中心大規模配置的TPU AI芯片已成為全球科技行業最炙手可熱的商品之一。包括這家科技公司的一些最大規模競爭對手在內的領先人工智能技術開發商們,正紛紛囤積這些芯片。緊隨AI推理時代全面到來,在雲端AI推理算力需求激增以及聚焦將AI大模型嵌入企業經營的「AI微訓練」趨勢之下,性價比更高的谷歌獨家TPU AI算力系統對於英偉達近乎90%市場份額的AI芯片壟斷地位發起強有力衝擊。

如今,這家Alphabet Inc.旗下科技巨頭希望通過即將推出的專用於AI推理浪潮的新型AI加速器芯片,在現有增長勢頭上繼續加碼。

席捲全球的生成式AI與AI智能體佈局熱潮加快了雲計算與芯片巨頭們的AI芯片開發進程,它們正爭相為先進的大型AI數據中心設計速度最快且能效最為強勁的AI算力基礎設施集群。博通及其最大競爭對手邁威爾公司主要聚焦於利用自身在高速互聯和芯片IP領域絕對優勢來攜手亞馬遜、谷歌和微軟等雲計算巨頭們共同打造出根據其AI數據中心具體需求量身定製的AI ASIC算力集群,而這項ASIC業務已經成長為兩家公司的一項非常重要業務,這也是為何邁威爾與博通股價今年以來股價大漲;比如博通聯手谷歌所打造的TPU AI算力集群就是一種最典型的AI ASIC技術路線。

毫無疑問的是,經濟性與電力層面的重大約束,迫使微軟、亞馬遜、谷歌以及Facebook母公司Meta都在推AI ASIC技術路線的雲計算內部系統自研AI芯片,核心目的都是爲了AI算力集群更具性價比與能效比。

類似「星際之門」的超大規模AI數據中心建設成本高昂,因此科技巨頭們愈發要求AI算力系統趨於經濟性,以及電力約束之下,科技巨頭力爭把「單位Token成本、單位瓦特產出」做到極致,屬於AI ASIC技術路線的繁榮盛世可謂已經到來。

此外,類似英偉達Blackwell架構先進AI GPU算力集群的長期供不應求、成本高昂且受制於供應鏈瓶頸與交付節奏,自研AI ASIC無疑能提供「第二曲線產能」,並在採購談判、產品定價與雲計算服務毛利層面更主動,疊加谷歌、微軟等雲計算大廠們能把「芯片—互聯—系統—編譯器/運行時—調度—觀測/可靠性」一體化共設計,提高算力基礎設施利用率並降低TCO。

英偉達AI GPU幾乎壟斷的AI訓練側需要更加強大的AI算力集群通用性以及整個算力體系的快速迭代能力,而AI推理側則在前沿AI技術規模化落地后更看重單位token成本、延迟與能效。比如谷歌明確把Ironwood TPU定位為「為AI推理時代而生」的TPU代際,並強調性能/能效/算力集群性價比與可擴展性。不過亞馬遜最新的行動證明了AI ASIC可能具備訓練大模型的強大潛力。

AI ASIC算力體系無疑會在中長期持續削弱英偉達的壟斷溢價與部分市場份額,而不是線性取代GPU體系,根本的底層原因在於,推理時代的核心競爭不再只是「峰值算力」,而是每token成本、功耗、內存帶寬利用率、互連效率,以及軟硬件協同后的總擁有成本。在這類指標上,面向特定工作負載定製的數據流、編譯器和互連的ASIC,天然比通用GPU更容易做到高性價比。未來AI數據中心更可能發生的是:前沿訓練和廣義雲算力繼續由 GPU 主導,超大規模內部推理、Agent 工作流和固定高頻負載則加速轉向 ASIC,數據中心進入真正的異構算力時代。

一夜成名實則是背后醖釀十年:TPU如何從谷歌內部自用工具變成全球科技行業硬通貨

谷歌長期醖釀的芯片努力在去年10月獲得了史無前例的關注度,當時Anthropic PBC——坐擁Claude AI大模型的全球最受投資者們密切關注的AI大模型開發商——宣佈擴大算力供給協議,獲得最多100萬個谷歌TPU的使用權。次月,谷歌推出了更加先進的Gemini 3模型,並且宣佈該模型在一部分TPU算力平臺上完成訓練和運行,並收穫如潮好評。

自那以來,大型企業對谷歌TPU芯片的需求可謂只增不減。Facebook母公司Meta Platforms Inc.簽署了一項為期數年且價值數十億美元的AI算力基礎設施供給協議,通過谷歌雲計算平臺Google Cloud來使用TPU。Meta基礎設施負責人Santosh Janardhan表示,該公司前不久首次獲得大量雲端TPU AI算力供應,正在測試這些芯片,以評估它們最適合哪些任務。「看起來確實可能存在推理方面的獨家優勢,」他表示,同時也指出,「任何新平臺都不會沒有障礙和學習曲線。」

Anthropic還與谷歌的TPU合作伙伴博通簽署了一項長期協議,涉及的自研芯片將使其自2027年起能夠利用約3.5吉瓦的計算能力。Citadel Securities計劃在谷歌大會上展示,TPU如何使該公司比此前使用GPU時更快地訓練AI大模型。阿布扎比科技集團G42也已就使用谷歌TPU與谷歌進行了「多次討論」,該集團旗下的雲計算業務部門Core42的臨時首席執行官Talal Al Kaissi表示。「我非常看好,」Al Kaissi在談及這些討論時説道。

谷歌已經在採取新的步驟,以滿足客户當前所處的實際雲端AI算力需求。據一位知情人士透露,該公司正在測試允許像Anthropic這樣的公司將其部分TPU運行在它們自己的實體大型AI數據中心內,而不是谷歌的雲計算基礎設施設施中。Vahdat表示,谷歌還已允許TPU客户們使用PyTorch等外部工具,以及其他調度軟件,而不再僅僅依賴谷歌自己的產品。

這些變化正在幫助改變外界對這些芯片的看法。它們最初誕生於谷歌自身的人工智能計算瓶頸,長期以來主要被認為是爲了滿足公司自身需求而長期自用。

在谷歌首席科學家Dean開始構建一個更早期的AI軟件超級系統,以便讓人們使用語言翻譯和語音識別服務之后,他也精準意識到,即使是谷歌,也無法負擔使用現有芯片和其他硬件基礎設施來提供這類服務的成本,這也是為何谷歌即便擁有了自有TPU算力體系仍在加碼購置英偉達AI計算與廣泛通用級別的AI GPU算力體系。與此同時,谷歌在AI方面依賴的中央處理器性能改進/提升速度也在放緩。

該公司決定,應當打造一種AI計算加速器,聚焦於一組更窄的任務,而這些任務可能會在AI領域產生最高昂的賬單。Vahdat表示,TPU背后的關鍵理念在於,它「解決的是少數幾個問題,但這些問題所需的其他計算量或者通用計算量卻極其龐大」。Vahdat曾是計算機科學教授,並在推動谷歌採用有助於將TPU連接為超級計算機的光交換機(即OCS光路交換機體系)方面,早期發揮了關鍵作用。「當時的傳統觀念是,你不需要去構建專用硬件。」

這些年來,谷歌的TPU一直與其AI研究工作同步演進。2017年谷歌的一篇開創性研究論文催生了今天的大語言模型,也推動TPU團隊將重點放在為訓練更大型AI系統而設計的芯片上。后來,Google DeepMind與芯片團隊注意到,當TPU用於強化學習之時——一種用於提升AI系統在特定任務上實際表現的流行方法,TPU往往有過多空閒。TPU團隊於是調整了各種半導體之間的網絡連接方式,以加快數據流動,避免芯片閒置。

這種動態調整在今天仍在繼續,因為谷歌正在權衡應在單個pod中連接多少顆芯片,或者硬件是否可以降低精度以節省成本。「很多這類事情都是由AI大模型實驗來指導的,」Hassabis表示。展望未來,他非常希望TPU研究團隊考慮打造一種適用於網絡邊緣場景的加速器——即將芯片放置在更接近用户的位置,而不是通過雲端訪問,以進一步降低時延。

在這一過程中,谷歌還構建了內部的獨家AI校驗系統,以更快發現製造缺陷,因為這些缺陷可能會對應用軟件端造成不成比例的巨大影響。整個計算體系與處理海量數學運算的AI加速芯片深度合作時,即便是一個細微故障,也可能迅速擴散並導致模型「徹底自我毀滅」,谷歌傑出科學家、Gemini基礎設施團隊聯合負責人Paul Barham表示。他表示,谷歌大約兩年前就發生過這樣的問題,花了數周時間才理清到底發生了什麼,並將其形容為「來自地獄的漏洞」。

「我們現在必須在10秒鍾內,針對數十萬顆加速器芯片完成這項工作,」他説。

史無前例AI推理熱潮之下的終極難題:供給、技術路線與「技術孤島」風險

儘管在AI大模型開發方面擁有極度豐富經驗,谷歌仍面臨與英偉達、AMD以及博通等其他Fabless芯片巨頭們類似的挑戰:芯片從開始到完成開發通常需要大約三年時間,但AI大模型演進的速度要快得多。這使得預測客户幾年后會想要什麼變得困難。

「如果有人聲稱他們知道Gemini 10會是什麼樣子,我只會説,‘請把你剛剛抽的東西也給我來一點。’」Ranganathan説道。

Barham也擔心,AI模型創造者們與硬件設計者們之間緊密的反饋迴路,存在錯過新想法的風險。他表示,這里存在「這樣一種循環,會把你困在當前軟件和硬件運作良好的模式里」。

Gradient Canopy,這座建築位於谷歌山景城園區,谷歌的AI專家和芯片設計師經常在這里會面並分享想法。爲了在其中取得平衡,TPU算力系統研發團隊有時會力求讓芯片對各種用途都「足夠好」,即便它對每一種用途都不是完美的。Vahdat表示,另一種選擇是規劃兩種不同的設計。它們未必都會出貨,但如果各自的使用場景足夠有吸引力,也有可能都會出貨。

隨着谷歌芯片越來越受歡迎,該公司面臨着與英偉達類似的供應限制。一位初創公司高管以匿名方式表示,爲了討論內部事務,他們公司對TPU的使用一直受到供給可得性的限制,並抱怨谷歌實際上把所有可立即獲得的TPU AI芯片都給了Anthropic。

「在很大程度上,我們確實是在把現有的供給優先傾向於那些更精英的團隊,因為顯然,這些團隊或許最能把TPU最擅長的事情發揮到極致,」Hassabis在提到那些頂級AI公司時説道。未來,谷歌還需要決定如何在其自身不斷增長的競爭性質AI大模型基礎設施服務,以及其不斷擴大的客户名單之間分配TPU。

「只為谷歌獨家制造TPU確實有一些好處,但也存在實質性的缺點,」Vahdat表示。「最終你會走上我們所説的‘技術孤島’。那也許是一座美麗的島,但它的人口會受限,多樣性也會受限。到頭來,它很可能會變得不那麼好。」

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。