熱門資訊> 正文
2025-11-29 14:14
本文來自格隆匯專欄:半導體行業觀察;作者:邵逸琦
這兩天,谷歌TPU徹底火了。
據國外媒體報道,Meta正考慮從2027年起在其數據中心部署谷歌的TPU(張量處理單元),潛在合同金額達數十億美元。消息一出,谷歌股價盤前暴漲超4%,而英偉達股價則一度下跌超4%。
這不是TPU第一次震撼業界。就在此前不久,谷歌發佈的Gemini 3大模型全程使用TPU訓練,橫掃各大基準測試榜單,月活用户突破6.5億。AI初創企業Anthropic更是宣佈將部署多達100萬個谷歌TPU芯片,交易價值數百億美元。
谷歌今年正式發佈第七代TPU芯片Ironwood,單芯片峰值算力達到4614 TFLOPS,在訓練和推理方面的性能比上一代提升了4倍多,被稱為「迄今為止性能最強、能效最高的定製芯片」。最高配集羣可連接9216個液冷芯片,峰值算力可達42.5 ExaFLOPS,是世界上最大超級計算機的24倍以上。
從「不被看好的救命項目」到如今可能撼動英偉達霸權的戰略級武器,TPU用十年時間完成了驚人的蜕變。
時間回到2013年,谷歌內部爆發了一場算力危機。
當時,谷歌的研究人員做出了一個驚人的預測:如果全球僅1億安卓用户每天使用語音搜索並通過神經網絡進行3分鍾的語音識別,所消耗的算力就將是谷歌所有數據中心總算力的兩倍。而當時全球安卓用户遠不止1億。如果僅通過擴大數據中心規模來滿足需求,不僅耗時,成本更是高得驚人。
當時市面上有三個選擇:繼續使用CPU、購買英偉達GPU,或者自研ASIC芯片。
雖然英偉達GPU已經非常成熟,可以立即購買,但谷歌經過評估后發現,依賴GPU存在兩個致命問題:一是GPU並非完全專門用於深度學習計算,在谷歌的規模下,效率損失意味着巨大的成本浪費;二是將對谷歌戰略至關重要的硬件完全依賴單一供應商,風險太大。
當時谷歌團隊研究了市面上所有算力解決方案,最終全部被高層否決。開發公司內部的深度學習專用處理器芯片,成為谷歌的不二之選。
但問題在於,開發ASIC芯片通常需要數年時間和高昂成本,在AI快速發展的時代,谷歌等不起。這個項目的目標非常明確:必須快速向數據中心交付硬件,而且要大規模交付。目標是開發一個與GPU相比,在推理上產生10倍成本性能優勢的ASIC。
谷歌迅速行動起來,挖來了惠普智能基礎設施實驗室高級總監Norm Jouppi、Arm架構開發商Calxeda的SoC工程總監Richard Ho等一批芯片行業資深人才,還與另一位巨頭——博通達成了合作。
通常一個芯片的開發需要幾年時間,但谷歌只用了15個月就完成了從立項到大規模部署。
TPU項目負責人Norm Jouppi回憶道:「芯片設計過程異常迅速,這本身就是一項非凡的成就。更出乎意料的是,首批交付的硅片無需進行任何錯誤修正以及掩膜的更改,而正在同步進行的還有團隊組建,RTL設計專家、驗證專家都急需補充,整個工作節奏非常緊張。」
2015年,第一代TPU悄然誕生。它採用28nm製程工藝,專為推理設計,雖然參數在今天看來並不出衆,但在當時卻帶來了15-30倍的性能提升和30-80倍的能效提升。
TPU的核心創新在於採用了「脈動陣列」(Systolic Array)架構。這是一個由65536個乘法單元構成的256×256網格,數據像血液一樣有節奏地流過處理單元,每個單元只做乘法和累加,然后將結果傳遞給下一個。這種設計使數據在陣列內部被高度複用,最大限度減少了對高延迟、高功耗主內存的訪問。
更關鍵的是,TPU採用了「提前編譯"」策略。編譯器在程序運行前就完整規劃好了所有數據路徑,這種確定性使其無需複雜的緩存機制,從而大幅降低了能耗。
但最初,業界對TPU並不看好。
當谷歌發佈TPU架構細節和性能指標時,立刻引發了激烈爭議。英偉達加速計算副總裁Ian Buck毫不客氣地迴應:「Kepler是2009年設計的,用於解決傳統高性能計算問題。當Kepler設計時,GPU深度學習研究甚至還沒開始。」他強調,英偉達在Maxwell和Pascal兩代GPU上已專門針對機器學習做了大量優化。
英偉達隨即公佈了自己的基準測試結果。在GoogLeNet推理工作負載上,要求99%的交易響應時間低於10毫秒的前提下,TPU能處理28萬次推理/秒,而Pascal P40能處理56萬次/秒——整整兩倍於TPU。即使是更小的Tesla P4,性能也與TPU基本持平。
更致命的質疑來自成本層面。Buck直言不諱地表示:「GPU單位性能的成本應該遠低於TPU。"他指出,P4加速卡售價約2100美元,P40約4700美元。如果谷歌開發和製造TPU的總成本無法在性價比上超越這些GPU,那麼自研芯片在經濟上就毫無意義。
英偉達還預測,未來的Volta架構GPU將把機器學習推理性能再翻一番。屆時,升級了GDDR5內存的TPU也只能勉強追平Volta的性能。「對於市場上其他公司來説,為AI開發定製ASIC是一項極其昂貴且具有挑戰性的任務。」Buck的言外之意很明確:在GPU年年迭代的節奏下,定製芯片的風險太高。
業界普遍都在質疑:谷歌為什麼要冒險自研?如果GPU能滿足需求,為什麼還要承擔鉅額研發成本和供應鏈風險?
這個問題的答案,要等到幾年后才逐漸清晰。谷歌最看重的不是單卡峰值性能,而是在其特定工作負載下的總擁有成本(TCO)。TPU雖然在通用基準測試中不一定佔優,但在谷歌的實際應用場景中,能夠以更低的功耗實現足夠的性能,並且完全按照谷歌的需求定製。
更重要的是,自研芯片讓谷歌掌握了戰略主動權。它不必擔心供應商漲價,不必受制於GPU的產品路線圖,可以根據自身需求隨時調整芯片設計。
現實很快就打了包括英偉達在內的所有人的臉——TPU最終生產了超過10萬顆,在廣告、搜索、語音、AlphaGo甚至自動駕駛等領域被廣泛採用。
2016年,在舉世矚目的AlphaGo對戰李世石的比賽中,TPU正式亮相。當時AlphaGo僅部署了48個TPU,就戰勝了之前內置1202個CPU和176個GPU的版本,這一戰讓TPU徹底出圈。
TPU v2(2017):從推理到訓練的跨越
第一代TPU在加速推理方面驚艷業界,但它無法參與訓練,這成為深度學習繼續擴展的最大瓶頸。谷歌通過內部大規模訓練任務發現:推理是「跑刷新視頻」,訓練纔是「拍電影本身」,二者的計算差距不止一星半點。在這樣的背景下,TPU v2 的目標不再是做一顆快芯片,而是承擔起支撐未來數十億參數模型的訓練任務,基礎定位發生徹底變化。
TPU v2最重要的創新,是谷歌親手定義了深度學習時代的核心數值格式——bfloat16。它保留FP32的動態範圍,同時把精度砍半,既保證模型訓練穩定性,又讓吞吐和能效大幅提升。與此同時,谷歌將片上高帶寬內存擴充至16GB,並將帶寬提升到600GB/s,為訓練階段的巨量數據流動提供高速通道。更加大膽的是全新的「2D環形互連」(ICI),首次將 256 顆 TPU 以低延迟網絡串成一個訓練陣列。
當年發佈的 TPU v2 Pod,峰值算力達到 11.5 PetaFLOPS,標誌着谷歌真正邁向「AI超級計算基礎設施提供者」的道路。v2 奠定了此后 TPU 系列作為「訓練集羣核心」的角色,也開始推動行業從單卡競爭轉向「集羣規模+互連架構」的新賽道。它不僅是 TPU 的一次升級,更是谷歌 AI 基礎架構戰略的第一次大方向轉折。
TPU v3(2018):液冷時代的開啟
僅僅一年后,TPU v3 將整體性能再次翻倍,單個 Pod 的芯片數增至 1024 顆,訓練能力大幅提升。然而性能爆發也帶來副作用:單顆 TPU v3 功耗飆升至 450W,大規模集羣意味着要同時處理上百千瓦的熱量。傳統風冷方案完全無法承載如此密度,這成為谷歌必須正面突破的技術難題。
面對散熱瓶頸,谷歌作出關鍵決策——全面轉向液冷。TPU v3 集羣首次採用直接液冷方案,讓冷卻液貼身吸走芯片產生的熱量。對於數據中心而言,這是基礎設施層的結構性變革,意味着從服務器機架、管路佈設到能耗管理,全都要為AI計算重新設計。液冷的引入,也宣告 TPU 進入「超高功率密度計算」的新紀元。
谷歌通過 v3 建立起在大規模訓練基礎設施中的工程優勢,奠定了后續 TPU 超大規模集羣能力的物理基礎,也讓液冷成為之后 AI 數據中心的主流趨勢。
TPU v4(2022):光電互連的革命
當模型規模進入數百億甚至萬億參數時代,集羣規模成為性能的決定性因素。傳統固定拓撲的互連網絡很快遇到瓶頸——模型結構不同、訓練階段不同,對通信模式的需求也不同。TPU v4 面臨的核心挑戰,不只是提升速度,而是讓網絡能夠隨任務而變。
2022年的TPU v4 的最大突破是引入 OCS(Optical Circuit Switch)光電路交換技術,讓互連從「固定拓撲」變成「動態可編程」。系統通過微鏡陣列在毫秒級別切換光路,能夠為不同規模、不同訓練階段的任務創建最優連接結構。與此同時,TPU v4採用3D環面拓撲,單集羣規模擴大至 4096 顆芯片,在 7nm 工藝的加持下,整體能效比上一代更高。
OCS 技術的引入,直接推動行業把「可重構光網絡」納入超算與大型訓練集羣的標準方案,也成為谷歌后續更大規模訓練系統的基石。
TPU v5p(2023):向訓練與推理雙強進化
隨着 Transformer 家族模型不斷膨脹,訓練的需求依然高漲,但推理成為新的成本黑洞。谷歌意識到:如果 TPU 只盯着訓練,將在推理市場失去陣地;若只盯推理,又會失去在大型模型訓練上的領導地位。因此,v5p 的使命是打造一顆「訓練強、推理也強」的全能計算核心。
TPU v5p 將集羣規模提升至 8960 顆芯片,並將芯片間互連帶寬翻倍至 1200GB/s,同時升級至 800G OSFP 光模塊,實現更高密度、更低延迟的通信。無論是在超大規模模型訓練,還是在大型在線推理服務的吞吐表現上,v5p 都相比上一代實現顯著躍升,成為泛AI負載加速器。
v5p 的定位轉變十分關鍵:谷歌正式不再把 TPU 限制為訓練芯片,而是把它推向更廣泛的推理市場。這是一次戰略上的擴圈,使 TPU 在未來大型 AI 服務中具備更廣泛的應用空間。v5p 為 TPU v6 和 v7 的「推理強化路線」打下基礎,也標誌着 TPU 產品線從單一場景走向通用化的轉折點。
TPU v6(2024):推理時代的宣言
進入 2024 年,全球 AI 公司最大的開銷已經不再是訓練,而是推理。隨着數十億用户每天調用大模型服務,推理成為全行業的成本中心。谷歌意識到:誰能把推理成本壓下來,誰就能贏得下一階段的 AI 服務競爭。TPU v6(Trillium)因此被定義為面向推理進行架構重做的產品。
TPU v6 的架構圍繞推理重新設計:FP8 算力吞吐顯著提升,使大模型推理的性價比大幅改進;片上 SRAM 容量翻倍,減少訪問 HBM 的能耗和延迟;整體能效比上一代提升 67%,在同等功耗下獲得顯著更高的吞吐。這些設計都直指推理任務的痛點——帶寬、延迟、能效。
Trillium 的推出,是谷歌向行業宣告:TPU 的主戰場不再侷限於訓練,而是全力進攻推理。憑藉能效優勢,v6 成為谷歌內部搜索、廣告、YouTube 推薦以及 Gemini 系列模型推理的主力引擎,在規模化部署中具備極高成本優勢。TPU 自此徹底進入「推理優先」的時代,為 v7 Ironwood 的到來鋪平道路。
TPU v7 Ironwood(2025):正面交鋒英偉達
如果説過去的 TPU 主要在自家生態中使用,那麼 TPU v7 Ironwood 的定位完全不同:這是谷歌第一次在推理芯片性能上正面向英偉達開火。其單芯片 FP8 峰值算力達到 4614 TFLOPS,略高於英偉達 B200 的 4500 TFLOPS,標誌着 TPU 在推理性能上首次反壓 NVIDIA。
Ironwood 配備 192GB HBM3e,帶寬高達 7.2TB/s,使其能更輕松承載數百億到上千億參數的推理任務。最高支持 9216 顆液冷芯片組成集羣,峰值算力可達 42.5 ExaFLOPS,是當前業內最大的專用推理集羣之一。在延迟、吞吐、能效方面都達到行業頂尖水準。
Ironwood 標誌着 TPU 歷史上的新階段——谷歌第一次把 TPU 產品推向開放競爭場,並將其作為與英偉達抗衡的主動武器。象徵 TPU 從追趕時代邁入進攻時代,也標誌着谷歌在 AI 基礎設施競爭中不再只依賴規模,而是開始以性能和產品力正面對壘。
過去十年,TPU主要服務於谷歌內部,但現在谷歌已開始積極推動TPU的商業化。
2024年夏天,谷歌開始與主要出租英偉達芯片的小型雲服務提供商接洽,探討在其數據中心託管TPU的可能性。目前已與倫敦Fluidstack達成協議,將在紐約數據中心部署TPU。若Fluidstack無法支付即將到期的紐約數據中心租賃費用,谷歌將提供高達32億美元的兜底擔保——這手法幾乎復刻英偉達當初扶持CoreWeave的策略。
谷歌還開始向Meta、大型金融機構等推介在其自有數據中心部署TPU的方案。知情人士透露,谷歌雲部門部分高管預測,這類業務可能為谷歌帶來數十億美元的年收入,幫助谷歌拿下英偉達10%的年營收盤子。
為推動TPU本地部署,谷歌還專門開發了「谷歌版CUDA」——TPU command center,簡化客户的TPU使用流程。雖然谷歌為TPU打造的編程語言Jax普及度遠不及CUDA,但谷歌向客户承諾,可藉助PyTorch生態工具與TPU command center交互,無需精通Jax。
野村證券指出,預計到2026年,ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。2025年,谷歌TPU的全年出貨量預計為250萬片,到2026年將超過300萬片。
隨着TPU的崛起,英偉達感受到了前所未有的壓力。
2025年11月26日凌晨,在谷歌TPU Ironwood正式上市和Meta考慮採購TPU的消息傳出后,英偉達罕見發佈緊急聲明迴應:「我們對谷歌的成功感到高興——他們在人工智能領域取得了重大進展,而我們仍將繼續向谷歌供貨。英偉達領先行業整整一代,是唯一能夠運行所有AI模型,並可在所有計算場景中部署的平臺。」
這條聲明瀏覽量破150萬,評論超750個,成為AI圈爆火內容。當天英偉達股價下跌2.59%,而自10月底以來,英偉達市值已縮水超5萬億人民幣。
但競爭遠未結束。谷歌自己也承認,TPU和英偉達GPU的需求都在加速增長,公司會繼續同時支持兩種芯片。事實上,即使谷歌成功開發了TPU,仍在大量採購英偉達GPU。2024年,谷歌訂購了約16.9萬台Hopper架構GPU,同時內部已部署約150萬顆TPU。
業內更多觀點認為,未來更可能呈現ASIC和GPU異構部署,而不是哪一種架構一統天下。TPU的優勢在於針對特定任務的極致優化和能效比,而GPU的優勢在於通用性、靈活性和完整的生態系統。
TPU的成功吸引了整個行業的目光,也引發了激烈的人才爭奪戰。
2015年,風險投資家Chamath Palihapitiya在谷歌財報會上無意間瞭解到谷歌正在自研AI芯片。他敏鋭地意識到這是一次芯片創新的機會,開始對谷歌TPU團隊工程師進行人才mapping。
2016年底,在谷歌TPU核心團隊的十人中,有八人悄悄離職,由前谷歌高級工程師Jonathan Ross帶隊,在加州山景城創辦了Groq公司。這批人帶走了TPU最核心的技術理念和設計經驗。
Groq推出的LPU(語言處理單元)芯片,推理速度達到英偉達GPU的10倍,成本只有其1/10。雖然在總體擁有成本上仍有爭議,但其展現的技術路線為行業帶來了新思路。2024年8月,Groq完成由貝萊德領投的6.4億美元融資,估值達到28億美元。Meta首席AI科學家Yann LeCun更是公開稱讚:"Groq芯片確實直擊要害。"
OpenAI同樣也在挖角谷歌。Sam Altman制定的用人法則只有一條:要麼現在在谷歌,要麼之前在谷歌。爲了推進激進的7萬億美元自研芯片戰略,OpenAI近一年來大量挖角谷歌TPU團隊。
值得注意的是,Sam Altman搭建了以前谷歌高級工程總監Richard Ho為首的硬件研發團隊,主要成員包括Tensor SoC負責人Ravi Narayanaswami、高級硬件工程師Thomas Norrie、技術經理Sara Zebian、研究科學家Phitchaya以及設計驗證經理Jerry Huang等人。
2024年10月,OpenAI宣佈與博通及臺積電達成合作,計劃於2026年生產首個定製芯片。這支由前谷歌TPU核心成員組成的團隊,正在為OpenAI打造下一代AI芯片。
此外,TPU的成功促使許多公司構建自己的AI芯片。亞馬遜推出了Trainium和Inferentia,微軟開發了Maia,特斯拉打造了Dojo。初創公司如Cerebras、SambaNova、Graphcore等也紛紛入局。
這些公司的芯片團隊中,都能找到前TPU成員的身影。谷歌TPU項目,已經成為AI芯片行業的「黃埔軍校」。
從2015年爲了解決AI計算效率瓶頸被迫自研,到2025年即將把TPU部署到客户自有數據中心,谷歌用十年時間,把一個「不得不做的救命項目」,一步步打造成可能撼動英偉達霸權的戰略級武器。
TPU的成功證明了幾點:
第一,專用芯片大有可為。在特定領域,ASIC可以實現比通用芯片高出數十倍的能效比。隨着AI應用的深入,會有越來越多的公司選擇定製化芯片。
第二,軟硬件協同是關鍵。谷歌之所以能成功,不僅因為硬件設計出色,更因為擁有TensorFlow、JAX等軟件生態,以及海量的內部應用場景來驗證和優化。這種垂直整合能力是多數公司難以複製的。
第三,算力競爭的本質是成本競爭。TPU從來不是爲了和誰比單卡性能,而是爲了讓AI真正跑得起、賺得到錢。在推理成本成為AI公司最大開支的今天,誰能提供性價比最高的算力,誰就能贏得市場。
第四,生態系統仍是關鍵壁壘。儘管TPU技術先進,但英偉達的CUDA生態系統依然強大。未來的競爭,不僅是芯片性能的比拼,更是生態系統的較量。
展望未來,AI基礎設施將從「自建GPU集羣」轉向「雲+專用芯片+混合部署」的全新形態。GPU、TPU、定製ASIC將各展所長,形成多樣化共存的生態。這不僅會打破英偉達的長期壟斷,也將為整個AI產業帶來新的發展機遇。