谷歌推出第八代TPU，3倍性能、2倍帶寬，搭配自研CPU

2026-04-23 09:31

芯東西4月22日報道，谷歌推出全新自研AI芯片——第八代定製TPU，分別是面向訓練的TPU 8t和麪向推理的TPU 8i。

TPU 8t和TPU8i是與Google DeepMind合作設計的，旨在應對最苛刻的AI工作負載，大規模適應不斷演進的模型架構，從訓練大模型到協調智能體集群，再到管理最複雜的推理任務。

這是谷歌首次將訓練芯片和推理芯片分開。

谷歌在博客文章中解釋説，兩款芯片都能運行各種工作負載，但專業化可以顯著提高效率並獲得收益。

TPU 8t擅長處理大規模、計算密集型的訓練工作負載，以提供更大的計算吞吐量和更強的可擴展帶寬，旨在將前沿模型開發周期從數月縮短至數周。

TPU 8i則擁有更高的內存帶寬，專為對延迟最為敏感的推理工作負載而設計，旨在處理眾多專業智能體複雜、協作、迭代的工作。

這兩款芯片首次運行在谷歌自家基於Arm的Axion CPU主機上，這使谷歌能夠優化整個系統，以提高性能和效率。

TPU 8t和TPU8i將於今年晚些時候正式上市，並可作為谷歌AI超級計算機的一部分使用。

谷歌打造出一個基於TPU 8t的系統，每個Pod的計算性能比上一代產品提升近3倍。

單個TPU 8t超級芯片組現已可擴展至9600張芯片和2PB共享高帶寬內存，芯片間帶寬是上一代的2倍。該架構可提供121ExaFlops的計算能力，並允許最複雜的模型利用單個海量內存池。

TPU 8t還集成了速度提升多達10倍的存儲訪問，並結合TPUDirect將數據直接拉入TPU，從而有助於確保端到端系統的最大利用率。

谷歌全新的Virgo網絡，結合JAX和Pathways軟件，意味着TPU 8t可以在單個邏輯集群中為多達100萬張芯片提供近乎線性擴展。

此外，TPU 8t通過一套全面的可靠性、可用性和可維護性（RAS）功能，力求實現超過97%的有效吞吐量（衡量有效計算時間的指標）。

這些功能包括：對數萬個芯片進行實時遙測，自動檢測並繞過故障的 ICI 鏈路（無需中斷作業），以及光路交換（OCS）技術，無需人工干預即可在故障發生時重新配置硬件。

每次硬件故障、網絡停滯或檢查點重啟都會導致集群停止訓練，而在前沿訓練規模下，每一個百分點都可能轉化為數天的活躍訓練時間。

TPU 8i採用分層式Boardfly拓撲結構，從4張完全連接的芯片構建而成，逐步擴展為8個完全連接的電路板組，36個這樣的電路板組可以完全連接成一個TPU 8i Pod。

谷歌通過4項關鍵創新重新設計了技術棧，以消除「等待室」效應：

（1）突破「內存牆」：爲了防止處理器閒置，TPU 8i將288GB高帶寬內存與384MB片上SRAM相結合，多達上一代的3倍。

（2）得益於Axion架構，效率顯著提升：每台服務器的物理CPU主機數量翻倍，並採用了其基於Axion Arm架構的定製CPU。通過使用非均勻內存架構（NUMA）進行隔離，谷歌優化了整個系統。

（3）擴展MoE模型：對於現代混合專家（MoE）模型，谷歌將互連（ICI）帶寬提高了1倍，達到19.2Tb/s。其新的Boardfly架構將最大網絡直徑減少了超過50%，確保系統作為一個統一、低延迟的單元運行。

（4）消除延迟：全新片上集體加速引擎（CAE）可卸載全局操作，將片上延迟降低至多5倍，從而最大限度地減少延迟。

與上一代產品相比，這些創新技術每美元的性能提高了80%，使企業能夠以相同成本服務近2倍的客户量。

第八代TPU也是谷歌共同設計理念的最新體現：

Boardfly拓撲結構是專門為滿足當今最強大的推理模型的通信需求而設計的。

TPU 8i中的SRAM容量是根據生產規模推理模型的KV Cache佔用空間來確定的。

Virgo Network架構的帶寬目標源自萬億參數訓練的並行性要求。

兩個平臺都原生支持JAX、MaxText、PyTorch、SGLang和vLLM等開發者常用的框架，並提供裸機訪問，讓客户無需虛擬化即可直接訪問硬件。

MaxText參考實現、用於強化學習的Tunix等開源貢獻，為從功能實現到生產部署提供了便捷的途徑。

爲了節省數據中心電力，谷歌優化了整個堆棧的效率，並集成了電源管理功能，可根據實時需求動態調整功耗。

TPU 8t和TPU 8i的每瓦性能可提升至上一代產品Ironwood的2倍。

谷歌在硬件和軟件方面不斷創新，使其數據中心單位電力下的計算能力提高到五年前的6倍。

TPU 8t和TPU 8i均採用谷歌第四代液冷技術，能夠維持風冷無法實現的性能密度。

通過掌控從Axion主機到加速器的全棧設計，谷歌實現了系統級能效的優化。

本文來自微信公眾號「芯東西」，作者：ZeR0，編輯：漠影，36氪經授權發佈。