熱門資訊> 正文
2026-04-23 09:31
芯東西4月22日報道,谷歌推出全新自研AI芯片——第八代定製TPU,分別是面向訓練的TPU 8t和麪向推理的TPU 8i。
TPU 8t和TPU8i是與Google DeepMind合作設計的,旨在應對最苛刻的AI工作負載,大規模適應不斷演進的模型架構,從訓練大模型到協調智能體集群,再到管理最複雜的推理任務。
這是谷歌首次將訓練芯片和推理芯片分開。
谷歌在博客文章中解釋説,兩款芯片都能運行各種工作負載,但專業化可以顯著提高效率並獲得收益。
TPU 8t擅長處理大規模、計算密集型的訓練工作負載,以提供更大的計算吞吐量和更強的可擴展帶寬,旨在將前沿模型開發周期從數月縮短至數周。
TPU 8i則擁有更高的內存帶寬,專為對延迟最為敏感的推理工作負載而設計,旨在處理眾多專業智能體複雜、協作、迭代的工作。
這兩款芯片首次運行在谷歌自家基於Arm的Axion CPU主機上,這使谷歌能夠優化整個系統,以提高性能和效率。
TPU 8t和TPU8i將於今年晚些時候正式上市,並可作為谷歌AI超級計算機的一部分使用。
谷歌打造出一個基於TPU 8t的系統,每個Pod的計算性能比上一代產品提升近3倍。
單個TPU 8t超級芯片組現已可擴展至9600張芯片和2PB共享高帶寬內存,芯片間帶寬是上一代的2倍。該架構可提供121ExaFlops的計算能力,並允許最複雜的模型利用單個海量內存池。
TPU 8t還集成了速度提升多達10倍的存儲訪問,並結合TPUDirect將數據直接拉入TPU,從而有助於確保端到端系統的最大利用率。
谷歌全新的Virgo網絡,結合JAX和Pathways軟件,意味着TPU 8t可以在單個邏輯集群中為多達100萬張芯片提供近乎線性擴展。
此外,TPU 8t通過一套全面的可靠性、可用性和可維護性(RAS)功能,力求實現超過97%的有效吞吐量(衡量有效計算時間的指標)。
這些功能包括:對數萬個芯片進行實時遙測,自動檢測並繞過故障的 ICI 鏈路(無需中斷作業),以及光路交換(OCS)技術,無需人工干預即可在故障發生時重新配置硬件。
每次硬件故障、網絡停滯或檢查點重啟都會導致集群停止訓練,而在前沿訓練規模下,每一個百分點都可能轉化為數天的活躍訓練時間。
TPU 8i採用分層式Boardfly拓撲結構,從4張完全連接的芯片構建而成,逐步擴展為8個完全連接的電路板組,36個這樣的電路板組可以完全連接成一個TPU 8i Pod。
谷歌通過4項關鍵創新重新設計了技術棧,以消除「等待室」效應:
(1)突破「內存牆」:爲了防止處理器閒置,TPU 8i將288GB高帶寬內存與384MB片上SRAM相結合, 多達上一代的3倍。
(2)得益於Axion架構,效率顯著提升:每台服務器的物理CPU主機數量翻倍,並採用了其基於Axion Arm架構的定製CPU。通過使用非均勻內存架構(NUMA)進行隔離,谷歌優化了整個系統。
(3)擴展MoE模型:對於現代混合專家(MoE)模型,谷歌將互連(ICI)帶寬提高了1倍,達到19.2Tb/s。其新的Boardfly架構將最大網絡直徑減少了超過50%,確保系統作為一個統一、低延迟的單元運行。
(4)消除延迟:全新片上集體加速引擎(CAE)可卸載全局操作,將片上延迟降低至多5倍,從而最大限度地減少延迟。
與上一代產品相比,這些創新技術每美元的性能提高了80%,使企業能夠以相同成本服務近2倍的客户量。
第八代TPU也是谷歌共同設計理念的最新體現:
Boardfly拓撲結構是專門為滿足當今最強大的推理模型的通信需求而設計的。
TPU 8i中的SRAM容量是根據生產規模推理模型的KV Cache佔用空間來確定的。
Virgo Network架構的帶寬目標源自萬億參數訓練的並行性要求。
兩個平臺都原生支持JAX、MaxText、PyTorch、SGLang和vLLM等開發者常用的框架,並提供裸機訪問,讓客户無需虛擬化即可直接訪問硬件。
MaxText參考實現、用於強化學習的Tunix等開源貢獻,為從功能實現到生產部署提供了便捷的途徑。
爲了節省數據中心電力,谷歌優化了整個堆棧的效率,並集成了電源管理功能,可根據實時需求動態調整功耗。
TPU 8t和TPU 8i的每瓦性能可提升至上一代產品Ironwood的2倍。
谷歌在硬件和軟件方面不斷創新,使其數據中心單位電力下的計算能力提高到五年前的6倍。
TPU 8t和TPU 8i均採用谷歌第四代液冷技術,能夠維持風冷無法實現的性能密度。
通過掌控從Axion主機到加速器的全棧設計,谷歌實現了系統級能效的優化。
本文來自微信公眾號「芯東西」,作者:ZeR0,編輯:漠影,36氪經授權發佈。