繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

從「更快」到「更省」:AI下半場,TPU重構算力版圖

2026-02-09 09:29

本文來自格隆匯專欄:半導體行業觀察,作者:李壽鵬

當谷歌的大模型 Gemini 3 在2025年末以驚人的多模態處理速度和極低的延迟震撼業界時,外界往往將目光聚焦於算法的精進。然而,真正的功臣正沉默地跳動在谷歌數據中心的機架上——那就是他們潛研10年的 TPU (Tensor Processing Unit)。

長期以來,英偉達憑藉其「通用而強大」的 GPU 統治了模型訓練的黃金時代。但隨着大模型走進規模化應用爆發期,算力邏輯正發生本質改變:「訓練為王」的舊秩序正在瓦解,「推理為王」的新時代已經降臨。

當專用架構的極致效率突破了通用架構的冗余侷限,以 TPU 為代表的 ASIC 芯片正以不可阻擋之勢,從英偉達手中接過主角的劇本,重塑全球AI算力的權力版圖。

成本為王,芯片變了


這些年,在海內外廠商的共同推動下,大模型和人工智能成爲了幾乎人盡皆知的熱詞。所謂大模型,其誕生有點像一個人的成長:先通過預訓練「博覽羣書」,在海量文本中學習語言結構和世界知識;再通過指令微調,學會如何按人類要求組織和表達回答;接着藉助基於人類反饋的強化學習,對齊輸出風格與邊界,使回答更符合人類偏好;最后經過壓縮和工程優化部署到服務器上,在與用户交互時實時解析輸入,並以逐詞預測的方式生成答案。

其中,預訓練、微調和強化學習這三個階段,就是我們常説的「訓練」階段。在這個階段,誰能更快搭建起大模型,誰就能搶佔話語權。基礎設施面臨着高算力、高顯存帶寬以及極強多卡互聯的需求,以支撐萬億級參數背后的海量矩陣運算和數據同步。憑藉高性能的 GPU、CUDA 生態和 NVLink 高速互聯技術,英偉達成爲了這個階段毫無爭議的贏家。

而在大模型訓練完成后,真正的商業價值來自於規模化的推理服務。模型每天要處理數十億次用户請求,推理成本的高低直接決定了每一次 API 調用的利潤空間。此時的核心議題,不再只是能否訓練模型,而是能否在保證性能的前提下,降低每一次推理的成本。

因為無論是 OpenAI 還是國產大模型,其核心商業模式都是按每百萬 Token 計費。只有不斷降低單個 Token 的成本,並提升其生成質量與可靠性,才能使得AI像電力一樣,以可負擔的成本滲透進各行各業的實時對話、決策與創作場景中。這也是今年下半年以來,大家對 Token per dollar(每美元產出的 Token 量)的關注度空前增長的原因。

在這種「成本為王」的背景下,算力競爭版圖正在重塑,高盛最近的一份報告指出,以谷歌TPU 為代表的專用架構正成為強有力的挑戰者。報告數據顯示,從 TPU v6到 TPU v7,谷歌已將每百萬 token 的推理成本降低了約70%;英偉達的 GB 200 NVL72 每百萬 token 的推理成本約為 0.27 美元,而谷歌的 TPU v7 在同樣的任務負載下,成本已經降至相當甚至更優的水平。儘管英偉達仍毫無疑問是市場的主要參與者,其芯片成本曲線還將繼續下行,但 TPU v7 的快速趕超甚至局部超越,則標誌着算力競爭格局的轉折點已經到來。

成本曲線的陡峭下行,也在現實世界引發共振。近日,Anthropic——作為 Claude 的開發者與 OpenAI 的頭號競爭對手,與博通簽訂了價值高達210億美元的 TPU 訂單。這一鉅額訂單標誌着以谷歌 TPU 為代表的 ASIC 芯片,從技術探索進入到大規模商業部署階段。不難推斷出 Anthropic 背后的商業考量:若能通過 TPU v7降低30–40%的單位推理成本,在其月度千億級別的API調用規模下,意味着每年可能帶來數十億美元的利潤改善。

這種成本優勢甚至成爲了博弈籌碼。半導體行業研究機構 SemiAnalysis 透露,OpenAI 僅憑「威脅購買 TPU」這一籌碼,就迫使英偉達生態鏈做出了實質性讓步,使其計算集羣的總擁有成本(TCO)下降了約30%。可以説,英偉達隨后對 Groq 核心推理技術的獲取以及對其核心人員的招募,也是面對這種新趨勢的一種防守之策。

行業變革的齒輪,在成本的重壓下,悄然加速轉動。從「通用算力競賽」進入了「能效比對決」時代,以 TPU 為代表的 ASIC 已然崛起,成為頭部AI玩家在英偉達之外的第二選擇。

TPU 站上舞臺中央背后


ASIC 並非新鮮事物。早在 GPU 大紅大紫之前,市場上就已經就 FPGA 和 ASIC 的優劣勢有了很多的討論。但在 GPU 統治算力的時代,谷歌 TPU 能成功衝擊英偉達築起的高牆,並非偶然,而是源於其對專用計算的極致追求。

與兼顧通用性的 GPU 不同,TPU採取了極其精簡的架構設計:果斷砍掉與AI推理無關的圖形處理單元,將寶貴的晶體管資源集中於大模型最核心的矩陣運算。

更重要的是,TPU 引入了獨特的脈動陣列架構,讓數據如流水般在計算單元間連續流動,大幅減少了對寄存器的頻繁讀寫。配合大容量片上 SRAM 緩存與高效的數據搬運引擎 DMA,TPU 顯著降低了「數據搬運」這一主要能耗瓶頸。

脈動陣列示意圖:數據在計算單元(PE)陣列中流動

然而,長期以來,英偉達憑藉「軟硬一體」的封閉生態和深厚的 CUDA 護城河,仍然掌握着AI時代的定價權。對於客户而言,遷移至其他芯片平臺需要付出高昂的軟件適配成本。

打破這種路徑依賴,谷歌採取了「硬件進化、軟件開源」的雙重攻勢:其 XLA 編譯技術,不僅支持谷歌系的 TensorFlow 和 JAX 框架,也能適配主流開源框架 PyTorch(該框架在全球機器學習開發應用中佔比超過80%)。谷歌聯合多家科技巨頭發起的 OpenXLA 開源項目,打通了從多框架模型到不同硬件的統一編譯路徑;近期與 Meta 合作推進 TorchTPU 項目,實現 TPU 對 PyTorch 的原生支持,使開發者可將 PyTorch 模型無縫遷移至 TPU。

OpenXLA 開源項目

在AI計算從「算力堆疊」轉向效率與規模並重的趨勢下,通過精簡架構、脈動陣列、片上大緩存與數據搬運引擎等硬件創新,再結合軟硬件協同的開源生態構建,谷歌 TPU 逐漸構築起在推理場景下的獨特優勢。

在這場關乎 Token 成本的「AI下半場」,中國芯片企業並未缺席。觀察過去幾年的行業軌跡,包括奕行智能在內的本土廠商,長期致力於開發兼顧通用性與專用性的架構,為AI算力的多樣化競爭提供了底層支撐。

一家本土芯片廠商的不謀而合


回看奕行智能的發展歷程與當前取得的結果,筆者認為,這與他們從成立伊始就一直堅持打造AI技術底座、做AI算力底層賦能者有着莫大的關係。自成立以來,公司在軟硬件以及生態等多個方向上全面佈局,與 TPU 及 DSA(ASIC)的演進趨勢不謀而合。

在硬件層面,奕行智能採用類 TPU 架構,其矩陣、向量、標量的精簡架構設計,完全匹配大模型的計算特點,顯著降低了傳統 GPGPU 架構中用於調度與資源分配的額外開銷(包含算力、帶寬、編程投入等,通常佔總開銷的10%-20%),有效提高能效比與面積效率,打滿算力。

其大尺寸矩陣運算引擎,採用類TPU的雙脈動流水設計,數據複用率提升數倍,且顯著減少了數據前處理的開銷。相比同類方案,編程也更為簡單易用,限制更少——例如幾乎無需為規避bank衝突特意做手動編排,能夠直接支持模型中開發難度大的卷積矩陣乘算子等。

面對AI計算中頻繁出現的4D數據,奕行智能的高性能4D DMA引擎展現出明顯優勢。相比競品往往需要多次數據搬移與處理,該引擎僅通過一次操作即可完成4D數據的整體搬移,並在過程中同步完成數據變換與重排。此外,通過配置大容量片上緩存,將熱點與關鍵數據置於 L1/L2 中,其訪問速度相比存放在 DDR 的方案提升1–2個數量級。其近存計算設計,讓產品在實測中 Flash Attention 關鍵算子利用率相比競品提升4.5倍。

其架構設計的另一亮點,在於率先引入了 RISC-V+RVV(向量擴展)指令集,並率先支持 RVV 1024 bit 位寬,精準捕捉了 RISC-V 向AI計算拓展的機遇。近年來,隨着性能提升與生態成熟,RISC-V 已經邁出了從嵌入式市場向數據中心市場的關鍵一步。谷歌也在 TPU 中集成了 RISC-V 處理器,結合 RVV 向量擴展,實現了AI專用加速與靈活、可編程的 RISC-V 核心的高效協同。

在奕行智能的架構中,圖靈完備的 RISC-V 指令集保障了通用的計算能力,模塊化設計支持擴展專用AI計算指令,支持其自定義高效的張量計算加速、超越函數、數據搬運等指令。同時,RVV 原生支持複雜向量計算,支持多種數據類型的混合精度計算。

基於類 TPU 架構+ RISC-V 的底座,該公司推出了國內業界首款 RISC-V AI算力芯片 Epoch。該系列產品及計算平臺解決方案於2025年啟動量產,目前在頭部系統廠商、互聯網,數據中心及行業客户,均獲得了商業突破,斬獲大額商業訂單,大規模量產出貨中。

精度演進:

低位寬與高精度的平衡藝術


「低位寬、高精度」的數據格式支持,已成為近年來行業突破能效瓶頸的關鍵路徑之一。在深度學習領域,數據精度與計算效率始終存在權衡關係。例如,TPU Tensor Core 在FP8模式下可提供2倍於BF16的算力密度。以Ironwood(TPU v7)為例,其FP8峰值算力達到4.6PetaFLOPS,而BF16僅為2.3PFLOPS。顯存佔用和通信數據量也同步減半。

從谷歌 TPU v2 首次引入 BF16,到 DeepSeek 提出分塊量化 FP8,以及英偉達發佈 NVFP4,採用16元素共享縮放因子並以 FP8 作為縮放數據類型,使4bit精度幾乎逼近 BF16水準……這些創新都指向一個共同邏輯:壓縮數據位寬能顯著釋放性能紅利,同時保持高精度以保持大模型的「智能」不退化,則直接關係到AI芯片的商業化落地可行性。

奕行智能的AI芯片,除了支持傳統的多種浮點及整型數據類型以外,還在國內率先支持DeepSeek 所需的基於分塊量化的FP8計算精度,並在其新一代產品支持 NVFP4、MXFP4、MXFP8、MXINT8 等前沿的數據格式,可高效釋放算力,大幅降低存儲開銷。

本質上,「拓寬數據通道」(支持RVV 1024 bit位寬)與「壓縮信息體積」(支持低位寬浮點精度)的雙重組合,帶來了向量算力與矩陣算力吞吐的雙重增長與存儲成本的下降。上述技術創新精準對標了 DeepSeek 與英偉達引領的技術方向,契合深度學習演進趨勢。

超越芯片:

軟件與生態的協同進化


得益於上述設計,奕行智能在當前 token 成本競爭激烈中更遊刃有余。然而,僅靠芯片創新不足以在競爭激烈的市場中突圍,還需要再軟件和生態上多下功夫,這與國內過去一直在探討如何突破CUDA包圍圈、構建自主計算生態一脈相承。

在軟件棧,該公司深度融合了谷歌開源的 StableHLO 和 XLA 技術,全面支持 PyTorch、TensorFlow、JAX、ONNX 等主流框架。其智能編譯器ACE(Advanced Compute Engine)已接入 OpenXLA 體系,可無縫遷移至 TorchTPU 方案,讓 PyTorch 開發者能夠近乎「零代碼修改」地實現模型遷移。

針對 AI 場景數據規則化的特點,奕行智能還推出了原生適配 Tile(分塊)的動態調度架構。該架構通過「虛擬指令+智能編譯器+硬件調度器」的閉環,將複雜的指令依賴、流水線管理和內存切分交由硬件自動完成。這不僅讓編程變得像「拼積木」一樣乾淨簡潔,更打破了傳統靜態優化的性能上限,實現了對並行算力的實時、極致壓榨。

其獨創的VISA虛擬指令集技術,就像是在複雜的硬件森林和上層軟件之間架起了一座「標準翻譯橋樑」,讓開發者不再需要為每一顆芯片「貼身肉搏」寫底層代碼。

在生態構建上,奕行智能正與 Triton 社區推進重要合作,將 Triton 編譯流引入 RISC-V DSA 后端,並計劃開源其虛擬指令集,共同打造面向 RISC-V DSA 的「CUDA式」開發生態。

這種從底層硬件架構到軟件生態的全面對標與自主創新,使奕行智能不僅在技術路線上成爲了「中國 TPU」的代表,更在未來的 Token 成本競爭中佔據了有利市場身位。

寫在最后:

全棧競爭時代已至


無論是奕行智能等國內新興力量,還是英偉達、谷歌、AMD 等國際巨頭,持續提升單芯片性能始終是業界公認的方向。

然而隨着行業對 token 成本的日益關注,競爭焦點正從單純追求算力規模,轉向通過提升算力利用率與能效來降低成本——這不僅是技術演進,更是實現商業價值的關鍵路徑。

在這一範式轉變下,「算力競爭」已不再侷限於單一芯片的性能較量,而是升級為覆蓋芯片、互聯、軟件與系統優化的全棧AI基礎設施生態之爭。

以英偉達為例,其能夠成為行業領導者,不僅得益於強大的 GPU 硬件與 CUDA 生態,其高速互聯技術 NVLink 同樣功不可沒。驚艷業界的 GB200 NVL72 系統,正是依託 NVLink 實現高效的 Scale Up 互聯架構。

Scale Up 將多個計算節點像單顆芯片內部單元一樣緊密互聯協同,對於互聯帶寬、傳輸延迟及系統容錯性都提出了極高要求。奕行智能自研的互聯技術方案 ELink,同樣支持超大帶寬與超低延迟的 Scale Up 擴展,成為其構建算力效率護城河的關鍵一環。

而在傳統AI大規模計算中,歸約運算往往需要將大量數據在計算卡間搬運,對互聯帶寬和延迟有着非常高的要求。前沿的在網計算技術,可將部分計算卸載至網絡交換節點,從而減輕帶寬負擔,降低通信延迟。ELink 配合交換側,已實現對這一前沿在網計算功能的支持。

此外,ELink 在兼容性與靈活性上也展現出充分的競爭力:全面支持 RoCEv2、SUE(博通提出)、EthLink(字節跳動提出)、C-Link 等主流互聯協議,能與支持上述協議的交換設備及芯片無縫高效互聯,並支持800G/400G/200G可配置以太網標準協議。

ELink互聯技術 支持豐富的互聯拓撲

ELink互聯方案的任意點對點帶寬(P2P帶寬),可以達到傳統互聯方案的7倍,根據不同的組網方案單節點聚合帶寬則可以達到14.2倍,有效支持大模型的高速推理。

AI算力競爭正從「誰算得更快」轉向「誰算得更省」。這場競爭的核心不僅是技術維度從性能到能效的轉移,更是整個行業商業邏輯的深刻重塑。英偉達雖仍是市場的主導者,但在推理等專用場景中,以TPU為代表的專用架構已崛起為有力的挑戰者。

在此變局之中,國內AI芯片企業也找到了屬於自己的突破口。憑藉「對標前沿技術佈局,融入成熟開源生態,同時以自主創新構建核心壁壘」的組合策略,奕行智能正在這場AI基礎設施的全棧競爭中穩步突圍。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。