熱門資訊> 正文
2025-12-06 10:40
示意圖
要説上個月誰是科技巨頭里最大的贏家,提名谷歌應該沒人有意見吧?
靠着性能炸裂的 Gemini 3,短短半個月,股價蹭蹭漲不説,還在競技場內拳打 OpenAI,競技場外腳踢英偉達。
回撤一點,問題不大
谷歌股價
至於賣鏟子的老黃怎麼也跟着躺槍,原因很簡單,谷歌表示,Gemini 3 Pro 是在自研 TPU(Tensor Processing Unit)上訓練的,至少在字面上,是沒提英偉達一個字兒。
緊跟着,媒體和吃瓜羣眾開始紛紛猜測,説什麼谷歌這回,可能真要終結 CUDA 護城河了。
媒體報道
那麼問題來了,看似讓英偉達好日子到頭的 TPU,到底是個啥?
從名字上也能看得出,它其實是一類芯片,和 GPU 是近親,只不過做成了 AI 特供版。
雖然 TPU 最近才引起大夥兒的注意,但這是一個從 2015 年延續到現在的老項目。
第一代 TPU 長這樣
第一代 TPU
那時候谷歌正經歷技術轉型的陣痛,想把傳統的搜推算法全換成深度學習。結果他們發現,這 GPU 不止不夠用,還巨耗電,根本用不起。
GPU 的問題,在於它太想全能了。爲了什麼都能干,不得不搞了一套硬盤、內存、顯存、核心,層層疊疊的複雜架構。
這帶來一個大麻煩,在芯片的世界里,搬運數據的成本,遠比計算本身高得多。數據從顯存跑到核心,物理距離可能只有幾釐米,電子卻要翻山越嶺。
GPU 工作方式
GPU
於是,電費大半沒花在算數上,全花在送快遞的路費上了。最后變成熱量,還得拜託風扇吹一吹。
這在做圖形渲染時沒毛病,因為畫面高度隨機,要啥素材沒法預料,只能回顯存現取。
但 AI 的矩陣運算,每個數怎麼算,和誰算,算幾次都是固定的。我明知道這個數算完了,一會兒還要接着用,GPU 硬是得把它存回去,等着別人再取進計算單元,這不純純浪費嗎?
GPU
所以,作為一個 AI 專屬工具人,TPU 就這樣出生了。它把 GPU 那些用不上的圖形、控制流、調度模塊等等拆的拆,壓的壓。
核心思路,是專門對 AI 最常用的矩陣乘法做優化,搞了一個叫 「 脈動陣列 」 的方法。
用上這一招,每個數據一旦開算,就會在密集排列的計算單元之間傳遞,沒用完不許回存儲單元。這樣,就不需要頻繁讀寫了。
TPU
就這樣,TPU 每個周期的計算操作次數達到了數十萬量級,是 GPU 的近十倍。初代 TPU v1 能效比達到同時期 NVIDIA Tesla K80 的 30 倍,性價比極高。
當然,最開始谷歌也是邊緣試探,沒玩那麼大。TPU 也還只搞推理,不會訓練,功能單一,完全沒法和 GPU 比。
從第二代起,谷歌纔開始往內存上堆料,提升容量和數據傳輸速度,讓 TPU 能一邊計算,一邊快速記錄和修改海量的中間數據(比如梯度和權重),自此點亮了訓練的技能樹。
隨着 TPUv3 規模增加,模型訓練速度提升
TPU
但這麼多年以來,明明用 TPU 訓練推理的成本更低,性能也和 GPU 不相上下,為啥巨頭們還非得去搶英偉達的芯片呢?
事實上,真不是大夥兒不饞,而是谷歌壞,一直在硬控。所有的 TPU 只租不賣,綁定在谷歌雲里。大公司不能把 TPU 搬回家,相當於把身家性命都交給谷歌雲,心里總毛毛的。生怕英偉達沒卡死的脖子,在谷歌這直接快進到掐斷了。
即使這樣,蘋果也沒架住便宜大碗的誘惑,多多少少租了點兒。
而這回熱度這麼高,一方面是 Gemini 3 證明了 TPU 的成功,品質放心;另一方面,是因為第七代 TPU Ironwood,谷歌終於捨得賣了。
第七代 TPU Ironwood
根據 The Information 的報道,Meta 已經在和谷歌洽談數十億美元的大合同,準備從 2027 年開始,在機房部署 TPU,還計劃最早明年就要從谷歌那租用 TPU。
消息一出,谷歌股價立漲 2.1%,英偉達下跌 1.8%。
甚至有谷歌內部人士放話,我們這一波大開張,可能會搶走英偉達幾十億美元的大蛋糕,直接切掉他們 10% 的年收入哦。
媒體報道
華爾街對 TPU 也是愛得不行,覺得這好東西錢途一片光明。就連負責設計製造的博通都沾了光,被上調了業績預期。
但是,要説 TPU 會取代 GPU,真不至於。
TPU 是一種 ASIC(Application-Specific Integrated Circuit),又名專用集成電路。人話來講,TPU 除了擅長 AI 那幾個矩陣計算,別的啥都不太行。
這是它的優點,也是它的痛點。
TPU 工作方式
TPU
趕上大模型當道的好時候,對矩陣計算的需求大得離譜,TPU 跟着一步登天。但要是以后有啥更火的 AI 技術路線,不搞現在這一套,TPU 分分鍾失業。
而且 TPU 因為太專精,一旦在計算上沒有性能優勢,就徹底失去價值。四年前的 TPU v4,咱們已經很難見到它了。
相比之下,GPU 就不一樣了。以五年前誕生在大模型浪潮前的 3090 為例,它硬是靠着 24G 超大顯存,和 CUDA 不拋棄不放棄的向下兼容生態,直到現在還是普通人玩 AI 的超值主力卡,跑個 Llama 8B 小模型不成問題。
退一步講,就算 AI 這碗飯不香了,大不了回去接着伺候遊戲玩家和設計師,照樣活得滋潤。
另外,CUDA 生態依然是英偉達最大的殺招。
這就好比你用慣了 iOS,雖然安卓也很好,但讓你把存了十年的照片、習慣的操作手勢、買的一堆 App 全都遷移過去,你大概率還是會選下次一定。
現在的 AI 開發者也是一樣,大家的代碼是基於 CUDA 寫的,調用的庫是英偉達優化的,甚至連報錯怎麼改都只會搜 CUDA 的。
想轉投 TPU?行啊,先把代碼重構一遍,再適應新的開發環境。
即使強兼了 PyTorch,很多底層的優化、自定義算子,換到 TPU 上還是得重新調試。專門指定的 JAX 語言,也給人才招聘墊高了門檻。
對於大多數只想趕緊把模型跑起來的中小廠來説,與其費勁巴拉地去適配 TPU,甚至根本搞不到,直接買英偉達芯片,反而是最省事的選擇。
社媒截圖
不説別的,谷歌自己還在大量採購英偉達的 GPU,就算自己不用,谷歌雲那麼多客户還得用呢。
所以,TPU 這波開賣,確實在大模型訓練這一畝三分地上,用經濟划算給英偉達上了一課。但也絕對沒有被吹的,要搶 GPU 飯碗那麼神。
未來的算力市場,更大概率是 TPU 佔據頭部大廠的專用需求,而 GPU 繼續統治通用市場。
但只要巨頭們競爭起來,就有可能把算力價格打下來,這怎麼看,都是個好事啊。
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:萱萱
圖片、資料來源:
Google Cloud 官網
EITC、FUTUBULL、雅虎金融、The informaiton、Reddit、X、CNBC
https://arxiv.org/abs/1704.04760
本文來自微信公眾號「差評X.PIN」,作者:世超,36氪經授權發佈。