繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

一顆芯片的新戰爭

2025-10-07 14:37

本文來自格隆匯專欄:半導體行業觀察,作者:杜芹

以往每年9月,都是手機發燒友的狂歡月,因為這時期蘋果、小米、華為等都會發新機。然而,今年的9月,一個更深層次的產業變革正在暗流湧動。當所有人都在對iphone 17的續航、聯網、鋁合金質感等「找茬」時,一場關於AI推理芯片的戰爭,已悄然打響。

過去幾年,雲廠商爲了訓練大模型投入巨資購買芯片,如今也到了利用推理實現變現的時候了。根據麥肯錫報告,全球AI推理市場規模預計2028年將達1500億美元,年複合增長率超40%,遠高於訓練市場的20%。推理支撐着各類應用的實時推理需求,包括智能推薦、內容生成、虛擬助手等。可以説,推理階段纔是實現實際應用和商業化的關鍵。

這場推理之戰,隨着華為、英偉達和谷歌三大巨頭相繼發佈了各自的推理芯片之后,已經將正式打響!

華為Ascend 950PR:

成本優化下的推理利器


9月18日,在2025年華為全聯接大會上,華為宣佈了昇騰芯片的規劃和進展。未來3年,也就是到2028年,華為在開發和規劃了三個系列,分別是Ascend 950系列、Ascend 960、Ascend 970系列。華為表示,將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多數據格式、更高帶寬等方向持續演進,持續滿足AI算力不斷增長的需求

焦點落在即將推出的Ascend 950系列,特別是Ascend 950PR和950DT兩顆芯片,它們均採用同一Ascend 950 Die(芯片裸片)。Ascend 950PR專攻推理Prefill階段和推薦業務,採用華為自研的低成本HBM(高帶寬內存)——HiBL 1.0。相較於高價位的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資,這在規模化部署中至關重要。芯片預計2026年一季度面世,首發形態包括標準卡和超節點服務器。

與前代相比,Ascend 950的提升堪稱革命性:

  • 低精度支持:新增支持業界標準FP8/MXFP8/MXFP4等低數值精度數據格式,算力分別達到1P和2P,提升訓練效率和推理吞吐。並特別支持華為自研的HiF8,在保持FP8的高效的同時,精度非常接近FP16。

  • 向量算力躍升:通過提高向量單元佔比、創新同構設計(支持SIMD/SIMT雙編程模型)和細化內存訪問顆粒度(從512B降至128B),更好地處理碎片化數據。

  • 互聯帶寬翻倍:互聯帶寬相比Ascend 910C提升了2.5倍,達到2TB/s。

  • 定製HBM策略:結合結合推理不同階段對於算力、內存、訪存帶寬及推薦、訓練的需求不同,華為自研了兩種HBM:HiBL 1.0針對Prefill和推薦,HiZQ 2.0則面向Decode(解碼)和訓練。這種「Die+HBM合封」模式,類似英偉達的CoWoS封裝,但更注重成本控制,體現了華為的成本-性能平衡之道。

從行業視角看,Ascend 950PR的低成本HBM策略直擊全球痛點:一方面是從一定程度上解決HBM供給緊缺,另一方面降低成本,在AI推理中,內存成本佔總支出的40%以上。華為此舉不僅挑戰國外廠商在HBM壟斷,還為中國本土生態注入活力,預計將加速AI在邊緣計算和雲服務的落地。

英偉達Rubin CPX:

長上下文處理的革命先鋒


9月9日,英偉達重磅推出Rubin CPX,一款專為大規模上下文處理設計的GPU。這標誌着英偉達從「訓練霸主」向「推理專家」的蔓延。這款芯片預計於 2026 年底上市。

Rubin CPX集成在NVIDIA Vera Rubin NVL144 CPX平臺中,單機架算力達8 Exaflops(百億億次浮點運算),較GB300 NVL72提升7.5倍,配備100TB快速內存和1.7PB/s帶寬。英偉達還提供獨立計算托盤,兼容現有系統,便於客户升級。

黃仁勛強調,Rubin CPX開創了「CPX」新處理器類別,類似於RTX對圖形領域的顛覆。它針對百萬Token級上下文,處理速度和效率遠超傳統GPU。例如,在視頻生成中,AI需處理上百萬Token(相當於一小時視頻),傳統系統已達極限。Rubin CPX集成視頻編解碼器和長上下文推理技術於單芯片,支持NVFP4精度,峰值算力30 Petaflops,內存128GB GDDR7。

此外,Rubin CPX關鍵進步還包括:

  • 效能翻倍:系統專注力提升3倍,能無縫處理長序列,而不犧牲速度。

  • 經濟配置:單晶片設計降低成本,支持InfiniBand或Spectrum-X網絡,擴展性強。英偉達宣稱,每1億美元投資可獲50億美元Token收益,ROI(投資回報率)高達5倍。

  • 應用轉型:從簡單代碼生成到優化大型軟件項目,Rubin CPX讓AI助理更智能。

英偉達的洞察在於:長上下文是AI Agent的核心瓶頸。Gartner報告顯示,到2027年,80%的AI應用將涉及多模態長序列處理。Rubin CPX的上市(2026年底),將鞏固英偉達的生態霸權。

谷歌Ironwood TPU

效率與規模的雙重王者


在9月份聖克拉拉舉行的人工智能基礎設施峰會上,谷歌人工智能和計算基礎設施總經理 Mark LohmeyerMark Lohmeyer分享的數據顯示,谷歌內部的推理請求量在過去一年里呈幾何級增長,如下圖所示,谷歌應用中的推理令牌(token)使用量在 2024年4月到2025年4月間,增長了驚人的50倍。這種增長趨勢在2025年下半年變得更加陡峭,僅2025年6月到8月,月推理速率就從980萬億個飆升至接近1460萬億個。這凸顯了高性能推理芯片的迫切需求。

紅色是推理率變化

今年4月份,谷歌在Google Cloud Next 25大會上推出了其首款Google TPU推理芯片Ironwood,這也是谷歌的第七代張量處理單元 (TPU)。

一塊搭載四塊Ironwood TPU的系統主板(圖源:Google)

一排七個Ironwood TPU 機架,每排一個CDU和一個網絡機架。這是谷歌首次展示一排 Ironwood 機器。(圖源:Google)

Ironwood 根據 AI 工作負載需求提供兩種尺寸:256 芯片配置和 9,216 芯片配置。后者總算力達到42.5 Exaflops,是El Capitan超算的24倍;單芯片峰值4.614 Exaflops,功率效率1.5倍於Trillium,每瓦性能翻倍,較首代TPU提升30倍。

Ironwood的深度優化還包括:

  • 功率效率大幅提升:Ironwood的功率接近10兆瓦,功率效率是Trillium的1.5倍。每瓦性能是第六代 TPU Trillium 的兩倍,比2018年推出的首款雲TPU 高出近30倍。

歷代TPU的能效對比

  • 內存帶寬飛躍:Ironwood單芯片容量高達 192 GB,是 Trillium 的 6 倍;單芯片帶寬達到 7.37 TB/s,是Trillium的 4.5 倍。通過突破性的芯片間互聯 (ICI) 網絡連接,雙向帶寬提升至 1.2 TBps,從而實現更快的芯片間通信,

  • OCS互聯聯科技:一個通過谷歌獨特的光路交換機(OCS)互連的 Ironwood 集羣,可以利用 9,216 個 Ironwood TPU,在訓練和推理工作負載上提供總計 1.77 PB 的 HBM 內存容量,碾壓英偉達Blackwell機架的20.7TB。這種 OCS 互連具有動態重構能力,可以在不重啟整個訓練和推理任務的情況下,修復TPU 故障。

  • 軟件棧革命:除了支持 JAX AI 框架外,Ironwood TPU現在也支持原生的 PyTorch;此外,谷歌自己的Pathways堆棧,能夠簡化萬級TPU管理。

展示的是一塊帶有四個 Ironwood TPU 的系統板。每個芯片(帶有金色蓋子的方形物體)旁邊都有四個長條狀的內存模塊,這些是高帶寬內存(HBM)。這塊板卡是谷歌爲了將四個TPU芯片封裝在一起,從而提供極高的算力和內存帶寬而設計的。

谷歌不僅在硬件上發力,還展示了一整套針對AI推理優化的軟件堆棧,旨在顯著提升效率和降低成本。

谷歌推理堆棧的架構

軟件堆棧核心組件主要包括:

  • vLLM:是推理堆棧的核心,它負責管理和優化推理工作負載。

  • GKE是Google Cloud上託管的Kubernetes容器服務,類似於內部使用的Borg和Omega控制器。GKE Inference Gateway 是一個新的服務,利用AI注入的智能負載均衡,將推理請求分發到計算引擎池,其目標是減少任務排隊,提高利用率;確定不同部分推理硬件和軟件堆棧的配置是一個艱鉅的任務,因此谷歌創建了 GKE Inference Quickstart 工具,這也是一個新工具,現已普遍可用。

  • Anywhere Cache:這是一個新的閃存緩存服務,可大幅減少延迟和網絡成本。它能將谷歌雲區域內的讀取延迟提高 70%,跨區域延迟提高 96%。

  • Managed Lustre服務是一個高性能文件系統,用於向 GPU和TPU集羣提供數據。

  • Lohmeyer還展示了另一項名為推測解碼的技術,該技術已被用於提高其Gemini模型的性能,並將其能耗降低了約33倍。

總的來説,通過這些軟硬件的協同優化,最終能幫助谷歌雲客户將推理延迟降低高達 96%,吞吐量提高 40%,並將每個令牌的成本降低多達 30%。

Groq:估值超69億美元的推理芯片初創公司


除了這些芯片巨頭,AI初創公司——Groq最近的融資也為推理芯片的熱度再加一把燃料。Groq由前谷歌TPU工程師於2016年創立,專攻AI推理芯片。

2025年 9 月,Groq 宣佈融資7.5 億美元。這也是AI硬件領域最大的私人融資之一。自2024 年 8 月至 2025 年 9 月,Groq的估值已經從28億美元躍升至 69 億美元。而在2021 年,在老虎環球基金領投的一輪融資后,Groq 的估值略高於 10 億美元。

此次融資由 Disruptive 領投,三星和思科也加入了這一輪融資。此外之前投資者D1 Capital、Altimeter 和其他之前支持過Groq 的公司也加入了進來。投資者的廣泛性(從金融巨頭到科技公司)凸顯了人們對Groq的技術和市場方向的廣泛信心。

Groq表示,新資金將用於加大芯片產量,計劃到2025年第一季度部署超過108,000 個 LPU(14 納米代),以滿足需求。該公司還一直在投資人才,最近任命Stuart Pann(前英特爾員工)為首席運營官,甚至聘請Yann LeCun(Meta 的首席 AI 科學家)擔任技術顧問。

除了風險投資,Groq的資金還因訂單而增加。2025年 2 月,Groq從沙特阿拉伯獲得了 15 億美元的承諾,用於在沙特數據中心部署Groq的推理芯片;Groq 還成為貝爾加拿大 AI Fabric(一個橫跨六個數據中心(計劃容量為 500 兆瓦)的國家 AI 雲網絡)的獨家推理提供商,Groq 芯片將於 2025 年為首批站點提供支持,貝爾選擇Groq作為其主權人工智能基礎設施的獨家推理合作夥伴,理由是Groq比其他處理器「推理性能更快,而且成本低得多」。

Groq 的芯片被稱為語言處理單元 (LPU),採用新穎的「張量流」架構。它們採用單個大核心,配備片上內存和確定性、軟件調度的數據流,這與 GPU 的多核、基於緩存的設計不同。這使得延迟比領先的 GPU競爭對手低10倍,並且通過將數據保留在片上,內存帶寬優勢高達10 倍——非常適合實時AI推理。

寫在最后


從芯片巨頭的重磅發佈,到初創公司的估值飆升,種種跡象表明,AI的下半場——推理,已經進入了全面競爭的時代。這場競賽的焦點不再僅僅是原始算力的比拼,更是對成本、能效、軟件生態和應用場景的綜合較量。

可以説,當大模型從實驗室走向千家萬戶,當AI從概念變為日常應用,誰能提供更高效、更經濟、更靈活的推理解決方案,誰就將最終掌握AI時代的鑰匙。這場沒有硝煙的戰爭纔剛剛拉開序幕,未來的AI世界,將由這些推理芯片的角逐結果來定義。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。