繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

英偉達首顆推理芯片,突然發佈

2025-09-10 09:35

本文來自格隆匯專欄:半導體行業觀察

隨着這顆GPU的發佈,NVIDIA 的產品有了範式轉變,實際上也合情合理,但這與同構 GPU 機架和集羣相比,是一個巨大的轉變。

藉助這顆名為 NVIDIA Rubin CPX,NVIDIA 在同一個 NVL144 機架中,除了 2026 個 Rubin HBM GPU 之外,還添加了多個 GDDR7 顯存 GPU。實際上,這些大型 HBM Rubin GPU 配備了 GDDR7 Rubin CPX GPU 作為協處理器。

CPX 的基本觀察是,當今的 LLM 分為兩個不同的階段:預填充( Pre-fill)和解碼(decode)。NVIDIA 將其分為上下文階段和生成階段。兩者之間的轉換需要移動鍵值緩存(key-value)或鍵值緩存(KV cache)。通常,上下文階段(預填充)受計算限制,而生成階段則受內存限制。由於我們正處於構建擁有數十萬個 GPU 的集羣並逐步擴展到數百萬個 GPU 的時代,因此有足夠的工作負載和規模將這些任務拆分到兩個更優化的架構中,而不是僅僅通過具有海量 HBM 池的 GPU 來運行它們。

更重要的是,上下文或預填充階段正變得越來越具有挑戰性,尤其是在上下文窗口很長且視頻內容豐富的情況下。NVIDIA 正通過 Rubin CX 抓住這一機遇。

Rubin CX 擁有 30PFLOPS 的 NVFP4 性能以及 128GB 的 GDDR7 顯存。NVIDIA 聲稱其指數運算能力是 GB300 的三倍。由於視頻工作負載也是其關鍵驅動因素之一,因此配備了四個 NVENC/NVDEC 引擎。

令人興奮的是,這些也是為異構機架設計的。在這里,我們可以看到一個 Vera Rubin NVL144 CPX 計算托盤。里面有四個 Rubin 組件和兩個 Vera Arm CPU。然后是八個 Rubin CPX 組件(NVIDIA 稱它們是單片芯片)。最后,還有八個 NVIDIA ConnectX-9,其網卡速率應該相當於 1.6Tbps(ConnectX-7 為 400G,ConnectX-8 為 800G)。這意味着每個計算托盤可以產生 12.8Tbps 的網絡吞吐量,或者相當於一整台 Broadcom Tomahawk 3 交換機的吞吐量/相當於當前一代 AI 集羣中常見的 NVIDIA Spectrum-4 SN5610 交換機的四分之一。

因此,這款顯卡將配備 144 個 Rubin 標準套件,然后在機架中安裝 144 個 Rubin CPX。NVIDIA 表示還會提供其他選項,例如 Sidecar 式顯卡。或許更有趣的是,NVIDIA 正在利用其強大的技術打造大型單片 GDDR GPU,而 AMD 和英特爾在這方面做得較少,因為他們更注重容量細分市場。Rubin CPX 在 NVL144 機架之外的表現將會如何,值得關注。

由於 NVIDIA Rubin NVL144 CPX 機架設計時採用了許多未來技術,因此它們的目標上市時間為 2026 年底,因此這還需要一年多的時間。


NVIDIA 推出 Rubin CPX

專為大規模上下文推理而設計的全新 GPU

NVIDIA今日宣佈推出 NVIDIA Rubin CPX,這是一款專為海量上下文處理而打造的全新 GPU。它使 AI 系統能夠以突破性的速度和效率處理數百萬個令牌的軟件編碼和生成視頻。

Rubin CPX 與全新 NVIDIA Vera Rubin NVL144 CPX 平臺中的 NVIDIA Vera CPU 和 Rubin GPU 協同工作。這款集成式 NVIDIA MGX 系統集成了每秒 8 百億億次浮點運算的 AI 計算能力,可提供比 NVIDIA GB300 NVL72 系統高出 7.5 倍的 AI 性能,並在單個機架中提供 100TB 的快速內存和每秒 1.7PB 的內存帶寬。此外,還為希望重複使用現有 Vera Rubin NVL144 系統的客户提供了專用的 Rubin CPX 計算托盤。

NVIDIA 創始人兼首席執行官黃仁勛表示:「Vera Rubin 平臺將標誌着 AI 計算領域的又一次飛躍——它不僅引入了下一代 Rubin GPU,還推出了名為 CPX 的全新處理器。正如 RTX 徹底改變了圖形和物理 AI 一樣,Rubin CPX 是首款專為海量上下文 AI 打造的 CUDA GPU,在這種 AI 中,模型可以同時推理數百萬個知識標記。」

NVIDIA Rubin CPX為長上下文處理提供了最高的性能和代幣收益,遠遠超出了當今系統的設計處理能力。這將使 AI 編碼助手從簡單的代碼生成工具轉變為能夠理解和優化大型軟件項目的複雜系統。

爲了處理視頻,AI 模型可能需要處理一小時內容中多達 100 萬個 token,這突破了傳統 GPU 計算的極限。Rubin CPX 將視頻解碼器和編碼器以及長上下文推理處理集成在單個芯片中,為視頻搜索和高質量生成視頻等長格式應用提供了前所未有的功能。

Rubin CPX GPU 基於 NVIDIA Rubin 架構構建,採用經濟高效的單片芯片設計,配備強大的 NVFP4 計算資源,並經過優化,可為 AI 推理任務提供極高的性能和能源效率。

ubin CPX 提供高達 30 petaflops 的計算能力,並採用 NVFP4 精度,以實現最高的性能和準確度。它配備 128GB 經濟高效的 GDDR7 內存,可加速最苛刻的基於上下文的工作負載。此外,與 NVIDIA GB300 NVL72 系統相比,它還提供了 3 倍更快的注意力機制,從而提升了 AI 模型處理更長上下文序列的能力,且速度絲毫不會降低。

Rubin CPX 提供多種配置,包括 Vera Rubin NVL144 CPX,可與NVIDIA Quantum‑X800 InfiniBand橫向擴展計算架構或搭載NVIDIA Spectrum- XGS 以太網技術和 NVIDIA ConnectX®-9 SuperNIC™ 的 NVIDIA Spectrum- X™ 以太網網絡平臺結合使用。Vera Rubin NVL144 CPX 助力企業實現前所未有的規模盈利,每投資 1 億美元即可獲得 50 億美元的token收益。


風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。