繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

英偉達下一代GPU登場,Rubin CPX一次推理數百萬Token,網友:這是頭野獸

2025-09-10 16:14

(來源:機器之心)

在周二的 AI 基礎設施峰會上,英偉達宣佈推出一款名為 Rubin CPX(Rubin Context GPUs) 的新 GPU,專為超過 100 萬 token 的長上下文推理而設計。

對用户而言,這意味着他們在軟件開發、視頻生成等長上下文任務中能夠獲得更好的性能。

例如,在軟件開發中,AI 系統必須能夠對整個代碼庫進行推理、理解倉庫級代碼結構,才能更好的幫助開發者。同樣地,長視頻和研究類應用也要求在數百萬 token 範圍內保持持續的連貫性和記憶。

現在,隨着 Rubin CPX 發佈,這些問題都能迎刃而解。

這款新型 GPU(Rubin CPX)  將與 NVIDIA Vera CPU 和 Rubin GPU 搭配使用,共同組成全新的 NVIDIA Vera Rubin NVL144 CPX 平臺。這一集成式 NVIDIA MGX 系統在單機架內可提供 8 exaflops AI 算力,其 AI 性能是 NVIDIA GB300 NVL72 系統的 7.5 倍,並配備 100TB 高速內存和 1.7 PB/s(petabytes)內存帶寬。

同時,NVIDIA 還將為已有 Vera Rubin NVL144 系統的客户提供 Rubin CPX 專用計算托盤,以便在現有平臺基礎上進行復用。

NVIDIA Vera Rubin NVL144 CPX 機架與計算托盤,配備 Rubin CPX、Rubin GPU 和 Vera CPU
NVIDIA Vera Rubin NVL144 CPX 機架與計算托盤,配備 Rubin CPX、Rubin GPU 和 Vera CPU NVIDIA Vera Rubin NVL144 CPX 機架與計算托盤,配備 Rubin CPX、Rubin GPU 和 Vera CPU

NVIDIA 創始人兼首席執行官黃仁勛表示:Vera Rubin 平臺將標誌着 AI 計算前沿的又一次飛躍,它不僅引入了下一代 Rubin GPU,還帶來了一類全新的處理器 CPX。正如 RTX 曾經徹底改變圖形處理和物理 AI 一樣,Rubin CPX 是首款專為大規模上下文打造的 CUDA GPU,使模型能夠一次性在數百萬 token 的知識範圍內進行推理

對於這款新的 GPU,很多人認為這將會改變創作者的遊戲規則。

Rubin CPX 技術突破

衆所周知,大模型正逐步演變為具備多步推理、持久記憶和長上下文能力的智能體系統,使其能夠勝任軟件開發、視頻生成與深度研究等複雜任務。

但這些工作負載對基礎設施提出了前所未有的要求,在計算、存儲和網絡方面帶來了全新挑戰,迫切需要從根本上重新思考推理的規模化與優化方式。

為此,英偉達 SMART 框架提供了一條可行方案。該框架強調採用全棧解耦式基礎設施,實現計算與內存資源的高效調配。通過 Blackwell 架構 GB200 NVL72 平臺與 NVFP4 低精度推理技術的結合,輔以 TensorRT-LLM、Dynamo 等開源軟件,使得整個 AI 領域的推理性能大大提升。

另一方面,推理過程包含兩個截然不同的階段:上下文處理與內容生成,每個階段對基礎設施的需求存在本質差異。

上下文階段屬於計算密集型,需要高吞吐量處理能力來攝入和分析海量輸入數據,以產生首個輸出 token。

相比之下,生成階段則受限於內存帶寬,依賴 NVLink 等高速互連技術實現快速內存傳輸,以維持逐 token 輸出的性能表現。

解耦式推理架構使這兩個階段能夠獨立處理,實現對計算與內存資源的精準優化。這種架構變革顯著提升了系統吞吐量,降低了延迟,並全面提高資源利用率。

然而,解耦式架構也帶來了新的複雜性,需要在低延迟 KV 緩存傳輸、LLM 感知路由以及高效內存管理之間實現精確協調。

NVIDIA Dynamo(一個開源、低延迟的模塊化推理框架) 作為這些組件的編排層,在最新的 MLPerf Inference 結果中發揮了關鍵作用。藉助 Dynamo 在 GB200 NVL72 上的解耦推理,創造了新的性能紀錄。

爲了充分發揮解耦推理的優勢,尤其是在算力密集的上下文階段。

正是在這樣的背景下,NVIDIA 推出了 Rubin CPX GPU:專為高價值長上下文推理工作負載設計的解決方案,能夠提供高吞吐性能,並與解耦式基礎設施實現無縫集成。

在技術上,基於 NVIDIA Rubin 架構,Rubin CPX GPU 採用了具備高性價比的單片設計,內置強大的 NVFP4 計算資源,並針對 AI 推理任務進行了優化,以實現極高的性能與能效表現。

具體而言,Rubin CPX 採用 NVFP4 精度,可提供高達 30 petaflops 算力,在性能與精度上均達到業界領先水平,並配備 128GB 高性價比 GDDR7 內存,能夠加速最苛刻的上下文計算任務。此外,與 NVIDIA GB300 NVL72 系統相比,Rubin CPX 的注意力處理能力提升了 3 倍,顯著增強了 AI 模型在長上下文序列處理中的速度與穩定性。

隨着 Rubin CPX 的官宣,業界也是好評連連。Cursor 首席執行官 Michael Truell 表示:藉助 NVIDIA Rubin CPX,Cursor 將能夠實現極速代碼生成和深度開發者洞察,從而重塑軟件創作方式。這將釋放前所未有的生產力水平,賦能用户將曾經遙不可及的創意快速實現。

Runway 首席執行官 Cristóbal Valenzuela 表示:視頻生成正快速邁向更長上下文和更靈活的智能體驅動創作流程。我們認為 Rubin CPX 在性能上的飛躍,將為這些高強度任務提供有力支持,從而構建更通用、更智能的創意工具。這意味着,從獨立藝術家到大型工作室,創作者都能在工作中獲得前所未有的速度、真實感和掌控力。

最后,NVIDIA Rubin CPX 預計將於 2026 年底上市,大家再等等。

參考鏈接:

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/

© THE END 

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。