英偉達下一代GPU登場，Rubin CPX一次推理數百萬Token，網友：這是頭野獸

2025-09-10 16:14

（來源：機器之心）

在周二的 AI 基礎設施峰會上，英偉達宣佈推出一款名為 Rubin CPX（Rubin Context GPUs）的新 GPU，專為超過 100 萬 token 的長上下文推理而設計。

對用户而言，這意味着他們在軟件開發、視頻生成等長上下文任務中能夠獲得更好的性能。

例如，在軟件開發中，AI 系統必須能夠對整個代碼庫進行推理、理解倉庫級代碼結構，才能更好的幫助開發者。同樣地，長視頻和研究類應用也要求在數百萬 token 範圍內保持持續的連貫性和記憶。

現在，隨着 Rubin CPX 發佈，這些問題都能迎刃而解。

這款新型 GPU（Rubin CPX）將與 NVIDIA Vera CPU 和 Rubin GPU 搭配使用，共同組成全新的 NVIDIA Vera Rubin NVL144 CPX 平臺。這一集成式 NVIDIA MGX 系統在單機架內可提供 8 exaflops AI 算力，其 AI 性能是 NVIDIA GB300 NVL72 系統的 7.5 倍，並配備 100TB 高速內存和 1.7 PB/s（petabytes）內存帶寬。

同時，NVIDIA 還將為已有 Vera Rubin NVL144 系統的客户提供 Rubin CPX 專用計算托盤，以便在現有平臺基礎上進行復用。

NVIDIA Vera Rubin NVL144 CPX 機架與計算托盤，配備 Rubin CPX、Rubin GPU 和 Vera CPU

NVIDIA 創始人兼首席執行官黃仁勛表示：Vera Rubin 平臺將標誌着 AI 計算前沿的又一次飛躍，它不僅引入了下一代 Rubin GPU，還帶來了一類全新的處理器 CPX。正如 RTX 曾經徹底改變圖形處理和物理 AI 一樣，Rubin CPX 是首款專為大規模上下文打造的 CUDA GPU，使模型能夠一次性在數百萬 token 的知識範圍內進行推理。

對於這款新的 GPU，很多人認為這將會改變創作者的遊戲規則。

Rubin CPX 技術突破

衆所周知，大模型正逐步演變為具備多步推理、持久記憶和長上下文能力的智能體系統，使其能夠勝任軟件開發、視頻生成與深度研究等複雜任務。

但這些工作負載對基礎設施提出了前所未有的要求，在計算、存儲和網絡方面帶來了全新挑戰，迫切需要從根本上重新思考推理的規模化與優化方式。

為此，英偉達 SMART 框架提供了一條可行方案。該框架強調採用全棧解耦式基礎設施，實現計算與內存資源的高效調配。通過 Blackwell 架構 GB200 NVL72 平臺與 NVFP4 低精度推理技術的結合，輔以 TensorRT-LLM、Dynamo 等開源軟件，使得整個 AI 領域的推理性能大大提升。

另一方面，推理過程包含兩個截然不同的階段：上下文處理與內容生成，每個階段對基礎設施的需求存在本質差異。

上下文階段屬於計算密集型，需要高吞吐量處理能力來攝入和分析海量輸入數據，以產生首個輸出 token。

相比之下，生成階段則受限於內存帶寬，依賴 NVLink 等高速互連技術實現快速內存傳輸，以維持逐 token 輸出的性能表現。

解耦式推理架構使這兩個階段能夠獨立處理，實現對計算與內存資源的精準優化。這種架構變革顯著提升了系統吞吐量，降低了延迟，並全面提高資源利用率。

然而，解耦式架構也帶來了新的複雜性，需要在低延迟 KV 緩存傳輸、LLM 感知路由以及高效內存管理之間實現精確協調。

NVIDIA Dynamo（一個開源、低延迟的模塊化推理框架）作為這些組件的編排層，在最新的 MLPerf Inference 結果中發揮了關鍵作用。藉助 Dynamo 在 GB200 NVL72 上的解耦推理，創造了新的性能紀錄。

爲了充分發揮解耦推理的優勢，尤其是在算力密集的上下文階段。

正是在這樣的背景下，NVIDIA 推出了 Rubin CPX GPU：專為高價值長上下文推理工作負載設計的解決方案，能夠提供高吞吐性能，並與解耦式基礎設施實現無縫集成。

在技術上，基於 NVIDIA Rubin 架構，Rubin CPX GPU 採用了具備高性價比的單片設計，內置強大的 NVFP4 計算資源，並針對 AI 推理任務進行了優化，以實現極高的性能與能效表現。

具體而言，Rubin CPX 採用 NVFP4 精度，可提供高達 30 petaflops 算力，在性能與精度上均達到業界領先水平，並配備 128GB 高性價比 GDDR7 內存，能夠加速最苛刻的上下文計算任務。此外，與 NVIDIA GB300 NVL72 系統相比，Rubin CPX 的注意力處理能力提升了 3 倍，顯著增強了 AI 模型在長上下文序列處理中的速度與穩定性。

隨着 Rubin CPX 的官宣，業界也是好評連連。Cursor 首席執行官 Michael Truell 表示：藉助 NVIDIA Rubin CPX，Cursor 將能夠實現極速代碼生成和深度開發者洞察，從而重塑軟件創作方式。這將釋放前所未有的生產力水平，賦能用户將曾經遙不可及的創意快速實現。

Runway 首席執行官 Cristóbal Valenzuela 表示：視頻生成正快速邁向更長上下文和更靈活的智能體驅動創作流程。我們認為 Rubin CPX 在性能上的飛躍，將為這些高強度任務提供有力支持，從而構建更通用、更智能的創意工具。這意味着，從獨立藝術家到大型工作室，創作者都能在工作中獲得前所未有的速度、真實感和掌控力。

最后，NVIDIA Rubin CPX 預計將於 2026 年底上市，大家再等等。

參考鏈接：

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/

英偉達下一代GPU登場，Rubin CPX一次推理數百萬Token，網友：這是頭野獸

推薦文章

美股機會日報 | 警報拉響！「巴菲特指標」暗示美股已高估？現貨黃金突破3800美元大關

中國資產「強勢崛起」！華爾街齊呼：全球投資者正不斷增持中國股票

黃金又雙叒叕破紀錄！政府停擺與美聯儲迷霧成最佳推手

華盛早報 | 七年來首次政府關門真要來了？特朗普放狠話要關就關；中國央行：要落實落細適度寬松的貨幣政策

一周財經日曆 | 美國9月大小非農數據重磅來襲！紫金黃金國際、西普尼等3只新股下周上市

一周IPO丨「車圈巨頭」受資金熱捧，奇瑞汽車首周大漲近7%；周內有18家公司港股遞表

港股周報丨阿里加碼AI投入引爆股價！小米發佈會后急跌8%，大摩稱仍看好公司長期價值

對俄施壓升級，油價有望實現強勁周漲幅