熱門資訊> 正文
2025-09-10 12:30
(來源:研報虎)
Rubin CPX切入百萬Token痛點,重塑推理架構基礎。過去一年,隨着生成式AI進入規模化落地階段,行業對「長上下文」的需求快速上升。無論是企業級知識庫問答、代碼生成,還是多模態長視頻生成,均需要模型在極大輸入序列下保持推理準確性與計算效率。然而,現有GPU在應對超長上下文時普遍存在內存帶寬瓶頸與計算冗余,導致算力利用率不足。英偉達於2025年9月發佈的Rubin CPX,正是為解決這一痛點而生,標誌着NVIDIA將推理場景的架構優化推向新高度。Rubin CPX是一款專為「百萬級上下文」推理場景設計的專用加速處理器(Contextual Processing eXtension)。其設計目標是通過硬件與架構優化,提升對超長上下文場景的吞吐與能效,並在機架級系統,如VeraRubin NVL144CPX中與Rubin GPU及Vera CPU協同構成面向大規模推理的整體平臺。
上下文與生成任務分工,實現算力利用率與效率提升。在大模型推理過程中,可大體分為兩類任務:一是「上下文分析」,即對超長輸入序列進行編碼、篩選與壓縮,以便后續生成環節調用;二是「生成任務」,即基於上下文信息進行逐Token的預測輸出。二者在計算負載和性能需求上差異顯著:上下文分析更依賴並行化處理和帶寬利用,而生成任務則要求對計算延迟與單步性能進行極致優化。英偉達Rubin CPX定位為「上下文處理加速器」,負責對海量輸入做高通量注意力與前置計算;而Rubin系列通用GPU則負責生成/輸出階段的持續帶寬密集型任務。官方展示的Vera Rubin NVL144CPX機架中,144個Rubin CPX(context)配合144個Rubin GPU(generation)與36個Vera CPU(調度/通用),共同提供完整服務能力,進而實現資源的高效利用,推理成本降低以及推理響應加速。
Rubin CPX30PFLOPS,機架8EFLOPS算力,2026年落地路徑明確。從技術參數看,Rubin CPX單卡提供約30PFLOPS(NVFP4精度)的算力,並搭載128GBGDDR7顯存,同時內置視頻編解碼能力,可滿足多模態場景需求。官方展示的Vera Rubin NVL144CPX系統,由144張CPX、144張Rubin GPU和36個Vera CPU共同構成,其整體性能指標達到8ExaFLOPS算力、100TB高速內存與1.7PB/s內存帶寬,相比上一代GB300NVL72系統在上下文處理效率上實現數倍提升。根據公司規劃,Rubin CPX預計將在2026年底上市,與Rubin GPU與Dynamo、TensorRT-LLM等軟件工具鏈一體化部署。
海外算力鏈受益加速,長上下文推理帶來新增長動能。從產業角度來看,Rubin CPX的推出不僅是NVIDIA產品線的升級,更意味着海外算力基礎設施進入「上下文與生成分工協作」的新階段。隨着百萬Token推理與長視頻生成成為AI應用的標配需求,硬件和軟件的耦合度顯著提高,算力產業鏈的價值量同步上升。無論是GPU、存儲、網絡,還是配套的高速PCB、光模塊與封裝工藝,相關廠商都有望深度受益。我們認為Rubin CPX的量產與落地,將成為全球算力需求加速釋放的重要信號,產業鏈公司中長期成長空間將更加清晰。
產業鏈相關公司:PCB/CCL:滬電股份、勝宏科技、生益電子、深南電路、景旺電子、廣合科技、生益科技、南亞新材;銅纜:沃爾核材、博創科技、華豐科技;光芯片/光器件:博創科技、仕佳光子、太辰光、長光華芯、源傑科技;服務器代工:工業富聯、華勤技術
風險提示:供應鏈波動風險,下游需求不及預期,行業競爭加劇。