熱門資訊> 正文

馬斯克新模型背后算法來自英偉達？？？

2025-09-26 07:54

Jay 發自凹非寺

量子位 | 公眾號 QbitAI

Grok-4-fast最近在降本增效上的表現堪稱一騎絕塵，連有「路由器」傍身的GPT5都給干趴下了。

面對如此驚艷的推理效率，很多人第一反應就是：堆卡式的算力scaling又一次大顯神威了。

實際上，Grok的背后確實有英偉達的影子。

但這次立功的，或許不是老黃的顯卡，而是算法。

沒錯，Grok-4-fast的祕密武器，被和一篇英偉達的算法論文關聯在了一起。

讓LLM快53倍的火箭發動機

正如Grok-4-fast所表現出來的一樣，這篇論文解決了困擾行業已久的推理成本問題。

一味的硬件Scaling只會讓模型廠商賬單上的數字越來越長，用户耐心也在漫長的推理時間中逐漸被消耗殆盡。

為此，英偉達研究團隊推出了一種全新「混合結構」模型——Jet-Nemotron。

經過一系列全面的基準測試，發現Jet-Nemotron-2B的表現與Qwen3、Qwen2.5、Gemma3和Llama3.2等頂尖開源模型不相上下，還能實現約53倍的速度提升。

例如在MMLU-Pro上，Jet-Nemotron-2B不僅準確率比Qwen3-1.7B-Base更高，就連生成速度也要快上47倍。

此外，Jet-Nemotron-2B即便遇上參數更大的模型也絲毫不虛，它在MMLU和MMLU-Pro上的準確率甚至可以超過DeepSeek-V3-Small和Moonlight（總參數量15B，激活參數量2.2B）。

改變這一切的關鍵，在於一個叫PortNAS的新框架。

不同於以往的方法，PostNAS不是從零開始訓練，而是以一個預訓練的全注意力模型為起點，並凍結其MLP權重，只探索注意力機制的改進。

這樣一來，不僅能讓訓練成本直接降低幾個數量級，還能有更多精力用於全面探索模型結構。

其流程包括四個核心部分：全注意力層放置、選擇最優的線性注意力模塊、設計更優的線性注意力模塊、硬件感知架構搜索。

全注意力層放置

大多數團隊會在模型的所有層里統一使用全注意力，但這會浪費算力資源。

因此，英偉達團隊希望保留少量關鍵的全注意力層，以維持複雜任務的準確性，同時剔除冗余層以提升效率。

PostNAS的做法是：先構建一個同時包含兩種注意力機制的超級網絡，再通過特徵蒸餾來訓練子網絡，最后用beam search找到最優的注意力層放置方案。

事實證明，的確並非所有注意力層都重要，不同任務依賴不同層，少量關鍵層即可覆蓋大部分任務需求。

實驗結果顯示，PostNAS優於均勻放置策略——在只使用2層全注意力的情況下，PostNAS的準確率約49%，而均勻放置的準確率約40%。

選擇最優的線性注意力模塊

在確定了全注意力層后，英偉達團隊開始進行注意力模塊搜索，旨在找到目前最優的線性注意力模塊。

論文評估了六種當前最先進的線性注意力模塊，包括RWKV7、RetNet、Mamba2、GLA、DeltaNet和Gated DeltaNet。

這六個之中，Gated DeltaNet的準確率最高，這主要歸功於兩個因素：

1、數據依賴門控機制（Data-Dependent Gating Mechanism）：可以理解成一個路由器。模型會根據輸入的內容，決定是更重視新信息，還是之前的歷史狀態，從而在不同任務里找到平衡。

2、Delta規則（Delta Rule）：不是每次都把記憶里的東西全部覆蓋，而是隻更新新變化的部分。這樣能減少不必要的重複存儲，節省內存，同時保持信息的連續性。

更優解：JetBlock

不過，英偉達並不打算止步於Gated DeltaNet，而是設計了一款比它更強的線性注意力模塊——JetBlock。

卷積對線性注意力模塊的準確率至關重要，然而，以往方法大多使用的是靜態卷積核，它們無法根據輸入自動調整特徵提取方式。

相比之下，JetBlock使用動態卷積，通過在線性注意力中引入一個卷積核生成器模塊，JetBlock能根據輸入特徵動態地產生卷積核。

結果顯示，JetBlock在數學推理和檢索任務上的準確率優於Gated DeltaNet，而且仍然保持了不錯的生成效率。

要是跟表現最差的Mamba2比起來，JetBlock的優勢就更明顯了。

硬件感知架構搜索

在確定了宏觀架構以及選擇了線性注意力模塊之后，英偉達團隊進一步進行了硬件感知架構搜索，用於優化核心超參數（key/value的維度、注意力頭的數量…）。

過去，參數規模通常被作為衡量模型效率的主要指標，用來指導架構設計。

但英偉達團隊認為這種方法並不理想，因為參數量並不能直接反映真實硬件上的效率。

對此，他們改進的方法是：以生成吞吐量作為直接目標來選擇超參數。

英偉達團隊發現，相比起參數量，KV緩存大小纔是影響長上下文和長文本生成吞吐量的最關鍵因素。而當KV緩存大小固定時，不同參數規模的模型，其生成吞吐量表現相似。

基於此，英偉達團隊選擇保持KV緩存大小與原始設計一致，然后在key維度、value維度和注意力頭數上進行小規模網格搜索。

實驗證明，優化后的版本在保持吞吐量不變的情況下，參數量增加（1.84億 vs 1.7億），同時數學準確率得到提升（34.8% vs 32.8%）（藍色行代表實驗組，灰色行代表對照組。）

綜上，PortNAS有望為目前的AI行業帶來三點影響。

1、推理階段GPU使用時長減少47倍，這讓LLM能夠以更快的速度完成高質量任務。

2、更小的內存需求，這使得更廉價的硬件部署成為可能。

3、更高吞吐量，意味着模型廠商可在現有基礎設施規模下服務更多用户。

而且，PostNAS提供低成本、高效率的架構探索方式，適用於任何預訓練Transformer。

所以基本上，任何廠商都可以在不重新訓練模型的情況下嵌入PortNAS，模型的成本可以大幅降低，同時準確率幾乎不會受到影響。

此外，Jet-Nemotron居然還是開源的。

通訊作者Han Cai在Github上表示Jet-Nemotron的代碼和預訓練模型將在法律審查完成后發佈。

感興趣的朋友可以查看文末的鏈接～

Grok-4-fast的背后是英偉達？

同時看到Grok-4-fast和Jet-Nemotron二者同樣驚艷且高度相似的表現，很難不讓人懷疑老馬和老黃這一次是不是聯手了。

在Reddit上，有網友推測Grok-4-Fast應該就是基於Jet-Nemotron創造的。

Jet-Nemotron可以在不犧牲模型性能的情況下，大幅減少推理所需的計算量，這與Grok-4-fast所展現出來的能力高度相似。

這一觀點能從數據上得到支撐——從Grok-4-fast的定價來看，其價格下降水平與NVIDIA對這種架構模型的預測相符（論文預計會便宜20倍到50倍）。

更重要的是，如果Jet-Nemotron能夠應用於Grok，那它同樣能被OpenAI、Anthropic、Google等公司部署。

也有網友不同意這種説法，認為Grok此次的降價也許只是一種營銷手段，並不能從中推斷出xAI是否採用了什麼新技術。

他們可能只是在燒錢獲取市場份額，我不認為你可以從中推斷出是採用了某種特定架構。

但是，即便Grok-4-fast沒有采用英偉達的技術，這篇論文也是極有價值的，因為Jet-Nemotron同樣可以被用來進一步降低成本。而且，xAI也不太可能在這麼短時間研究出來了另一種和Jet-Nemotron一樣效果顯著的技術。

當然，也可能是其他算法上的突破。如果真是這樣，那仍然是極具突破性的，因為Jet-Nemotron也可以被用來進一步降低成本。但説實話，XAI真的又發現了一個能讓價格再下降20倍以上的算法改進的可能性有多大呢？

不過，上述觀點都只是猜測，目前這些説法都未得到xAI驗證…

華人學者的又一力作

Grok-4-fast是否真的採用了這項技術我們不得而知，可以明確的是，在這項突破性研究成果背后，是華人學者的又一次集中發力——論文作者全部為華人。

論文的一作是顧煜賢，他是清華大學計算機科學與技術系交互式人工智能（CoAI）課題組的四年級博士生，師從黃民烈教授。

顧煜賢致力於提升LLM在整個生命周期中各個環節的效率，包括預訓練、下游適配以及推理階段。

近期，他的工作重點放在LLM的數據策劃策略研究、高效模型架構設計，以及運用知識蒸餾技術(knowledge distillation)進行語言模型壓縮。

此前，他曾在微軟亞洲研究院實習，由董力博士指導。他還曾作為訪問學生赴麻省理工學院HAN實驗室，導師為韓松教授。

論文的通訊作者是Han Cai，他目前是NVIDIA Research的一名研究科學家

在加入NVIDIA之前，Han Cai麻省理工學院EECS獲得了博士學位，他的本科和碩士均就讀於上海交通大學。

Han Cai的研究重心在於高效的基礎模型（擴散模型、LLM等）、EdgeAI和AutoML，除了Jet-Nemotron，他還參與了不少英偉達的重要項目，包括ProxylessNAS、Once-for-all…

目前，他的論文在Google Scholar上累計被引用超1萬次。

論文：https://arxiv.org/pdf/2508.15884v1

Github：https://github.com/NVlabs/Jet-Nemotron

參考鏈接：

[1]https://pub.towardsai.net/jet-nemotron-nvidias-new-ai-architecture-achieves-53x-speed-improvement-71a5cf2baeeb

[2]https://www.reddit.com/r/singularity/comments/1nmzqj5/there_is_a_very_real_possibility_that_google/

[3]https://t1101675.github.io/

[4]https://han-cai.github.io/

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

馬斯克新模型背后算法來自英偉達？？？

推薦文章

新股申購 | 長風藥業今起招股！一手入場費7449.38港元

華盛早報 | 最高100%！特朗普宣佈關税「連環炮」：涉藥品、卡車和家俱；小米美股ADR漲超4%

英特爾(INTC.US)成市場新寵！投資者搶購看漲期權押注漲勢延續

美股機會日報 | 黃仁勛再度減持英偉達！涉資超4000萬美元；美銀發聲：標普500指數沒有泡沫

瑞銀：全球第二大銅礦印尼Grasberg礦難停產 料明年全球銅供需缺口擴大 行業看好紫金礦業等

美股躲過「九月魔咒」？高盛警告：10月颶風又將來襲

昔日大客户蘋果(AAPL.US)或成「救星」？ 英特爾(INTC.US)廣發「英雄帖」求投資助力復興

9月25日外盤頭條：美對歐汽車關税調降至15% 英特爾尋求蘋果投資合作 甲骨文進行今年第二大發債交易

瑞銀：全球第二大銅礦印尼Grasberg礦難停產料明年全球銅供需缺口擴大行業看好紫金礦業等

昔日大客户蘋果(AAPL.US)或成「救星」？英特爾(INTC.US)廣發「英雄帖」求投資助力復興

9月25日外盤頭條：美對歐汽車關税調降至15% 英特爾尋求蘋果投資合作甲骨文進行今年第二大發債交易