繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

NVIDIA港大MIT聯合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

2025-10-26 12:03

(來源:機器之心)

自迴歸(AR)大語言模型逐 token 順序解碼的範式限制了推理效率;擴散 LLM(dLLM)以並行生成見長,但過去難以穩定跑贏自迴歸(AR)模型,尤其是在 KV Cache 複用、和 可變長度 支持上仍存挑戰。

Fast-dLLM v2 給出了一條務實路線:將預訓練 AR 模型適配為適配為能並行解碼的 Block-dLLM—— 且只需~1B tokens 量級的微調即可達到 「無損」 遷移,不必訓練數百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同時,將端到端吞吐顯著拉高,最高可達 2.5×

  • 作者單位:HKU、NVIDIA、MIT。

  • 論文鏈接:https://arxiv.org/pdf/2509.26328

  • 項目網站鏈接:https://nvlabs.github.io/Fast-dLLM/v2/

  • 代碼鏈接:https://github.com/NVlabs/Fast-dLLM

核心看點

  • 少量數據適配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用約 1B tokens 的微調就能適配成 Block Diffusion LLM,不必訓練數百 B tokens(如 Dream 需~580B tokens)。 

  • 架構上 「AR 友好」: 設計上 塊內雙向、塊間因果;配合互補掩碼與 token-shift,讓模型既保留 AR 的語義組織與可變長度能力,又獲得塊內並行帶來的效率增益。遷移過程更自然、數據效率高。

  • 層級緩存 + 並行解碼:塊級 KV Cache + 子塊 DualCache,配合置信度閾值的並行解碼,端到端最高 2.5× 提速。 

  • 大模型驗證:在 7B 規模上保持與 AR 相當的生成質量下,吞吐對比 Qwen2.5-7B-Instruct 提升 2.54×。

原理與做法:從 AR 到 Block Diffusion 

 1)塊式擴散與 AR - 友好注意力

Fast-dLLM v2 按固定塊大小把序列切成若干塊:塊內雙向注意力以並行去噪,塊間保持左到右的因果關係,從而既能並行、又能沿用 AR 的語義組織、可變長度和 KV Cache;配合互補掩碼(complementary masking)與 token-shift,保證每個 token 都在 「可見 / 被遮」 兩種視角下學習,穩定恢復 AR 語義表徵。

2)層級緩存(Hierarchical Cache)

  • 塊級緩存:已解碼塊的 KV 直接複用,天然支持 KV Cache。

  • 子塊緩存(DualCache):在部分解碼的當前塊內部,同時緩存前綴與后綴的 KV 激活,減少迭代去噪揭示 / 復原時的重複計算,貼合併行細化流程。

3)置信度感知的並行解碼

延續 v1 的思路:當某位置的預測置信度超過閾值(如 0.9),即可並行確定多個 token,其余不確定位置保留待后續細化。在 GSM8K 上,閾值 0.9 時吞吐從 39.1→101.7 tokens/s,提速約 2.6×,精度影響可忽略。

性能結果

  • 端到端加速:綜合實驗顯示,對標準 AR 解碼最高 2.5× 提速,同時維持生成質量。

  • 7B 規模吞吐與精度:在 A100 上,Fast-dLLM v2(7B)吞吐為 Qwen2.5-7B-Instruct 的 2.54×;同時對比 Fast-dLLM-LLaDA 還有 +5.2% 的準確率提升(GSM8K)。

  • Batch / 硬件可擴展性:在 A100/H100 上隨 batch 增大,擴散解碼的並行優勢更明顯;A100 上可達~1.5× 吞吐加速,H100 上最高可達~1.8× 加速。

  • Benchmark 綜合得分:

  • 1.5B:平均分 45.0,超過 Qwen2.5-1.5B 與 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后訓練數據集上對 Qwen 做的標準 NTP 微調 baseline);在同量級(≈1B 規模)的擴散類與 NTP 訓練的 AR 類模型里,屬於新的 SOTA。

  • 7B:平均分 60.3,超過 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多數單項基準上持平或更好。評測覆蓋 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多項基準。

訓練成本

數據 / 算力成本:以~1B tokens 量級微調把 AR 模型適配為 Block Diffusion LLM(對比 Dream 的~500B tokens),門檻顯著降低;論文給出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具體訓練步數與配置,只需要幾個小時即可完成訓練,可復現性強。 

總結

Fast-dLLM v2 提供了一條務實路線:用很少的數據(~1B tokens)把 AR 模型適配為 Block Diffusion LLM,相較等規模 AR 的端到端吞吐量約提升 2.5×,精度保持可比,並且關鍵開關(塊大小、閾值、緩存)都能工程化地按目標調優,這是一個成本與收益比較均衡的解法。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。