熱門資訊> 正文
2025-10-26 12:03
(來源:機器之心)
自迴歸(AR)大語言模型逐 token 順序解碼的範式限制了推理效率;擴散 LLM(dLLM)以並行生成見長,但過去難以穩定跑贏自迴歸(AR)模型,尤其是在 KV Cache 複用、和 可變長度 支持上仍存挑戰。
Fast-dLLM v2 給出了一條務實路線:將預訓練 AR 模型適配為適配為能並行解碼的 Block-dLLM—— 且只需~1B tokens 量級的微調即可達到 「無損」 遷移,不必訓練數百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同時,將端到端吞吐顯著拉高,最高可達 2.5×。
作者單位:HKU、NVIDIA、MIT。
論文鏈接:https://arxiv.org/pdf/2509.26328
項目網站鏈接:https://nvlabs.github.io/Fast-dLLM/v2/
代碼鏈接:https://github.com/NVlabs/Fast-dLLM
核心看點
少量數據適配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用約 1B tokens 的微調就能適配成 Block Diffusion LLM,不必訓練數百 B tokens(如 Dream 需~580B tokens)。
架構上 「AR 友好」: 設計上 塊內雙向、塊間因果;配合互補掩碼與 token-shift,讓模型既保留 AR 的語義組織與可變長度能力,又獲得塊內並行帶來的效率增益。遷移過程更自然、數據效率高。
層級緩存 + 並行解碼:塊級 KV Cache + 子塊 DualCache,配合置信度閾值的並行解碼,端到端最高 2.5× 提速。
大模型驗證:在 7B 規模上保持與 AR 相當的生成質量下,吞吐對比 Qwen2.5-7B-Instruct 提升 2.54×。
原理與做法:從 AR 到 Block Diffusion
1)塊式擴散與 AR - 友好注意力
Fast-dLLM v2 按固定塊大小把序列切成若干塊:塊內雙向注意力以並行去噪,塊間保持左到右的因果關係,從而既能並行、又能沿用 AR 的語義組織、可變長度和 KV Cache;配合互補掩碼(complementary masking)與 token-shift,保證每個 token 都在 「可見 / 被遮」 兩種視角下學習,穩定恢復 AR 語義表徵。
2)層級緩存(Hierarchical Cache)
塊級緩存:已解碼塊的 KV 直接複用,天然支持 KV Cache。
子塊緩存(DualCache):在部分解碼的當前塊內部,同時緩存前綴與后綴的 KV 激活,減少迭代去噪揭示 / 復原時的重複計算,貼合併行細化流程。
3)置信度感知的並行解碼
延續 v1 的思路:當某位置的預測置信度超過閾值(如 0.9),即可並行確定多個 token,其余不確定位置保留待后續細化。在 GSM8K 上,閾值 0.9 時吞吐從 39.1→101.7 tokens/s,提速約 2.6×,精度影響可忽略。
性能結果
端到端加速:綜合實驗顯示,對標準 AR 解碼最高 2.5× 提速,同時維持生成質量。
7B 規模吞吐與精度:在 A100 上,Fast-dLLM v2(7B)吞吐為 Qwen2.5-7B-Instruct 的 2.54×;同時對比 Fast-dLLM-LLaDA 還有 +5.2% 的準確率提升(GSM8K)。
Batch / 硬件可擴展性:在 A100/H100 上隨 batch 增大,擴散解碼的並行優勢更明顯;A100 上可達~1.5× 吞吐加速,H100 上最高可達~1.8× 加速。
Benchmark 綜合得分:
1.5B:平均分 45.0,超過 Qwen2.5-1.5B 與 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后訓練數據集上對 Qwen 做的標準 NTP 微調 baseline);在同量級(≈1B 規模)的擴散類與 NTP 訓練的 AR 類模型里,屬於新的 SOTA。
7B:平均分 60.3,超過 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多數單項基準上持平或更好。評測覆蓋 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多項基準。
訓練成本
數據 / 算力成本:以~1B tokens 量級微調把 AR 模型適配為 Block Diffusion LLM(對比 Dream 的~500B tokens),門檻顯著降低;論文給出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具體訓練步數與配置,只需要幾個小時即可完成訓練,可復現性強。
總結
Fast-dLLM v2 提供了一條務實路線:用很少的數據(~1B tokens)把 AR 模型適配為 Block Diffusion LLM,相較等規模 AR 的端到端吞吐量約提升 2.5×,精度保持可比,並且關鍵開關(塊大小、閾值、緩存)都能工程化地按目標調優,這是一個成本與收益比較均衡的解法。