NVIDIA港大MIT聯合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

2025-10-26 12:03

（來源：機器之心）

自迴歸（AR）大語言模型逐 token 順序解碼的範式限制了推理效率；擴散 LLM（dLLM）以並行生成見長，但過去難以穩定跑贏自迴歸（AR）模型，尤其是在 KV Cache 複用、和可變長度支持上仍存挑戰。

Fast-dLLM v2 給出了一條務實路線：將預訓練 AR 模型適配為適配為能並行解碼的 Block-dLLM—— 且只需～1B tokens 量級的微調即可達到「無損」遷移，不必訓練數百 B tokens（如 Dream 需～580B tokens）。在 A100/H100 上，它在保持精度的同時，將端到端吞吐顯著拉高，最高可達 2.5×。

作者單位：HKU、NVIDIA、MIT。
論文鏈接：https://arxiv.org/pdf/2509.26328
項目網站鏈接：https://nvlabs.github.io/Fast-dLLM/v2/
代碼鏈接：https://github.com/NVlabs/Fast-dLLM

核心看點

少量數據適配（~1B tokens）：已有的 AR 模型（如 Qwen2.5-Instruct 1.5B/7B）用約 1B tokens 的微調就能適配成 Block Diffusion LLM，不必訓練數百 B tokens（如 Dream 需～580B tokens）。
架構上「AR 友好」：設計上塊內雙向、塊間因果；配合互補掩碼與 token-shift，讓模型既保留 AR 的語義組織與可變長度能力，又獲得塊內並行帶來的效率增益。遷移過程更自然、數據效率高。
層級緩存 + 並行解碼：塊級 KV Cache + 子塊 DualCache，配合置信度閾值的並行解碼，端到端最高 2.5× 提速。
大模型驗證：在 7B 規模上保持與 AR 相當的生成質量下，吞吐對比 Qwen2.5-7B-Instruct 提升 2.54×。

原理與做法：從 AR 到 Block Diffusion

1）塊式擴散與 AR - 友好注意力

Fast-dLLM v2 按固定塊大小把序列切成若干塊：塊內雙向注意力以並行去噪，塊間保持左到右的因果關係，從而既能並行、又能沿用 AR 的語義組織、可變長度和 KV Cache；配合互補掩碼（complementary masking）與 token-shift，保證每個 token 都在「可見 / 被遮」兩種視角下學習，穩定恢復 AR 語義表徵。

2）層級緩存（Hierarchical Cache）

塊級緩存：已解碼塊的 KV 直接複用，天然支持 KV Cache。
子塊緩存（DualCache）：在部分解碼的當前塊內部，同時緩存前綴與后綴的 KV 激活，減少迭代去噪揭示 / 復原時的重複計算，貼合併行細化流程。

3）置信度感知的並行解碼

延續 v1 的思路：當某位置的預測置信度超過閾值（如 0.9），即可並行確定多個 token，其余不確定位置保留待后續細化。在 GSM8K 上，閾值 0.9 時吞吐從 39.1→101.7 tokens/s，提速約 2.6×，精度影響可忽略。

性能結果

端到端加速：綜合實驗顯示，對標準 AR 解碼最高 2.5× 提速，同時維持生成質量。
7B 規模吞吐與精度：在 A100 上，Fast-dLLM v2（7B）吞吐為 Qwen2.5-7B-Instruct 的 2.54×；同時對比 Fast-dLLM-LLaDA 還有 +5.2% 的準確率提升（GSM8K）。
Batch / 硬件可擴展性：在 A100/H100 上隨 batch 增大，擴散解碼的並行優勢更明顯；A100 上可達～1.5× 吞吐加速，H100 上最高可達～1.8× 加速。

Benchmark 綜合得分：

1.5B：平均分 45.0，超過 Qwen2.5-1.5B 與 Qwen2.5-1.5B-Nemo-FT（使用相同的 LLaMA-Nemotron 后訓練數據集上對 Qwen 做的標準 NTP 微調 baseline）；在同量級（≈1B 規模）的擴散類與 NTP 訓練的 AR 類模型里，屬於新的 SOTA。
7B：平均分 60.3，超過 Qwen2.5-7B-Nemo-FT（59.6）和 Dream（57.6）；多數單項基準上持平或更好。評測覆蓋 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多項基準。

訓練成本

數據 / 算力成本：以～1B tokens 量級微調把 AR 模型適配為 Block Diffusion LLM（對比 Dream 的～500B tokens），門檻顯著降低；論文給出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具體訓練步數與配置，只需要幾個小時即可完成訓練，可復現性強。

總結

Fast-dLLM v2 提供了一條務實路線：用很少的數據（~1B tokens）把 AR 模型適配為 Block Diffusion LLM，相較等規模 AR 的端到端吞吐量約提升 2.5×，精度保持可比，並且關鍵開關（塊大小、閾值、緩存）都能工程化地按目標調優，這是一個成本與收益比較均衡的解法。

NVIDIA港大MIT聯合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

推薦文章

美股機會日報 | 停擺已達36天！美政府停擺時間創史上最長紀錄；就業風向標「小非農」今晚公佈

11月財報預告 | 明星科網股財報在即！英偉達、騰訊控股、京東等巨頭將發財報，誰將帶來驚喜？

遭馬斯克粉絲威脅「銷户」，嘉信理財決定投票支持其薪酬方案

Palantir CEO炮轟「大空頭」：做空我們和英偉達「簡直瘋了」！

Tempus AI(TEM.US)Q3營收同比增84.7%超市場預期 淨虧損8000萬美元同比擴大5.5%

馬斯克稱特斯拉AI5芯片2027年才能量產，AI6要到2028年

AMD第三季度營收92.46億美元 淨利潤同比增長61%

11月5日外盤頭條：美國政府停擺追平紀錄 IBM裁員數千人 比特幣跌破10萬美元 蘋果擬推出低價筆記本電腦

Tempus AI(TEM.US)Q3營收同比增84.7%超市場預期淨虧損8000萬美元同比擴大5.5%

AMD第三季度營收92.46億美元淨利潤同比增長61%

11月5日外盤頭條：美國政府停擺追平紀錄 IBM裁員數千人比特幣跌破10萬美元蘋果擬推出低價筆記本電腦