熱門資訊> 正文
2025-10-07 08:08
(來源:機器之心)
清華大學朱軍教授團隊, NVIDIA Deep Imagination 研究組與斯坦福 Stefano Ermon 團隊聯合提出了一種全新的擴散模型強化學習(RL)範式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。該方法首次突破現有 RL 對擴散模型的基本假設,直接在前向加噪過程(forward process)上進行優化,在徹底擺脫似然估計與特定採樣器依賴的同時,顯著提升了訓練效率與生成質量。文章共同一作鄭凱文和陳華玉為清華大學計算機系博士生。
論文標題:DiffusionNFT: Online Diffusion Reinforcement with Forward Process
論文鏈接:https://arxiv.org/abs/2509.16117
代碼倉庫:https://github.com/NVlabs/DiffusionNFT
背景 | 擴散模型的 RL 困境
近年來,強化學習在大語言模型(LLMs)后訓練中的巨大成功,催生了人們將類似方法遷移到擴散模型的探索。例如,FlowGRPO 等方法通過將擴散採樣過程離散化為多步決策問題,從而在反向過程上應用策略梯度優化。然而,這一思路存在多重根本性侷限:
1. 似然估計困難:自迴歸模型的似然可精確計算,而擴散模型的似然只能以高開銷近似,導致 RL 優化過程存在系統性偏差。
2. 前向–反向不一致:現有方法僅在反向去噪過程中施加優化,沒有對擴散模型原生的前向加噪過程的一致性進行約束,模型在訓練后可能退化為與前向不一致的級聯高斯。
3. 採樣器受限:需要依賴特定的一階 SDE 採樣器,無法充分發揮 ODE 或高階求解器在效率與質量上的優勢。
4.CFG 依賴與複雜性:現有 RL 方案在集成無分類器引導 (CFG) 時需要在訓練中對雙模型進行優化,效率低下。
因此,如何設計一種既能保留擴散模型原生訓練框架,又能高效融入強化學習信號的統一方法,是亟待探索的問題。
方法 | 基於前向過程的負例感知微調
DiffusionNFT 提出了一個全新的思路:把強化學習直接作用於擴散的前向加噪過程,而非反向去噪軌跡。這一設計帶來了範式性的轉變。
核心機制包括:
正負對比的改進方向:在採樣生成中,利用獎勵信號將樣本劃分爲正例與負例,從而定義出一個隱式的 「改進方向」。與只使用正樣本的拒絕採樣微調(Rejection FineTuning, RFT)不同,DiffusionNFT 顯式利用負樣本信號,確保模型有效 「避開」 低質量區域。
負例感知微調 (Negative-aware FineTuning, NFT):通過一種巧妙的隱式參數化方式,從目標模型同時定義正向策略與負向策略,將正負分佈對比轉化為單一網絡的訓練目標,不需額外判別器或引導模型。
強化指導 (Reinforcement Guidance):在數學上,DiffusionNFT 將優化目標刻畫為對舊策略分佈的偏移量 ∆,這一過程與 CFG 類似,但不依賴雙模型結構,而是內生於訓練目標中。
這樣的設計使 DiffusionNFT 同時滿足以下優勢:
1. 前向一致性:訓練目標嚴格符合擴散的 Fokker–Planck 方程,不破壞與前向過程的一致性,使得訓練后的模型仍然是良定義的擴散模型。
2. 採樣器自由:訓練與採樣徹底解耦,可使用任意黑盒 ODE/SDE 求解器,擺脫對一階 SDE 的依賴;同時在訓練時只需存儲最終樣本與對應獎勵值,無需整條採樣軌跡。
3. 似然無關:不再需要變分下界或反向軌跡似然估計,訓練只依賴生成圖像與獎勵。
4.CFG-free 原生優化:直接學習到獎勵引導的生成能力,避免 CFG 的推理開銷,同時仍可兼容 CFG 進一步提升性能。
實驗 | 高效性與生成質量
研究團隊在多個獎勵模型上驗證了 DiffusionNFT 的有效性。主要結果包括:
大幅效率提升:在 GenEval 任務上,DiffusionNFT 僅需 1k 步 即可將得分從 0.24 → 0.98,而 FlowGRPO 需超過 5k 步才能達到 0.95。整體上,DiffusionNFT 在不同任務上表現出 3×~25× 的訓練效率優勢。
CFG-free 場景下顯著提升:即便完全不依賴 CFG,DiffusionNFT 也能在美感、對齊度等方面顯著優於原始模型。
多獎勵聯合優化:在 SD3.5-Medium 上同時優化 GenEval、OCR、PickScore、ClipScore、HPSv2.1 等多種獎勵,最終模型在所有指標上均超越原始模型,與只針對單一獎勵進行優化的 FlowGRPO 持平,並超過更大規模的 SD3.5-L 與 FLUX.1-Dev 模型。
展望 | 向統一的生成對齊範式邁進
DiffusionNFT 的提出,不僅為擴散模型的強化學習提供了一個高效、簡潔且理論完備的新框架,也對更廣泛的生成模型對齊研究具有啓發意義。從語言模型到視覺生成,DiffusionNFT 展示了負例感知 + 前向一致性普適價值。它打破了似然估計與反向軌跡的限制,建立起監督學習與強化學習之間的橋樑。在未來,DiffusionNFT 有望推廣至多模態生成、視頻生成以及大模型對齊等更復雜場景,成為統一的生成優化範式。