繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

清華聯手英偉達打造擴散模型新蒸餾範式!視頻生成提速50倍,4步出片不穿模

2025-10-22 17:09

rCM團隊 投稿

量子位 | 公眾號 QbitAI

讓視頻生成提速50倍,不穿模還不糊字。

新蒸餾範式讓Wan2.1 14B僅需4步就生成吃火鍋視頻:

這是清華大學朱軍教授團隊, NVIDIA Deep Imagination研究組聯合提出的一種全新的大規模擴散模型蒸餾範式——

分數正則化連續時間一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。

該方法首次將連續時間一致性蒸餾成功擴展至百億參數級別的文生圖和文生視頻模型,解決了現有方法在真實應用場景中的瓶頸。

通過引入前向-反向散度聯合優化框架,rCM在大幅提升推理速度(高達50倍)的同時,兼顧了生成結果的高質量與高多樣性。

下面具體來看。

連續時間一致性蒸餾:從學術「刷點」到應用落地

近年來,以擴散模型為代表的生成模型取得了巨大成功,但其迭代採樣的慢推理速度始終是阻礙其廣泛應用的核心障礙。

為解決此問題,模型蒸餾技術應運而生,其中,OpenAI近期提出的連續時間一致性模型 (sCM),因其理論的優雅性和在學術數據集上的良好表現而備受關注。

今年5月份,何愷明加持的MeanFlow,作為sCM的熱門變體,在學術界掀起了研究熱潮。

然而,儘管相關研究層出不窮,但它們大多侷限於在ImageNet等學術數據集上進行「小打小鬧」式的驗證,距離真實世界中動輒數十億、上百億參數的大規模文生圖、文生視頻應用場景相去甚遠。

究其原因,sCM/MeanFlow依賴的雅可比-向量積 (Jacobian-Vector Product, JVP) 計算在現有深度學習框架下存在巨大的工程挑戰,尤其是在與FlashAttention-2、序列並行等大模型訓練「標配」技術結合時,這使得sCM迟迟未能在大模型時代兑現其潛力。

同時,學術界關心的FID等指標,往往不能很好的衡量真實應用場景下的細節生成,如文生圖時對細小文字的渲染。因此,sCM/MeanFlow在大規模應用中的效果亟待驗證

rCM:前向-反向散度聯合優化,實現質量與多樣性「雙贏」

爲了打破這一僵局,團隊首先從底層「硬骨頭」啃起。

通過自研FlashAttention-2 JVP CUDA算子併兼容序列並行等分佈式訓練策略,首次成功將連續時間一致性蒸餾應用到CosmosWan2.1等業界領先的大模型上。

然而,初步的實驗暴露出單純sCM的深層問題:模型在生成精細紋理(如文字)和保證視頻的時序穩定性方面存在明顯缺陷。

理論分析指出,這是由於sCM所依賴的前向散度(Forward Divergence)優化目標具有「模式覆蓋(mode-covering)」的傾向,會因誤差累積導致生成樣本質量下降。

受此啓發,團隊創新性地提出了rCM

rCM 在sCM的基礎上,引入了基於分數蒸餾的反向散度(Reverse Divergence)作為正則項,構建了一個前向-反向聯合蒸餾框架。

  • 前向散度(sCM)

    訓練數據為真實數據或教師合成的高質量數據,保證模型能覆蓋真實數據的全部模式,從而確保生成結果的高多樣性

  • 反向散度(Score Distillation)

    學生模型只在自己生成的樣本上被監督,強制模型聚焦於高密度(高質量)數據區域,具有「模式尋求(mode-seeking)」的特性,從而顯著提升生成結果的高質量

這種聯合優化,使得rCM能夠取長補短,在保持sCM高多樣性優勢的同時,有效修復其質量短板,最終實現「魚與熊掌兼得」。

實驗:2-4步媲美教師模型,多樣性超越SOTA

rCM在多個大規模文生圖和文生視頻任務中展現了卓越的性能,將教師模型上百步的採樣過程壓縮至驚人的1-4步,實現了15-50倍的推理加速。

  • 性能媲美甚至超越教師模型

    在T2I任務的GenEval評測和T2V任務的VBench評測中,4步採樣的rCM模型在多個指標上追平甚至超越了需要數百步採樣的教師模型。

同時,rCM在細節文字渲染等方面表現良好。

  • 多樣性顯著優勢

Wan2.1 1.3B使用不同算法蒸餾后的4步生成結果

    即便在1-2步的極限採樣設置下,rCM依然能產出高質量、細節豐富的圖像和視頻。具體地,對於簡單的圖像提示詞只需1步生成,複雜的圖像和視頻則需2-4步。

    rCM不僅提供了一個無需多階段訓練與複雜超參搜索的高效蒸餾方案,還揭示了結合前向與反向散度是提升生成模型性能的統一範式

    rCM未來將被更廣泛地應用在NVIDIA的Cosmos系列世界模型中。

    感興趣的朋友可到原文查看更多細節~

    論文地址:https://arxiv.org/abs/2510.08431代碼地址:https://github.com/NVlabs/rcm

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。