熱門資訊> 正文
2025-08-07 15:27
單塊H200,5秒即生一個5秒視頻。
最近,UCSD、UC伯克利、MBZUAI三大機構聯手,祭出FastWan系視頻生成模型。
論文地址:https://arxiv.org/pdf/2505.13389
它的核心採用了「稀疏蒸餾」全新的訓練方案,實現了高效生成,讓視頻去噪速度實現70倍飆升。
基於FastVideo架構,FastWan2.1-1.3B在單張H200上,去噪時間僅1秒,5秒內生成了480p的5秒視頻。
在一張RTX 4090上,則耗時21秒生成一個視頻,去噪時間2.8秒。
若僅計算DiT處理時間
升級版FastWan2.2-5B,在單張H200上僅用16秒即可生成720P的5秒視頻。
FastWan模型權重、訓練方案和數據集全部開源
如今,終於實現AI實時視頻的生成了。
「稀疏蒸餾」究竟是什麼,能夠讓模型如此快速地生成視頻?
一直以來,視頻擴散模型成爲了AI視頻生成領域的主流,比如Sora採用了擴散模型+Transformer架構。
這些模型雖強大,卻長期受困於兩大瓶頸:
1. 生成視頻時,需要海量的去噪步驟
2. 處理長序列時的注意力二次方計算成本,高分辨率視頻必然面臨此問題。
就以Wan2.1-14B為例,模型需運行50次擴散步驟,生成5秒720P視頻需處理超8萬token,其中注意力操作甚至吞噬85%以上的推理時間。
此時此刻,「稀疏蒸餾」就成爲了大殺器。
作為FastWan的核心創新,它首次在統一框架中實現稀疏注意力與去噪步驟蒸餾的聯合訓練。
其本質是回答一個根本問題:在應用極端擴散壓縮時,如用3步替代50步,能否保留稀疏注意力的加速優勢?
先前研究認為並不可行,而最新論文則通過「視頻稀疏注意力」(VSA)改寫了答案。
傳統稀疏注意力,為何會在蒸餾中失效?
當前,現有的方法如STA、SVG,依賴的是多步去噪中的冗余性,來修剪注意力圖,通常僅對后期去噪步驟稀疏化。
但當蒸餾將50步壓縮至1-4步時,其依賴的冗余性徹底消失。
實驗證實,傳統方案在少於10步的設置下性能急劇退化——儘管稀疏注意力本身能帶來3倍加速,蒸餾卻可實現20倍以上增益。
要使稀疏注意力真正具備生產價值,必須使其與蒸餾訓練兼容。
視頻稀疏注意力(VSA)是動態稀疏注意力核心算法,能夠自主識別序列中的關鍵token。
不同於依賴啓發式規則的方案,VSA可在訓練過程中直接替代FlashAttention,通過數據驅動的方式學習最優稀疏模式,同時最大限度保持生成質量。
在步驟蒸餾過程中,當學生模型學習用更少步驟去噪時,VSA無需依賴多步去噪的冗余性來修剪注意力圖,而是能動態適應新的稀疏模式。
這使得VSA成為,首個完全兼容蒸餾訓練的稀疏注意力機制。甚至,他們甚至實現了VSA與蒸餾的同步訓練!
據團隊所知,這是稀疏注意力領域的重大突破。
基於視頻稀疏注意力(VSA)技術,團隊創新性地提出了稀疏蒸餾方法。
這是一種將稀疏注意力訓練與步驟蒸餾相結合的模型后訓練技術。
它的核心思想,是讓一個「少步數+稀疏化」的學生模型學會匹配「完整步數+密集計算」教師模型的輸出分佈。
如下圖所示,該技術的整體框架包含以下關鍵要素:
稀疏學生網絡(VSA驅動,可訓練)
真實評分網絡(凍結,全注意力)
偽評分網絡(可訓練,全注意力)
這三個組件均基於Wan2.1模型初始化。
訓練時,經過稀疏蒸餾的學生網絡接收帶噪聲視頻輸入,通過VSA執行單步去噪生成輸出。
該輸出會被重新添加噪聲,隨后分別輸入到兩個全注意力評分網絡——它們各自執行一次全注意力去噪。
兩個分支輸出的差異構成分佈匹配梯度,通過反向傳播優化學生網絡;同時偽評分網絡會根據學生輸出的擴散損失進行更新。
這種架構的精妙之處在於:學生模型採用VSA保證計算效率,而兩個評分網絡保持全注意力,以確保訓練監督的高保真度。
這種架構的精妙之處在於:這種設計實現了運行時加速(學生模型)與蒸餾質量(評分網絡)的解耦,使得稀疏注意力能夠與激進的步數縮減策略兼容。
更廣泛地説,由於稀疏注意力僅作用於學生模型,該方案可適配各類蒸餾方法,包括一致性蒸餾、漸進式蒸餾或基於GAN的蒸餾損失等。
那麼,FastWan如何實現蒸餾的呢?
高質量數據對任何訓練方案都至關重要,尤其是對擴散模型而言。為此,研究人員選擇使用高質量的Wan模型自主生成合成數據集。
具體而言,採用Wan2.1-T2V-14B生成60萬條480P視頻和25萬條720P視頻,通過Wan2.2-TI2V-5B生成3.2萬條視頻。
採用DMD進行稀疏蒸餾時,需在GPU內存中同時加載三個140億參數大模型:
·學生模型
·可訓練偽分數模型
·凍結真分數模型
其中兩個模型(學生模型與偽分數模型)需持續訓練,既要存儲優化器狀態又要保留梯度,加之長序列長度的特性,使得內存效率成為關鍵挑戰。
為此,他們提出的關鍵解決方案是:
1. 通過FSDP2實現三模型的參數跨GPU分片,顯著降低內存開銷
2. 應用激活檢查點技術緩解長序列產生的高激活內存
3. 精細控制蒸餾各階段(如更新學生模型/偽分數模型時)的梯度計算開關
4. 引入梯度累積在有限顯存下提升有效批次規模
Wan2.1-T2V-1.3B的稀疏蒸餾在64張H200 GPU上運行4000步,總計消耗768 GPU小時。
在Scaling實驗中,研究團隊預訓練一個4.1億參數視頻DiT模型,潛在空間維度位(16, 32, 32)。
在保持87.5%稀疏度情況下,VSA取得的損失值與全注意力機制幾乎一致。
同時,它將注意力計算的FLOPS降低8倍,端到端訓練FLOPS減少2.53倍。
從6000萬擴展到14億參數規模,進一步證實了VSA始終能比全注意力機制實現更優的「帕累託前沿」。
為評估VSA的實際效果,團隊在Wan-14B生成的視頻潛空間(16×28×52)合成數據上,對Wan-1.3B進行了VSA微調。
如表2所示,採用VSA的模型在VBench評分上甚至超越了原始Wan-1.3B。
在極端稀疏條件下,與免訓練的注意力稀疏方法SVG對比時,VSA儘管稀疏度更高仍表現更優,驗證了稀疏注意力訓練的有效性。
實際應用中,Wan-1.3B的DiT推理時間從全注意力模式的31秒降至VSA模式的18秒。
VSA精細塊稀疏內核在長序列場景下,更加接近理論極限,相較於FlashAttention-3實現了近7倍加速。
即使計入粗粒度階段計算開銷,VSA仍保持6倍以上的加速優勢。
相比之下,採用相同塊稀疏掩碼(64×64塊大小)的FlexAttention僅獲得2倍加速。
結果顯示,將VSA應用於Wan-1.3B和Hunyuan模型時(圖4a),推理速度提升達2-3倍。
下圖5所示,研究團隊還檢測了經微調13億參數模型,在粗粒度階段生成的塊稀疏注意力,呈現高度動態性。
最后,團隊還對模型做了定性實驗,下圖展示了隨着訓練推進,模型逐漸適應稀疏注意力機制,最終恢復了生成連貫視頻的能力。
這個work來自於咱們的老朋友Hao AI Lab的FastVideo研究小組。
Peiyuan Zhang(張培源)
張培源是UCSD計算機科學與工程系一年級博士生,導師為Hao Zhang教授。
他曾在南洋理工大學擔任研究助理,師從Ziwei Liu。
他主要研究機器學習系統以及高效的視頻模型架構,是TinyLlama, lmms-eval, LongVA以及FastVideo的作者。
Yongqi Chen
Yongqi Chen是UCSD Hao AI Lab的研究實習生,導師是Hao Zhang教授。
他曾在密歇根大學(UMich)獲得機器人學碩士學位,此前於2023年以榮譽畢業生的身份畢業於浙江大學竺可楨學院,獲機器人工程學士學位。
現階段,他的研究方向聚焦高效視頻生成技術,致力於實現實時交互式視頻生成。
Will Lin
Will Lin是UCSD計算機科學與工程系Hao AI Lab的博士生,導師是Hao Zhang教授。
他在德克薩斯大學奧斯汀分校獲得計算機科學學士學位。
目前在Anyscale實習,是開源項目vLLM的活躍貢獻者。
Haofeng Huang(黃浩峰)
黃浩峰是清華姚班本科生,導師為Jianfei Chen 和 Jun Zhu教授。
目前,他主要研究方向為高效機器學習,重點關注注意力機制、量化加速,以及圖像/視頻壓縮技術。
參考資料:
https://x.com/haoailab/status/1952472986084372835
https://hao-ai-lab.github.io/blogs/fastvideo_post_training/
本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。