繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

一夜顛覆Sora神話,H200單卡5秒出片,全華人團隊開源AI引爆視頻圈

2025-08-07 15:27

單塊H200,5秒即生一個5秒視頻。

最近,UCSD、UC伯克利、MBZUAI三大機構聯手,祭出FastWan系視頻生成模型。

論文地址:https://arxiv.org/pdf/2505.13389

它的核心採用了「稀疏蒸餾」全新的訓練方案,實現了高效生成,讓視頻去噪速度實現70倍飆升。

基於FastVideo架構,FastWan2.1-1.3B在單張H200上,去噪時間僅1秒,5秒內生成了480p的5秒視頻。

在一張RTX 4090上,則耗時21秒生成一個視頻,去噪時間2.8秒。

若僅計算DiT處理時間

升級版FastWan2.2-5B,在單張H200上僅用16秒即可生成720P的5秒視頻。

FastWan模型權重、訓練方案和數據集全部開源

如今,終於實現AI實時視頻的生成了。

稀疏蒸餾,AI視頻進入極速模式

「稀疏蒸餾」究竟是什麼,能夠讓模型如此快速地生成視頻?

一直以來,視頻擴散模型成爲了AI視頻生成領域的主流,比如Sora採用了擴散模型+Transformer架構。

這些模型雖強大,卻長期受困於兩大瓶頸:

1. 生成視頻時,需要海量的去噪步驟

2. 處理長序列時的注意力二次方計算成本,高分辨率視頻必然面臨此問題。

就以Wan2.1-14B為例,模型需運行50次擴散步驟,生成5秒720P視頻需處理超8萬token,其中注意力操作甚至吞噬85%以上的推理時間。

此時此刻,「稀疏蒸餾」就成爲了大殺器。

作為FastWan的核心創新,它首次在統一框架中實現稀疏注意力與去噪步驟蒸餾的聯合訓練。

其本質是回答一個根本問題:在應用極端擴散壓縮時,如用3步替代50步,能否保留稀疏注意力的加速優勢?

先前研究認為並不可行,而最新論文則通過「視頻稀疏注意力」(VSA)改寫了答案。

傳統稀疏注意力,為何會在蒸餾中失效?

當前,現有的方法如STA、SVG,依賴的是多步去噪中的冗余性,來修剪注意力圖,通常僅對后期去噪步驟稀疏化。

但當蒸餾將50步壓縮至1-4步時,其依賴的冗余性徹底消失。

實驗證實,傳統方案在少於10步的設置下性能急劇退化——儘管稀疏注意力本身能帶來3倍加速,蒸餾卻可實現20倍以上增益。

要使稀疏注意力真正具備生產價值,必須使其與蒸餾訓練兼容。

視頻稀疏注意力(VSA)是動態稀疏注意力核心算法,能夠自主識別序列中的關鍵token。

不同於依賴啓發式規則的方案,VSA可在訓練過程中直接替代FlashAttention,通過數據驅動的方式學習最優稀疏模式,同時最大限度保持生成質量。

在步驟蒸餾過程中,當學生模型學習用更少步驟去噪時,VSA無需依賴多步去噪的冗余性來修剪注意力圖,而是能動態適應新的稀疏模式。

這使得VSA成為,首個完全兼容蒸餾訓練的稀疏注意力機制。甚至,他們甚至實現了VSA與蒸餾的同步訓練!

據團隊所知,這是稀疏注意力領域的重大突破。

三大組件,全適配

基於視頻稀疏注意力(VSA)技術,團隊創新性地提出了稀疏蒸餾方法。

這是一種將稀疏注意力訓練與步驟蒸餾相結合的模型后訓練技術。

它的核心思想,是讓一個「少步數+稀疏化」的學生模型學會匹配「完整步數+密集計算」教師模型的輸出分佈。

如下圖所示,該技術的整體框架包含以下關鍵要素:

稀疏學生網絡(VSA驅動,可訓練)

真實評分網絡(凍結,全注意力)

偽評分網絡(可訓練,全注意力)

這三個組件均基於Wan2.1模型初始化。

訓練時,經過稀疏蒸餾的學生網絡接收帶噪聲視頻輸入,通過VSA執行單步去噪生成輸出。

該輸出會被重新添加噪聲,隨后分別輸入到兩個全注意力評分網絡——它們各自執行一次全注意力去噪。

兩個分支輸出的差異構成分佈匹配梯度,通過反向傳播優化學生網絡;同時偽評分網絡會根據學生輸出的擴散損失進行更新。

這種架構的精妙之處在於:學生模型採用VSA保證計算效率,而兩個評分網絡保持全注意力,以確保訓練監督的高保真度。

這種架構的精妙之處在於:這種設計實現了運行時加速(學生模型)與蒸餾質量(評分網絡)的解耦,使得稀疏注意力能夠與激進的步數縮減策略兼容。

更廣泛地説,由於稀疏注意力僅作用於學生模型,該方案可適配各類蒸餾方法,包括一致性蒸餾、漸進式蒸餾或基於GAN的蒸餾損失等。

那麼,FastWan如何實現蒸餾的呢?

高質量數據對任何訓練方案都至關重要,尤其是對擴散模型而言。為此,研究人員選擇使用高質量的Wan模型自主生成合成數據集。

具體而言,採用Wan2.1-T2V-14B生成60萬條480P視頻和25萬條720P視頻,通過Wan2.2-TI2V-5B生成3.2萬條視頻。

採用DMD進行稀疏蒸餾時,需在GPU內存中同時加載三個140億參數大模型:

·學生模型

·可訓練偽分數模型

·凍結真分數模型

其中兩個模型(學生模型與偽分數模型)需持續訓練,既要存儲優化器狀態又要保留梯度,加之長序列長度的特性,使得內存效率成為關鍵挑戰。

為此,他們提出的關鍵解決方案是:

1. 通過FSDP2實現三模型的參數跨GPU分片,顯著降低內存開銷

2. 應用激活檢查點技術緩解長序列產生的高激活內存

3. 精細控制蒸餾各階段(如更新學生模型/偽分數模型時)的梯度計算開關

4. 引入梯度累積在有限顯存下提升有效批次規模

Wan2.1-T2V-1.3B的稀疏蒸餾在64張H200 GPU上運行4000步,總計消耗768 GPU小時。

一張卡,秒生視頻

在Scaling實驗中,研究團隊預訓練一個4.1億參數視頻DiT模型,潛在空間維度位(16, 32, 32)。

在保持87.5%稀疏度情況下,VSA取得的損失值與全注意力機制幾乎一致。

同時,它將注意力計算的FLOPS降低8倍,端到端訓練FLOPS減少2.53倍。

從6000萬擴展到14億參數規模,進一步證實了VSA始終能比全注意力機制實現更優的「帕累託前沿」。

為評估VSA的實際效果,團隊在Wan-14B生成的視頻潛空間(16×28×52)合成數據上,對Wan-1.3B進行了VSA微調。

如表2所示,採用VSA的模型在VBench評分上甚至超越了原始Wan-1.3B。

在極端稀疏條件下,與免訓練的注意力稀疏方法SVG對比時,VSA儘管稀疏度更高仍表現更優,驗證了稀疏注意力訓練的有效性。

實際應用中,Wan-1.3B的DiT推理時間從全注意力模式的31秒降至VSA模式的18秒。

VSA精細塊稀疏內核在長序列場景下,更加接近理論極限,相較於FlashAttention-3實現了近7倍加速。

即使計入粗粒度階段計算開銷,VSA仍保持6倍以上的加速優勢。

相比之下,採用相同塊稀疏掩碼(64×64塊大小)的FlexAttention僅獲得2倍加速。

結果顯示,將VSA應用於Wan-1.3B和Hunyuan模型時(圖4a),推理速度提升達2-3倍。

下圖5所示,研究團隊還檢測了經微調13億參數模型,在粗粒度階段生成的塊稀疏注意力,呈現高度動態性。

最后,團隊還對模型做了定性實驗,下圖展示了隨着訓練推進,模型逐漸適應稀疏注意力機制,最終恢復了生成連貫視頻的能力。

作者介紹

這個work來自於咱們的老朋友Hao AI Lab的FastVideo研究小組。

Peiyuan Zhang(張培源)

張培源是UCSD計算機科學與工程系一年級博士生,導師為Hao Zhang教授。

他曾在南洋理工大學擔任研究助理,師從Ziwei Liu。

他主要研究機器學習系統以及高效的視頻模型架構,是TinyLlama, lmms-eval, LongVA以及FastVideo的作者。

Yongqi Chen

Yongqi Chen是UCSD Hao AI Lab的研究實習生,導師是Hao Zhang教授。

他曾在密歇根大學(UMich)獲得機器人學碩士學位,此前於2023年以榮譽畢業生的身份畢業於浙江大學竺可楨學院,獲機器人工程學士學位。

現階段,他的研究方向聚焦高效視頻生成技術,致力於實現實時交互式視頻生成。

Will Lin

Will Lin是UCSD計算機科學與工程系Hao AI Lab的博士生,導師是Hao Zhang教授。

他在德克薩斯大學奧斯汀分校獲得計算機科學學士學位。

目前在Anyscale實習,是開源項目vLLM的活躍貢獻者。

Haofeng Huang(黃浩峰)

黃浩峰是清華姚班本科生,導師為Jianfei Chen 和 Jun Zhu教授。

目前,他主要研究方向為高效機器學習,重點關注注意力機制、量化加速,以及圖像/視頻壓縮技術。

參考資料:

https://x.com/haoailab/status/1952472986084372835

https://hao-ai-lab.github.io/blogs/fastvideo_post_training/

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。