熱門資訊> 正文

一夜顛覆Sora神話，H200單卡5秒出片，全華人團隊開源AI引爆視頻圈

2025-08-07 15:27

單塊H200，5秒即生一個5秒視頻。

最近，UCSD、UC伯克利、MBZUAI三大機構聯手，祭出FastWan系視頻生成模型。

論文地址：https://arxiv.org/pdf/2505.13389

它的核心採用了「稀疏蒸餾」全新的訓練方案，實現了高效生成，讓視頻去噪速度實現70倍飆升。

基於FastVideo架構，FastWan2.1-1.3B在單張H200上，去噪時間僅1秒，5秒內生成了480p的5秒視頻。

在一張RTX 4090上，則耗時21秒生成一個視頻，去噪時間2.8秒。

若僅計算DiT處理時間

升級版FastWan2.2-5B，在單張H200上僅用16秒即可生成720P的5秒視頻。

FastWan模型權重、訓練方案和數據集全部開源

如今，終於實現AI實時視頻的生成了。

稀疏蒸餾，AI視頻進入極速模式

「稀疏蒸餾」究竟是什麼，能夠讓模型如此快速地生成視頻？

一直以來，視頻擴散模型成爲了AI視頻生成領域的主流，比如Sora採用了擴散模型+Transformer架構。

這些模型雖強大，卻長期受困於兩大瓶頸：

1. 生成視頻時，需要海量的去噪步驟

2. 處理長序列時的注意力二次方計算成本，高分辨率視頻必然面臨此問題。

就以Wan2.1-14B為例，模型需運行50次擴散步驟，生成5秒720P視頻需處理超8萬token，其中注意力操作甚至吞噬85%以上的推理時間。

此時此刻，「稀疏蒸餾」就成爲了大殺器。

作為FastWan的核心創新，它首次在統一框架中實現稀疏注意力與去噪步驟蒸餾的聯合訓練。

其本質是回答一個根本問題：在應用極端擴散壓縮時，如用3步替代50步，能否保留稀疏注意力的加速優勢？

先前研究認為並不可行，而最新論文則通過「視頻稀疏注意力」（VSA）改寫了答案。

傳統稀疏注意力，為何會在蒸餾中失效？

當前，現有的方法如STA、SVG，依賴的是多步去噪中的冗余性，來修剪注意力圖，通常僅對后期去噪步驟稀疏化。

但當蒸餾將50步壓縮至1-4步時，其依賴的冗余性徹底消失。

實驗證實，傳統方案在少於10步的設置下性能急劇退化——儘管稀疏注意力本身能帶來3倍加速，蒸餾卻可實現20倍以上增益。

要使稀疏注意力真正具備生產價值，必須使其與蒸餾訓練兼容。

視頻稀疏注意力（VSA）是動態稀疏注意力核心算法，能夠自主識別序列中的關鍵token。

不同於依賴啓發式規則的方案，VSA可在訓練過程中直接替代FlashAttention，通過數據驅動的方式學習最優稀疏模式，同時最大限度保持生成質量。

在步驟蒸餾過程中，當學生模型學習用更少步驟去噪時，VSA無需依賴多步去噪的冗余性來修剪注意力圖，而是能動態適應新的稀疏模式。

這使得VSA成為，首個完全兼容蒸餾訓練的稀疏注意力機制。甚至，他們甚至實現了VSA與蒸餾的同步訓練！

據團隊所知，這是稀疏注意力領域的重大突破。

三大組件，全適配

基於視頻稀疏注意力（VSA）技術，團隊創新性地提出了稀疏蒸餾方法。

這是一種將稀疏注意力訓練與步驟蒸餾相結合的模型后訓練技術。

它的核心思想，是讓一個「少步數+稀疏化」的學生模型學會匹配「完整步數+密集計算」教師模型的輸出分佈。

如下圖所示，該技術的整體框架包含以下關鍵要素：

稀疏學生網絡（VSA驅動，可訓練）

真實評分網絡（凍結，全注意力）

偽評分網絡（可訓練，全注意力）

這三個組件均基於Wan2.1模型初始化。

訓練時，經過稀疏蒸餾的學生網絡接收帶噪聲視頻輸入，通過VSA執行單步去噪生成輸出。

該輸出會被重新添加噪聲，隨后分別輸入到兩個全注意力評分網絡——它們各自執行一次全注意力去噪。

兩個分支輸出的差異構成分佈匹配梯度，通過反向傳播優化學生網絡；同時偽評分網絡會根據學生輸出的擴散損失進行更新。

這種架構的精妙之處在於：學生模型採用VSA保證計算效率，而兩個評分網絡保持全注意力，以確保訓練監督的高保真度。

這種架構的精妙之處在於：這種設計實現了運行時加速（學生模型）與蒸餾質量（評分網絡）的解耦，使得稀疏注意力能夠與激進的步數縮減策略兼容。

更廣泛地説，由於稀疏注意力僅作用於學生模型，該方案可適配各類蒸餾方法，包括一致性蒸餾、漸進式蒸餾或基於GAN的蒸餾損失等。

那麼，FastWan如何實現蒸餾的呢？

高質量數據對任何訓練方案都至關重要，尤其是對擴散模型而言。為此，研究人員選擇使用高質量的Wan模型自主生成合成數據集。

具體而言，採用Wan2.1-T2V-14B生成60萬條480P視頻和25萬條720P視頻，通過Wan2.2-TI2V-5B生成3.2萬條視頻。

採用DMD進行稀疏蒸餾時，需在GPU內存中同時加載三個140億參數大模型：

·學生模型

·可訓練偽分數模型

·凍結真分數模型

其中兩個模型（學生模型與偽分數模型）需持續訓練，既要存儲優化器狀態又要保留梯度，加之長序列長度的特性，使得內存效率成為關鍵挑戰。

為此，他們提出的關鍵解決方案是：

1. 通過FSDP2實現三模型的參數跨GPU分片，顯著降低內存開銷

2. 應用激活檢查點技術緩解長序列產生的高激活內存

3. 精細控制蒸餾各階段（如更新學生模型/偽分數模型時）的梯度計算開關

4. 引入梯度累積在有限顯存下提升有效批次規模

Wan2.1-T2V-1.3B的稀疏蒸餾在64張H200 GPU上運行4000步，總計消耗768 GPU小時。

一張卡，秒生視頻

在Scaling實驗中，研究團隊預訓練一個4.1億參數視頻DiT模型，潛在空間維度位（16, 32, 32）。

在保持87.5%稀疏度情況下，VSA取得的損失值與全注意力機制幾乎一致。

同時，它將注意力計算的FLOPS降低8倍，端到端訓練FLOPS減少2.53倍。

從6000萬擴展到14億參數規模，進一步證實了VSA始終能比全注意力機制實現更優的「帕累託前沿」。

為評估VSA的實際效果，團隊在Wan-14B生成的視頻潛空間（16×28×52）合成數據上，對Wan-1.3B進行了VSA微調。

如表2所示，採用VSA的模型在VBench評分上甚至超越了原始Wan-1.3B。

在極端稀疏條件下，與免訓練的注意力稀疏方法SVG對比時，VSA儘管稀疏度更高仍表現更優，驗證了稀疏注意力訓練的有效性。

實際應用中，Wan-1.3B的DiT推理時間從全注意力模式的31秒降至VSA模式的18秒。

VSA精細塊稀疏內核在長序列場景下，更加接近理論極限，相較於FlashAttention-3實現了近7倍加速。

即使計入粗粒度階段計算開銷，VSA仍保持6倍以上的加速優勢。

相比之下，採用相同塊稀疏掩碼（64×64塊大小）的FlexAttention僅獲得2倍加速。

結果顯示，將VSA應用於Wan-1.3B和Hunyuan模型時（圖4a），推理速度提升達2-3倍。

下圖5所示，研究團隊還檢測了經微調13億參數模型，在粗粒度階段生成的塊稀疏注意力，呈現高度動態性。

最后，團隊還對模型做了定性實驗，下圖展示了隨着訓練推進，模型逐漸適應稀疏注意力機制，最終恢復了生成連貫視頻的能力。

作者介紹

這個work來自於咱們的老朋友Hao AI Lab的FastVideo研究小組。

Peiyuan Zhang（張培源）

張培源是UCSD計算機科學與工程系一年級博士生，導師為Hao Zhang教授。

他曾在南洋理工大學擔任研究助理，師從Ziwei Liu。

他主要研究機器學習系統以及高效的視頻模型架構，是TinyLlama, lmms-eval, LongVA以及FastVideo的作者。

Yongqi Chen

Yongqi Chen是UCSD Hao AI Lab的研究實習生，導師是Hao Zhang教授。

他曾在密歇根大學（UMich）獲得機器人學碩士學位，此前於2023年以榮譽畢業生的身份畢業於浙江大學竺可楨學院，獲機器人工程學士學位。

現階段，他的研究方向聚焦高效視頻生成技術，致力於實現實時交互式視頻生成。

Will Lin

Will Lin是UCSD計算機科學與工程系Hao AI Lab的博士生，導師是Hao Zhang教授。

他在德克薩斯大學奧斯汀分校獲得計算機科學學士學位。

目前在Anyscale實習，是開源項目vLLM的活躍貢獻者。

Haofeng Huang（黃浩峰）

黃浩峰是清華姚班本科生，導師為Jianfei Chen 和 Jun Zhu教授。

目前，他主要研究方向為高效機器學習，重點關注注意力機制、量化加速，以及圖像/視頻壓縮技術。

參考資料：

https://x.com/haoailab/status/1952472986084372835

https://hao-ai-lab.github.io/blogs/fastvideo_post_training/

本文來自微信公眾號「新智元」，作者：新智元，36氪經授權發佈。

一夜顛覆Sora神話，H200單卡5秒出片，全華人團隊開源AI引爆視頻圈

稀疏蒸餾，AI視頻進入極速模式

三大組件，全適配

一張卡，秒生視頻

作者介紹

推薦文章

美股機會日報丨逼近歷史高點！比特幣突破12萬美元大關；花旗看多標普500指數目標價至6600點

8月財報預告丨港股中報高峰爆發！騰訊、小米、泡泡瑪特相繼放榜；AI「賣鏟人」英偉達財報壓軸來襲

港股兩大翻倍牛指迎重磅調整：藥明系等CXO公司被剔除

中慧生物-B首日開盤暴漲近156%！成港股生物科技板塊「超購王」

港股異動 | 寧德時代旗下鋰礦停產！鋰電池股集體大漲，天齊鋰業大漲17%

美國7月CPI等經濟數據本周重磅來襲！美聯儲降息時間表或被重塑

貝森特預計美國貿易談判將在10月底之前基本完成

Palantir股價暴漲2500%，多頭急於證明其估值合理性