繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

VAE再被補刀,清華快手SVG擴散模型亮相,訓練提效6200%,生成提速3500%

2025-10-28 15:26

前腳謝賽寧剛宣告VAE在圖像生成領域退役,后腳清華與快手可靈團隊也帶着無VAE潛在擴散模型SVG來了。

該方法實現了在訓練效率上62倍、生成速度上35倍的提升。

VAE為何被接連拋棄?主要還是因為語義糾纏的缺陷——語義特徵都放在同一個潛空間,調一個數值就會「牽一發而動全身」,比如只想改變貓的顏色,結果體型、表情都跟着變。

和謝賽寧團隊極簡複用預訓練編碼器、改造DiT架構,專注於生成性能的RAE不同,SVG通過語義+細節雙分支+分佈對齊,實現了多任務通用。

下面具體來看。

主動構建語義與細節融合的特徵空間

在傳統的「VAE+擴散模型」圖像生成範式中,VAE的核心作用是將高分辨率圖像壓縮為低維的潛空間特徵(可以理解為圖像的簡化代碼),供后續擴散模型學習生成邏輯。

但這樣會使不同類別、不同語義的圖像特徵會混亂地交織在一起,比如貓和狗的特徵邊界模糊不清等。

直接導致兩個問題:

一是擴散模型訓練效率極低,需要數百萬步迭代才能勉強理清特徵邏輯;

二是生成過程繁瑣,往往需要經過幾十甚至上百步採樣才能輸出清晰圖像。

並且,生成的特徵空間用途單一,除了圖像生成,幾乎無法適配圖像識別、語義分割等其他視覺任務。

面對VAE的困境,謝賽寧團隊的RAE技術選擇了極致聚焦生成的思路。直接複用DINOv2、MAE等成熟的預訓練編碼器,不額外修改編碼器結構,僅通過優化解碼器來還原圖像細節,同時針對性地改造擴散模型架構。

最終實現了生成效率與質量的跨越式提升,簡單説就是把重心全放在了「把圖生成得又快又好」上。

而清華&快手可靈團隊的SVG技術,則走了兼顧生成與多任務通用的路線,核心差異就在於對特徵空間的構建邏輯上。

RAE是直接複用預訓練特徵,SVG 則是主動構建語義與細節融合的特徵空間。

具體來看,SVG選擇以DINOv3預訓練模型作為語義提取器。

原因是DINOv3經過大規模自監督學習,能夠精準捕捉圖像的高層語義信息,讓貓、狗、汽車等不同類別的特徵邊界能夠清晰可辨,從根源上解決了語義糾纏問題。

但團隊也發現,DINOv3提取的特徵偏重於宏觀語義,會丟失顏色、紋理等高頻細節,因此又專門設計了一個輕量級的殘差編碼器來進行細節補充,針對性地學習這些被忽略的細節信息。

而爲了讓「語義」和「細節補充」能夠完美融合,SVG還加入了關鍵的分佈對齊機制

這一機制通過技術手段調整殘差編碼器輸出的細節特徵,使其在數值分佈上與DINOv3的語義特徵完全匹配,避免細節信息擾亂語義結構。

實驗數據也印證了這一機制的重要性。去掉分佈對齊后,SVG生成圖像的FID值(衡量生成圖像與真實圖像相似度的核心指標,數值越低越優)從6.12升至9.03,生成質量大幅下滑。

實驗結果顯示,SVG在生成質量、效率、多任務通用性上全面超越傳統VAE方案。

訓練效率方面,在ImageNet 256×256數據集上,SVG-XL模型僅訓練80個epoch,在無分類器引導時FID達6.57,遠超同規模基於VAE的SiT-XL(22.58);如果延長訓練至1400個epoch,FID可低至1.92,接近當前頂級生成模型水平。

推理效率方面,消融實驗中,5步採樣時,SVG-XL的gFID為12.26,而SiT-XL(SD-VAE)為69.38、SiT-XL(VA-VAE)為74.46。這表明在較少的採樣步數下,SVG-XL就能達到較好的生成質量。

不僅是生圖,SVG的特徵空間繼承了DINOv3的能力,可直接用於圖像分類、語義分割、深度估計等任務,且無需微調編碼器。例如,在ImageNet-1K分類任務中Top-1精度達到81.8%,與原始DINOv3幾乎一致;在ADE20K語義分割任務中mIoU達46.51%,接近專門的分割模型。

團隊介紹

團隊由鄭文釗擔任項目負責人,目前是加州大學伯克利分校博士后。此前,他在清華大學自動化係獲博士學位,研究集中在人工智能和深度學習領域。

同樣來自清華自動化系的史明磊和王皓霖目前均在攻讀博士學位,研究重點為多模態生成模型。

其中,史明磊透露自己還在創辦一家專注於人工智能應用的公司。

Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan則來自快手可靈團隊。

其中,Pengfei Wan是快手可靈視頻生成模型負責人。

從謝賽寧團隊的RAE到清華快手的SVG,儘管技術路線各有側重,但從兩者的突破可以看出,預訓練視覺模型的特徵空間,或許已經具備了替代VAE的能力。

論文地址:https://arxiv.org/abs/2510.15301

代碼地址:https://github.com/shiml20/SVG

本文來自微信公眾號「量子位」,作者:聞樂 ,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。