熱門資訊> 正文
2025-10-30 18:30
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:機器之心Pro)
廈門大學和騰訊合作的最新論文《FlashWorld: High-quality 3D Scene Generation within Seconds》獲得了海內外的廣泛關注,在當日 Huggingface Daily Paper 榜單位列第一,並在 X 上獲得 AK、Midjourney 創始人、SuperSplat 創始人等 AI 大佬點贊轉發。
FlashWorld 不僅將三維場景的生成在單卡上做到了 5~10 秒(相比之前方法提速百倍),更統一支持了單張圖片或文本輸入,生成的場景可以在網頁用户端實時渲染,同時質量還勝過其他同類閉源模型。
目前,作者們還提供了 Huggingface 上的免費 Demo 可以試玩。我們迫不及待地進行了嘗試,並且在同一個輸入下與 WorldLabs 的 Marble 和前兩天發佈的 RTFM 模型比較了一下:
從上至下:FlashWorld,Marble,RTFM
可以看到 FlashWorld 在預設軌跡下可以產生非常穩定完整高質量的渲染結果,生成速度比 Marble 的快速模式快 5 倍,而且完全通過前端渲染,不需要像 RTFM 一樣需要等待連接后端 GPU 才能使用。
這是怎麼做到的呢?
FlashWorld 動機
雖然現在視頻模型成爲了世界模型的主流,但其負載大的特點難以讓每個人都能在自己的設備上進行體驗。因此,FlashWorld 選擇了基於 3DGS 為場景輸出形式的技術路線,這也是為什麼 FlashWorld 生成的結果可以在本地網頁端實時渲染。
在傳統生成 3DGS 場景的方法中,大約分爲了兩類:
一種是以多視角為中心的方案,代表方法為 CAT3D,Wonderland 等。它們使用了先通過擴散模型生成多視角圖像或視頻,再通過三維重建得到 3DGS 的兩步框架。然而,因為使用的擴散模型往往會生成視角不一致的結果,這類方案容易產生雜亂的紋理細節。
另一種則為以三維為中心的方案,代表方法為 Director3D,DiffusionGS 等。它們把 3DGS 作為中介,直接用於多視角的去噪流程中。但因為場景數據相機標註往往不夠準確以及模型知識不夠強的問題,這類方案容易產生模糊的渲染效果。
FlashWorld 的核心,簡而言之,就是用把 以多視角為中心的教師模型 通過蒸餾損失提升 以三維為中心的學生模型 的視覺質量,這樣既保證了理論上的多視角一致性,又不斷促使模型接近真實場景的圖像質量,順帶地,還極大減少了去噪步數
視頻為單圖到三維場景生成效果,從上到下依次為同一個網絡架構在 MV 模式、3D 模式,以及 FlashWorld 提出的跨模式蒸餾結果。
FlashWorld 方法
FlashWorld 包含了兩個訓練流程:
1. 雙模式預訓練:基於視頻擴散先驗,訓練一個同時支持 以多視角為中心(MV)/ 以三維為中心(3D) 雙模式輸出的多視圖擴散模型。
2. 跨模式后訓練:以 MV 模式為教師、3D 模式為學生,進行分佈匹配蒸餾,兼顧高保真與 3D 一致。
FlashWorld 還利用了分佈匹配蒸餾不需要 Ground Truth 的特性,將隨機的圖像、文本和軌跡組合成分佈外的輸入進行訓練,進一步提升學生模型對各種場景、風格、軌跡泛化能力
實驗效果
FlashWorld 在各種任務上進行了充分全面的實驗和對比。包括:
FlashWorld 竟然成功地生成出了整齊的柵欄(左上),這在以往的工作中幾乎是不可能的。
FlashWorld 對於毛發這些細粒度的細節也有着非常好的生成能力,這在密集視角的重建中可能都是非常困難的問題,而 FlashWorld 竟然只需要輸入文本。
可以看到,FlashWorld 對於場景風格、語義和三維性也保持得非常好。
FlashWorld 在該 Benchmark 下以最快的速度領先與其他方法。
FlashWorld 在該 Benchmark 下以最快的速度下獲得了最高的平均分。
FlashWorld 還可以在只需要 RGB 監督的情況下自然學到深度信息
卡通風格的場景也手到擒來(文內所有圖均為 3DGS 渲染結果):
快速體驗
FlashWorld 還開源了基於 SparkJS 的交互式 Demo,並可以在 Huggingface Spaces 上進行免費體驗。
體驗地址:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark
https://mp.weixin.qq.com/s/feqk9qlWQWXqxJKcHaDOTA