繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

世界模型單GPU秒級生成?騰訊開源FlashWorld,效果驚艷免費體驗

2025-10-30 18:30

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:機器之心Pro)

廈門大學和騰訊合作的最新論文《FlashWorld: High-quality 3D Scene Generation within Seconds》獲得了海內外的廣泛關注,在當日 Huggingface Daily Paper 榜單位列第一,並在 X 上獲得 AK、Midjourney 創始人、SuperSplat 創始人等 AI 大佬點贊轉發。

FlashWorld 不僅將三維場景的生成在單卡上做到了 5~10 秒(相比之前方法提速百倍),更統一支持了單張圖片或文本輸入,生成的場景可以在網頁用户端實時渲染,同時質量還勝過其他同類閉源模型。

目前,作者們還提供了 Huggingface 上的免費 Demo 可以試玩。我們迫不及待地進行了嘗試,並且在同一個輸入下與 WorldLabs 的 Marble 和前兩天發佈的 RTFM 模型比較了一下:

從上至下:FlashWorld,Marble,RTFM

可以看到 FlashWorld 在預設軌跡下可以產生非常穩定完整高質量的渲染結果,生成速度比 Marble 的快速模式快 5 倍,而且完全通過前端渲染,不需要像 RTFM 一樣需要等待連接后端 GPU 才能使用。

這是怎麼做到的呢?

FlashWorld 動機

雖然現在視頻模型成爲了世界模型的主流,但其負載大的特點難以讓每個人都能在自己的設備上進行體驗。因此,FlashWorld 選擇了基於 3DGS 為場景輸出形式的技術路線,這也是為什麼 FlashWorld 生成的結果可以在本地網頁端實時渲染。

在傳統生成 3DGS 場景的方法中,大約分爲了兩類:

一種是以多視角為中心的方案,代表方法為 CAT3D,Wonderland 等。它們使用了先通過擴散模型生成多視角圖像或視頻,再通過三維重建得到 3DGS 的兩步框架。然而,因為使用的擴散模型往往會生成視角不一致的結果,這類方案容易產生雜亂的紋理細節。

另一種則為以三維為中心的方案,代表方法為 Director3D,DiffusionGS 等。它們把 3DGS 作為中介,直接用於多視角的去噪流程中。但因為場景數據相機標註往往不夠準確以及模型知識不夠強的問題,這類方案容易產生模糊的渲染效果。

FlashWorld 的核心,簡而言之,就是用把 以多視角為中心的教師模型 通過蒸餾損失提升 以三維為中心的學生模型 的視覺質量,這樣既保證了理論上的多視角一致性,又不斷促使模型接近真實場景的圖像質量,順帶地,還極大減少了去噪步數

視頻為單圖到三維場景生成效果,從上到下依次為同一個網絡架構在 MV 模式、3D 模式,以及 FlashWorld 提出的跨模式蒸餾結果。

FlashWorld 方法

FlashWorld 包含了兩個訓練流程:

1. 雙模式預訓練:基於視頻擴散先驗,訓練一個同時支持 以多視角為中心(MV)/ 以三維為中心(3D) 雙模式輸出的多視圖擴散模型。

2. 跨模式后訓練:以 MV 模式為教師、3D 模式為學生,進行分佈匹配蒸餾,兼顧高保真與 3D 一致。

FlashWorld 還利用了分佈匹配蒸餾不需要 Ground Truth 的特性,將隨機的圖像、文本和軌跡組合成分佈外的輸入進行訓練,進一步提升學生模型對各種場景、風格、軌跡泛化能力

實驗效果

FlashWorld 在各種任務上進行了充分全面的實驗和對比。包括:

FlashWorld 竟然成功地生成出了整齊的柵欄(左上),這在以往的工作中幾乎是不可能的。

FlashWorld 對於毛發這些細粒度的細節也有着非常好的生成能力,這在密集視角的重建中可能都是非常困難的問題,而 FlashWorld 竟然只需要輸入文本。

可以看到,FlashWorld 對於場景風格、語義和三維性也保持得非常好。

FlashWorld 在該 Benchmark 下以最快的速度領先與其他方法。

FlashWorld 在該 Benchmark 下以最快的速度下獲得了最高的平均分。

FlashWorld 還可以在只需要 RGB 監督的情況下自然學到深度信息

卡通風格的場景也手到擒來(文內所有圖均為 3DGS 渲染結果):

快速體驗

FlashWorld 還開源了基於 SparkJS 的交互式 Demo,並可以在 Huggingface Spaces 上進行免費體驗。

體驗地址:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark

https://mp.weixin.qq.com/s/feqk9qlWQWXqxJKcHaDOTA

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。