世界模型單GPU秒級生成？騰訊開源FlashWorld，效果驚艷免費體驗

2025-10-30 18:30

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

（來源：機器之心Pro）

廈門大學和騰訊合作的最新論文《FlashWorld: High-quality 3D Scene Generation within Seconds》獲得了海內外的廣泛關注，在當日 Huggingface Daily Paper 榜單位列第一，並在 X 上獲得 AK、Midjourney 創始人、SuperSplat 創始人等 AI 大佬點贊轉發。

FlashWorld 不僅將三維場景的生成在單卡上做到了 5～10 秒（相比之前方法提速百倍），更統一支持了單張圖片或文本輸入，生成的場景可以在網頁用户端實時渲染，同時質量還勝過其他同類閉源模型。

目前，作者們還提供了 Huggingface 上的免費 Demo 可以試玩。我們迫不及待地進行了嘗試，並且在同一個輸入下與 WorldLabs 的 Marble 和前兩天發佈的 RTFM 模型比較了一下：

從上至下：FlashWorld，Marble，RTFM

可以看到 FlashWorld 在預設軌跡下可以產生非常穩定完整高質量的渲染結果，生成速度比 Marble 的快速模式快 5 倍，而且完全通過前端渲染，不需要像 RTFM 一樣需要等待連接后端 GPU 才能使用。

這是怎麼做到的呢？

FlashWorld 動機

雖然現在視頻模型成爲了世界模型的主流，但其負載大的特點難以讓每個人都能在自己的設備上進行體驗。因此，FlashWorld 選擇了基於 3DGS 為場景輸出形式的技術路線，這也是為什麼 FlashWorld 生成的結果可以在本地網頁端實時渲染。

在傳統生成 3DGS 場景的方法中，大約分爲了兩類：

一種是以多視角為中心的方案，代表方法為 CAT3D，Wonderland 等。它們使用了先通過擴散模型生成多視角圖像或視頻，再通過三維重建得到 3DGS 的兩步框架。然而，因為使用的擴散模型往往會生成視角不一致的結果，這類方案容易產生雜亂的紋理細節。

另一種則為以三維為中心的方案，代表方法為 Director3D，DiffusionGS 等。它們把 3DGS 作為中介，直接用於多視角的去噪流程中。但因為場景數據相機標註往往不夠準確以及模型知識不夠強的問題，這類方案容易產生模糊的渲染效果。

FlashWorld 的核心，簡而言之，就是用把以多視角為中心的教師模型通過蒸餾損失提升以三維為中心的學生模型的視覺質量，這樣既保證了理論上的多視角一致性，又不斷促使模型接近真實場景的圖像質量，順帶地，還極大減少了去噪步數

視頻為單圖到三維場景生成效果，從上到下依次為同一個網絡架構在 MV 模式、3D 模式，以及 FlashWorld 提出的跨模式蒸餾結果。

FlashWorld 方法

FlashWorld 包含了兩個訓練流程：

1. 雙模式預訓練：基於視頻擴散先驗，訓練一個同時支持以多視角為中心（MV）/ 以三維為中心（3D）雙模式輸出的多視圖擴散模型。

2. 跨模式后訓練：以 MV 模式為教師、3D 模式為學生，進行分佈匹配蒸餾，兼顧高保真與 3D 一致。

FlashWorld 還利用了分佈匹配蒸餾不需要 Ground Truth 的特性，將隨機的圖像、文本和軌跡組合成分佈外的輸入進行訓練，進一步提升學生模型對各種場景、風格、軌跡泛化能力

實驗效果

FlashWorld 在各種任務上進行了充分全面的實驗和對比。包括：

FlashWorld 竟然成功地生成出了整齊的柵欄（左上），這在以往的工作中幾乎是不可能的。

FlashWorld 對於毛發這些細粒度的細節也有着非常好的生成能力，這在密集視角的重建中可能都是非常困難的問題，而 FlashWorld 竟然只需要輸入文本。

可以看到，FlashWorld 對於場景風格、語義和三維性也保持得非常好。

FlashWorld 在該 Benchmark 下以最快的速度領先與其他方法。

FlashWorld 在該 Benchmark 下以最快的速度下獲得了最高的平均分。

FlashWorld 還可以在只需要 RGB 監督的情況下自然學到深度信息

卡通風格的場景也手到擒來（文內所有圖均為 3DGS 渲染結果）：

快速體驗

FlashWorld 還開源了基於 SparkJS 的交互式 Demo，並可以在 Huggingface Spaces 上進行免費體驗。

體驗地址：https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark

https://mp.weixin.qq.com/s/feqk9qlWQWXqxJKcHaDOTA

世界模型單GPU秒級生成？騰訊開源FlashWorld，效果驚艷免費體驗

推薦文章

美股機會日報 | 估值8500億美元！傳OpenAI最新融資規模將破千億美元；黃仁勛稱將發佈幾款世界前所未見的新芯片

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意