羣核科技發佈空間大模型，旨在解決AI視頻空間一致性難題

2025-08-29 11:45

8月25日，在首屆技術開放日（TechDay）上，羣核科技正式發佈了其空間大模型的最新成果：新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen，並宣佈將延續開源戰略，逐步向全球開發者開放模型。

作為專注於3D室內場景認知與生成的模型體系，羣核空間大模型主要圍繞真實感全息漫遊、結構化可交互及複雜室內場景處理三個方向構建其技術優勢。

本次發佈的SpatialLM 1.5是一款基於大語言模型訓練的空間語言模型。羣核科技首席科學家周子寒在技術交流中解釋，SpatialLM並非在視覺語言模型（VLM）上增加新模態，而是讓大語言模型學會了一種新的「空間語言」。這種語言能以數字文本的形式，精確描述場景中物體的空間結構、幾何信息、相互關係及物理參數。

通過對話系統SpatialLM-Chat，用户輸入簡單的文本指令，模型即可自動生成包含物理正確信息的結構化3D場景腳本，並智能匹配家俱進行佈局。該模型還能通過自然語言進行場景問答與編輯，例如，在現場演示中，當輸入「去客廳餐桌拿藥」指令后，模型不僅理解了物體對象，還調用工具自動規劃出行動路徑，展示了其在機器人場景中的應用潛力。

羣核科技聯合創始人兼董事長黃曉煌在演講中提到，當前空間智能發展的一大瓶頸在於三維可交互數據的稀缺，尤其是在物理世界對應的室內空間數據獲取難度極大。SpatialLM 1.5能夠快速、批量地生成大量符合要求且多樣化的場景，可直接用於機器人路徑規劃、避障和任務執行等訓練，為解決當前機器人訓練數據不足的難題提供了有效途徑。

與SpatialLM專注於「理解與交互」不同，SpatialGen模型則聚焦於「生成與呈現」。它是一款基於擴散模型架構的多視角圖像生成模型，可根據文字、參考圖和3D空間佈局，生成具有時空一致性的多視角圖像。

羣核科技AI產品總監龍天澤指出，當前主流AI視頻生成工具基於2D圖像序列學習，缺乏對3D空間和物理規則的真正理解，因此在視角切換或複雜運動時，常出現物體位置偏移、背景混亂、模型穿模等空間邏輯錯誤。

SpatialGen通過生成空間屬性和物理關係在不同鏡頭下保持一致的多視角圖像，並能進一步生成3D高斯（3DGS）場景，最終渲染出可供用户自由漫遊的視頻。這一方案旨在從根本上解決當前AIGC視頻生成中的時空一致性難題。龍天澤透露，公司正在研發一款深度融合3D能力的AI視頻生成產品，計劃於年內發佈。

黃曉煌在活動現場分享了羣核科技的空間智能戰略佈局，其核心是「空間編輯工具-空間合成數據-空間大模型」構成的空間智能飛輪。通過酷家樂等工具的廣泛應用，沉澱海量數據；利用這些數據加速模型訓練；再以強大的模型能力反哺和提升工具體驗，從而形成正向循環。截至2025年6月30日，羣核科技已擁有超過4.41億個3D模型及超過5億個結構化3D空間場景。

黃曉煌表示，開源是羣核科技戰略的重要組成部分，公司自2018年起便開始逐步開放數據和算法能力。他認為，當前空間大模型尚處初級階段，希望通過開源與全球開發者共同將「蛋糕」做大，推動技術快速前進。

據悉，本次發佈的兩款模型將陸續在Hugging Face、GitHub和魔搭社區等平臺開源。其中，SpatialGen在技術開放日當天已開放下載，而SpatialLM 1.5未來也將以「SpatialLM-Chat」的形式完成開源。

羣核科技發佈空間大模型，旨在解決AI視頻空間一致性難題

推薦文章

美股機會日報 | 金價年內或觸及3800美元？國際大行集體唱多黃金！超微電腦漲超5%

一周財經日曆 | 萬衆矚目！9月美聯儲利率決議來襲；三隻港股新股即將上市

能否趕上美聯儲下周議息會議？美參院就米蘭理事提名錶決時間定了

港股異動 | 重磅利好！阿里漲近7%，百度漲超6%

華盛早報 | 創近4年新高！阿里大漲8%；外資熱情勢不可擋！大摩：超九成美國投資者願加倉中國資產

美股機會日報 | 美國8月CPI符合預期，初請失業金人數創近四年新高！「網紅股」Opendoor股價大漲超30%

萬億南向「活水」瘋狂搶籌！重倉阿里巴巴逾1200億港元，如何抄「聰明錢」的作業？

降息預期壓倒經濟隱憂！調查顯示：美股今年有望強勢收官