繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

羣核科技發佈空間大模型,旨在解決AI視頻空間一致性難題

2025-08-29 11:45

8月25日,在首屆技術開放日(TechDay)上,羣核科技正式發佈了其空間大模型的最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,並宣佈將延續開源戰略,逐步向全球開發者開放模型。

作為專注於3D室內場景認知與生成的模型體系,羣核空間大模型主要圍繞真實感全息漫遊、結構化可交互及複雜室內場景處理三個方向構建其技術優勢。

 

本次發佈的SpatialLM 1.5是一款基於大語言模型訓練的空間語言模型 。羣核科技首席科學家周子寒在技術交流中解釋,SpatialLM並非在視覺語言模型(VLM)上增加新模態,而是讓大語言模型學會了一種新的「空間語言」。這種語言能以數字文本的形式,精確描述場景中物體的空間結構、幾何信息、相互關係及物理參數。

通過對話系統SpatialLM-Chat,用户輸入簡單的文本指令,模型即可自動生成包含物理正確信息的結構化3D場景腳本,並智能匹配家俱進行佈局。該模型還能通過自然語言進行場景問答與編輯,例如,在現場演示中,當輸入「去客廳餐桌拿藥」指令后,模型不僅理解了物體對象,還調用工具自動規劃出行動路徑,展示了其在機器人場景中的應用潛力。

羣核科技聯合創始人兼董事長黃曉煌在演講中提到,當前空間智能發展的一大瓶頸在於三維可交互數據的稀缺,尤其是在物理世界對應的室內空間數據獲取難度極大。SpatialLM 1.5能夠快速、批量地生成大量符合要求且多樣化的場景,可直接用於機器人路徑規劃、避障和任務執行等訓練,為解決當前機器人訓練數據不足的難題提供了有效途徑。

與SpatialLM專注於「理解與交互」不同,SpatialGen模型則聚焦於「生成與呈現」。它是一款基於擴散模型架構的多視角圖像生成模型,可根據文字、參考圖和3D空間佈局,生成具有時空一致性的多視角圖像。

羣核科技AI產品總監龍天澤指出,當前主流AI視頻生成工具基於2D圖像序列學習,缺乏對3D空間和物理規則的真正理解,因此在視角切換或複雜運動時,常出現物體位置偏移、背景混亂、模型穿模等空間邏輯錯誤。

SpatialGen通過生成空間屬性和物理關係在不同鏡頭下保持一致的多視角圖像,並能進一步生成3D高斯(3DGS)場景,最終渲染出可供用户自由漫遊的視頻 。這一方案旨在從根本上解決當前AIGC視頻生成中的時空一致性難題 。龍天澤透露,公司正在研發一款深度融合3D能力的AI視頻生成產品,計劃於年內發佈。

黃曉煌在活動現場分享了羣核科技的空間智能戰略佈局,其核心是「空間編輯工具-空間合成數據-空間大模型」構成的空間智能飛輪 。通過酷家樂等工具的廣泛應用,沉澱海量數據;利用這些數據加速模型訓練;再以強大的模型能力反哺和提升工具體驗,從而形成正向循環 。截至2025年6月30日,羣核科技已擁有超過4.41億個3D模型及超過5億個結構化3D空間場景。

黃曉煌表示,開源是羣核科技戰略的重要組成部分,公司自2018年起便開始逐步開放數據和算法能力。他認為,當前空間大模型尚處初級階段,希望通過開源與全球開發者共同將「蛋糕」做大,推動技術快速前進。

據悉,本次發佈的兩款模型將陸續在Hugging Face、GitHub和魔搭社區等平臺開源 。其中,SpatialGen在技術開放日當天已開放下載,而SpatialLM 1.5未來也將以「SpatialLM-Chat」的形式完成開源。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。