繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

商湯王曉剛:世界模型將加快AI從數字空間進入物理世界,「悟能」想做那個橋樑

2025-08-12 15:33

(來源:機器之心)

機器之心報道

具身智能「大腦」,更準確地,以「世界模型」為內核的具身智能「大腦」會成為 AI 下一階段競爭焦點嗎?

上世紀九十年代,「世界模型」思想雛形初現,之后幾十年被不斷強化、延伸,直到 ChatGPT 引爆 AI 新浪潮、Sora 問世、大模型落地成主流、具身智能迎來新紀元……「世界模型」或是通往「類人智能」的解法被視為新的業界共識。

與此同時,在產業界,如果説 2025 年上半年 AI 發展主要圍繞 Agent 元年、人形機器人「量產」等關鍵詞展開,那下半年,具身智能「大腦」開始成為整個行業乃至全球 AI 領域的焦點。

於是,當世界模型技術研究曲線與具身智能產業發展路徑在某一時刻交匯時,一場圍繞具身智能「大腦」的爭奪戰拉開了序幕。

谷歌推出具身智能 RT-2 模型;AI 教母李飛飛聚焦具身智能創業,認為世界模型是 AI 實現「通用智能」關鍵一步。

國內,今年 3 月,智源研究院發佈開源具身大腦 RoboBrain;6 月,華為雲發佈 CloudRobo 具身智能平臺;7 月,字節跳動 Seed 團隊發佈通用機器人模型 GR-3;7 月底,京東發佈附身智能品牌「JoyInside」;7 月底,商湯科技推出「悟能」具身智能平臺;8 月初,騰訊發佈 Tairos 具身智能開放平臺……

當具身智能的技術演進路線還未收斂,各廠商都在基於以往的技術沉澱,沿着不同路線,朝着 AGI 狂奔。

商湯作為其中一家,優勢在於做計算機視覺起家(當前具身智能主流技術路線之一)、多模態大模型已經在多種機器人身上打磨過、在智能駕駛領域沉澱多年(世界模型早期落地應用的場景之一)、有大裝置提供強大的端側和雲側算力支持……

因此,商湯想通過「悟能」具身智能平臺,「將多年的沉澱與積累,賦能給整個行業。」商湯科技聯合創始人、執行董事、CTO 王曉剛説道。

在王曉剛看來,當前具身智能領域發展迅速,尤其是大模型的到來讓大家有了更多想象空間。可與此同時,數據匱乏、採集難、無法批量規模化生產、難以泛化等問題也成為具身智能通用化道路上的絆腳石。

但是當大量做計算機視覺的人進入這一領域就變得不一樣了。計算機視覺擅長的是分析客觀世界的人、物、場,並進行重建復現,包括世界模型的學習,都會給這個領域帶來新動能。

而商湯不僅在計算機視覺領域積累深厚,也早早開始探索世界模型的落地。去年 11 月商湯發佈「開悟」世界模型,將其應用在智能汽車上。王曉剛認為,汽車本質上也是一個機器人,從端到端 VLA 到環境計算,都是在引領具身智能的發展,「我們先在汽車的環境里進行探索和嘗試,然后擴展到其他方向。」

而這個方向,當下就是具身智能。

基於「開悟」世界模型衍生出來的「悟能」具身智能平臺,包含着商湯過去積累的 10 萬 3D 資產,提供第一視角、第三視角的視頻生成,支持具身智能進行多視角學習,能夠保持長達 150s 的時空一致。另外,基於自動駕駛和人機交互流式多模態大模型產生的導航、人機交互等能力也都一併賦能給「悟能」具身智能平臺,從而推動具身智能加快從數字空間邁向真實物理世界。

近期,機器之心與商湯科技聯合創始人、執行董事、CTO 王曉剛聊了聊,以下為對話實錄,在不改變原意的基礎上進行了調整:

具身智能來勢洶洶,但數據缺乏是「硬傷」

提問:今年被稱為「人形機器人量產元年」,在你看來,這主要源於哪些方面,比如技術突破?

王曉剛:我覺得大家看好這個方向主要有幾個原因。首先,近幾年硬件本體、運控進步很快,有了非常好的基礎,像機器人跳舞、翻跟斗、搏擊等逐漸走向成熟,但更重要的是,AI 大模型給大家帶來了更多想象空間。機器人原本是在特定場景完成單一任務做得比較好,但現在大家期待它有更多通用性,無論是在家庭環境還是生產線上,當任務發生變化的時候它能夠像人一樣靈活應對。

其中大模型帶來的技術突破主要包括三方面 —— 導航、人機交互,以及 VLA 這種端到端複雜操作,給大家提供了新的想象空間。

提問:具體是如何體現的?

王曉剛:導航,現在隨着自動駕駛技術不斷成熟,讓機器人陪伴、巡檢,甚至配送等方面的功能變得更好。

人機交互,比如多模態大模型帶來的全新交互方式,當然更多的是像 VLA 這種比較複雜的操作帶來的想象空間。

我們常常思考智能分幾個層次?智能從哪里來?最早大家通過標註數據,採集大量圖像、聲音,這些都是客觀世界的記錄,但是依靠人類的感知,之后進行標註,把人對世界的理解通過標註的方式注入智能。

第二個階段,ChatGPT 出現后通過分析語言進行,語言本身就是人類行為,這是另外一個層次。

但更高的一個層次是人定義的這些規則,比如下圍棋,把規則定義好了以后,AlphaGo 機器人在互相博弈過程中產生很多智能。

如今無論是自動駕駛還是機器人領域,有一個很重要的模型 ——「世界模型」,世界模型本身是把物理規律、交通法則這些東西學到以后(去做預測、規劃)。人更高層的智能就是定義這些規則,之后自動駕駛或是機器人在世界模型里面依據這些規則進行交互,自動就能產生更多的智能。

提問:在取得進展的同時,具身智能領域在通往更為通用的場景時也面臨一些困難與挑戰,在你看來有哪些侷限性?

王曉剛:問題也是多方面的,比如硬件質量,機器人是一個高度複雜的系統,任何一個零部件出現問題,都會給整個系統帶來質量方面的影響,因為它要與物理世界進行交互,交互過程中會進行碰撞。這是它走向大規模量產所面臨的硬件問題。

最核心的還是數據問題,目前具身智能沒有辦法進行批量規模化的數據生產。雖然有各種數據生產手段,但機器人類型多樣,硬件傳感器配置千差萬別,而且機器人本身數量相對較少,所以整體來看,這一個機器人上採集到的數據難以推廣到另外一個機器人上。

另外採集方式,比如智能汽車,開車過程實際就是生產過程,自然而然產生了這些數據,而機器人採集的數據不是在生產過程中,是通過遙操作,人在背后控制機器人刻意採集數據,成本也非常高。

當然也有用仿真得到的數據,但與真實數據之間 gap 較大,因為仿真的技術路線積累還是傳統辦法,與現實差距大。

我們期待這些 3D 建模與世界模型相結合,通過對物理世界更深入的理解,帶來新的思路。尤其是有大量做計算機視覺的人開始進入這個領域,計算機視覺領域擅長的是分析客觀世界的人、物、場 3D 模型、環境,並進行重建復現,包括世界模型的學習,都能夠給這個領域帶來新的動能。

具身智能世界模型<人、物、場>構建4D真實世界

提問:現在有些機器人演示的時候手抖得厲害,這是因為缺乏數據或是訓練不到位嗎?

王曉剛:這是運控問題,主要是通過小腦對它進行控制,另外大腦也要分析怎麼能進行這些行為。

比如 VLA 給出指令,應該往哪個方向運動,而機械手或肢體怎麼能夠通過局部控制這些關節,達到預測的運動軌跡。這涉及到兩個問題,一是自己本身運動的時候要把握比較好,另外預測的運動軌跡得適合機器人硬件本體的運動,如果給它設計一個路線,它走起來很彆扭就不行,這就要求大腦 VLA 的預測要與底層的運控有一個比較好的結合。

這也不容易,機器人走路的運控要讓它走得好,很多時候也需要通過強化學習去適用不同的環境和地形。為什麼有些演示 demo 可以做到,主要是因為它是針對特定的場景調得比較好,換一些通用場景就不行,一旦涉及到規模化,不光大腦要通用,小腦也需要做到通用,否則需要一堆技術售后人員到各個場景里面做調整。

世界模型,加快 AI 從數字空間邁進物理世界

提問:你剛纔提到汽車,認為它是從 AI 邁向具身智能的一個關鍵步驟,那你覺得現在的自動駕駛處於怎樣的階段,具備進一步向具身智能發展的條件嗎?

王曉剛:現在自動駕駛領域還處於技術紅利期,基本上每年它的整個體系架構都朝新的方向進一步迭代。比如 2023 年端到端的自動駕駛概念興起,那時候還很依賴高精度地圖,現在已經進化到無圖的端到端自動駕駛,技術已經比較成熟。

但因為端到端技術還是對人類行為的模仿,是類人的,所以對數據的依賴比較高,所以當下世界模型已經形成一個行業共識。比如去年 11 月我們發佈了「開悟」世界模型,今年,像華為、小鵬等也都在發力世界模型。

有了世界模型以后,一是可以提供大量數據,另外它可以在仿真環境里做很多強化學習的嘗試,因為世界模型能做到舉一反三、反十、反一百。比如今天遇到一個自動駕駛沒有解決好的問題場景,基於這個場景首先對它進行重建,然后就可以改變天氣情況、光線、道路情況、各種車型、速度、距離遠近等,這幾個維度擬相乘能夠產生大量類似的場景和視頻,從而把這一類問題全都解決乾淨,極大地降低了數據採集成本。

提問:那是否具備進一步向具身智能發展的條件?

王曉剛:當然,今年我們看到,因為有了端到端,激發人們在機器人領域應用 VLA;因為有了世界模型,具身智能也進入這一領域。另外就是座艙里面的人機交互,現有的是硬件設備加上 APP,將來全新的人機交互叫作「環境計算」,AI 就像空氣一樣在人們的周圍,不需要打開特定的 APP,它主動會找到你,里面核心點就是有計算芯片、有各種傳感器還有模型,這不就是汽車中一個非常典型的環境?

車內外有這麼多的傳感器觀察、記錄車內外的各種狀態、各種活動、人的對話等行為,還要有記憶,瞭解、知道你的需求,那當你需要的時候就能夠主動提供 AI 相關服務,它本質上就是一個機器人。從這個層面來看,它是一個很好的環境計算載體。

所以,從端到端 VLA 到環境計算,汽車都是在引領具身智能的發展,我們最先可能是在汽車的環境里進行索和嘗試,然后擴展到其他方向。

提問:説到世界模型,各大廠商都在陸續發佈,那在你看來商湯的「開悟」世界模型有哪些技術優勢?

王曉剛:首先,「開悟」世界模型的最新進展是不僅覆蓋了汽車領域,而且也覆蓋了具身智能,同時提供這兩個平臺。

世界模型的核心是要學到最高層的智能,包括物理規律、交通法則、什麼是好的行為和開車的體驗等,其中比較關鍵的幾點分別是:

第一,時空一致性。2024 年年初 Sora 生成視頻,但它不是針對特定自動駕駛場景,而且產生視頻最難的地方在於如何保證時間上的連續,因為生成一幅圖像很容易,但是生成一個視頻,大家會看到幀與幀之間是不是不連續的,存在各種抖動、跳變。自動駕駛領域難度更高,要求 11 個攝像頭保持時空一致性,一個攝像頭看到的東西與另外一個攝像頭看到的東西,在空間物理上需要一致,不能在這個攝像頭看到一條實線,另外的攝像頭看的是一條虛線。

另外時間上,我們能夠做到 150 秒,時間越長,包含的交通行為更復雜,能夠把一些更復雜的博弈體現出來。

第三,反應速度實時。實時性體現了成本,場景生成實際上是在用 GPU 算力來置換,實時性越高,算力越節省,花的錢越少。另外做到實時性,還可以對它進行實時交互,會產生非常接近真實的視頻場景。

發佈「悟能」具身智能平臺,為行業提供「機器人大腦」

提問:此次商湯發佈的「悟能」具身智能平臺,就是從「開悟」世界模型衍生出來的,能具體講講背后的技術路線以及戰略意義嗎?

王曉剛:我們為什麼要做這個事情,剛纔也提到,具身智能領域最大的挑戰還是在於缺少數據。

其實大家想了各種辦法,比如從互聯網上收集,但是這些數據可能與機器人領域遇到的數據相差非常大,而遙操作去採集產生的每一條數據都非常昂貴,泛化性也不好。比如讓它拿一個水杯,把瓶子和水杯換了,甚至換一張桌子,都會產生很大影響。而現在我們希望基於之前在世界模型的積累,能夠給大家提供各種合成數據。

剛纔提到「開悟」世界模型有幾個特點,基於此,「悟能」具身智能平臺就可以做很多事情。

第一,商湯過去在視覺領域有很多 3D 方面的積累,在基於各種場景、環境的人、物、場積累了 10 萬個 3D 資產。另外我們做到了根據第一視角、第三視角來學習。

怎麼理解,現在有一些機器人的工作是讓機器人跟人學習,人在走動、坐下,捕捉到的這些視頻映射到機器人上,它的機械臂應該如何進行操作。現在有了 AI 眼鏡,未來會涌現大量第一視角數據,那現在我們把這兩個東西結合在一塊,就能夠產生對應的這方面數據,對大家來説就是一個可用的狀態,對行業也會有比較大的推動作用。

具身世界模型構建4D真實世界——指令:生成一段切黃瓜的機器人的視頻——第一視角

第三視角

前不久像 Yann LeCun 他們推出來的世界模型也是第一視角的世界模型,就是想通過第一視角預測將來的動作是什麼。

現在我們同時提供第一視角和第三視角,這是一個完整的對機器人行為的理解,就可以實現端到端的 VLA。

提問:有沒有具體的案例可以分享一下,基於這個平臺所帶來的具身智能領域的變化?

王曉剛:比如那些機器狗,就可以做到跟着小孩、老人出去,有守護也有陪伴。有了這個導航后可以去任何地方,中間如果遇到異常狀況,它也能夠及時做出響應和處理。

另外家庭里面的陪伴型機器人,能夠與我們進行對話聊天、產生記憶、建立情感上的連接。最近也可以看到,當下各種 AI 陪伴式提供情緒價值的機器人落地應用都是比較快的。

提問:剛纔也提到,機器人的類型、功能、大小不同,難以泛化,那如何基於一個具身智能平臺去實現?

王曉剛:這是將來要解決的問題,現在大家都解決不好這個問題。首先最重要的是我們要先解決行業里目前匱乏的數據問題,針對具體的一個機器人去採集數據,去微調、去適用它。這是首要解決的。

提問:當前業界關於「機器人大腦」的平臺也有很多,比如前段時間智源研究院發佈具身大腦 RoboBrain,「悟能」與之的區別是什麼?

王曉剛:而「悟能」這個平臺提供的是世界模型,這是比較新的一塊。另外像導航、人機交互這些能力都是基於我們自動駕駛和人機交互流式多模態大模型產生的,這些與複雜操作還是有區別的。

提問:那基於「悟能」平臺,商湯與各大機器人廠商的合作形式是怎樣的?

王曉剛:首先在這個平臺上,這些都是 SDK 軟件功能,比如導航、人機交互、世界模型等,可以調用這個 API,需要產生什麼樣的數據,世界模型就能夠把這些數據提供過來。可以想象我們做一個「機器人的大腦」。

而我們與機器人廠商的合作屬於強強結合,因為機器人是一個軟硬一體方案,將來想要在競爭中勝出,必須得具備足夠多的壁壘。在這一塊,商湯本身也投了一些機器人上下游公司,包括硬件、本體、或者零部件等企業,所以將來我們會有一個比較好的結合。

比如傅利葉,我們已經把流式多模態大模型提供給他們,能夠進行人機交互,另外其他的一些機器人公司我們也提供了基礎設施、算力等方面能力。

將來要提供整體方案,對硬件要求非常高,一旦在某一場景實現了軟硬一體方案的交付,進行批量化的生產,就需要做到第一成本、第二質量,以及穩定的供應鏈,甚至售后,這些都離不開硬件。

具身智能是具像化的智能體

提問:當下具身智能爆火,技術層、應用層不斷取得突破,那在你看來,當具身智能更為成熟的時候,人們的生活會發生怎樣的變化?

王曉剛:我覺得可想象空間非常大。具身智能本身就是機器人,也是一個比較具象化的智能體,之前我們看到的都是人與人之間的聯繫,將來可以看到人與機器人、機器人與機器人之間的聯繫,將來我們的社交羣體里可能會發現有機器人的存在,形成各種社交網絡。因為機器人不光是一個工具,它有記憶、有情感載體。

另外,隨着機器人通用化能力的增加,它的想象力和價值也會發生變化。當前家庭里用的各種電器和設備都是能夠完成某一項功能,比如空調、洗衣機等,而當機器人走進家庭場景后,它能夠完成多項功能,這些潛在的價值非常大。

當然,即便我們沒有要求機器人能夠實現完全的通用性,把各種事情都能完成,它只要每往前走一步,就能多做一些事情,都會給市場帶來巨大的想象空間。

提問:如今商湯發佈了「悟能」具身智能平臺,那接下來在具身智能領域還有怎樣的規劃,或者希望扮演一個怎樣的角色?

王曉剛:我們希望能夠給這個行業提供「機器人大腦」,這是我們最擅長也是最強的,這個大腦里包含了眼睛、聲音的交互、導航,以及操作。

商湯本身有很多這方面前期的技術積累,比如自動駕駛的積累能夠用到具身智能的導航、交互。

另外,我們通過世界模型助力打造 VLA 相應的大腦算法,這對於商湯自身的發展來説,也是把我們從原有的在數字空間的積累,進入到物理世界時,實現物理與數字空間的連接。不光如此,將來還能夠實現家庭、工作場所、汽車,這三個人類常用空間的連接。其中的核心就是機器人,因為機器人可以共享很多數據、記憶,能夠把人的生活整個連接在一起。

而實現這些的基礎就是商湯多年的積累,除了上面這些,還有「大裝置」等。過去我們的雲端、超算集羣已經在給很多機器人公司賦能,包括數據閉環、端側芯片等,我們希望基於這些綜合能力賦能整個行業。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。