ChatGPT 里走不出具身智能，為什麼？

2024-12-19 12:17

從語言智能，到空間智能。

整理 | 曹思頎編輯| 靖宇

2024 年，具身智能無疑是 AI 領域里最火熱的新賽道之一。

相較於目前大語言模型在數字世界里帶來的技術變革，具身智能描繪了通往未來世界的另一條路徑：大量具有智慧的機器人出現在真實的物理空間中，通過參與到人類生產、生活的各個環節，改變人類的生活方式。

但和大語言模型可以利用海量互聯網文本、圖像資源進行快速學習不同，在具身智能領域里，機器人缺少低成本、高效率、多樣性、可泛化的學習數據。

如果只基於 Transformer 架構的大語言模型（如 ChatGPT），人類無法實現具身智能。海量物理正確的訓練數據如何快速獲取，是邁向具身智能前的世界級難題。

13 年前，黃曉煌回國創業。回國前，他在美國伊利諾伊大學學習 GPU 計算，也在英偉達做過雲計算。他一開始的創業方式，是希望用 GPU、雲計算來做物理仿真，但在當時，極少有人可以理解 GPU 通用計算的價值。於是，黃曉煌用 GPU 進行光學仿真，並應用對家裝場景里，把過往需要幾十分鍾的渲染提速到了 10 余秒，自此開始了羣核科技的創業之路。

多年后，憑藉着在家裝渲染、工業 4.0 生產對接中積累的海量數據（維權），在具身智能的技術巨浪襲來時，羣核科技終於脱下「家裝公司」的外殼，浮出水面。他們希望可以在數字世界和物理世界中間，搭起一道橋樑，通過海量可交互的、物理正確的三維數據，推動具身智能的發展。

以下是羣核科技聯合創始人兼董事長黃曉煌在 IF 2025 主舞臺的演講全文。在演講中，黃曉煌分享了羣核科技的創業故事，以及他們對具身智能時代的思考。由極客公園整理。

ChatGPT 解決不了的「疊被子困境」

大家好，我是極客公園的老朋友，來自羣核科技的黃曉煌。今天我介紹的主題是：如何讓 AI 從數字世界走向物理世界。

大模型到來之后，所有人都想知道它能為我們做什麼。我們的下一代已經成爲了「AI 原生娃」。我女兒剛學會認字，但她已經能很自然地對着各種鏡子和屏幕喊「小度小度」或者「小愛同學」了。

但他們目前還只能跟虛擬人物進行溝通，我們更希望孩子們跟物理世界有更多互動，有真實的陪伴。可惜即便 AI 現在已經可以吟詩作畫，但就算疊被子這麼簡單的家務，機器人都實現不了。

當我們談到具身智能或者機器人的時候，「疊被子困境」是一個非常典型的場景。

目前的 ChatGPT 大語言模型，可以很容易地讓機器人理解人類的指令，「給我疊一個被子」，它也可以通過視覺判斷哪牀被子是疊好的、哪牀被子沒疊好，但它很難執行。或者當它學會疊一牀被子后，換個形狀可能就又不會了。

機器人的大腦在數字世界里，但身體卻在物理世界中。解決這類問題，最關鍵的是在物理世界和數字世界里面建立一個橋樑。而 ChatGPT 一類的大語言模型是無法實現的，我們需要一個全新的大模型。

讓機器人正確理解物理世界，關鍵是要有海量可交互的三維數據。很多大語言模型都是根據互聯網上的語料信息、圖片或視頻訓練出來的，但這些內容只是一堆靜態的記憶，訓練出來的東西跟物理世界是相違背的。

這里有一個簡單的例子，左邊是由 Stable Diffusion 大模型生成的卧室場景，右邊是由我們的矩陣 CAD 引擎生成的。乍一看都挺漂亮的，但左邊這張存在多處物理不正確的地方：比如有的牀頭櫃懸空、有的櫃門無法打開。我們需要在大模型腦海里呈現右邊這種內容，來指導真實的生產製造。

Diffusion模型生成的圖片和視頻，目前還存在和許多物理bug|圖片來源：羣核科技

羣核的創業之路：家裝公司收到硅谷來信

説説我的個人經歷吧。我一開始在美國伊利諾伊大學香檳分校學習 GPU 高性能計算；后來去英偉達做了 CUDA；回國后成立羣核科技，做了 3D 雲設計平臺；現在又在關注具身智能。

經常有朋友問我，為什麼你選擇這樣的創業路線？我想説，在中國創業沒辦法太陽春白雪，要腳踏實地跟着時代走。

剛開始創業的時候，我想用 GPU、雲計算來做物理仿真。但是回國一看，發現當時投資圈熱門的都是移動互聯網、O2O，我所想做的項目根本融不到錢。跟投資人講 GPU 通用計算，在那個年代幾乎就是對牛彈琴，更不要提物理仿真了。

后來，我們想到了用 GPU 來做光學仿真，把原來需要幾十分鍾、一個小時的效果圖渲染提速到了 10 秒鍾，為家裝設計師提速。這個「家裝 OTO」的概念，很快成爲了資本最推崇的項目，幫我們融到了很多資金，讓酷家樂成功上線併成爲了設計師首選的設計工具。

下一步，我們抓住了工業 4.0 改革里，傳統工廠打造柔性生產線的需求，用我們的數據幫助工廠進行升級。我們用物理仿真、數字孿生，把每一件商品拆解成一個個零件，通過流水線機器人以及傳送帶實現柔性生產。

但這依然不夠，因為這些工廠里所有的機械臂都是沒有智慧的。你告訴它往左就往左、往右就往右，機械臂是沒有智能的。一旦進行微小的改動，所有一切都要重來。所以，現在的無人工廠實際上還不是真正的無人工廠。

那段時間我非常苦惱，但我們已經見識到了物理正確數據的價值。直到有一天，我看到馬斯克提出用人形機器人在工廠生產汽車，就覺得工業 4.0 的下一步是把流水線機器人變成人形機器人。我覺得這是未來，而羣核科技就是這些所有機器人訓練的「道場」。

羣核科技的空間智能探索之路|圖片來源：極客公園

這些年我們做 3D 雲設計平臺，儘管路徑一些曲折，但也積累了海量的三維數據：3.2 億個 3D 模型、不計其數的物理正確的三維場景、月活接近 8000 萬，服務了 200 多個國家和地區。我們在這個過程中始終相信，物理正確的空間數據是可以用來訓練大模型的，我們的科研人員也一直在訓練，在等待一個機會。

2018 年，我們的科研人員跟帝國理工、南加州大學共同發佈了一個室內智能數據集方案。這是當時全球最大的室內場景認知深度學習數據集，一下子在學術界很熱。

有一天，我們收到了一封硅谷最大公司的郵件，希望跟我們進行空間智能的合作。當然我們甚至懷疑是騙子。幾萬億美元的大公司，怎麼會找一家創業公司合作空間智能。但這的確是真的。在合作的過程中，我們發現了這些大公司在解決了算力、算法問題之后，他們面臨的問題是，缺少海量的、可交互的、物理正確的三維數據。

我們跟目前全球這個領域最靠前的公司基本都達成了合作。這兩年，中國的空間智能、具身智能也爆發式地增長，我們也跟國內頭部公司達成了合作。這個時候，我覺得技術奇點到來了，我們的機會也來了。

具身智能的世界級難題：數據

我們發現，現在不管是空間智能還是具身智能，有四個最關鍵的問題需要解決：算法、算力、數據、機器人硬件。

算法層面，目前是百花爭鳴的狀態，有非常多算法。

算力層面，國外以英偉達為代表，國內也有地平線等公司在快速地解決這個問題。我覺得算力已經過了技術的奇點，可以支撐人造的智慧了。

機器人硬件層面，中國更是獨霸全球。

而目前世界級難題的是：如何給機器人提供用來訓練的可交互的數據？這就是我們要去解決的。

羣核科技聯合創始人兼董事長黃曉煌|圖片來源：極客公園

目前用來訓練具身智能的方式，主要有兩種：

第一種，以斯坦福大學的 Moblile Aloha 為代表，它通過用設備來採集人在物理空間中的動作，來訓練機器人。但是它的採集成本非常高，而且空間非常受限。

第二種，也是目前學術界比較火熱的，通過仿真數據來做機器人的訓練。目前新一代的算法論文都是基於這個邏輯，李飛飛的文章也都是這個邏輯。因為它才真正可以實現在海量的空間里面做物理訓練，讓機器人能夠擁有足夠多的適應性。

相比真實的訓練環境，仿真訓練主要有以下四個巨大的優勢：

第一，低成本。假如用一個真實的空間訓練一個機器人，那麼每訓練一個場景都要蓋一個真實的房間，那這個成本實在太高了。

第二，高效率。在物理世界里，時空是確定的。如果訓練一個機器人需要 1 天，那麼訓練 1 萬次就得 1 萬天，時間沒有辦法壓縮。但在數字世界里，時間是可以被壓縮的，物理世界里要用 1 萬天跑完的數據，數字世界里也許 1 天就可以跑完。

第三，多樣性。在現實世界里面，要找到各種各樣不同場景是非常困難的。如果我們想訓練一個機器人去火星上幫人類干活，但沒有辦法先把一堆設備送到火星上去提前訓練。合成數據解決了多樣性問題。

第四，可泛化性。李飛飛發表的文章里提到了「數字表親」的概念，可以生產類似的場景進行訓練，從而實現舉一反三。否則我們訓練出來的機器人只能在一模一樣的房間里干活，離開了那個房間，還是啥都不會。

相比真實場景，仿真數據用於具身智能訓練擁有諸多優勢|圖片來源：極客公園

那麼，羣核科技的核心優勢是什麼？我們為什麼能一起參與這個有意思的征程呢？

我們通過多年的 3D 雲設計平臺，積累了海量數據，用這些數據訓練了自己 CAD 的大模型。這些大模型可以閲讀人類的 CAD 文件、圖片、手繪等，然后把這些內容再轉換成物理正確的空間場景。我們也自建了 1 萬多臺高性能計算服務器，專門用來訓練、推理、渲染。我們希望用物理正確的合成數據，來幫助所有具身智能的機器實現訓練。

今年，我們推出了新版本的 SpatialVerse 來賦能 AI 空間智能。因為傳統的三維數據太「乾淨」了，沒有辦法直接用來訓練機器人。我們需要 AI 對這些原始的數據進行物理增強：告訴機器人哪里是抽屜可以打開，可以打開多少程度；物體的重力是多少；哪里是門可以打開，是往里開還是往外開等等。

其次，在機器人訓練的時候需要有各種語義信息在里面，過去都是人工標註，現在要用 AI 給它自動標註好。

另外，環境加強也很重要。我們平常人生活的環境不是像 3D 世界里面那麼純淨的，包括你的房間里面有紙巾、有動物的毛發等，但是在數字世界里沒有，你要把它以某種方式加回去，讓一個空間不是一個純淨的空間，它需要更接近於真實的空間。

最后是隱私問題。前陣子全球最著名的公司之一被曝出在採集物理數據的時候，不小心拍到了房屋主人上廁所的視頻。合成數據就沒有這個問題，它不會涉及到人類隱私的問題。

我們今年和上海人工智能實驗室一起發佈了具身智能訓練的新範式，多模態的 3D 數據解決方案，就是大規模的動態場景生成，渲染+物理真實感以及高分辨率的場景分割。這里面的空間場景都是基於我們 SpatialVerse 的解決方案。

具身智能未來將進入更多場景中|圖片來源：極客公園

我以上展示的這些肯定不是空間智能、具身智能的全部，它只是開始。具身智能還會進入到我們更多的場景，除了在我們工廠里面工作，還會進入到我們的商業空間里、辦公室里，家庭里。未來，我們的生活場景里面會充滿了空間智能、具身智能的機器人。

當然，所有的使用場景都需要豐富的物理正確的三維數據給它們訓練，因為大家不希望一個沒有訓練過的機器人在你家里面。一個 300 公斤重的機器人，萬一發起瘋來，誰都受不了，所以我們得確保它在足夠多的空間里訓練過，才能夠進入到我們工作生活的環境里，這是非常重要的。

我相信未來肯定是具身智能、空間智能的時代，我相信從生產製造再到商業空間再到我們家庭場景，它會充斥到我們每一個角落，就像疊被子那一刻被機器人完美地解決了之后，機器人就會解決我們日常生活中各種各樣所需要的問題，我也希望羣核科技能夠成為中間重要的推力之一。

歡迎各位小夥伴跟羣核一起走向技術的彼岸。

*頭圖來源：極客公園

本文為極客公園原創文章，轉載請聯繫極客君微信 geekparkGO

想看國際最先進水平的 AI 公司如何看待 AI 嗎？想看最火的機器人公司怎麼展望未來嗎？想看最有調性的科技公司怎麼在這個時代做產品嗎？好險！差點就錯過他們的分享了！

12 月 19 日（周四） 13:30，極客公園創新大會 2025 直播進行時！鎖定視頻號直播間，2025 年科技趨勢全部都有！

ChatGPT 里走不出具身智能，為什麼？

推薦文章

提價83%需求卻暴增400%！智譜、MiniMax鎖定大模型定價權，AI Agent元年即將開啟？

港股見底了嗎？北水大舉加倉逾600億港元！大行看好4月做多窗口來臨，十大金股一圖睇全

華盛早報 | 伊朗與阿曼擬共管霍爾木茲！美股V型反轉；伊朗襲擊甲骨文、亞馬遜數據中心；港美股今日因假期休市一天

諾和諾德稱：口服版Wegovy減肥效果優於禮來GLP‑1口服藥

美股機會日報 | 特朗普粉碎停戰幻想！恐慌指數飆升12%，納指期貨跌約2%；美油期貨暴漲超9%！油氣股飆升，美國原油基金ETF漲超9%

清明休市提醒 | 港股本周五休市，下周三恢復交易；美股周五休市一天

油價上漲 此前特朗普表示伊朗衝突可能在未來幾周升級

野村：特朗普講話未能發出局勢降温的明確信號

油價上漲此前特朗普表示伊朗衝突可能在未來幾周升級