繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

ChatGPT 里走不出具身智能,為什麼?

2024-12-19 12:17

從語言智能,到空間智能。

整理 | 曹思頎編輯| 靖宇

2024 年,具身智能無疑是 AI 領域里最火熱的新賽道之一。

相較於目前大語言模型在數字世界里帶來的技術變革,具身智能描繪了通往未來世界的另一條路徑:大量具有智慧的機器人出現在真實的物理空間中,通過參與到人類生產、生活的各個環節,改變人類的生活方式。

但和大語言模型可以利用海量互聯網文本、圖像資源進行快速學習不同,在具身智能領域里,機器人缺少低成本、高效率、多樣性、可泛化的學習數據。

如果只基於 Transformer 架構的大語言模型(如 ChatGPT),人類無法實現具身智能。海量物理正確的訓練數據如何快速獲取,是邁向具身智能前的世界級難題。

13 年前,黃曉煌回國創業。回國前,他在美國伊利諾伊大學學習 GPU 計算,也在英偉達做過雲計算。他一開始的創業方式,是希望用 GPU、雲計算來做物理仿真,但在當時,極少有人可以理解 GPU 通用計算的價值。於是,黃曉煌用 GPU 進行光學仿真,並應用對家裝場景里,把過往需要幾十分鍾的渲染提速到了 10 余秒,自此開始了羣核科技的創業之路。

多年后,憑藉着在家裝渲染、工業 4.0 生產對接中積累的海量數據(維權),在具身智能的技術巨浪襲來時,羣核科技終於脱下「家裝公司」的外殼,浮出水面。他們希望可以在數字世界和物理世界中間,搭起一道橋樑,通過海量可交互的、物理正確的三維數據,推動具身智能的發展。

以下是羣核科技聯合創始人兼董事長黃曉煌在 IF 2025 主舞臺的演講全文。在演講中,黃曉煌分享了羣核科技的創業故事,以及他們對具身智能時代的思考。由極客公園整理。

01

ChatGPT 解決不了的「疊被子困境」

大家好,我是極客公園的老朋友,來自羣核科技的黃曉煌。今天我介紹的主題是:如何讓 AI 從數字世界走向物理世界。

大模型到來之后,所有人都想知道它能為我們做什麼。我們的下一代已經成爲了「AI 原生娃」。我女兒剛學會認字,但她已經能很自然地對着各種鏡子和屏幕喊「小度小度」或者「小愛同學」了。

但他們目前還只能跟虛擬人物進行溝通,我們更希望孩子們跟物理世界有更多互動,有真實的陪伴。可惜即便 AI 現在已經可以吟詩作畫,但就算疊被子這麼簡單的家務,機器人都實現不了。

當我們談到具身智能或者機器人的時候,「疊被子困境」是一個非常典型的場景。

目前的 ChatGPT 大語言模型,可以很容易地讓機器人理解人類的指令,「給我疊一個被子」,它也可以通過視覺判斷哪牀被子是疊好的、哪牀被子沒疊好,但它很難執行。或者當它學會疊一牀被子后,換個形狀可能就又不會了。

機器人的大腦在數字世界里,但身體卻在物理世界中。解決這類問題,最關鍵的是在物理世界和數字世界里面建立一個橋樑。而 ChatGPT 一類的大語言模型是無法實現的,我們需要一個全新的大模型。

讓機器人正確理解物理世界,關鍵是要有海量可交互的三維數據。很多大語言模型都是根據互聯網上的語料信息、圖片或視頻訓練出來的,但這些內容只是一堆靜態的記憶,訓練出來的東西跟物理世界是相違背的。

這里有一個簡單的例子,左邊是由 Stable Diffusion 大模型生成的卧室場景,右邊是由我們的矩陣 CAD 引擎生成的。乍一看都挺漂亮的,但左邊這張存在多處物理不正確的地方:比如有的牀頭櫃懸空、有的櫃門無法打開。我們需要在大模型腦海里呈現右邊這種內容,來指導真實的生產製造。

Diffusion模型生成的圖片和視頻,目前還存在和許多物理bug|圖片來源:羣核科技 Diffusion模型生成的圖片和視頻,目前還存在和許多物理bug|圖片來源:羣核科技

02

羣核的創業之路:家裝公司收到硅谷來信

説説我的個人經歷吧。我一開始在美國伊利諾伊大學香檳分校學習 GPU 高性能計算;后來去英偉達做了 CUDA;回國后成立羣核科技,做了 3D 雲設計平臺;現在又在關注具身智能。

經常有朋友問我,為什麼你選擇這樣的創業路線?我想説,在中國創業沒辦法太陽春白雪,要腳踏實地跟着時代走。

剛開始創業的時候,我想用 GPU、雲計算來做物理仿真。但是回國一看,發現當時投資圈熱門的都是移動互聯網、O2O,我所想做的項目根本融不到錢。跟投資人講 GPU 通用計算,在那個年代幾乎就是對牛彈琴,更不要提物理仿真了。

后來,我們想到了用 GPU 來做光學仿真,把原來需要幾十分鍾、一個小時的效果圖渲染提速到了 10 秒鍾,為家裝設計師提速。這個「家裝 OTO」的概念,很快成爲了資本最推崇的項目,幫我們融到了很多資金,讓酷家樂成功上線併成爲了設計師首選的設計工具。

下一步,我們抓住了工業 4.0 改革里,傳統工廠打造柔性生產線的需求,用我們的數據幫助工廠進行升級。我們用物理仿真、數字孿生,把每一件商品拆解成一個個零件,通過流水線機器人以及傳送帶實現柔性生產。

但這依然不夠,因為這些工廠里所有的機械臂都是沒有智慧的。你告訴它往左就往左、往右就往右,機械臂是沒有智能的。一旦進行微小的改動,所有一切都要重來。所以,現在的無人工廠實際上還不是真正的無人工廠。

那段時間我非常苦惱,但我們已經見識到了物理正確數據的價值。直到有一天,我看到馬斯克提出用人形機器人在工廠生產汽車,就覺得工業 4.0 的下一步是把流水線機器人變成人形機器人。我覺得這是未來,而羣核科技就是這些所有機器人訓練的「道場」。

羣核科技的空間智能探索之路|圖片來源:極客公園 羣核科技的空間智能探索之路|圖片來源:極客公園

這些年我們做 3D 雲設計平臺,儘管路徑一些曲折,但也積累了海量的三維數據:3.2 億個 3D 模型、不計其數的物理正確的三維場景、月活接近 8000 萬,服務了 200 多個國家和地區。我們在這個過程中始終相信,物理正確的空間數據是可以用來訓練大模型的,我們的科研人員也一直在訓練,在等待一個機會。

2018 年,我們的科研人員跟帝國理工、南加州大學共同發佈了一個室內智能數據集方案。這是當時全球最大的室內場景認知深度學習數據集,一下子在學術界很熱。

有一天,我們收到了一封硅谷最大公司的郵件,希望跟我們進行空間智能的合作。當然我們甚至懷疑是騙子。幾萬億美元的大公司,怎麼會找一家創業公司合作空間智能。但這的確是真的。在合作的過程中,我們發現了這些大公司在解決了算力、算法問題之后,他們面臨的問題是,缺少海量的、可交互的、物理正確的三維數據。

我們跟目前全球這個領域最靠前的公司基本都達成了合作。這兩年,中國的空間智能、具身智能也爆發式地增長,我們也跟國內頭部公司達成了合作。這個時候,我覺得技術奇點到來了,我們的機會也來了。

03

具身智能的世界級難題:數據

我們發現,現在不管是空間智能還是具身智能,有四個最關鍵的問題需要解決:算法、算力、數據、機器人硬件。

算法層面,目前是百花爭鳴的狀態,有非常多算法。

算力層面,國外以英偉達為代表,國內也有地平線等公司在快速地解決這個問題。我覺得算力已經過了技術的奇點,可以支撐人造的智慧了。

機器人硬件層面,中國更是獨霸全球。

而目前世界級難題的是:如何給機器人提供用來訓練的可交互的數據?這就是我們要去解決的。

羣核科技聯合創始人兼董事長黃曉煌|圖片來源:極客公園 羣核科技聯合創始人兼董事長黃曉煌|圖片來源:極客公園

目前用來訓練具身智能的方式,主要有兩種

第一種,以斯坦福大學的 Moblile Aloha 為代表,它通過用設備來採集人在物理空間中的動作,來訓練機器人。但是它的採集成本非常高,而且空間非常受限。

第二種,也是目前學術界比較火熱的,通過仿真數據來做機器人的訓練。目前新一代的算法論文都是基於這個邏輯,李飛飛的文章也都是這個邏輯。因為它才真正可以實現在海量的空間里面做物理訓練,讓機器人能夠擁有足夠多的適應性。

相比真實的訓練環境,仿真訓練主要有以下四個巨大的優勢

第一,低成本。假如用一個真實的空間訓練一個機器人,那麼每訓練一個場景都要蓋一個真實的房間,那這個成本實在太高了。

第二,高效率。在物理世界里,時空是確定的。如果訓練一個機器人需要 1 天,那麼訓練 1 萬次就得 1 萬天,時間沒有辦法壓縮。但在數字世界里,時間是可以被壓縮的,物理世界里要用 1 萬天跑完的數據,數字世界里也許 1 天就可以跑完。

第三,多樣性。在現實世界里面,要找到各種各樣不同場景是非常困難的。如果我們想訓練一個機器人去火星上幫人類干活,但沒有辦法先把一堆設備送到火星上去提前訓練。合成數據解決了多樣性問題。

第四,可泛化性。李飛飛發表的文章里提到了「數字表親」的概念,可以生產類似的場景進行訓練,從而實現舉一反三。否則我們訓練出來的機器人只能在一模一樣的房間里干活,離開了那個房間,還是啥都不會。

相比真實場景,仿真數據用於具身智能訓練擁有諸多優勢|圖片來源:極客公園 相比真實場景,仿真數據用於具身智能訓練擁有諸多優勢|圖片來源:極客公園

那麼,羣核科技的核心優勢是什麼?我們為什麼能一起參與這個有意思的征程呢?

我們通過多年的 3D 雲設計平臺,積累了海量數據,用這些數據訓練了自己 CAD 的大模型。這些大模型可以閲讀人類的 CAD 文件、圖片、手繪等,然后把這些內容再轉換成物理正確的空間場景。我們也自建了 1 萬多臺高性能計算服務器,專門用來訓練、推理、渲染。我們希望用物理正確的合成數據,來幫助所有具身智能的機器實現訓練。

今年,我們推出了新版本的 SpatialVerse 來賦能 AI 空間智能。因為傳統的三維數據太「乾淨」了,沒有辦法直接用來訓練機器人。我們需要 AI 對這些原始的數據進行物理增強:告訴機器人哪里是抽屜可以打開,可以打開多少程度;物體的重力是多少;哪里是門可以打開,是往里開還是往外開等等。

其次,在機器人訓練的時候需要有各種語義信息在里面,過去都是人工標註,現在要用 AI 給它自動標註好。

另外,環境加強也很重要。我們平常人生活的環境不是像 3D 世界里面那麼純淨的,包括你的房間里面有紙巾、有動物的毛發等,但是在數字世界里沒有,你要把它以某種方式加回去,讓一個空間不是一個純淨的空間,它需要更接近於真實的空間。

最后是隱私問題。前陣子全球最著名的公司之一被曝出在採集物理數據的時候,不小心拍到了房屋主人上廁所的視頻。合成數據就沒有這個問題,它不會涉及到人類隱私的問題。

我們今年和上海人工智能實驗室一起發佈了具身智能訓練的新範式,多模態的 3D 數據解決方案,就是大規模的動態場景生成,渲染+物理真實感以及高分辨率的場景分割。這里面的空間場景都是基於我們 SpatialVerse 的解決方案。

具身智能未來將進入更多場景中|圖片來源:極客公園 具身智能未來將進入更多場景中|圖片來源:極客公園

我以上展示的這些肯定不是空間智能、具身智能的全部,它只是開始。具身智能還會進入到我們更多的場景,除了在我們工廠里面工作,還會進入到我們的商業空間里、辦公室里,家庭里。未來,我們的生活場景里面會充滿了空間智能、具身智能的機器人。

當然,所有的使用場景都需要豐富的物理正確的三維數據給它們訓練,因為大家不希望一個沒有訓練過的機器人在你家里面。一個 300 公斤重的機器人,萬一發起瘋來,誰都受不了,所以我們得確保它在足夠多的空間里訓練過,才能夠進入到我們工作生活的環境里,這是非常重要的。

我相信未來肯定是具身智能、空間智能的時代,我相信從生產製造再到商業空間再到我們家庭場景,它會充斥到我們每一個角落,就像疊被子那一刻被機器人完美地解決了之后,機器人就會解決我們日常生活中各種各樣所需要的問題,我也希望羣核科技能夠成為中間重要的推力之一。

歡迎各位小夥伴跟羣核一起走向技術的彼岸。

*頭圖來源:極客公園

本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO

想看國際最先進水平的 AI 公司如何看待 AI 嗎?想看最火的機器人公司怎麼展望未來嗎?想看最有調性的科技公司怎麼在這個時代做產品嗎?好險!差點就錯過他們的分享了!

12 月 19 日(周四) 13:30,極客公園創新大會 2025 直播進行時!鎖定視頻號直播間,2025 年科技趨勢全部都有!

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。