熱門資訊> 正文
2025-08-04 12:50
文|富充
編輯|蘇建勛
2025年世界人工智能大會(WAIC)期間最「耀眼」的具身智能論壇,莫過於上海期智研究院舉辦的「人工智能交叉科學論壇」的主題活動。
這場論壇難得聚齊了當下國內具身智能領域的「伯克利四子」——吳翼、高陽、許華哲和陳建宇,這四位學者均畢業自加州大學伯克利分校,目前都從事具身機器人相關工作。
其中陳建宇創立了星動紀元,高陽為千尋智能聯合創始人、許華哲為星海圖聯合創始人。吳翼則任螞蟻集團強化學習實驗室首席科學家。
(點擊「星動紀元」、「千尋智能」,可查看我們之前的報道。)
這四位的罕見同台,分享內容自然離不開具身智能領域幾大核心問題:
具身智能的瓶頸——「獲取數據」,這個難題怎麼解?
從簡單任務(拿、放),到複雜任務(收拾屋子),機器人從大腦到本體該如何提升?
已經形成共識的「VLA算法」,里面又有哪些非共識的方法論?
除了創業者/大廠科學家的身份以外,吳翼、高陽、許華哲和陳建宇四位均擔任上海期智研究院PI(Principal Investigator,首席研究員)。
姚期智為圖靈獎得主、清華大學交叉信息研究院院長。2005年,姚期智創立「清華學堂計算機科學實驗班」(姚班),以培養世界頂尖的計算機科學人才著名。上海期智研究院於2020年成立,姚期智擔任院長。
上海期智研究院院長、清華大學交叉信息研究院院長姚期智致辭;圖片:上海期智研究院
以下觀點來自陳建宇、高陽、吳翼、許華哲在「人工智能交叉科學論壇」的發言,由《智能涌現》總結、整理編輯:
暢想中會迎來一個與機器人有關的未來世界,我覺得達到這一願景會有三個階段。
第一個階段,機器人將進入我們的生產力系統,生產手機、汽車等現在生活中所需物品。這個可能貢獻超過目前一半的GDP。
第二階段,機器人會成為最大的終端,也能夠自己製造自己。
第三階段,機器人可以幫助人類去拓展能力邊界,比如馬斯克説的火星移民。在長遠的未來,機器人甚至能佈滿整個宇宙。
要實現這樣的結果,我認為最短的路徑是直接去學習人類的經驗和數據,畢竟人類是現在世界上唯一的通用智能體。
具身智能的瓶頸,主要在於如何使數據和模型更高效。構建人形機器人,可以更方便機器人從人類的學習範式里學習。
陳建宇和他分享的「具身智能數據金字塔」 ;圖片:上海期智研究院
具身智能有一個數據金字塔模型,顯示了具身智能訓練數據的來源。
金字塔的塔尖是遙操作採集的數據,數據量大概在1萬小時以內。但是我們訓練語言模型的數據,如果換算成小時的話,大概是10的九次方小時,所以僅使用遙操作收集數據達不到具身智能需要的數據量。
而真正訓練具身智能的數據量比語言模型所需數據量還要大一些,所以我們必須要用到人類行為的數據,這就是具身智能訓練數據金字塔中間的一層。
我們可以通過VR眼鏡、智能眼鏡等終端採集到人類第一視角的數據。
金字塔的最底端是我們稱為「一切發生在人類世界」的數據,也就是互聯網上的廣泛數據,比如視頻網站。目前統計出Youtube上所有視頻時長大概是10的十一次方小時。這類數據是現成的,而且非常非常多樣化。
確實,在很多情況下我們可以用仿真,但仿真有一個致命問題,就是仿真里面沒有人類這樣的具身智能體去產生數據。
幾乎所有的智能代碼和行為數據都是由人類去產生的,而如果仿真能構建出這樣一個智能體的話,實際上我們已經把這個「真」做出來了。所以這是一個雞生蛋、蛋生雞的問題。仿真基本上只能構建比較Passive的物理交互數據。
所以要構建人形機器人,直接去對標人類機體性能。比如星動紀元最新發布的星動L7,高度為1.7米,接近人類身高,同時它也有類人的胳膊、腰、頭部以及腿部,能更好收集人類的多樣性數據。
有人會關心雙足機器人的成本是不是會更高,我認為不用特別擔心這個問題。因為對通用機器人來説,降低價格最重要的因素在於規模化,而不是僅僅降低它的自由度。
通用人形機器人應用場景更多,隨着規模起量,成本也將大幅下降;但專用或簡易形態的機器人,由於可擴展的場景有限,所以也會限制規模化,所以成本的下降反而有限。
接下來,説説模型如何構建。當前主流的VLA(Vision-Language-Action,視覺語言動作模型)模型會存在一些問題,因為本質上來説它是在做純粹的克隆。
問題一是模型只能從大量人類行為數據里克隆,缺乏舉一反三能力;這也造成了第二個問題,機器人很難超越人類表現。
所以具身智能要參考人類的學習方式。
第一就是,建模整個世界,先形成物理世界的認知,類似我們説的「世界模型」。就像我們開車到十字路口會減速,即使沒有經過大量的數據教學,人類也知道要防止撞到路口突然衝出來的人。
第二點就是,向人類學「強化學習」。比如學乒乓球,教練手把手教學是一個「模仿學習」的範式。但是這還不足以讓人學會這麼高難度的技巧,所以需要在自己訓練中根據擊球情況調整姿勢,達到想要的效果,這就是「強化學習」。
所以我們的方法是,把VLM擅長的理解和世界模型擅長的生成進行結合,做成統一的模型,放到具身智能上。
這是我們做的融合世界模型的第一個探索PID模型,同一個模型不光做預測,同時也是做行為的生成。要找到相應的工具,最接近的工具就是類似sora基於diffusion視頻生成的模型,因為它能生成非常細緻的物理世界的行為環境動作。
基於Diffusion Policy,我們也有工具去很好地生成模型的行為。這樣一來,具身智能就可以對視覺、以及其他模態做出預測。接下來我們提出了「Video Addiction Policy」,進一步擴大了我們的數據,運用大量的互聯網和視頻數據進行預訓練,使得泛化性得到進一步提升。
最終,我們希望能真正把模型技術、數據通過我們不同形態的機器人,應用到現實生活中。通過一系列技術,機器人可以做出高動態全身運動,例如跳舞;除此之外可以完成操作,比如物流分揀
千尋智能聯合創始人高陽;圖片:上海期智研究院
ChatGPT等模型取得今天的成功是基於擁有海量數據,但目前機器人的數據是非常匱乏的。當前公開最大的數據集,也纔有不到100萬條軌跡。相對互聯網上文本、圖文數據,相差好幾個量級。
核心的問題是,我們到底該如何解決具身智能中的數據瓶頸,我認為最重要的方式就是「數據金字塔」。就是説我們要利用不同質量、不同來源的數據,把數據量去堆上去。
剛纔陳建宇老師也提到了具身智能數據金字塔。我將具身智能數據分為上中下三層,下層是海量的互聯網視頻;中間層是人類操作數據;最上層是強化學習數據,也就是讓機器人在會某個技能之后,與環境進行進一步交互來修正它的能力使成功率達到99%以上,所使用的數據。
我今天想説的是,在具身智能的金字塔再往后一步,就是硬件的感知層面和獲取數據后的模型結構方面再做提升。
從感知層面而言,現在VLA只有視覺,但是對人類來説觸覺是一個非常重要的模態,比如插U盤的動作,人並不一定需要眼睛盯着USB口。但如果機器人要盯着才能完成這個工作,姿勢會非常奇怪。
現在提出的「TactileVLA」概念,就是在VLA基礎上加上觸覺。再舉一個例子,比如機器人擦黑板,一遍沒擦乾淨,它會用VLM嘗試思考,是不是因為黑板上的字跡特別頑固,要再用更大力氣再擦一遍。
通過帶觸覺輸入,帶觸覺輸出,以及帶觸覺反饋的過程,就可以把觸覺非常好的融合到VLA的模型里。
有了觸覺,讓具身智能去拿不同的物體,可以通過預訓練知識讓它拿得更好。比如説拿水果和拿鐵塊的力不一樣。
就可以結合觸覺具有摩擦力等功能對擦黑板工作進行更準確判斷。
在通過數字金字塔獲取到豐富數據量之后,還需要一個好的數據結構,讓機器人從目前的數據里面學到正確知識。就像大語言模型有Transformer架構。
當我們想讓機器人做伏特加調酒的時候,面對面前巨多的瓶瓶罐罐,具身智能要把動作分解成若干可以去執行的原子動作。但如果只用VLA做反思性思考,或者我們常説的System1思考模式(一種大腦處理信息做決策的方式,更偏直覺、速度快)成功率會非常低。
我們提出了OneTwoVLA,是一種把System1和System2(大腦的系統性思考,速度更慢),做結合的模型。這個模型在接到任務之后會自主判斷,當前的任務是需要進行分析還是隻完成當前的動作路徑。
具體而言,比如一個涮火鍋機器人機器人面前有很多食材。你讓它涮牛肉,它就涮牛肉;你讓它涮蔬菜,它會發現面前有很多種類蔬菜,於是停下來問用户涮哪一種。通過這個模型,可以把任務在結構的層面上進行分解,達到更好的效果。
螞蟻集團強化學習實驗室首席科學家吳翼;圖片:上海期智研究院
我們的終極目標是要讓機器人走進千家萬戶,做很複雜的任務。
但是即使我們實現了當前所有的技術,可能還是未必達到這個願景。那這個過程中我們是不是漏掉了什麼?
從2022年ChatGPT開始,當時大模型可以基於人類指令,被動回答問題;到2025年退出Agent智能體,可以回答非常複雜的、宏觀且抽象的問題,主動做很多工作。三年間,大語言模型的發展非常迅速。
機器人領域,我想也會有這樣一個過程。比如有一天我告訴「它把屋子進行打掃」這樣一個抽象的任務,它會自己調用工具完成。所以這就是一個具身智能體(Embodied Agent),像Agent一樣工作,但有物理的身體。
我們也可以從Agent的構建上,去尋找具身智能體的啓發。
一個AGI智能體需要有三個能力:規劃、記憶調整、使用工具。我們希望具身智能體也有這樣的三種能力。
Agent是Function Call(工具調用)智能體,同理,具身智能體也可以調用不同的Function。具體而言,具身智能體會先做邏輯推理,然后寫代碼,然后具身智能體會做代碼執行。
我們可以想象家里有一條四足機器狗,現在想讓它關燈,但是它的高度距離開關有一定差距,需要踩着一個箱子,完成這個動作。
在和物理世界交互時機器狗發現,踩着一開始的箱子仍然達不到燈開關的高度,那從這個出錯的地方往后的代碼都沒有用了。大模型會從這里開始重新思考,寫一段新代碼去換一個高度合適的箱子,然后機器狗去執行新的代碼。
這個過程中,有一個軟件智能體在執行,還有一個硬件和現實世界做交互。
總結一下,就像大模型可以從ChatGPT可以進化成Agent,希望具身智能也可以從機器人進化成具身智能體。
再往后展望一下,我們希望未來不只是一個具身智能體,而是很多具身智能體交互,也就是所説的Multi-agent的概念。比如一個機器狗足球隊,多個機器狗一起踢球,會有競爭和合作;人和機器狗之間也可以有類似的人機交互。
最后對未來做一個展望,我覺得未來世界會是一個具身智能體的世界,有很多聰明機器人,做很複雜的任務;人也可以和機器狗交互,牽機器狗着上街。
最后推薦一下我的AReaL開源項目,希望通過這個開源框架幫助大家做更好的智能體。
星海圖聯合創始人許華哲;圖片:上海期智研究院
一個機器人,從它看一張圖,做一件事開始,最后它的行為形成了規模定律。這中間有怎樣的故事線呢?
我和一些觀點傾向認為,具身智能在小規模數據的情況下,是一場背誦的遊戲。
比如模型看到一個圖片,是桌面上有多個工具,它可以背下來這幾個工具的使用方法、在不同方向放置的情況下如何進行最好的拿取。但很顯然,這樣的模型是很難有好的泛化性。
所以,真正的挑戰,如果這個圖片里的空間非常巨大,模型就不能靠純背誦做好工作。這就產生了對泛化和規模化的需求。
所以還是要有足夠多的訓練數據,覆蓋範圍足夠廣,這樣機器在非常大量的數據中可以學到一些本質的東西。比如説在世界各地的人都能看到不同的物體從高處落下,最后總結出了本質「牛頓定律」。
但是現在採集數據的技術路線或多或少都有一定的問題。我個人懷疑,現在的數據採集永遠都到不了我們想要的規模。
目前我們有人類數據,也有仿真數據,他們雖然很便宜、也可以大量提供,但是如果數據里是一些與現實世界有衝突的內容,那就未必能學到本質的東西。
如何把有偏移的「牛頓定律」挪回正確「牛頓定律」的位置,這是一個未解之謎。這也是為什麼具身智能現在不能像大模型一樣立刻很好地干活,簡而言之問題就是數據不夠好。
多的數據不好,好的數據不多。但不能「放棄治療」,我有一個解決方法。
許華哲提出的具身智能數據Scaling座標包括橫軸Path Sampling,和縱軸World Sampling,單邊提升也可以對Scaling形成促進;圖片:作者拍攝
就是我們在談具身智能數據Scaling的時候,有橫軸、縱軸兩個座標可以影響它,一個叫World Sampling,另一個叫Path Sampling。
舉一個例子,就像是讓具身智能學習倒水這個動作,World Sampling是它在不同的「世界」里倒水的案例。比如在辦公室倒水、在家里倒水、在酒吧倒水;而Path Sampling是説先不用管它的位置,可以在家里這一個場景用不同動作路徑實現倒水。
現在我的組里也在沿着Coodinate(座標)這一方向去做研究。
所以我的非常粗糙的猜想是,具身智能很難在這個座標里,沿着一個理想的上升斜線往右上角行進。因為它需要的數據量太大,而我們現在拿不到。
所以我們或許可以先沿着其中一個軸做得好一些,再沿着另一個軸做突破。而不是一開始就在World Sampling這條軸上採集很多很多數據,這樣所需要覆蓋的空間就會太大了,工作量也會太大。