熱門資訊> 正文
2025-03-13 11:35
機器人前瞻(公眾號:robot_pro)
作者許麗思
編輯漠影
機器人前瞻3月13日報道,今天,谷歌DeepMind推出兩個基於Gemini 2.0的機器人模型:一個是VLA模型Gemini Robotics,可以讓機器人在未經特定訓練的情況理解、執行新任務;一個是VL模型Gemini Robotics-ER,能夠增強機器人對物理世界的理解,尤其是空間推理方面。
借鑑了Gemini 2.0的多模態理解能力,只需要用户發出一句語音指令,Gemini Robotics就能讓機器人快速完成對環境的感知、理解以及任務執行等一系列流程,在環境交互、操作靈巧性方面也有大幅提升,在家庭、工廠等多個場景中表現出較強的適應性。
目前,谷歌DeepMind已在Gemini Robotics模型方面,和Apptronik、Agile Robots、Agility Robots、Boston Dynamics和Enchanted Tools等展開合作。
一、Gemini Robotics:適配多場景、本體,聽懂人話、操作靈活
Gemini Robotics體現出四大特點:
1、通用性
依託於Gemini 2.0的世界理解能力,Gemini Robotics能夠快速適應各種新環境、新對象以及多樣化的指令。無論是在家庭、辦公室還是工廠等不同場景下,Gemini Robotics都能迅速調整自身,應對各種未曾遇到的任務挑戰。與其他VLA模型相比,Gemini Robotics在綜合泛化基準上的性能平均增加了一倍多。
比如,Gemini Robotics可以讓機器人完成打包餐盒、抓取像豌豆這樣的細小物品、用海綿擦擦拭字跡等精細操作。
2、交互性
利用Gemini 2.0的語言理解能力,Gemini Robotics能夠理解並對不同語言表述的指令做出反應。該模型能夠理解並回應比谷歌DeepMind之前的模型更廣泛的一系列自然語言指令,並根據用户輸入調整其行為。
用户要求「幫我把籃球扣進去籃筐中」,機器人聽懂后快速找到相應物品,完成一場「桌面扣籃」。
Gemini Robotics還會持續監測周圍環境,檢測環境或指令的變化,並相應地調整其動作,從而更好與人類在多種場景中進行協作。
讓機器人將葡萄和香蕉放在同一個透明碗中,面對不斷變換位置的碗,機器人可以準確找到目標。
3、靈巧性
Gemini Robotics可以處理複雜的、需要精確操作的多步驟任務,比如摺紙這種精細活。
4、適應不同本體
Gemini Robotics能適應不同形態的機器人。其訓練數據主要來源於雙臂機器人平臺ALOHA 2,但同樣能夠駕馭基於Franka機械臂的雙臂平臺等其他機器人形態。對於像Apptronik開發的人形機器人Apollo這樣更為複雜的形態,Gemini Robotics也具備良好的適配性。
二、Gemini Robotics-ER:重點關注空間推理
Gemini Robotics-ER,可以幫助機器人理解複雜、動態的物理世界,尤其是空間推理方面,並允許機器人專家將其與現有的低級控制器連接。
Gemini Robotics-ER大幅提升了Gemini 2.0現有的能力,比如精確指向和三維檢測。通過結合空間推理和Gemini的編碼能力,Gemini Robotics-ER可以即時賦予機器人全新能力。例如當展示一個機器人沒見過的咖啡杯時,該模型可以直觀地判斷出用兩指抓住手柄的合適方式,以及接近它的安全軌跡。
Gemini Robotics-ER能夠執行控制機器人所需的所有步驟,包括感知、狀態估計、空間理解、規劃和代碼生成。在這樣的端到端設置中,該模型的成功率比Gemini 2.0高出2到3倍。在代碼生成不足以解決問題的地方,Gemini Robotics-ER甚至可以利用上下文學習的能力,按照少量人類演示的模式來提供解決方案。
在安全性方面,谷歌DeepMind正在開發一種「分層方法」,且Gemini Robotics-ER可以與針對每個具身形式的「低級」安全關鍵控制器連接。在Gemini的核心安全功能基礎上,研發團隊使Gemini Robotics-ER模型能夠理解在給定上下文中潛在動作是否安全執行,並生成適當的響應。
谷歌DeepMind還發布了一個新的數據集,用於評估和提高人工智能和具身智能機器人技術中的語義安全,以及開發了一個新框架來引導機器人的行為。
結語:Gemini Robotics邁出了走向通用機器人的重要一步
多模態大模型在AI領域已經展現出卓越的通用能力,而要將這種能力轉化應用到機器人這樣的物理智能體上,依舊是一個巨大挑戰。
谷歌DeepMind這次所發佈的Gemini Robotics系列模型,針對機器人在物理世界的通用能力上等方面有了較大提升,也意味着在開發通用具身智能機器人的道路上邁出了重大一步。
不過團隊也提到,由於Gemini 2.0在難以處理長視頻中的空間關係,它的數值預測(如點和邊界框)對於更精細的機器人控制任務來説可能不夠精確。后續,團隊還需要增強模型處理需要多步驟推理、精巧操作的複雜場景的能力,以及推進實現零樣本跨實體形態遷移,讓模型能夠立即將其技能泛化到新的機器人平臺上。