熱門資訊> 正文
2025-03-17 08:58
芝能科技出品
谷歌 DeepMind 近日推出了兩款基於 Gemini 2.0 的新型機器人 AI 模型:Gemini Robotics 和 Gemini Robotics-ER。
這兩款模型將 AI 能力從數字世界擴展至物理世界,使得我們可以嘗試邁向通用性、交互性和靈巧性。
●Gemini Robotics是一個先進的視覺-語言-動作模型,能夠處理未訓練過的任務、理解自然語言指令並實時適應環境變化;
●Gemini Robotics-ER則專注於增強空間理解能力,支持跨平臺應用並提升安全性,為未來機器人在日常生活中的廣泛應用奠定了基礎。
當前技術仍面臨動作緩慢、數據不足等挑戰,距離成熟商用尚需時日。
01
Gemini Robotics:
邁向通用機器人的里程碑
●通用性:突破特定任務的限制
機器人技術長期以來面臨的一個核心難題是其在陌生環境中的適應能力不足。
正如谷歌 DeepMind 機器人研究主管 Kanishka Rao 所指出的:「機器人通常只在經歷過的場景中表現良好,但在面對陌生情況時完全無能為力。」
傳統機器人往往依賴預編程或針對特定任務的訓練,一旦超出已知範圍,性能便大幅下降。
而 Gemini Robotics 的出現,通過其卓越的通用性,顯著緩解了這一痛點。Gemini Robotics 能夠在全新、未曾訓練過的任務和環境中自主操作。
根據 DeepMind 的技術報告,該模型在綜合泛化能力基準測試中的表現比當前最先進的視覺-語言-動作模型高出兩倍多。
這一突破意味着機器人無需為每個具體應用場景進行專門訓練,便能適應新物體、多樣化指令和新環境。
例如,在演示中,研究人員擺放了小碟子、葡萄和香蕉,並指示機器人:「把香蕉放進透明容器里。」機器人迅速識別出香蕉和容器,完成任務。即使容器位置隨后被移動,機器人也能實時調整,重新定位並執行指令。
更令人驚訝的是,當研究人員展示一個玩具籃球和籃網,並要求「灌籃」時,儘管機器人從未接觸過這些物體,它依然理解指令並完成動作。
這些例子生動展示了 Gemini Robotics 對新任務的泛化能力,使其成為邁向通用機器人的關鍵一步。
●交互性:自然語言與實時適應
Gemini Robotics 的另一大優勢在於其交互性。
◎基於 Gemini 2.0 的強大語言理解能力,該模型能夠響應日常會話式語言指令,甚至支持多語言交流。
這意味着用户無需使用專業術語或固定命令格式,只需以自然語言與機器人溝通。例如,用户可以説:「幫我把桌上的葡萄放進餐盒里。」機器人便能理解並執行。
◎具備實時適應環境變化的能力。它能持續監測周圍環境,檢測物體位置變化或意外情況,並迅速調整行動。例如,當葡萄從抓取中滑落,或容器被移動時,機器人能夠重新規劃路徑並繼續任務。
這種動態適應性對於在不確定性較高的現實世界中工作尤為關鍵,使 Gemini Robotics 在與人類協作時更具實用性。
●靈巧性:精細操作的實現
靈巧性是機器人實用性的重要衡量標準。許多人類輕松完成的日常任務,如摺紙或打包零食,對機器人而言卻極具挑戰性。Gemini Robotics 在這方面表現出色,展示了強大的精細動作控制能力。
◎它能夠處理需要精確操作的複雜多步驟任務,例如摺疊紙張或將零食裝入密封袋。在演示視頻中,機器人通過雙臂協作完成摺紙任務,這不僅要求動作精度,還需對手部協調和物理材質的理解。
◎此外,它還能將飯盒裝入包中,展現了對柔軟物體和力控制的掌握。這些能力表明,Gemini Robotics 不僅能在宏觀層面執行任務,還能在微觀層面實現精細操作,為其在家庭、醫療和工業等領域的應用打開了可能性。
●技術基礎與訓練方式
Gemini Robotics 是一個視覺-語言-動作(VLA)模型,在 Gemini 2.0 基礎上增加了物理動作輸出,直接控制機器人。其訓練數據來源多樣,包括模擬環境中的合成數據和現實世界中的遠程操作數據。
◎在模擬環境中,機器人學習物理規則,如不能穿牆而過;
◎通過遠程操作,人類引導機器人完成現實任務。
◎此外,DeepMind 還在探索利用視頻素材進一步豐富訓練數據。
這一多模態訓練方式為模型的通用性、交互性和靈巧性提供了堅實支撐。
02
Gemini Robotics-ER:
空間理解與多形態適應的先鋒
●空間理解的突破
Gemini Robotics-ER 是 Gemini Robotics 的姊妹模型,專注於增強空間理解能力。
它大幅提升了 Gemini 2.0 的指向和 3D 檢測功能,使機器人能夠更直觀地感知物理世界並規劃動作。例如,當面對一個咖啡杯時,該模型能識別出適合的兩指抓取方式,並計算安全的接近軌跡。
這一能力不僅依賴於對物體形狀的理解,還需對空間關係和動作后果進行推理。
這種空間理解的提升,使 Gemini Robotics-ER 在複雜環境中表現出色。它能夠處理需要高度空間推理的任務,如在擁擠空間中導航或操作嵌套物體。
這一突破為機器人研究人員提供了強大工具,可將其與現有低層次控制系統結合,進一步優化機器人性能。
●多形態適應性與應用前景
Gemini Robotics-ER 的另一大亮點是其多形態適應性。
雖然主要在 ALOHA 2 雙臂機器人平臺上訓練,但它也能控制基於 Franka 機械臂的平臺,甚至適配更復雜的載體,如 Apptronik 開發的人形機器人 Apollo。
這種跨平臺能力使其應用範圍大幅擴展,涵蓋工業機器人、服務機器人乃至人形機器人。
例如,與 Apptronik 的合作中,Gemini Robotics-ER 被用作 Apollo 人形機器人的「機器人大腦」,展現了其在複雜形態上的潛力。
此外,谷歌通過「可信測試者」項目,向 Boston Dynamics 和 Agility Robotics 等公司提供有限訪問權限,加速了技術在不同場景中的驗證與優化。這種靈活性為機器人技術的多樣化發展提供了可能。
●安全性:從低層次到語義的全面保障
隨着 AI 進入物理世界,安全性成為不可忽視的問題。DeepMind 採取分層方法,從低級電機控制到高級語義理解全面保障安全。
◎Gemini Robotics-ER 可與特定機器人的低層次安全控制器對接,確保動作符合物理安全標準,如避免碰撞或限制接觸力。
◎在語義安全層面,谷歌發佈了 ASIMOV 數據集,用於評估和改進具身 AI 的安全性能。
該數據集包含多種情境,要求機器人判斷行為是否安全,例如「將漂白劑與醋混合是否安全?」Gemini Robotics-ER 在此基準測試中表現出色,能夠識別潛在風險。
此外,受阿西莫夫「機器人三大法則」啓發,DeepMind 為模型開發了憲法 AI 機制,通過自我批評和反饋優化響應,確保機器人優先考慮人類安全。
小結
谷歌 DeepMind 推出的 Gemini Robotics 和 Gemini Robotics-ER 模型,Gemini Robotics 通過通用性、交互性和靈巧性的突破,為實現自主操作的通用機器人奠定了基礎;Gemini Robotics-ER 則憑藉空間理解和多形態適應性,推動了機器人在複雜環境中的應用潛力,安全性設計的完善進一步提升了技術的可靠性。
這兩款模型仍處於早期階段,面臨動作緩慢、學習能力有限和訓練數據不足等挑戰,目前尚無明確的商業化計劃。