繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

單條演示即可抓取一切:北大團隊突破通用抓取,適配所有靈巧手本體

2025-10-29 16:52

在靈巧手通用抓取的研究中,由於動作空間維度高、任務具有長程探索特徵且涉及多樣化物體,傳統強化學習(RL)面臨探索效率低、獎勵函數及訓練過程設計複雜等挑戰。

基於此,北京大學及BeingBeyond團隊提出DemoGrasp框架——

一種簡單且高效的通用靈巧手抓取學習方法。

該方法以一次成功的抓取演示軌跡為起點,通過對軌跡中的機器人動作進行編輯,以適應不同物體與姿態:改變腕部位姿用於確定「抓取位置」,調整手指關節角度用於確定「抓取方式」。

這一核心創新——將連續決策的多步MDP(馬爾可夫決策過程)重構為基於軌跡編輯的「單步MDP」——有效提升了強化學習在抓取任務上的學習效率和遷移到真機的性能。

核心設計:單條演示 + 單步 RL

從「多步探索」到「全局編輯」

傳統RL的困境:高維動作空間的複雜探索

  • 動作空間:每一步都需要輸出高自由度機器人所有關節的指令。
  • 獎勵設計:需要設計極其複雜的密集獎勵函數,引導機器人避開碰撞、接觸物體、成功抓取、平滑運動等。
  • 課程學習:需要設計複雜的多階段學習流程,幫助RL探索

DemoGrasp 的核心創新在於用 「單條成功演示軌跡」 替代 「從零開始的探索」,將高維抓取任務轉化為 「演示編輯任務」,再通過單步 RL 優化編輯參數,最終結合視覺模仿學習實現虛實遷移。

單條演示和軌跡編輯

一條抓取特定物體的成功軌跡包含了抓取任務通用的模式(如 「靠近物體→閉合手指→抬起手腕」),只需調整軌跡中的手腕和手指抓取方式,即可適配沒見過的新物體。

DemoGrasp只需要對一個物體(比如一個方塊)採集一條成功抓取演示軌跡,即可通過物體中心的軌跡編輯做出新物體、新位置的抓取行為:

  • 手腕位姿編輯:在物體座標系下,對原始軌跡中的每一個手腕位點施加一個統一的變換 T∈SE(3) ,通過靈活地調整手腕抓取方向和位置,適應不同大小、形狀、合適抓取點的物體。
  • 手指關節編輯:對手指的抓取關節角施加一個增量 Δq_G,通過與演示軌跡的等比例插值,產生一條靈巧手從初始張開姿態平滑到達新的抓取姿態的動作軌跡。

單步強化學習

在仿真環境中,DemoGrasp利用IsaacGym創建了數千個並行世界,每個世界里都有不同的物體和擺放場景。

學習過程:每一個仿真世界中,策略網絡根據初始的觀測(末端位姿和物體點雲、位姿) 輸出一組手腕和手指編輯參數,執行編輯后的軌跡,根據執行過程是否「抓取成功」和「發生碰撞」獲得獎勵。

通過海量試錯和在線強化學習,策略學會根據不同形狀物體的觀測輸出合適的編輯參數。

訓練效率:在這個緊湊動作空間的單步MDP問題上,DemoGrasp使用單張RTX 4090顯卡訓練24小時即可收斂到>90%的成功率。

視覺蒸餾,虛實遷移

仿真中的強化學習策略依賴精確的物體點雲和位姿,這在現實中難以獲取。DemoGrasp通過視覺模仿學習,將策略蒸餾成與真機對齊的RGB策略,實現從仿真到真機的直接遷移。

  • 數據收集:在仿真中運行強化學習策略,記錄下上萬條成功軌跡:包括渲染的相機RGB圖像、每一時刻的機器人本體感知和關節角動作。
  • 模型訓練:採用流匹配(Flow-Matching)生成模型的方法,學習從圖像觀測和機器人本體感知預測動作。為縮小仿真到真機的視覺圖像差異,訓練還使用了預訓練的ViT提取圖像特徵,並在仿真數據收集時充分地進行域隨機化(隨機化光照、背景、物體顏色紋理、相機參數等)。
  • 多模態適配:DemoGrasp適配單目/雙目、RGB/深度相機等多種相機觀測。實驗表明,雙目RGB相機組合的效果最佳,能夠更好地減少遮擋、利用紋理和輪廓等信息成功抓取小而薄的物體。

實驗結果:仿真和真機雙優,全面提升靈巧抓取的泛化性和擴展性

DexGraspNet是靈巧抓取領域的權威數據集(3.4K 物體)。

DemoGrasp在該數據集上使用Shadow Hand抓取,性能顯著優於現有方法:視覺策略成功率達到92%,訓練集到測試集的泛化差距僅1%,且適應大範圍的物體初始位置隨機化(50cm×50cm)、具備更強的空間泛化能力。

跨本體擴展:適配任意靈巧手和機械臂本體

DemoGrasp無需調整任何訓練超參數,成功適配6種不同形態的機器人(五指、四指靈巧手,三指夾爪和平行夾爪),在175個物體上訓練后,在多個未見過的物體數據集上達到84.6%的平均成功率。

高性能的虛實遷移

在真實機器人測試中,使用Franka機械臂和因時靈巧手,DemoGrasp成功抓取了110個未見過的物體。

在常規大小的物體分類上,DemoGrasp成功率均達到90%以上;

對於扁平物體(手機殼、剪刀等)和小物體(瓶蓋、小黃鴨等)的困難抓取任務,策略能夠準確地抓取物體、避免碰撞,成功率達到70%。

DemoGrasp框架支持對真實場景更加複雜的抓取任務的擴展能力,支持 在雜亂多物體擺放的場景下實現用語言指令引導抓取,且達到84%的真機單次抓取成功率。對於光照、背景和物體擺放的大幅變化,策略的成功率沒有明顯下降。

DemoGrasp是融合少量人類演示實現高效機器人強化學習的新起點,將在未來支持功能性抓取、工具使用、雙手操作等更多靈巧手任務。

訓練時策略的閉環能力是當前方法的一個侷限,后續研究將通過更加細粒度的演示軌跡拆分,增加強化學習策略的實時調整、錯誤恢復能力。

此外,DemoGrasp可以結合多模態大模型,實現開放場景下的自主抓取智能體。

項目主頁:https://beingbeyond.github.io/DemoGrasp/

論文:https://arxiv.org/abs/2509.22149

本文來自微信公眾號「量子位」,作者:DemoGrasp團隊,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。