熱門資訊> 正文
2025-10-29 16:52
在靈巧手通用抓取的研究中,由於動作空間維度高、任務具有長程探索特徵且涉及多樣化物體,傳統強化學習(RL)面臨探索效率低、獎勵函數及訓練過程設計複雜等挑戰。
基於此,北京大學及BeingBeyond團隊提出DemoGrasp框架——
一種簡單且高效的通用靈巧手抓取學習方法。
該方法以一次成功的抓取演示軌跡為起點,通過對軌跡中的機器人動作進行編輯,以適應不同物體與姿態:改變腕部位姿用於確定「抓取位置」,調整手指關節角度用於確定「抓取方式」。
這一核心創新——將連續決策的多步MDP(馬爾可夫決策過程)重構為基於軌跡編輯的「單步MDP」——有效提升了強化學習在抓取任務上的學習效率和遷移到真機的性能。
傳統RL的困境:高維動作空間的複雜探索
DemoGrasp 的核心創新在於用 「單條成功演示軌跡」 替代 「從零開始的探索」,將高維抓取任務轉化為 「演示編輯任務」,再通過單步 RL 優化編輯參數,最終結合視覺模仿學習實現虛實遷移。
一條抓取特定物體的成功軌跡包含了抓取任務通用的模式(如 「靠近物體→閉合手指→抬起手腕」),只需調整軌跡中的手腕和手指抓取方式,即可適配沒見過的新物體。
DemoGrasp只需要對一個物體(比如一個方塊)採集一條成功抓取演示軌跡,即可通過物體中心的軌跡編輯做出新物體、新位置的抓取行為:
在仿真環境中,DemoGrasp利用IsaacGym創建了數千個並行世界,每個世界里都有不同的物體和擺放場景。
學習過程:每一個仿真世界中,策略網絡根據初始的觀測(末端位姿和物體點雲、位姿) 輸出一組手腕和手指編輯參數,執行編輯后的軌跡,根據執行過程是否「抓取成功」和「發生碰撞」獲得獎勵。
通過海量試錯和在線強化學習,策略學會根據不同形狀物體的觀測輸出合適的編輯參數。
訓練效率:在這個緊湊動作空間的單步MDP問題上,DemoGrasp使用單張RTX 4090顯卡訓練24小時即可收斂到>90%的成功率。
仿真中的強化學習策略依賴精確的物體點雲和位姿,這在現實中難以獲取。DemoGrasp通過視覺模仿學習,將策略蒸餾成與真機對齊的RGB策略,實現從仿真到真機的直接遷移。
DexGraspNet是靈巧抓取領域的權威數據集(3.4K 物體)。
DemoGrasp在該數據集上使用Shadow Hand抓取,性能顯著優於現有方法:視覺策略成功率達到92%,訓練集到測試集的泛化差距僅1%,且適應大範圍的物體初始位置隨機化(50cm×50cm)、具備更強的空間泛化能力。
跨本體擴展:適配任意靈巧手和機械臂本體
DemoGrasp無需調整任何訓練超參數,成功適配6種不同形態的機器人(五指、四指靈巧手,三指夾爪和平行夾爪),在175個物體上訓練后,在多個未見過的物體數據集上達到84.6%的平均成功率。
高性能的虛實遷移
在真實機器人測試中,使用Franka機械臂和因時靈巧手,DemoGrasp成功抓取了110個未見過的物體。
在常規大小的物體分類上,DemoGrasp成功率均達到90%以上;
對於扁平物體(手機殼、剪刀等)和小物體(瓶蓋、小黃鴨等)的困難抓取任務,策略能夠準確地抓取物體、避免碰撞,成功率達到70%。
DemoGrasp框架支持對真實場景更加複雜的抓取任務的擴展能力,支持 在雜亂多物體擺放的場景下實現用語言指令引導抓取,且達到84%的真機單次抓取成功率。對於光照、背景和物體擺放的大幅變化,策略的成功率沒有明顯下降。
DemoGrasp是融合少量人類演示實現高效機器人強化學習的新起點,將在未來支持功能性抓取、工具使用、雙手操作等更多靈巧手任務。
訓練時策略的閉環能力是當前方法的一個侷限,后續研究將通過更加細粒度的演示軌跡拆分,增加強化學習策略的實時調整、錯誤恢復能力。
此外,DemoGrasp可以結合多模態大模型,實現開放場景下的自主抓取智能體。
項目主頁:https://beingbeyond.github.io/DemoGrasp/
論文:https://arxiv.org/abs/2509.22149
本文來自微信公眾號「量子位」,作者:DemoGrasp團隊,36氪經授權發佈。