熱門資訊> 正文

單條演示即可抓取一切：北大團隊突破通用抓取，適配所有靈巧手本體

2025-10-29 16:52

Beyond(BYON) 0

在靈巧手通用抓取的研究中，由於動作空間維度高、任務具有長程探索特徵且涉及多樣化物體，傳統強化學習（RL）面臨探索效率低、獎勵函數及訓練過程設計複雜等挑戰。

基於此，北京大學及BeingBeyond團隊提出DemoGrasp框架——

一種簡單且高效的通用靈巧手抓取學習方法。

該方法以一次成功的抓取演示軌跡為起點，通過對軌跡中的機器人動作進行編輯，以適應不同物體與姿態：改變腕部位姿用於確定「抓取位置」，調整手指關節角度用於確定「抓取方式」。

這一核心創新——將連續決策的多步MDP（馬爾可夫決策過程）重構為基於軌跡編輯的「單步MDP」——有效提升了強化學習在抓取任務上的學習效率和遷移到真機的性能。

核心設計：單條演示 + 單步 RL

從「多步探索」到「全局編輯」

傳統RL的困境：高維動作空間的複雜探索

動作空間：每一步都需要輸出高自由度機器人所有關節的指令。
獎勵設計：需要設計極其複雜的密集獎勵函數，引導機器人避開碰撞、接觸物體、成功抓取、平滑運動等。
課程學習：需要設計複雜的多階段學習流程，幫助RL探索

DemoGrasp 的核心創新在於用「單條成功演示軌跡」替代「從零開始的探索」，將高維抓取任務轉化為「演示編輯任務」，再通過單步 RL 優化編輯參數，最終結合視覺模仿學習實現虛實遷移。

單條演示和軌跡編輯

一條抓取特定物體的成功軌跡包含了抓取任務通用的模式（如「靠近物體→閉合手指→抬起手腕」），只需調整軌跡中的手腕和手指抓取方式，即可適配沒見過的新物體。

DemoGrasp只需要對一個物體（比如一個方塊）採集一條成功抓取演示軌跡，即可通過物體中心的軌跡編輯做出新物體、新位置的抓取行為：

手腕位姿編輯：在物體座標系下，對原始軌跡中的每一個手腕位點施加一個統一的變換 T∈SE(3) ，通過靈活地調整手腕抓取方向和位置，適應不同大小、形狀、合適抓取點的物體。
手指關節編輯：對手指的抓取關節角施加一個增量 Δq_G，通過與演示軌跡的等比例插值，產生一條靈巧手從初始張開姿態平滑到達新的抓取姿態的動作軌跡。

單步強化學習

在仿真環境中，DemoGrasp利用IsaacGym創建了數千個並行世界，每個世界里都有不同的物體和擺放場景。

學習過程：每一個仿真世界中，策略網絡根據初始的觀測（末端位姿和物體點雲、位姿）輸出一組手腕和手指編輯參數，執行編輯后的軌跡，根據執行過程是否「抓取成功」和「發生碰撞」獲得獎勵。

通過海量試錯和在線強化學習，策略學會根據不同形狀物體的觀測輸出合適的編輯參數。

訓練效率：在這個緊湊動作空間的單步MDP問題上，DemoGrasp使用單張RTX 4090顯卡訓練24小時即可收斂到>90%的成功率。

視覺蒸餾，虛實遷移

仿真中的強化學習策略依賴精確的物體點雲和位姿，這在現實中難以獲取。DemoGrasp通過視覺模仿學習，將策略蒸餾成與真機對齊的RGB策略，實現從仿真到真機的直接遷移。

數據收集：在仿真中運行強化學習策略，記錄下上萬條成功軌跡：包括渲染的相機RGB圖像、每一時刻的機器人本體感知和關節角動作。
模型訓練：採用流匹配（Flow-Matching）生成模型的方法，學習從圖像觀測和機器人本體感知預測動作。為縮小仿真到真機的視覺圖像差異，訓練還使用了預訓練的ViT提取圖像特徵，並在仿真數據收集時充分地進行域隨機化（隨機化光照、背景、物體顏色紋理、相機參數等）。
多模態適配：DemoGrasp適配單目/雙目、RGB/深度相機等多種相機觀測。實驗表明，雙目RGB相機組合的效果最佳，能夠更好地減少遮擋、利用紋理和輪廓等信息成功抓取小而薄的物體。

實驗結果：仿真和真機雙優，全面提升靈巧抓取的泛化性和擴展性

DexGraspNet是靈巧抓取領域的權威數據集（3.4K 物體）。

DemoGrasp在該數據集上使用Shadow Hand抓取，性能顯著優於現有方法：視覺策略成功率達到92%，訓練集到測試集的泛化差距僅1%，且適應大範圍的物體初始位置隨機化（50cm×50cm）、具備更強的空間泛化能力。

跨本體擴展：適配任意靈巧手和機械臂本體

DemoGrasp無需調整任何訓練超參數，成功適配6種不同形態的機器人（五指、四指靈巧手，三指夾爪和平行夾爪），在175個物體上訓練后，在多個未見過的物體數據集上達到84.6%的平均成功率。

高性能的虛實遷移

在真實機器人測試中，使用Franka機械臂和因時靈巧手，DemoGrasp成功抓取了110個未見過的物體。

在常規大小的物體分類上，DemoGrasp成功率均達到90%以上；

對於扁平物體（手機殼、剪刀等）和小物體（瓶蓋、小黃鴨等）的困難抓取任務，策略能夠準確地抓取物體、避免碰撞，成功率達到70%。

DemoGrasp框架支持對真實場景更加複雜的抓取任務的擴展能力，支持在雜亂多物體擺放的場景下實現用語言指令引導抓取，且達到84%的真機單次抓取成功率。對於光照、背景和物體擺放的大幅變化，策略的成功率沒有明顯下降。

DemoGrasp是融合少量人類演示實現高效機器人強化學習的新起點，將在未來支持功能性抓取、工具使用、雙手操作等更多靈巧手任務。

訓練時策略的閉環能力是當前方法的一個侷限，后續研究將通過更加細粒度的演示軌跡拆分，增加強化學習策略的實時調整、錯誤恢復能力。

此外，DemoGrasp可以結合多模態大模型，實現開放場景下的自主抓取智能體。

項目主頁：https://beingbeyond.github.io/DemoGrasp/

論文：https://arxiv.org/abs/2509.22149

本文來自微信公眾號「量子位」，作者：DemoGrasp團隊，36氪經授權發佈。

單條演示即可抓取一切：北大團隊突破通用抓取，適配所有靈巧手本體

核心設計：單條演示 + 單步 RL

從「多步探索」到「全局編輯」

單條演示和軌跡編輯

單步強化學習

視覺蒸餾，虛實遷移

實驗結果：仿真和真機雙優，全面提升靈巧抓取的泛化性和擴展性

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？