熱門資訊> 正文
2025-10-11 14:03
Youtu-Agent團隊 投稿
量子位 | 公眾號 QbitAI
讓智能體自己摸索新方法,還模仿自己的成功經驗。
騰訊優圖實驗室開源強化學習算法——
SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。
主打一個讓AI自學成才!
該算法首次讓大語言模型(LLM)驅動的智能體在無需大量專家示範的情況下,通過「自我模仿+漸進探索」實現熵穩定的學習過程。
在ALFWorld、WebShop、AIME24/25等基準上平均提升16%以上,刷新業界最佳成績,為長周期、稀疏獎勵場景下的智能體訓練提供了即插即用的新範式。
SPEAR算法核心概念示意圖
簡單來説,SPEAR算法既能大膽嘗試新方法,又能靠譜地用已經驗證過的有效策略,不用走極端。
下面具體來看。
傳統自我模仿學習是什麼?
想象一位新手廚師:
他先隨機嘗試做菜,偶爾做出一道「好評爆表」的拿手菜;
他把這道菜的做法仔細記錄,反覆練習,並在此基礎上微調口味;
下次做菜時,他只復刻那些「好評」操作,不再重複黑暗料理。
自我模仿學習(Self-Imitation Learning,SIL)就是把這套「只抄自己最好的作業」的思路搬進強化學習:
智能體在探索過程中把高回報軌跡存進「成功日記」(Replay Buffer);
訓練時定期回放這些高分片段,額外學習這些優質軌跡;
給自己打「樣例補丁」,在稀疏獎勵、長序列任務里把偶爾閃現的神操作變成穩定技能。
自我模仿 2.0:自己產出的「神操作」自己學
熵控崩潰終結者:讓智能體「越學越穩」
在使用RL算法優化LLM驅動的智能體時,嚐嚐面臨兩大問題:
1)直接搬運傳統自我模仿算法帶來「熵塌縮」陷阱——過早自信,拒絕探索新解法;
2)多輪交互中由不確定、不熟悉的環境帶來的「熵爆炸」——訓練發散,無法收斂。
SPEAR提出「課程式調度」來實現分階段的探索:
前期用內在獎勵鼓勵「多翻工具箱」,熵值温和上升;
后期啟動自模仿學習,只回放高回報軌跡,熵值平滑下降。
實驗顯示,SPEAR把策略熵牢牢鎖在「黃金區間」,實現測試指標的持續增長。
SPEAR升級經典SIL的具體操作:
課程權重——warm-up階段先輕后重,讓模型先「見世面」再「抄作業」。
優勢重校準——用動態中位數基線淘汰「過時神操作」,減小off-policy偏差;
協方差裁剪——把過度優化的token直接mask,防止死記硬背;
一句話:好經驗不過期,壞經驗不上桌。
內在獎勵優化:解決「瞎忙」難題
在稀疏獎勵場景里,模型只有「做對給+1,做錯給-1」這一終極信號。實驗發現,如果不給中間甜頭,智能體面對代碼報錯、搜索無果等負面反饋,會立刻「罷工:
把工具接口當空氣,純靠腦補硬推答案;
數學任務上拒絕寫代碼,全程文本口算,無法學會結合工具的推理。
於是團隊先加了「工具調用獎勵」:每成功調用一次工具,就給0.1獎勵,上限1分,保證模型「願意拿起鍋鏟」。
但是,單純獎勵「多次調用工具」會導致reward hacking副作用—不必要的工具調用,最終輸出長度和交互輪次超限而截斷,帶來優化上的震盪(多獎勵之間的競爭)。
SPEAR通過設計內在獎勵實現工具獎勵衰減:
前200步時,工具調用獎勵>0,鼓勵學會「寫代碼、查網頁」;
工具調用獎勵隨步數按cosine衰減,在200步以后置零,讓位給最終答案准確率。
在DAPO-Math-17K訓練集上,Qwen2.5-32B的AIME25成績從54.0%提升到60.1%,只用16K上下文就追平32K推理效果。
SPEAR接入已有訓練算法(GRPO/GiGPO)時的數據流向
算法通吃:文本、代碼、視覺全能打
在聚焦家居場景下複雜指令理解與分步操作能力的ALFWorld家務模擬任務中,接入SPEAR算法的模型任務成功率達88.9%,創下該任務當前最優水平。
在網頁環境導航、商品篩選與決策執行能力的WebShop網頁購物測評里,模型能模擬用户完成從瀏覽商品到下單的全流程,1.5B模型成功率從56.8%飆升至77.5%,提升20.7%,訓練時間僅增加5%。
做到了真正的大提升小成本。
SPEAR在ALFWorld與WebShop上的表現
在AIME24、AIME25奧賽數學任務,模型在代碼解釋器輔助模式下,分別取得71.0%、61.0%的結題正確率,為該模式下最優結果。
SPEAR在AIME24/AIME25上的表現
而在測試視覺場景分析與空間路徑規劃能力的Sokoban視覺推箱子任務中,模型不僅取得86.7%的成功率,還較此前公開的最佳性能提升19.6%。
SPEAR在Sokoban小遊戲上的表現
下圖展示了智能體在訓練初期「無目的探索」狀態(a)和訓練后期能熟練掌握推箱子策略(b)的對比。
VLM驅動的智能體成功學會推箱子策略
無論純文本工具調用場景還是視覺-語言混合的遊戲任務,SPEAR均能做到即插即用。
SPEAR算法框架基於開源社區貢獻的vLLM +VeRL,1.5B模型1小時上手,32B模型一周出模,讓智能體「自學成才」。
目前,SPEAR代碼與模型已上架GitHub&HuggingFace,感興趣的朋友可以體驗一把~
論文地址:https://arxiv.org/abs/2509.22601
代碼:https://github.com/TencentYoutuResearch/SPEAR
模型:https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8
(聲明:本文僅代表作者觀點,不代表新浪網立場。)