熱門資訊> 正文

騰訊開源強化學習新算法！讓智能體無需專家示範就「自學成才」，還即插即用零成本接入

2025-10-11 14:03

Youtu-Agent團隊投稿

量子位 | 公眾號 QbitAI

讓智能體自己摸索新方法，還模仿自己的成功經驗。

騰訊優圖實驗室開源強化學習算法——

SPEAR（Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）。

主打一個讓AI自學成才！

該算法首次讓大語言模型（LLM）驅動的智能體在無需大量專家示範的情況下，通過「自我模仿+漸進探索」實現熵穩定的學習過程。

在ALFWorld、WebShop、AIME24/25等基準上平均提升16%以上，刷新業界最佳成績，為長周期、稀疏獎勵場景下的智能體訓練提供了即插即用的新範式。

△

SPEAR算法核心概念示意圖

簡單來説，SPEAR算法既能大膽嘗試新方法，又能靠譜地用已經驗證過的有效策略，不用走極端。

下面具體來看。

傳統自我模仿學習是什麼？

想象一位新手廚師：

他先隨機嘗試做菜，偶爾做出一道「好評爆表」的拿手菜；

他把這道菜的做法仔細記錄，反覆練習，並在此基礎上微調口味；

下次做菜時，他只復刻那些「好評」操作，不再重複黑暗料理。

自我模仿學習（Self-Imitation Learning，SIL）就是把這套「只抄自己最好的作業」的思路搬進強化學習：

智能體在探索過程中把高回報軌跡存進「成功日記」（Replay Buffer）；
訓練時定期回放這些高分片段，額外學習這些優質軌跡；
給自己打「樣例補丁」，在稀疏獎勵、長序列任務里把偶爾閃現的神操作變成穩定技能。

自我模仿 2.0：自己產出的「神操作」自己學

熵控崩潰終結者：讓智能體「越學越穩」

在使用RL算法優化LLM驅動的智能體時，嚐嚐面臨兩大問題：

1）直接搬運傳統自我模仿算法帶來「熵塌縮」陷阱——過早自信，拒絕探索新解法；

2）多輪交互中由不確定、不熟悉的環境帶來的「熵爆炸」——訓練發散，無法收斂。

SPEAR提出「課程式調度」來實現分階段的探索：

前期用內在獎勵鼓勵「多翻工具箱」，熵值温和上升；
后期啟動自模仿學習，只回放高回報軌跡，熵值平滑下降。

實驗顯示，SPEAR把策略熵牢牢鎖在「黃金區間」，實現測試指標的持續增長。

SPEAR升級經典SIL的具體操作：

課程權重——warm-up階段先輕后重，讓模型先「見世面」再「抄作業」。

優勢重校準——用動態中位數基線淘汰「過時神操作」，減小off-policy偏差；

協方差裁剪——把過度優化的token直接mask，防止死記硬背；

一句話：好經驗不過期，壞經驗不上桌。

內在獎勵優化：解決「瞎忙」難題

在稀疏獎勵場景里，模型只有「做對給+1，做錯給-1」這一終極信號。實驗發現，如果不給中間甜頭，智能體面對代碼報錯、搜索無果等負面反饋，會立刻「罷工：

把工具接口當空氣，純靠腦補硬推答案；
數學任務上拒絕寫代碼，全程文本口算，無法學會結合工具的推理。

於是團隊先加了「工具調用獎勵」：每成功調用一次工具，就給0.1獎勵，上限1分，保證模型「願意拿起鍋鏟」。

但是，單純獎勵「多次調用工具」會導致reward hacking副作用—不必要的工具調用，最終輸出長度和交互輪次超限而截斷，帶來優化上的震盪（多獎勵之間的競爭）。

SPEAR通過設計內在獎勵實現工具獎勵衰減：

前200步時，工具調用獎勵>0，鼓勵學會「寫代碼、查網頁」；
工具調用獎勵隨步數按cosine衰減，在200步以后置零，讓位給最終答案准確率。

在DAPO-Math-17K訓練集上，Qwen2.5-32B的AIME25成績從54.0%提升到60.1%，只用16K上下文就追平32K推理效果。

△

SPEAR接入已有訓練算法（GRPO/GiGPO）時的數據流向

算法通吃：文本、代碼、視覺全能打

在聚焦家居場景下複雜指令理解與分步操作能力的ALFWorld家務模擬任務中，接入SPEAR算法的模型任務成功率達88.9%，創下該任務當前最優水平。

在網頁環境導航、商品篩選與決策執行能力的WebShop網頁購物測評里，模型能模擬用户完成從瀏覽商品到下單的全流程，1.5B模型成功率從56.8%飆升至77.5%，提升20.7%，訓練時間僅增加5%。

做到了真正的大提升小成本。

△

SPEAR在ALFWorld與WebShop上的表現

在AIME24、AIME25奧賽數學任務，模型在代碼解釋器輔助模式下，分別取得71.0%、61.0%的結題正確率，為該模式下最優結果。

△

SPEAR在AIME24/AIME25上的表現

而在測試視覺場景分析與空間路徑規劃能力的Sokoban視覺推箱子任務中，模型不僅取得86.7%的成功率，還較此前公開的最佳性能提升19.6%。

△

SPEAR在Sokoban小遊戲上的表現

下圖展示了智能體在訓練初期「無目的探索」狀態（a）和訓練后期能熟練掌握推箱子策略（b）的對比。

△

VLM驅動的智能體成功學會推箱子策略

無論純文本工具調用場景還是視覺-語言混合的遊戲任務，SPEAR均能做到即插即用。

SPEAR算法框架基於開源社區貢獻的vLLM +VeRL，1.5B模型1小時上手，32B模型一周出模，讓智能體「自學成才」。

目前，SPEAR代碼與模型已上架GitHub&HuggingFace，感興趣的朋友可以體驗一把～

論文地址：https://arxiv.org/abs/2509.22601

代碼：https://github.com/TencentYoutuResearch/SPEAR

模型：https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

騰訊開源強化學習新算法！讓智能體無需專家示範就「自學成才」，還即插即用零成本接入

推薦文章

出手就漲200%！特朗普政府瘋狂搶購這類公司，下一個幸運兒是誰？

美股機會日報 | 特斯拉中國銷量止跌回升；高通涉嫌違反反壟斷法！被立案調査

從Fitness+到Health+ 蘋果(AAPL.US)健康與健身業務迎來整合

AI「對決」黃金：兩大最火投資攸關全球600萬億美元財富命運？

華盛早報 | 英偉達、甲骨文、AMD只是開始？OpenAI還有大交易！「IPO超購王」金葉國際今日上市

美國聯邦政府繼續停擺！特朗普威脅削減民主黨項目

美聯儲鮑曼召集「非常規」會議 社區銀行改革路徑引猜測

10月10日外盤頭條：特斯拉FSD再遭聯邦安全調查 法拉利股價暴跌 美國財政部干預阿根廷外匯市場

美聯儲鮑曼召集「非常規」會議社區銀行改革路徑引猜測

10月10日外盤頭條：特斯拉FSD再遭聯邦安全調查法拉利股價暴跌美國財政部干預阿根廷外匯市場