繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

騰訊開源強化學習新算法!讓智能體無需專家示範就「自學成才」,還即插即用零成本接入

2025-10-11 14:03

Youtu-Agent團隊 投稿

量子位 | 公眾號 QbitAI

讓智能體自己摸索新方法,還模仿自己的成功經驗。

騰訊優圖實驗室開源強化學習算法——

SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。

主打一個讓AI自學成才!

該算法首次讓大語言模型(LLM)驅動的智能體在無需大量專家示範的情況下,通過「自我模仿+漸進探索」實現熵穩定的學習過程。

在ALFWorld、WebShop、AIME24/25等基準上平均提升16%以上,刷新業界最佳成績,為長周期、稀疏獎勵場景下的智能體訓練提供了即插即用的新範式。

△

SPEAR算法核心概念示意圖

簡單來説,SPEAR算法既能大膽嘗試新方法,又能靠譜地用已經驗證過的有效策略,不用走極端。

下面具體來看。

傳統自我模仿學習是什麼?

想象一位新手廚師:

他先隨機嘗試做菜,偶爾做出一道「好評爆表」的拿手菜;

他把這道菜的做法仔細記錄,反覆練習,並在此基礎上微調口味;

下次做菜時,他只復刻那些「好評」操作,不再重複黑暗料理。

自我模仿學習(Self-Imitation Learning,SIL)就是把這套「只抄自己最好的作業」的思路搬進強化學習:

  • 智能體在探索過程中把高回報軌跡存進「成功日記」(Replay Buffer);

  • 訓練時定期回放這些高分片段,額外學習這些優質軌跡;

  • 給自己打「樣例補丁」,在稀疏獎勵、長序列任務里把偶爾閃現的神操作變成穩定技能。

自我模仿 2.0:自己產出的「神操作」自己學

熵控崩潰終結者:讓智能體「越學越穩」

在使用RL算法優化LLM驅動的智能體時,嚐嚐面臨兩大問題:

1)直接搬運傳統自我模仿算法帶來「熵塌縮」陷阱——過早自信,拒絕探索新解法;

2)多輪交互中由不確定、不熟悉的環境帶來的「熵爆炸」——訓練發散,無法收斂。

SPEAR提出「課程式調度」來實現分階段的探索:

  • 前期用內在獎勵鼓勵「多翻工具箱」,熵值温和上升;

  • 后期啟動自模仿學習,只回放高回報軌跡,熵值平滑下降。

實驗顯示,SPEAR把策略熵牢牢鎖在「黃金區間」,實現測試指標的持續增長。

△自我模仿學習在后期提升action-level的策略探索

SPEAR升級經典SIL的具體操作:

課程權重——warm-up階段先輕后重,讓模型先「見世面」再「抄作業」。

優勢重校準——用動態中位數基線淘汰「過時神操作」,減小off-policy偏差;

協方差裁剪——把過度優化的token直接mask,防止死記硬背;

一句話:好經驗不過期,壞經驗不上桌。

內在獎勵優化:解決「瞎忙」難題

在稀疏獎勵場景里,模型只有「做對給+1,做錯給-1」這一終極信號。實驗發現,如果不給中間甜頭,智能體面對代碼報錯、搜索無果等負面反饋,會立刻「罷工:

  • 把工具接口當空氣,純靠腦補硬推答案;

  • 數學任務上拒絕寫代碼,全程文本口算,無法學會結合工具的推理。

於是團隊先加了「工具調用獎勵」:每成功調用一次工具,就給0.1獎勵,上限1分,保證模型「願意拿起鍋鏟」。

但是,單純獎勵「多次調用工具」會導致reward hacking副作用—不必要的工具調用,最終輸出長度和交互輪次超限而截斷,帶來優化上的震盪(多獎勵之間的競爭)。

SPEAR通過設計內在獎勵實現工具獎勵衰減:

  • 前200步時,工具調用獎勵>0,鼓勵學會「寫代碼、查網頁」;

  • 工具調用獎勵隨步數按cosine衰減,在200步以后置零,讓位給最終答案准確率。

在DAPO-Math-17K訓練集上,Qwen2.5-32B的AIME25成績從54.0%提升到60.1%,只用16K上下文就追平32K推理效果。

△

SPEAR接入已有訓練算法(GRPO/GiGPO)時的數據流向

算法通吃:文本、代碼、視覺全能打

在聚焦家居場景下複雜指令理解與分步操作能力的ALFWorld家務模擬任務中,接入SPEAR算法的模型任務成功率達88.9%,創下該任務當前最優水平。

在網頁環境導航、商品篩選與決策執行能力的WebShop網頁購物測評里,模型能模擬用户完成從瀏覽商品到下單的全流程,1.5B模型成功率從56.8%飆升至77.5%,提升20.7%,訓練時間僅增加5%。

做到了真正的大提升小成本。

△

SPEAR在ALFWorld與WebShop上的表現

在AIME24、AIME25奧賽數學任務,模型在代碼解釋器輔助模式下,分別取得71.0%、61.0%的結題正確率,為該模式下最優結果。

△

SPEAR在AIME24/AIME25上的表現

而在測試視覺場景分析與空間路徑規劃能力的Sokoban視覺推箱子任務中,模型不僅取得86.7%的成功率,還較此前公開的最佳性能提升19.6%。

△

SPEAR在Sokoban小遊戲上的表現

下圖展示了智能體在訓練初期「無目的探索」狀態(a)和訓練后期能熟練掌握推箱子策略(b)的對比。

△

VLM驅動的智能體成功學會推箱子策略

無論純文本工具調用場景還是視覺-語言混合的遊戲任務,SPEAR均能做到即插即用。

SPEAR算法框架基於開源社區貢獻的vLLM +VeRL,1.5B模型1小時上手,32B模型一周出模,讓智能體「自學成才」。

目前,SPEAR代碼與模型已上架GitHub&HuggingFace,感興趣的朋友可以體驗一把~

論文地址:https://arxiv.org/abs/2509.22601

代碼:https://github.com/TencentYoutuResearch/SPEAR

模型:https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。