热门资讯> 正文
2025-10-11 14:03
Youtu-Agent团队 投稿
量子位 | 公众号 QbitAI
让智能体自己摸索新方法,还模仿自己的成功经验。
腾讯优图实验室开源强化学习算法——
SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。
主打一个让AI自学成才!
该算法首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过“自我模仿+渐进探索”实现熵稳定的学习过程。
在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。
SPEAR算法核心概念示意图
简单来说,SPEAR算法既能大胆尝试新方法,又能靠谱地用已经验证过的有效策略,不用走极端。
下面具体来看。
传统自我模仿学习是什么?
想象一位新手厨师:
他先随机尝试做菜,偶尔做出一道“好评爆表”的拿手菜;
他把这道菜的做法仔细记录,反复练习,并在此基础上微调口味;
下次做菜时,他只复刻那些“好评”操作,不再重复黑暗料理。
自我模仿学习(Self-Imitation Learning,SIL)就是把这套“只抄自己最好的作业”的思路搬进强化学习:
智能体在探索过程中把高回报轨迹存进“成功日记”(Replay Buffer);
训练时定期回放这些高分片段,额外学习这些优质轨迹;
给自己打“样例补丁”,在稀疏奖励、长序列任务里把偶尔闪现的神操作变成稳定技能。
自我模仿 2.0:自己产出的“神操作”自己学
熵控崩溃终结者:让智能体“越学越稳”
在使用RL算法优化LLM驱动的智能体时,尝尝面临两大问题:
1)直接搬运传统自我模仿算法带来“熵塌缩”陷阱——过早自信,拒绝探索新解法;
2)多轮交互中由不确定、不熟悉的环境带来的“熵爆炸”——训练发散,无法收敛。
SPEAR提出“课程式调度”来实现分阶段的探索:
前期用内在奖励鼓励“多翻工具箱”,熵值温和上升;
后期启动自模仿学习,只回放高回报轨迹,熵值平滑下降。
实验显示,SPEAR把策略熵牢牢锁在“黄金区间”,实现测试指标的持续增长。
SPEAR升级经典SIL的具体操作:
课程权重——warm-up阶段先轻后重,让模型先“见世面”再“抄作业”。
优势重校准——用动态中位数基线淘汰“过时神操作”,减小off-policy偏差;
协方差裁剪——把过度优化的token直接mask,防止死记硬背;
一句话:好经验不过期,坏经验不上桌。
内在奖励优化:解决“瞎忙”难题
在稀疏奖励场景里,模型只有“做对给+1,做错给-1”这一终极信号。实验发现,如果不给中间甜头,智能体面对代码报错、搜索无果等负面反馈,会立刻“罢工:
把工具接口当空气,纯靠脑补硬推答案;
数学任务上拒绝写代码,全程文本口算,无法学会结合工具的推理。
于是团队先加了“工具调用奖励”:每成功调用一次工具,就给0.1奖励,上限1分,保证模型“愿意拿起锅铲”。
但是,单纯奖励“多次调用工具”会导致reward hacking副作用—不必要的工具调用,最终输出长度和交互轮次超限而截断,带来优化上的震荡(多奖励之间的竞争)。
SPEAR通过设计内在奖励实现工具奖励衰减:
前200步时,工具调用奖励>0,鼓励学会“写代码、查网页”;
工具调用奖励随步数按cosine衰减,在200步以后置零,让位给最终答案准确率。
在DAPO-Math-17K训练集上,Qwen2.5-32B的AIME25成绩从54.0%提升到60.1%,只用16K上下文就追平32K推理效果。
SPEAR接入已有训练算法(GRPO/GiGPO)时的数据流向
算法通吃:文本、代码、视觉全能打
在聚焦家居场景下复杂指令理解与分步操作能力的ALFWorld家务模拟任务中,接入SPEAR算法的模型任务成功率达88.9%,创下该任务当前最优水平。
在网页环境导航、商品筛选与决策执行能力的WebShop网页购物测评里,模型能模拟用户完成从浏览商品到下单的全流程,1.5B模型成功率从56.8%飙升至77.5%,提升20.7%,训练时间仅增加5%。
做到了真正的大提升小成本。
SPEAR在ALFWorld与WebShop上的表现
在AIME24、AIME25奥赛数学任务,模型在代码解释器辅助模式下,分别取得71.0%、61.0%的结题正确率,为该模式下最优结果。
SPEAR在AIME24/AIME25上的表现
而在测试视觉场景分析与空间路径规划能力的Sokoban视觉推箱子任务中,模型不仅取得86.7%的成功率,还较此前公开的最佳性能提升19.6%。
SPEAR在Sokoban小游戏上的表现
下图展示了智能体在训练初期“无目的探索”状态(a)和训练后期能熟练掌握推箱子策略(b)的对比。
VLM驱动的智能体成功学会推箱子策略
无论纯文本工具调用场景还是视觉-语言混合的游戏任务,SPEAR均能做到即插即用。
SPEAR算法框架基于开源社区贡献的vLLM +VeRL,1.5B模型1小时上手,32B模型一周出模,让智能体“自学成才”。
目前,SPEAR代码与模型已上架GitHub&HuggingFace,感兴趣的朋友可以体验一把~
论文地址:https://arxiv.org/abs/2509.22601
代码:https://github.com/TencentYoutuResearch/SPEAR
模型:https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8
(声明:本文仅代表作者观点,不代表新浪网立场。)