热门资讯> 正文

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

2025-10-11 14:03

Youtu-Agent团队投稿

量子位 | 公众号 QbitAI

让智能体自己摸索新方法，还模仿自己的成功经验。

腾讯优图实验室开源强化学习算法——

SPEAR（Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）。

主打一个让AI自学成才！

该算法首次让大语言模型（LLM）驱动的智能体在无需大量专家示范的情况下，通过“自我模仿+渐进探索”实现熵稳定的学习过程。

在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上，刷新业界最佳成绩，为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。

△

SPEAR算法核心概念示意图

简单来说，SPEAR算法既能大胆尝试新方法，又能靠谱地用已经验证过的有效策略，不用走极端。

下面具体来看。

传统自我模仿学习是什么？

想象一位新手厨师：

他先随机尝试做菜，偶尔做出一道“好评爆表”的拿手菜；

他把这道菜的做法仔细记录，反复练习，并在此基础上微调口味；

下次做菜时，他只复刻那些“好评”操作，不再重复黑暗料理。

自我模仿学习（Self-Imitation Learning，SIL）就是把这套“只抄自己最好的作业”的思路搬进强化学习：

智能体在探索过程中把高回报轨迹存进“成功日记”（Replay Buffer）；
训练时定期回放这些高分片段，额外学习这些优质轨迹；
给自己打“样例补丁”，在稀疏奖励、长序列任务里把偶尔闪现的神操作变成稳定技能。

自我模仿 2.0：自己产出的“神操作”自己学

熵控崩溃终结者：让智能体“越学越稳”

在使用RL算法优化LLM驱动的智能体时，尝尝面临两大问题：

1）直接搬运传统自我模仿算法带来“熵塌缩”陷阱——过早自信，拒绝探索新解法；

2）多轮交互中由不确定、不熟悉的环境带来的“熵爆炸”——训练发散，无法收敛。

SPEAR提出“课程式调度”来实现分阶段的探索：

前期用内在奖励鼓励“多翻工具箱”，熵值温和上升；
后期启动自模仿学习，只回放高回报轨迹，熵值平滑下降。

实验显示，SPEAR把策略熵牢牢锁在“黄金区间”，实现测试指标的持续增长。

SPEAR升级经典SIL的具体操作：

课程权重——warm-up阶段先轻后重，让模型先“见世面”再“抄作业”。

优势重校准——用动态中位数基线淘汰“过时神操作”，减小off-policy偏差；

协方差裁剪——把过度优化的token直接mask，防止死记硬背；

一句话：好经验不过期，坏经验不上桌。

内在奖励优化：解决“瞎忙”难题

在稀疏奖励场景里，模型只有“做对给+1，做错给-1”这一终极信号。实验发现，如果不给中间甜头，智能体面对代码报错、搜索无果等负面反馈，会立刻“罢工：

把工具接口当空气，纯靠脑补硬推答案；
数学任务上拒绝写代码，全程文本口算，无法学会结合工具的推理。

于是团队先加了“工具调用奖励”：每成功调用一次工具，就给0.1奖励，上限1分，保证模型“愿意拿起锅铲”。

但是，单纯奖励“多次调用工具”会导致reward hacking副作用—不必要的工具调用，最终输出长度和交互轮次超限而截断，带来优化上的震荡（多奖励之间的竞争）。

SPEAR通过设计内在奖励实现工具奖励衰减：

前200步时，工具调用奖励>0，鼓励学会“写代码、查网页”；
工具调用奖励随步数按cosine衰减，在200步以后置零，让位给最终答案准确率。

在DAPO-Math-17K训练集上，Qwen2.5-32B的AIME25成绩从54.0%提升到60.1%，只用16K上下文就追平32K推理效果。

△

SPEAR接入已有训练算法（GRPO/GiGPO）时的数据流向

算法通吃：文本、代码、视觉全能打

在聚焦家居场景下复杂指令理解与分步操作能力的ALFWorld家务模拟任务中，接入SPEAR算法的模型任务成功率达88.9%，创下该任务当前最优水平。

在网页环境导航、商品筛选与决策执行能力的WebShop网页购物测评里，模型能模拟用户完成从浏览商品到下单的全流程，1.5B模型成功率从56.8%飙升至77.5%，提升20.7%，训练时间仅增加5%。

做到了真正的大提升小成本。

△

SPEAR在ALFWorld与WebShop上的表现

在AIME24、AIME25奥赛数学任务，模型在代码解释器辅助模式下，分别取得71.0%、61.0%的结题正确率，为该模式下最优结果。

△

SPEAR在AIME24/AIME25上的表现

而在测试视觉场景分析与空间路径规划能力的Sokoban视觉推箱子任务中，模型不仅取得86.7%的成功率，还较此前公开的最佳性能提升19.6%。

△

SPEAR在Sokoban小游戏上的表现

下图展示了智能体在训练初期“无目的探索”状态（a）和训练后期能熟练掌握推箱子策略（b）的对比。

△

VLM驱动的智能体成功学会推箱子策略

无论纯文本工具调用场景还是视觉-语言混合的游戏任务，SPEAR均能做到即插即用。

SPEAR算法框架基于开源社区贡献的vLLM +VeRL，1.5B模型1小时上手，32B模型一周出模，让智能体“自学成才”。

目前，SPEAR代码与模型已上架GitHub&HuggingFace，感兴趣的朋友可以体验一把～

论文地址：https://arxiv.org/abs/2509.22601

代码：https://github.com/TencentYoutuResearch/SPEAR

模型：https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8

（声明：本文仅代表作者观点，不代表新浪网立场。）

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

推荐文章

出手就涨200%！特朗普政府疯狂抢购这类公司，下一个幸运儿是谁？

美股机会日报 | 特斯拉中国销量止跌回升；高通涉嫌违反反垄断法！被立案调査

从Fitness+到Health+ 苹果(AAPL.US)健康与健身业务迎来整合

AI“对决”黄金：两大最火投资攸关全球600万亿美元财富命运？

华盛早报 | 英伟达、甲骨文、AMD只是开始？OpenAI还有大交易！“IPO超购王”金叶国际今日上市

美国联邦政府继续停摆！特朗普威胁削减民主党项目

美联储鲍曼召集“非常规”会议 社区银行改革路径引猜测

10月10日外盘头条：特斯拉FSD再遭联邦安全调查 法拉利股价暴跌 美国财政部干预阿根廷外汇市场

美联储鲍曼召集“非常规”会议社区银行改革路径引猜测

10月10日外盘头条：特斯拉FSD再遭联邦安全调查法拉利股价暴跌美国财政部干预阿根廷外汇市场