简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

2025-10-11 14:03

Youtu-Agent团队 投稿

量子位 | 公众号 QbitAI

让智能体自己摸索新方法,还模仿自己的成功经验。

腾讯优图实验室开源强化学习算法——

SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。

主打一个让AI自学成才!

该算法首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过“自我模仿+渐进探索”实现熵稳定的学习过程。

在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。

△

SPEAR算法核心概念示意图

简单来说,SPEAR算法既能大胆尝试新方法,又能靠谱地用已经验证过的有效策略,不用走极端。

下面具体来看。

传统自我模仿学习是什么?

想象一位新手厨师:

他先随机尝试做菜,偶尔做出一道“好评爆表”的拿手菜;

他把这道菜的做法仔细记录,反复练习,并在此基础上微调口味;

下次做菜时,他只复刻那些“好评”操作,不再重复黑暗料理。

自我模仿学习(Self-Imitation Learning,SIL)就是把这套“只抄自己最好的作业”的思路搬进强化学习:

  • 智能体在探索过程中把高回报轨迹存进“成功日记”(Replay Buffer);

  • 训练时定期回放这些高分片段,额外学习这些优质轨迹;

  • 给自己打“样例补丁”,在稀疏奖励、长序列任务里把偶尔闪现的神操作变成稳定技能。

自我模仿 2.0:自己产出的“神操作”自己学

熵控崩溃终结者:让智能体“越学越稳”

在使用RL算法优化LLM驱动的智能体时,尝尝面临两大问题:

1)直接搬运传统自我模仿算法带来“熵塌缩”陷阱——过早自信,拒绝探索新解法;

2)多轮交互中由不确定、不熟悉的环境带来的“熵爆炸”——训练发散,无法收敛。

SPEAR提出“课程式调度”来实现分阶段的探索:

  • 前期用内在奖励鼓励“多翻工具箱”,熵值温和上升;

  • 后期启动自模仿学习,只回放高回报轨迹,熵值平滑下降。

实验显示,SPEAR把策略熵牢牢锁在“黄金区间”,实现测试指标的持续增长。

△自我模仿学习在后期提升action-level的策略探索

SPEAR升级经典SIL的具体操作:

课程权重——warm-up阶段先轻后重,让模型先“见世面”再“抄作业”。

优势重校准——用动态中位数基线淘汰“过时神操作”,减小off-policy偏差;

协方差裁剪——把过度优化的token直接mask,防止死记硬背;

一句话:好经验不过期,坏经验不上桌。

内在奖励优化:解决“瞎忙”难题

在稀疏奖励场景里,模型只有“做对给+1,做错给-1”这一终极信号。实验发现,如果不给中间甜头,智能体面对代码报错、搜索无果等负面反馈,会立刻“罢工:

  • 把工具接口当空气,纯靠脑补硬推答案;

  • 数学任务上拒绝写代码,全程文本口算,无法学会结合工具的推理。

于是团队先加了“工具调用奖励”:每成功调用一次工具,就给0.1奖励,上限1分,保证模型“愿意拿起锅铲”。

但是,单纯奖励“多次调用工具”会导致reward hacking副作用—不必要的工具调用,最终输出长度和交互轮次超限而截断,带来优化上的震荡(多奖励之间的竞争)。

SPEAR通过设计内在奖励实现工具奖励衰减:

  • 前200步时,工具调用奖励>0,鼓励学会“写代码、查网页”;

  • 工具调用奖励随步数按cosine衰减,在200步以后置零,让位给最终答案准确率。

在DAPO-Math-17K训练集上,Qwen2.5-32B的AIME25成绩从54.0%提升到60.1%,只用16K上下文就追平32K推理效果。

△

SPEAR接入已有训练算法(GRPO/GiGPO)时的数据流向

算法通吃:文本、代码、视觉全能打

在聚焦家居场景下复杂指令理解与分步操作能力的ALFWorld家务模拟任务中,接入SPEAR算法的模型任务成功率达88.9%,创下该任务当前最优水平。

在网页环境导航、商品筛选与决策执行能力的WebShop网页购物测评里,模型能模拟用户完成从浏览商品到下单的全流程,1.5B模型成功率从56.8%飙升至77.5%,提升20.7%,训练时间仅增加5%。

做到了真正的大提升小成本。

△

SPEAR在ALFWorld与WebShop上的表现

在AIME24、AIME25奥赛数学任务,模型在代码解释器辅助模式下,分别取得71.0%、61.0%的结题正确率,为该模式下最优结果。

△

SPEAR在AIME24/AIME25上的表现

而在测试视觉场景分析与空间路径规划能力的Sokoban视觉推箱子任务中,模型不仅取得86.7%的成功率,还较此前公开的最佳性能提升19.6%。

△

SPEAR在Sokoban小游戏上的表现

下图展示了智能体在训练初期“无目的探索”状态(a)和训练后期能熟练掌握推箱子策略(b)的对比。

△

VLM驱动的智能体成功学会推箱子策略

无论纯文本工具调用场景还是视觉-语言混合的游戏任务,SPEAR均能做到即插即用。

SPEAR算法框架基于开源社区贡献的vLLM +VeRL,1.5B模型1小时上手,32B模型一周出模,让智能体“自学成才”。

目前,SPEAR代码与模型已上架GitHub&HuggingFace,感兴趣的朋友可以体验一把~

论文地址:https://arxiv.org/abs/2509.22601

代码:https://github.com/TencentYoutuResearch/SPEAR

模型:https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8

(声明:本文仅代表作者观点,不代表新浪网立场。)

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。