谷歌ICLR2026提出监督式强化学习提升Agentic RL效果
摘要
本文提出监督式强化学习(Supervised Reinforcement Learning, SRL),用于解决开源 LLM 在多步推理高难任务上训练困难的问题。当前Agent Model训练时,传统 SFT 容易对长推理示范产生过拟合,而 RLVR 仅依赖最终答案对错作为奖励,在 pass@k 接近 0 的难题上会面临严重的奖励稀疏与训练不稳定问题。为此,SRL 将专家解答拆分为“逐步的关键决策(action)”,并对每一步 action 提供基于相似度的稠密奖励,从而让模型即使在最终答案错误时,也能从中间步骤中获得有效学习信号。实验表明,SRL 在数学推理任务上显著优于 SFT 与 RLVR,且作为 RLVR 的初始化效果最好;同时,该方法还能迁移到软件工程 agentic reasoning 任务,展现出较强的通用性。
- 论文标题:Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
- 论文链接:arXiv / OpenReview (arXiv)
- 发表单位:Google Cloud AI Research、Google Cloud
1 简介
当前大模型在复杂推理和 agent 任务上的后训练,主要依赖两类方法:
- SFT(监督微调):直接模仿专家长推理轨迹;
- RLVR(带可验证奖励的强化学习):只根据最终答案是否正确来给奖励。(arXiv)
这两类方法在高难任务上都存在明显短板。
一方面,SFT 的训练目标本质上是逐 token 模仿,容易让模型过度学习专家解答的表面表达方式,而不是中间决策结构。在训练数据规模有限、任务本身又很难时,这种方式反而可能导致模型泛化变差,甚至出现“训完比 base 还差”的退化现象。另一方面,RLVR 只看最终答案正确性,在复杂难题上往往采不到正确轨迹,导致奖励极其稀疏;当同一组 rollout 全对或全错时,组内标准化后的优势信号会变得很弱甚至消失,训练难以有效推进。
这篇论文的核心出发点是:
与其让模型去“复读整段专家推理”,或者只在“最后答对了没”这一点上获得奖励,不如直接学习专家在每一步做出的关键决策,并对这些中间决策提供稠密、可计算的监督信号。
基于这一想法,作者提出 SRL,将专家解答重新表述为一串 action 序列,并在 RL 框架下对每一步 action 进行相似度奖励学习。
2 方法
SRL 的整体思想可以概括为:
- 将专家解答分解为逐步 action;
- 以“当前问题 + 历史步骤”为上下文,学习预测下一步 action;
- 模型先生成内部思考
<think>,再输出外部 action; - 奖励只根据 action 与专家 action 的相似度计算,而不约束
<think>的写法; - 最终仍使用 GRPO 风格的 RL 目标进行训练。
2.1 从专家轨迹构造 step-wise 训练数据
给定一条专家解答轨迹 (y),作者先将其拆成 (N) 个步骤:
然后,对每个步骤 (k),构造一个部分上下文:
模型的目标是在这个上下文下预测下一步动作 (y^{\text{step}}_k)。这样,一条完整专家解答就会被拆成多条中间态训练样本,模型学到的不再是“整段答案长什么样”,而是“走到当前状态时下一步该做什么”。这一点对复杂推理尤其重要,因为它把一个原本很难的长程问题,拆成了一串更容易学习的局部决策。
这里的 action 定义是可迁移的:在数学推理中,action 可以是某一步代数变形、结论归纳或验证;在软件工程 agent 中,action 则可以是环境可执行的命令,如 bash 调用。正因为 action 具有任务相关但形式清晰的接口定义,SRL 才能够从数学任务自然扩展到 agentic reasoning。
2.2 奖励设计:只奖励 action,不奖励 think
SRL 的一个很关键的设计是:模型输出由两部分组成,
其中前半部分是模型自己的内部推理,后半部分才是真正被监督的 action。作者只对 action 段与对应专家 action 的相似度进行打分,得到一个落在 ([0,1]) 之间的连续奖励;如果输出格式不合法,则直接给 (-1) 的惩罚。论文实现上使用了基于序列匹配的相似度函数。这个设计有以下优势:
- 它保留了模型自由组织内部思考的空间,不要求模型一字不差地复现专家 CoT;
- 它只约束“外部关键决策是否对齐专家”,从而避免 SFT 那种对长推理文本的刚性模仿;
- 对 agent 任务来说,这也更合理,因为真正需要约束的是可执行动作,而不是思考文字本身。
从这个角度看,SRL 其实是介于 SFT 与 RL 之间的一种中间范式:既利用专家轨迹,又不是简单模仿;既使用 RL 优化,又不依赖极度稀疏的最终答案奖励。
2.3 训练目标:用 GRPO 学 step-wise reward
在优化层面,SRL 并没有另起炉灶,而是直接复用了 GRPO 这类 RL 目标,只不过把原先“最终答案是否正确”的奖励,替换成了“当前 action 与专家 action 的相似度奖励”。这样一来,训练信号就从“每条轨迹一个 0/1”变成了“每一步都有连续反馈”。
此外,作者还把动态采样策略扩展到了 SRL 场景中:如果某个样本的多条 rollout 奖励标准差接近 0,说明这些 rollout 几乎没有区分度,优势信号很弱,训练价值不大,就将该样本过滤并重新采样。这个细节对提升训练稳定性和有效性非常关键。
3 实验
论文主要在两个方向上验证 SRL:
- 数学推理:测试它能否改善小模型在高难多步推理上的训练效果;
- 软件工程 agentic reasoning:测试它是否能迁移到更真实的多步交互任务。
3.1 数学推理:SRL 显著优于 SFT / RLVR
作者在 s1K-1.1 数据集上训练 Qwen2.5-7B-Instruct。这个数据集包含 1000 道高难数学题,每道题都有由 DeepSeek R1 风格生成的结构化步骤解答。评测基准包括 AMC23、AIME24、AIME25 和 Minerva Math。
实验结果显示:
- 直接做 SFT 会带来性能退化;
- RLVR 相比 SFT 更稳,但提升有限;
- SRL 相比 base 平均提升约 3.0 个点;
- 先做 SRL、再做 RLVR 的两阶段训练效果最好,平均再提升到约 3.7 个点。
这说明 SRL 的价值不仅在于“自己有效”,更在于它非常适合作为 RLVR 的 warm-start:先让模型通过 step-wise supervision 学会“如何逐步走对”,再通过最终答案奖励做精炼。
3.2 软件工程:从数学推理迁移到 agentic reasoning
除了数学任务,作者还把 SRL 应用到软件工程场景,进一步微调 Qwen2.5-Coder-7B-Instruct,并在由专家 agent 轨迹构造的数据上训练。这里每个 step 都对应 agent 与代码环境的一次交互,action 被定义为环境可消费的命令。最终他们构造出了约 13.4 万条 step-wise 训练样本。
在 SWE-Bench-Verified 上,SRL 相比同 base 的 SFT 方法 SWE-Gym-7B 有非常明显的提升:在 oracle file editing 设置下达到 14.8% 的 resolve rate,相比 8.4% 约提升 74%;在更难的 end-to-end 设置下,也达到了约两倍的表现。
这组结果非常重要,因为它说明 SRL 并不是“只对数学 CoT 有效”的特殊技巧,而是一个更一般化的 agentic step-wise training 框架。只要任务中能定义出明确的中间动作,SRL 就有机会迁移过去。
3.3 消融:为什么 step-wise 更强?
论文做了两类很关键的消融。
第一类是动态采样。去掉动态采样后,模型性能明显下降,说明在 SRL 中,过滤掉“奖励几乎没有差异”的样本确实很有必要。
第二类是监督粒度对比。作者比较了两种方式:
- 整体相似度:整段输出与整段专家解做一次相似度;
- multi-step SRL:分步 action 相似度 + 分步上下文。
结果表明,即便都是“相似度奖励”,多步 SRL 依然显著更强。这说明收益并不只是因为 reward 从 0/1 变成连续值,更关键的是:学习问题被拆解后,信用分配变得更清晰。对于长程 agent 任务,这一点尤其重要。
4 总结
这篇论文提出的 SRL,本质上是在 SFT 与 RL 之间开辟了一条新的中间路线:SRL不像 SFT 那样刚性复读整段专家推理;也不像 RLVR 那样只在最终答案上获得稀疏奖励;通过“专家 action 分解 + step-wise 相似度奖励”,让模型在复杂任务中获得更稠密、更稳定的学习信号。
我觉得这篇工作的最大启发有三点。
- step-wise supervision 可能是后训练里很强的一条线。很多 agent 任务其实不是缺最终目标,而是缺“中间过程怎么学”的信号;SRL 提供了一种很自然的解决思路。
- action 的定义会成为迁移的核心接口。数学里是步骤结论,软件工程里是命令,未来在搜索 agent、tool-use agent、领域工作流 agent 中,也完全可以把 action 定义成“工具调用 + 参数 + 输出格式”。
- SRL 很适合作为 RL 的前置阶段。从这篇论文看,先用 step-wise 的专家动作奖励把模型扶上路,再用 outcome reward 做强化,可能会成为很多 agentic RL 系统的高性价比训练配方。