谷歌ICLR2026提出监督式强化学习提升Agentic RL效果谷歌ICLR2026提出监督式强化学习提升Agenti

谷歌ICLR2026提出监督式强化学习提升Agentic RL效果

摘要

本文提出监督式强化学习（Supervised Reinforcement Learning, SRL），用于解决开源 LLM 在多步推理高难任务上训练困难的问题。当前Agent Model训练时，传统 SFT 容易对长推理示范产生过拟合，而 RLVR 仅依赖最终答案对错作为奖励，在 pass@k 接近 0 的难题上会面临严重的奖励稀疏与训练不稳定问题。为此，SRL 将专家解答拆分为“逐步的关键决策（action）”，并对每一步 action 提供基于相似度的稠密奖励，从而让模型即使在最终答案错误时，也能从中间步骤中获得有效学习信号。实验表明，SRL 在数学推理任务上显著优于 SFT 与 RLVR，且作为 RLVR 的初始化效果最好；同时，该方法还能迁移到软件工程 agentic reasoning 任务，展现出较强的通用性。

论文标题：Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
论文链接：arXiv / OpenReview (arXiv)
发表单位：Google Cloud AI Research、Google Cloud

1 简介

当前大模型在复杂推理和 agent 任务上的后训练，主要依赖两类方法：

SFT（监督微调）：直接模仿专家长推理轨迹；
RLVR（带可验证奖励的强化学习）：只根据最终答案是否正确来给奖励。(arXiv)

这两类方法在高难任务上都存在明显短板。

一方面，SFT 的训练目标本质上是逐 token 模仿，容易让模型过度学习专家解答的表面表达方式，而不是中间决策结构。在训练数据规模有限、任务本身又很难时，这种方式反而可能导致模型泛化变差，甚至出现“训完比 base 还差”的退化现象。另一方面，RLVR 只看最终答案正确性，在复杂难题上往往采不到正确轨迹，导致奖励极其稀疏；当同一组 rollout 全对或全错时，组内标准化后的优势信号会变得很弱甚至消失，训练难以有效推进。

这篇论文的核心出发点是：

与其让模型去“复读整段专家推理”，或者只在“最后答对了没”这一点上获得奖励，不如直接学习专家在每一步做出的关键决策，并对这些中间决策提供稠密、可计算的监督信号。

基于这一想法，作者提出 SRL，将专家解答重新表述为一串 action 序列，并在 RL 框架下对每一步 action 进行相似度奖励学习。

2 方法

SRL 的整体思想可以概括为：

将专家解答分解为逐步 action；
以“当前问题 + 历史步骤”为上下文，学习预测下一步 action；
模型先生成内部思考 <think>，再输出外部 action；
奖励只根据 action 与专家 action 的相似度计算，而不约束 <think> 的写法；
最终仍使用 GRPO 风格的 RL 目标进行训练。

2.1 从专家轨迹构造 step-wise 训练数据

给定一条专家解答轨迹 (y)，作者先将其拆成 (N) 个步骤：

y={y^{\text{step}}_1,\ldots,y^{\text{step}}_N}

然后，对每个步骤 (k)，构造一个部分上下文：

x^{\text{step}}_k=[x,y^{\text{step}}*1,\ldots,y^{\text{step}}* {k-1}]

模型的目标是在这个上下文下预测下一步动作 (y^{\text{step}}_k)。这样，一条完整专家解答就会被拆成多条中间态训练样本，模型学到的不再是“整段答案长什么样”，而是“走到当前状态时下一步该做什么”。这一点对复杂推理尤其重要，因为它把一个原本很难的长程问题，拆成了一串更容易学习的局部决策。

这里的 action 定义是可迁移的：在数学推理中，action 可以是某一步代数变形、结论归纳或验证；在软件工程 agent 中，action 则可以是环境可执行的命令，如 bash 调用。正因为 action 具有任务相关但形式清晰的接口定义，SRL 才能够从数学任务自然扩展到 agentic reasoning。

2.2 奖励设计：只奖励 action，不奖励 think

SRL 的一个很关键的设计是：模型输出由两部分组成，

y'=[y'_{\text{think}}, y'^{\text{step}}_k]

其中前半部分是模型自己的内部推理，后半部分才是真正被监督的 action。作者只对 action 段与对应专家 action 的相似度进行打分，得到一个落在 ([0,1]) 之间的连续奖励；如果输出格式不合法，则直接给 (-1) 的惩罚。论文实现上使用了基于序列匹配的相似度函数。这个设计有以下优势：

它保留了模型自由组织内部思考的空间，不要求模型一字不差地复现专家 CoT；
它只约束“外部关键决策是否对齐专家”，从而避免 SFT 那种对长推理文本的刚性模仿；
对 agent 任务来说，这也更合理，因为真正需要约束的是可执行动作，而不是思考文字本身。

从这个角度看，SRL 其实是介于 SFT 与 RL 之间的一种中间范式：既利用专家轨迹，又不是简单模仿；既使用 RL 优化，又不依赖极度稀疏的最终答案奖励。

2.3 训练目标：用 GRPO 学 step-wise reward

在优化层面，SRL 并没有另起炉灶，而是直接复用了 GRPO 这类 RL 目标，只不过把原先“最终答案是否正确”的奖励，替换成了“当前 action 与专家 action 的相似度奖励”。这样一来，训练信号就从“每条轨迹一个 0/1”变成了“每一步都有连续反馈”。

此外，作者还把动态采样策略扩展到了 SRL 场景中：如果某个样本的多条 rollout 奖励标准差接近 0，说明这些 rollout 几乎没有区分度，优势信号很弱，训练价值不大，就将该样本过滤并重新采样。这个细节对提升训练稳定性和有效性非常关键。

3 实验

论文主要在两个方向上验证 SRL：

数学推理：测试它能否改善小模型在高难多步推理上的训练效果；
软件工程 agentic reasoning：测试它是否能迁移到更真实的多步交互任务。

3.1 数学推理：SRL 显著优于 SFT / RLVR

作者在 s1K-1.1 数据集上训练 Qwen2.5-7B-Instruct。这个数据集包含 1000 道高难数学题，每道题都有由 DeepSeek R1 风格生成的结构化步骤解答。评测基准包括 AMC23、AIME24、AIME25 和 Minerva Math。

实验结果显示：

直接做 SFT 会带来性能退化；
RLVR 相比 SFT 更稳，但提升有限；
SRL 相比 base 平均提升约 3.0 个点；
先做 SRL、再做 RLVR 的两阶段训练效果最好，平均再提升到约 3.7 个点。

这说明 SRL 的价值不仅在于“自己有效”，更在于它非常适合作为 RLVR 的 warm-start：先让模型通过 step-wise supervision 学会“如何逐步走对”，再通过最终答案奖励做精炼。

3.2 软件工程：从数学推理迁移到 agentic reasoning

除了数学任务，作者还把 SRL 应用到软件工程场景，进一步微调 Qwen2.5-Coder-7B-Instruct，并在由专家 agent 轨迹构造的数据上训练。这里每个 step 都对应 agent 与代码环境的一次交互，action 被定义为环境可消费的命令。最终他们构造出了约 13.4 万条 step-wise 训练样本。

在 SWE-Bench-Verified 上，SRL 相比同 base 的 SFT 方法 SWE-Gym-7B 有非常明显的提升：在 oracle file editing 设置下达到 14.8% 的 resolve rate，相比 8.4% 约提升 74%；在更难的 end-to-end 设置下，也达到了约两倍的表现。

这组结果非常重要，因为它说明 SRL 并不是“只对数学 CoT 有效”的特殊技巧，而是一个更一般化的 agentic step-wise training 框架。只要任务中能定义出明确的中间动作，SRL 就有机会迁移过去。

3.3 消融：为什么 step-wise 更强？

论文做了两类很关键的消融。

第一类是动态采样。去掉动态采样后，模型性能明显下降，说明在 SRL 中，过滤掉“奖励几乎没有差异”的样本确实很有必要。

第二类是监督粒度对比。作者比较了两种方式：

整体相似度：整段输出与整段专家解做一次相似度；
multi-step SRL：分步 action 相似度 + 分步上下文。

结果表明，即便都是“相似度奖励”，多步 SRL 依然显著更强。这说明收益并不只是因为 reward 从 0/1 变成连续值，更关键的是：学习问题被拆解后，信用分配变得更清晰。对于长程 agent 任务，这一点尤其重要。

4 总结

这篇论文提出的 SRL，本质上是在 SFT 与 RL 之间开辟了一条新的中间路线：SRL不像 SFT 那样刚性复读整段专家推理；也不像 RLVR 那样只在最终答案上获得稀疏奖励；通过“专家 action 分解 + step-wise 相似度奖励”，让模型在复杂任务中获得更稠密、更稳定的学习信号。

我觉得这篇工作的最大启发有三点。

step-wise supervision 可能是后训练里很强的一条线。很多 agent 任务其实不是缺最终目标，而是缺“中间过程怎么学”的信号；SRL 提供了一种很自然的解决思路。
action 的定义会成为迁移的核心接口。数学里是步骤结论，软件工程里是命令，未来在搜索 agent、tool-use agent、领域工作流 agent 中，也完全可以把 action 定义成“工具调用 + 参数 + 输出格式”。
SRL 很适合作为 RL 的前置阶段。从这篇论文看，先用 step-wise 的专家动作奖励把模型扶上路，再用 outcome reward 做强化，可能会成为很多 agentic RL 系统的高性价比训练配方。