🔥 超越 PPO!StepPO 实现 Agent 训练「步级别」突破,Claude Code 背后原理找到了

3 阅读1分钟

背景

当前主流的 Agent 强化学习训练普遍采用 Trajectory-level PPO——简单理解就是在整条任务执行轨迹上做策略优化。这种方式的缺点很明显:当轨迹很长时,早期的小错误会被后续的"还凑合"结果掩盖,模型学不到"每一步都做对"。

StepPO 的核心创新

StepPO 来自中科大、华为等机构(论文 arXiv:2604.18401),它的核心思想非常直观——在单个推理步骤级别做策略优化

这意味着每个 Action 都会获得独立的 reward signal,不再被长轨迹的平均效果稀释。类比一下:这就像从"期末考试看总分"变成"每道题都单独计分"。

在 Harnesses(Agent 系统)上的验证结果显示,StepPO 相比传统 trajectory-level PPO 在复杂任务上的成功率提升明显

核心配置思路

# StepPO 的优化粒度示意
step_reward = compute_step_reward(state, action, next_state)
# 每个 step 独立计算 reward,不再累积到 trajectory 末端

policy.update(step_reward)  # 策略在每步都得到即时反馈

对 Claude Code 类系统的意义

如果你在用 Claude Code、Copilot Workspace 或者其他 Agent 编码工具,StepPO 的思路解释了为什么这些系统现在能做得越来越好的原因——RL 训练的粒度从"整条轨迹"细化到了"每个推理步骤",Agent 的每一步决策质量都能被精准评估和优化。

总结

StepPO 的出现标志着 Agent RL 训练从"粗放型"向"精细型"的转变。单个推理步骤的优化粒度,可能正是下一代 Agent 系统的标配。

论文链接:arxiv.org/abs/2604.18…