🔥 超越 PPO！StepPO 实现 Agent 训练「步级别」突破，Claude Code 背后原理找到了

背景

当前主流的 Agent 强化学习训练普遍采用 Trajectory-level PPO——简单理解就是在整条任务执行轨迹上做策略优化。这种方式的缺点很明显：当轨迹很长时，早期的小错误会被后续的"还凑合"结果掩盖，模型学不到"每一步都做对"。

StepPO 的核心创新

StepPO 来自中科大、华为等机构（论文 arXiv:2604.18401），它的核心思想非常直观——在单个推理步骤级别做策略优化。

这意味着每个 Action 都会获得独立的 reward signal，不再被长轨迹的平均效果稀释。类比一下：这就像从"期末考试看总分"变成"每道题都单独计分"。

在 Harnesses（Agent 系统）上的验证结果显示，StepPO 相比传统 trajectory-level PPO 在复杂任务上的成功率提升明显。

核心配置思路

# StepPO 的优化粒度示意
step_reward = compute_step_reward(state, action, next_state)
# 每个 step 独立计算 reward，不再累积到 trajectory 末端

policy.update(step_reward)  # 策略在每步都得到即时反馈

对 Claude Code 类系统的意义

如果你在用 Claude Code、Copilot Workspace 或者其他 Agent 编码工具，StepPO 的思路解释了为什么这些系统现在能做得越来越好的原因——RL 训练的粒度从"整条轨迹"细化到了"每个推理步骤"，Agent 的每一步决策质量都能被精准评估和优化。

总结

StepPO 的出现标志着 Agent RL 训练从"粗放型"向"精细型"的转变。单个推理步骤的优化粒度，可能正是下一代 Agent 系统的标配。

论文链接：arxiv.org/abs/2604.18…