背景
当前主流的 Agent 强化学习训练普遍采用 Trajectory-level PPO——简单理解就是在整条任务执行轨迹上做策略优化。这种方式的缺点很明显:当轨迹很长时,早期的小错误会被后续的"还凑合"结果掩盖,模型学不到"每一步都做对"。
StepPO 的核心创新
StepPO 来自中科大、华为等机构(论文 arXiv:2604.18401),它的核心思想非常直观——在单个推理步骤级别做策略优化。
这意味着每个 Action 都会获得独立的 reward signal,不再被长轨迹的平均效果稀释。类比一下:这就像从"期末考试看总分"变成"每道题都单独计分"。
在 Harnesses(Agent 系统)上的验证结果显示,StepPO 相比传统 trajectory-level PPO 在复杂任务上的成功率提升明显。
核心配置思路
# StepPO 的优化粒度示意
step_reward = compute_step_reward(state, action, next_state)
# 每个 step 独立计算 reward,不再累积到 trajectory 末端
policy.update(step_reward) # 策略在每步都得到即时反馈
对 Claude Code 类系统的意义
如果你在用 Claude Code、Copilot Workspace 或者其他 Agent 编码工具,StepPO 的思路解释了为什么这些系统现在能做得越来越好的原因——RL 训练的粒度从"整条轨迹"细化到了"每个推理步骤",Agent 的每一步决策质量都能被精准评估和优化。
总结
StepPO 的出现标志着 Agent RL 训练从"粗放型"向"精细型"的转变。单个推理步骤的优化粒度,可能正是下一代 Agent 系统的标配。