你的 AI Agent 正在"浪费"每一次对话:OpenClaw-RL 如何让 Agent 越用越聪明

0 阅读8分钟

你的 AI Agent 正在"浪费"每一次对话:OpenClaw-RL 如何让 Agent 越用越聪明

每天,全球数以亿计的 AI Agent 正在与用户进行交互。

它们回答问题、执行代码、操作 GUI、完成各种任务。但你可能没有意识到:这些 Agent 正在系统性地丢弃它们最宝贵的学习资源——你与它们的每一次互动。

当你对 Agent 的回答不满意,重新问了一遍;当你说"不是这样,你应该先检查文件再修改";当终端返回一个报错信息……这些反馈本应成为 Agent 进化的养料,却被当作"下一步的上下文"用完即弃。

来自普林斯顿大学的研究团队提出了 OpenClaw-RL,一个让 Agent 仅通过正常使用就能持续进化的框架。核心理念简单到令人拍案:每一次交互产生的"下一状态信号",都是免费的训练数据。

OpenClaw RL基础架构概述,显示了四个解耦的组件以及个人/通用代理如何连接到RL服务器

被忽视的金矿:Agent 浪费了什么?

研究团队敏锐地识别出两种被系统性浪费的信号:

浪费 1:评价性信号(Evaluative Signals)

想象一下:

  • 用户问了一个问题,Agent 回答后,用户重新问了一遍 → 这说明答案不满意
  • Agent 执行代码,终端返回 "Test Passed" → 这说明操作成功
  • GUI Agent 点击了一个按钮,界面没有任何变化 → 这说明操作可能错了

这些"下一状态"本身就是天然的奖励信号,根本不需要人工标注!但现有系统要么完全忽略它们,要么只在离线数据集上使用。

浪费 2:指导性信号(Directive Signals)

比评价更宝贵的是指导

当用户说:"你应该先检查文件再编辑",这句话不仅告诉 Agent"你错了",还告诉它具体哪里错了、应该怎么改。同样,一个详细的代码报错信息往往隐含着修复方向。

现有的强化学习方法(如 RLHF、DPO)使用标量奖励,把这些丰富的语义信息压缩成一个数字。这就像老师只告诉学生"60分",却不解释哪道题错了、怎么改正。

人类人工智能对话中数据流概念图

OpenClaw-RL:四个引擎,零阻塞

OpenClaw-RL 的架构设计堪称精妙。它由四个完全解耦的异步组件组成:

Policy Serving → Environment → Reward Judging → Policy Training
   (SGLang)      (HTTP/API)    (SGLang/API)      (Megatron)

关键在于:没有任何组件需要等待其他组件。

  • 当用户发起新请求时,模型立即响应
  • 与此同时,PRM(过程奖励模型)在后台评估上一轮回答的质量
  • 训练器在另一个线程悄悄更新模型权重

这就像一家高效的餐厅:服务员接单、厨师做菜、洗碗工清洁——所有人并行工作,没有人需要等另一个人完成才能开始。

对于个人 Agent,用户设备本身就是环境,通过加密 API 连接到 RL 服务器。对于通用 Agent(Terminal、GUI、SWE、Tool-call),环境可以在云端大规模并行运行。

代理RL中对话、政策蒸馏和逐步奖励的二元奖励方法概述

两种魔法:Binary RL 与 OPD

OpenClaw-RL 提供了两种互补的学习方法。让我们用一个学生做作业的类比来理解它们。

方法 1:Binary RL(二元强化学习)

原理:用 PRM 判断每一步操作是"好"还是"坏",给出 +1、-1 或 0 的奖励。

类比:这就像老师只在作业本上打 ✓ 或 ✗。

PRM(action, next_state) → reward ∈ {+1, -1, 0}

具体来说,PRM 会查看:

  • 用户是否重新提问?(不满意 → -1)
  • 工具执行是否成功?(通过 → +1)
  • 用户反馈是否积极?(夸奖 → +1)

优点:覆盖面广,任何交互都能产生信号 缺点:信息粗糙,只知道"错",不知道"怎么错"

方法 2:Hindsight-Guided OPD(事后指导的在线策略蒸馏)

原理:从"下一状态"中提取具体的改进提示,构建一个"如果当时就知道这个提示"的增强上下文,然后让模型从中学习。

类比:这就像老师在批改作业时写详细批注:"第三步应该先化简再代入"。

具体流程:

Step 1. 提取提示:Judge 模型从用户反馈中提炼出可操作的建议

用户说:"你应该先检查文件"
→ 提示:"[HINT] 在编辑前先读取目标文件内容"

Step 2. 构建增强上下文:把提示加到原始 prompt 中

增强 prompt = 原始 prompt + "[用户提示] 在编辑前先读取目标文件内容"

Step 3. 计算 Token 级优势:比较"有提示"和"无提示"时,模型对每个 token 的概率差异

A_t = log π_teacher(a_t | s_enhanced) - log π_θ(a_t | s_t)

关键洞察:同一个模型,在看到"事后提示"后,会产生不同的 token 分布。这个差异本身就是方向性的学习信号——告诉模型哪些 token 应该增强,哪些应该抑制。

优点:信号丰富,提供 token 级别的精细指导 缺点:需要高质量的指导性反馈,样本筛选严格

1 + 1 > 2:组合使用

研究者发现,两种方法是互补的

维度Binary RLOPD
信号类型评价性(好/坏)指导性(怎么改)
优势粒度序列级标量Token 级方向
样本密度所有评分样本仅高质量提示样本
反馈来源用户/环境显式纠正

组合优势计算:

A_t = w_binary × r_final + w_opd × (log π_teacher - log π_θ)

实验证明,组合方法显著优于单独使用任一方法。

性能比较显示了经过8个和16个更新步骤后的二进制RL、OPD和组合方法

优化OpenClaw的不同方法的性能。基础分数为0.17。

实战效果:学生与老师的故事

研究者设计了两个有趣的个人 Agent 场景来验证系统效果:

场景 1:用 AI 写作业但不想被发现的学生

学生使用 OpenClaw 完成数学作业,但希望回答看起来不像 AI 生成的

优化前

The handbag cost $220. Here's how:

  1. Shoes cost $80
  2. 3 times the shoe cost = 3 × 80 = 240
  3. Subtract 20=20 = 240 − 20 = 220

Final Answer: $220

(典型的 AI 风格:过度格式化、使用粗体、step-by-step 结构明显)

优化后(36 次交互)

The jacket costs 30 and two pairs of shoes at 20 each, so that's 40 total for shoes. Adding the jacket gives us 70 for everything...

(自然流畅,像真实学生的口语化表达)

场景 2:用 AI 批改作业的老师

老师使用 OpenClaw 批改学生作业,希望评语具体且友好

优化前

Correct. Well done!

(冷冰冰,没有任何具体指导)

优化后(24 次交互)

Your step-by-step approach is fantastic! You correctly added 20 + 44 to get 64, then calculated 100 - 64 = 36. This shows you understand how to break down the problem and find the solution. Well done!

(温暖、具体、有教育价值)

学生和教师设置优化前后的示例,得分从0.17/0.22提高到0.76/0.90

通用 Agent:Terminal、GUI、SWE、Tool-call 全覆盖

OpenClaw-RL 不仅适用于个人对话 Agent,还支持大规模通用 Agent 训练

场景环境Next-state 信号
TerminalShell 沙箱stdout/stderr, 退出码
GUI屏幕截图 + 可访问性树视觉状态变化
SWE代码仓库 + 测试套件测试结果、diff、lint
Tool-callAPI/函数执行返回值、错误信息

关键创新:在长期任务中,仅靠最终结果(Outcome Reward)来训练是低效的——模型不知道哪一步做对了、哪一步做错了。OpenClaw-RL 通过 PRM 为每一步提供奖励信号,实现密集的信用分配。

实验表明:

  • 整合过程奖励 + 结果奖励的效果 > 仅使用结果奖励
  • Tool-call 任务:0.30 vs 0.17
  • GUI 任务:0.33 vs 0.31

RL训练曲线显示了终端、GUI、SWE和工具调用设置的性能改进

为什么这项工作重要?

1. 从"离线训练"到"持续进化"

传统 AI 训练是"批处理"模式:收集数据 → 训练 → 部署 → 再收集 → 再训练...

OpenClaw-RL 实现了真正的在线学习:模型边服务边学习,用户的每一次使用都在让它变得更好。

2. 个性化的新范式

每个用户的偏好是不同的。有人喜欢简洁回答,有人喜欢详细解释;有人需要专业术语,有人需要通俗表达。

OpenClaw-RL 让 Agent 能够自动适应每个用户的风格,无需显式配置。

3. 数据效率的飞跃

不再需要构建昂贵的人工标注数据集。交互本身就是数据,反馈本身就是标签。

写在最后

OpenClaw-RL 的核心洞察简洁而深刻:

Next-state signals are stream-agnostic, and one policy can learn from all of them simultaneously.

(下一状态信号是流无关的,一个策略可以同时从所有信号中学习。)

个人对话、终端执行、GUI 交互、代码任务、工具调用——这些不是分散的训练问题,而是可以被统一框架同时处理的交互流。

想象一下:未来的 AI Agent,越用越懂你。不需要你手动调教,不需要复杂的 prompt 工程,只需要正常使用。每一次满意的微笑、每一次不耐烦的重新提问、每一个终端的报错信息,都在悄悄塑造一个更懂你的助手。

这,或许就是 AI Agent 应有的样子。

Gemini绘图-AI Agent

论文链接:arXiv:2603.10165

开源代码github.com/Gen-Verse/O…

你觉得这种"用着用着就变聪明"的 Agent 会成为主流吗?你最期待它应用在哪些场景?欢迎在评论区留言讨论!