首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
程序员小明儿
掘友等级
开发
龙潭虎穴 也要闯一闯
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 0
沸点 1
赞
1
返回
|
搜索文章
最新
热门
OpenClaw-RL 实战 12|从个人到通用:同一套RL代码如何同时跑终端、GUI、SWE任务?
引言:打破场景的“柏林墙” 在过去的十一篇文章中,我们逐步构建了一个完整的“边用边学”智能体系统: 第1-2篇:环境搭建与四大异步组件拆解 第3-4篇:捕捉评估信号(Binary RL)与指导信号(O
OpenClaw-RL 实战 11|异步无阻塞日志系统:如何在服务不中断的前提下记录每一轮交互的“学习数据”?
引言:异步系统的“记忆困境” 在前十篇中,我们逐步构建了一个能够“边用边学”的智能体系统。四大异步组件——环境服务器、PRM评判器、训练引擎、策略服务器——像四条独立的生产线,各自运转、互不阻塞。当你
OpenClaw-RL 实战 10|加权损失融合:为什么“评估”+“指导”双信号能让Agent聪明一倍?
引言:单声道与立体声的差距 在前九篇中,我们分别掌握了两种信号的处理方法: Binary RL:通过PRM将评估信号转化为标量奖励,覆盖所有交互,但信息粗糙 OPD:通过教师模型从指导信号中提取Tok
OpenClaw-RL 实战 09|OPD教师模型训练:如何让AI从“后悔”中学会“聪明”?
引言:比“好与坏”更宝贵的是“怎么改” 在上一篇中,我们训练了专属PRM评判器,让AI能够感知“我做得好不好”。但标量奖励有一个根本局限:它把丰富的语义信息压缩成一个数字。当用户说“你应该先检查文件再
OpenClaw-RL 实战 08|PRM定制化训练:如何为终端、GUI、SWE场景训练专属评判器?
引言:为什么需要专属PRM? 在上一篇中,我们用同一套RL代码同时跑通了终端、GUI、SWE、工具调用四大场景。但一个根本问题浮出水面:PRM(过程奖励模型)的评判标准,应该对所有场景一视同仁吗? 显
OpenClaw-RL 实战 07|从个人到通用:同一套RL代码如何同时跑终端、GUI、SWE任务?
引言:打破场景的“柏林墙” 在上一篇中,我们构建了异步无阻塞日志系统,确保每一次交互都能可靠记录。但一个更深层次的问题始终悬而未决:个人对话、终端操作、GUI交互、软件工程(SWE)、工具调用——这些
OpenClaw-RL 实战 06|异步无阻塞日志系统:如何在服务不中断的前提下记录每一轮交互的“学习数据”?
引言:异步系统的“记忆困境” 在前五篇中,我们逐步构建了一个能够“边用边学”的智能体系统。四大异步组件——环境服务器、PRM评判器、训练引擎、策略服务器——像四条独立的生产线,各自运转、互不阻塞。当你
OpenClaw-RL 实战 05|加权损失融合:为什么“评估”+“指导”双信号能让Agent聪明一倍?
引言:从“单声道”到“立体声” 在上一篇中,我们分别学会了两种信号的处理方法: Binary RL:将用户重问、工具报错等评估信号转化为标量奖励,通过PPO优化策略 OPD:从用户纠正中提取指导信号,
OpenClaw-RL 实战 04|捕捉“指导信号”实战:如何从用户纠正中提取Token级监督?
引言:比“好与坏”更宝贵的是“如何改” 在上一篇中,我们实现了Binary RL——通过PRM将用户重问、工具报错等评估信号转化为标量奖励,让AI能够感知“我做得好不好”。但标量奖励有一个根本局限:它
OpenClaw-RL 实战 03|捕捉“评估信号”实战:如何把用户的“重问”变成标量奖励?
引言:让AI学会“察言观色” 在上一篇中,我们深入拆解了OpenClaw-RL的四大异步组件,理解了它们如何“并行不悖”地协同工作。现在,是时候让这些组件真正“动起来”——捕捉交互中隐藏的评估信号,并
下一页
个人成就
文章被阅读
857
掘力值
121
关注了
1
关注者
1
收藏集
0
关注标签
5
加入于
2026-03-17