首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
AI新范式
程序员小明儿
创建于2026-03-17
订阅专栏
AI新范式
等 2 人订阅
共12篇文章
创建于2026-03-17
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
OpenClaw-RL 实战 12|从个人到通用:同一套RL代码如何同时跑终端、GUI、SWE任务?
引言:打破场景的“柏林墙” 在过去的十一篇文章中,我们逐步构建了一个完整的“边用边学”智能体系统: 第1-2篇:环境搭建与四大异步组件拆解 第3-4篇:捕捉评估信号(Binary RL)与指导信号(O
OpenClaw-RL 实战 11|异步无阻塞日志系统:如何在服务不中断的前提下记录每一轮交互的“学习数据”?
引言:异步系统的“记忆困境” 在前十篇中,我们逐步构建了一个能够“边用边学”的智能体系统。四大异步组件——环境服务器、PRM评判器、训练引擎、策略服务器——像四条独立的生产线,各自运转、互不阻塞。当你
OpenClaw-RL 实战 10|加权损失融合:为什么“评估”+“指导”双信号能让Agent聪明一倍?
引言:单声道与立体声的差距 在前九篇中,我们分别掌握了两种信号的处理方法: Binary RL:通过PRM将评估信号转化为标量奖励,覆盖所有交互,但信息粗糙 OPD:通过教师模型从指导信号中提取Tok
OpenClaw-RL 实战 09|OPD教师模型训练:如何让AI从“后悔”中学会“聪明”?
引言:比“好与坏”更宝贵的是“怎么改” 在上一篇中,我们训练了专属PRM评判器,让AI能够感知“我做得好不好”。但标量奖励有一个根本局限:它把丰富的语义信息压缩成一个数字。当用户说“你应该先检查文件再
OpenClaw-RL 实战 08|PRM定制化训练:如何为终端、GUI、SWE场景训练专属评判器?
引言:为什么需要专属PRM? 在上一篇中,我们用同一套RL代码同时跑通了终端、GUI、SWE、工具调用四大场景。但一个根本问题浮出水面:PRM(过程奖励模型)的评判标准,应该对所有场景一视同仁吗? 显
OpenClaw-RL 实战 07|从个人到通用:同一套RL代码如何同时跑终端、GUI、SWE任务?
引言:打破场景的“柏林墙” 在上一篇中,我们构建了异步无阻塞日志系统,确保每一次交互都能可靠记录。但一个更深层次的问题始终悬而未决:个人对话、终端操作、GUI交互、软件工程(SWE)、工具调用——这些
OpenClaw-RL 实战 06|异步无阻塞日志系统:如何在服务不中断的前提下记录每一轮交互的“学习数据”?
引言:异步系统的“记忆困境” 在前五篇中,我们逐步构建了一个能够“边用边学”的智能体系统。四大异步组件——环境服务器、PRM评判器、训练引擎、策略服务器——像四条独立的生产线,各自运转、互不阻塞。当你
OpenClaw-RL 实战 05|加权损失融合:为什么“评估”+“指导”双信号能让Agent聪明一倍?
引言:从“单声道”到“立体声” 在上一篇中,我们分别学会了两种信号的处理方法: Binary RL:将用户重问、工具报错等评估信号转化为标量奖励,通过PPO优化策略 OPD:从用户纠正中提取指导信号,
OpenClaw-RL 实战 04|捕捉“指导信号”实战:如何从用户纠正中提取Token级监督?
引言:比“好与坏”更宝贵的是“如何改” 在上一篇中,我们实现了Binary RL——通过PRM将用户重问、工具报错等评估信号转化为标量奖励,让AI能够感知“我做得好不好”。但标量奖励有一个根本局限:它
OpenClaw-RL 实战 03|捕捉“评估信号”实战:如何把用户的“重问”变成标量奖励?
引言:让AI学会“察言观色” 在上一篇中,我们深入拆解了OpenClaw-RL的四大异步组件,理解了它们如何“并行不悖”地协同工作。现在,是时候让这些组件真正“动起来”——捕捉交互中隐藏的评估信号,并
OpenClaw-RL 实战 02|拆解四大异步组件:环境服务器、PRM评判器、训练引擎与策略服务器是如何“并行不悖”的?
引言:让AI拥有“边服务边进化”的超能力 在上一篇中,我们成功搭建了OpenClaw-RL环境,并见证了PRM如何将用户反馈转化为标量奖励。但你有没有想过这样一个问题:如果Agent每回答一个问题,都
AI新范式 番外篇|OpenClaw-RL 实战 01:环境搭建——让你的Agent拥有“边用边学”能力的第一行代码
引言:为什么你的Agent需要“实时进化”? 2026年3月,普林斯顿大学王梦迪团队发布了OpenClaw-RL框架,一个让AI Agent能够在真实交互中“边用边学”的革命性系统。它的核心洞察简单而