摘要
本文提出 Early Experience(早期经验) 训练范式,使语言智能体在无奖励环境中也能从自身行为后果中学习,突破传统依赖专家示范(SFT)或依赖奖励的强化学习(RL)的局限。具体设计了两类关键机制:
- Implicit World Modeling(隐式世界建模 IWM) :利用模型自己生成的备用行动和对应的未来状态,训练模型预测状态转移,从而让策略内化环境动态。
- Self-Reflection(自我反思 SR) :利用专家动作与模型探索动作的结果差异,生成“反思解释”,帮助模型学习为什么某些决策更优。
在八个多样化语言智能体环境中,Early Experience 均显著优于纯模仿学习,并在奖励可用的环境中作为 RL 的 warm-start 带来更高最终性能。
- 论文标题:Agent Learning via Early Experience
- 论文链接:arxiv.org/pdf/2510.08…
- 发表单位:Meta Superintelligence Labs
1 简介
当前语言智能体的训练主要依赖两类方法:
- SFT(也叫Imitation Learning,模仿学习):依赖专家示范数据,无需奖励,但不具备从自身错误中学习的能力,泛化性弱且难以扩展。
- RL(强化学习) :依赖准确奖励函数,但现实环境中奖励往往不可用、不可验证(如网页、API、多轮工具调用),训练不稳定且成本极高。
实现“可从自身经验中成长”的智能体成为一大挑战。本文提出 Early Experience 框架——一种介于 SFT 与 RL 之间的训练范式:
智能体在已有专家轨迹上生成多个备用动作并执行,收集真实的未来状态,这些未来状态本身就是监督信号,无需奖励。
该方法不需要外部奖励模块,仅依赖模型自己的动作和世界反馈。本文基于此设计了两类训练机制:
- IWM(Implicit World Modeling) :让模型学习“动作如何改变环境”;
- SR(Self-Reflection) :让模型学习“为什么专家动作比自身动作好”。
分别对应环境理解与决策能力,共同验证了 Early Experience 有效性。
2 方法
Early Experience 在专家示范基础上增加“探索生成的未来状态”,核心流程如下:
- 从专家数据采样状态;
- 模型生成 K 个备用动作 ;
- 在环境中执行这些动作,得到真实未来状态 ;
- 使用这些(无奖励)数据构成可扩展的监督信号。
基于这些扩展数据,本文提出两种具体方法。
2.1 Implicit World Modeling(IWM)
隐式世界建模任务的目标是让模型学会环境动态,即:
“在状态 执行动作,下一状态 会变成什么?”
在训练时,将当前环境状态和智能体的动作 作为输入,训练模型预测 s′(自然语言形式的下一状态),使用标准 next-token loss:
IWM任务不需要奖励函数和独立的世界模型模块,而是直接让策略模型内化环境变化规律(DOM 变化、工具输出变化等),类似“世界建模预训练”,再接 SFT 微调。
该方法适用于环境动态相对稳定的任务,如 ALFWorld、WebShop、科学实验等,能够显著提高策略对非专家状态的鲁棒性与泛化能力。
2.2 Self-Reflection(SR)
自我反思任务的目标是让模型理解“为什么专家动作更好”,主要步骤如下:
- 对专家状态执行专家动作 → 得到专家未来状态
- 对同一状态执行模型备用动作 → 得到次优未来状态
- 将二者差异输入到一个 LLM 中,让其生成反思解释 :
“为什么专家动作更合理?”
- 用 (state, reflection, expert action) 作为训练数据:
SR任务通过“对比专家与探索动作的结果差异”,强化决策动机,使模型学到哪些动作是更优的,而不是单纯的接受“哪个动作”应该做。其适用于需要约束满足、多步推理的任务:如 TravelPlanner、ScienceWorld、BFCLv3 等。
3 实验
作者在八个环境上进行系统评测,涵盖了:
- 网页导航(WebArena、WebShop)
- 具身环境(ALFWorld)
- 多轮工具使用(BFCLv3、TauBench)
- 科学实验(ScienceWorld)
- 搜索问答(SearchQA)
- 长程规划(TravelPlanner)
3.1 效果:Early Experience vs. Imitation Learning
实验结果显示:
- Early Experience 在所有环境中均优于纯 SFT
- IWM 与 SR 各有适用场景
- IWM 更适合“动态稳定、结构明确”的环境
- SR 更适合“多步骤推理和逻辑对比”的任务
- 模型大小越大,Early Experience 提升越稳定(3B ~ 70B 均有效)
3.2 Out-of-domain(OOD)泛化
在 OOD split 上观察到:
- Early Experience 能恢复相当比例性能损失
- 某些任务 OOD 提升甚至大于 in-domain
- 说明“从自身探索经验中学习”有助于应对陌生状态空间
3.3 提升 RL Warm-start 效果
在可提供 verifiable reward 的环境(WebShop、ALFWorld、SearchQA)中:
- 用 Early Experience 初始化 RL
→ RL 最终性能显著高于普通模仿学习初始化 - 同样的 GRPO 训练步骤下:
→ Early Experience 的版本更高、更稳、更快收敛 - 从 Base 模型直接进行 RL → 最差且极不稳定
可以看到,Early Experience 是 RL 的强力前置阶段,可显著提升最终 RL 性能。
3.4 数据量与分支因子(K)分析
- 数据量减少至 1/2 ~ 1/8 时仍能超过 SFT 全数据性能
- IWM 随 K 增大效果提升更显著(更多未来状态 → 更丰富动态规律,K就是在一个状态下尝试的非标注动作的数目,K越大表明模型在一个状态下尝试了更多的非标注动作)
- SR 在中等 K 最佳(K 太大反而引入“多种同样合理动作”,对比变弱)
4 总结
本文提出了 Early Experience 这一新范式,使语言智能体能够不依赖奖励和大规模额外监督,在真实环境中通过自身行为“获得训练信号”。本文给出的两种方法——隐式世界建模(IWM)与自我反思(SR)在八个复杂环境中,持续超越模仿学习,并作为 RL 的 warm-start 显著提升最终性能。该范式有望成为连接“专家数据时代”与“经验驱动时代”的过渡桥梁。
未来方向包括:1)扩展到更长序列的信用分配;2)引入更多自监督信号;3)基于 Early Experience 做持续学习 ;4)结合 IWM + SR 的统一智能体框架(论文未做但极具潜力)