Meta超级智能Lab提出Early Experience增强Agent训练摘要本文提出 Early Experien

摘要

本文提出 Early Experience（早期经验）训练范式，使语言智能体在无奖励环境中也能从自身行为后果中学习，突破传统依赖专家示范（SFT）或依赖奖励的强化学习（RL）的局限。具体设计了两类关键机制：

Implicit World Modeling（隐式世界建模 IWM）：利用模型自己生成的备用行动和对应的未来状态，训练模型预测状态转移，从而让策略内化环境动态。
Self-Reflection（自我反思 SR）：利用专家动作与模型探索动作的结果差异，生成“反思解释”，帮助模型学习为什么某些决策更优。

在八个多样化语言智能体环境中，Early Experience 均显著优于纯模仿学习，并在奖励可用的环境中作为 RL 的 warm-start 带来更高最终性能。

论文标题：Agent Learning via Early Experience
论文链接：arxiv.org/pdf/2510.08…
发表单位：Meta Superintelligence Labs

1 简介

当前语言智能体的训练主要依赖两类方法：

SFT（也叫Imitation Learning，模仿学习）：依赖专家示范数据，无需奖励，但不具备从自身错误中学习的能力，泛化性弱且难以扩展。
RL（强化学习）：依赖准确奖励函数，但现实环境中奖励往往不可用、不可验证（如网页、API、多轮工具调用），训练不稳定且成本极高。

实现“可从自身经验中成长”的智能体成为一大挑战。本文提出 Early Experience 框架——一种介于 SFT 与 RL 之间的训练范式：

智能体在已有专家轨迹上生成多个备用动作并执行，收集真实的未来状态，这些未来状态本身就是监督信号，无需奖励。

该方法不需要外部奖励模块，仅依赖模型自己的动作和世界反馈。本文基于此设计了两类训练机制：

IWM（Implicit World Modeling）：让模型学习“动作如何改变环境”；
SR（Self-Reflection）：让模型学习“为什么专家动作比自身动作好”。

分别对应环境理解与决策能力，共同验证了 Early Experience 有效性。

2 方法

Early Experience 在专家示范基础上增加“探索生成的未来状态”，核心流程如下：

从专家数据采样状态 $s$ ；
模型生成 K 个备用动作 ${a^1, …, a^K}$ ；
在环境中执行这些动作，得到真实未来状态 ${s^{1'}, …, s^{K'}}$ ；
使用这些（无奖励）数据构成可扩展的监督信号。

基于这些扩展数据，本文提出两种具体方法。

2.1 Implicit World Modeling（IWM）

隐式世界建模任务的目标是让模型学会环境动态，即：

“在状态 $s$ 执行动作 $a$ ，下一状态 $s'$ 会变成什么？”

在训练时，将当前环境状态和智能体的动作 $(s, a)$ 作为输入，训练模型预测 s′（自然语言形式的下一状态），使用标准 next-token loss：

\mathcal{L}_{\text{IWM}} = - \log p*\theta(s' \mid s, a)

IWM任务不需要奖励函数和独立的世界模型模块，而是直接让策略模型内化环境变化规律（DOM 变化、工具输出变化等），类似“世界建模预训练”，再接 SFT 微调。

该方法适用于环境动态相对稳定的任务，如 ALFWorld、WebShop、科学实验等，能够显著提高策略对非专家状态的鲁棒性与泛化能力。

2.2 Self-Reflection（SR）

自我反思任务的目标是让模型理解“为什么专家动作更好”，主要步骤如下：

对专家状态执行专家动作 → 得到专家未来状态 $s^{*}$
对同一状态执行模型备用动作 → 得到次优未来状态 $s^{j'}$
将二者差异输入到一个 LLM 中，让其生成反思解释 $c_j$ ：

“为什么专家动作更合理？”
用 (state, reflection, expert action) 作为训练数据：

\mathcal{L}_{\text{SR}} = - \log p*\theta(c_j, a^* \mid s)

SR任务通过“对比专家与探索动作的结果差异”，强化决策动机，使模型学到哪些动作是更优的，而不是单纯的接受“哪个动作”应该做。其适用于需要约束满足、多步推理的任务：如 TravelPlanner、ScienceWorld、BFCLv3 等。

3 实验

作者在八个环境上进行系统评测，涵盖了：

网页导航（WebArena、WebShop）
具身环境（ALFWorld）
多轮工具使用（BFCLv3、TauBench）
科学实验（ScienceWorld）
搜索问答（SearchQA）
长程规划（TravelPlanner）

3.1 效果：Early Experience vs. Imitation Learning

实验结果显示：

Early Experience 在所有环境中均优于纯 SFT
IWM 与 SR 各有适用场景
- IWM 更适合“动态稳定、结构明确”的环境
- SR 更适合“多步骤推理和逻辑对比”的任务
模型大小越大，Early Experience 提升越稳定（3B ~ 70B 均有效）

3.2 Out-of-domain（OOD）泛化

在 OOD split 上观察到：

Early Experience 能恢复相当比例性能损失
某些任务 OOD 提升甚至大于 in-domain
说明“从自身探索经验中学习”有助于应对陌生状态空间

3.3 提升 RL Warm-start 效果

在可提供 verifiable reward 的环境（WebShop、ALFWorld、SearchQA）中：

用 Early Experience 初始化 RL
→ RL 最终性能显著高于普通模仿学习初始化
同样的 GRPO 训练步骤下：
→ Early Experience 的版本更高、更稳、更快收敛
从 Base 模型直接进行 RL → 最差且极不稳定

可以看到，Early Experience 是 RL 的强力前置阶段，可显著提升最终 RL 性能。

3.4 数据量与分支因子（K）分析

数据量减少至 1/2 ~ 1/8 时仍能超过 SFT 全数据性能
IWM 随 K 增大效果提升更显著（更多未来状态 → 更丰富动态规律，K就是在一个状态下尝试的非标注动作的数目，K越大表明模型在一个状态下尝试了更多的非标注动作）
SR 在中等 K 最佳（K 太大反而引入“多种同样合理动作”，对比变弱）

4 总结

本文提出了 Early Experience 这一新范式，使语言智能体能够不依赖奖励和大规模额外监督，在真实环境中通过自身行为“获得训练信号”。本文给出的两种方法——隐式世界建模（IWM）与自我反思（SR）在八个复杂环境中，持续超越模仿学习，并作为 RL 的 warm-start 显著提升最终性能。该范式有望成为连接“专家数据时代”与“经验驱动时代”的过渡桥梁。

未来方向包括：1）扩展到更长序列的信用分配；2）引入更多自监督信号；3）基于 Early Experience 做持续学习；4）结合 IWM + SR 的统一智能体框架（论文未做但极具潜力）