EvoAgent(25年2月)：世界模型驱动的面向长期任务的自主进化智能体1. 主要贡献论文构建了EvoAgent，首

1. 主要贡献

论文构建了EvoAgent，首个能够通过自我规划、自我控制和自我反思，在各种环境中自主完成多种长期任务的智能体。
提出了持续世界模型，能够通过闭环动态不断更新多模态经验池和世界知识，显著提高了智能体在复杂环境中的自主规划和动作控制能力。
通过在Minecraft游戏环境中的广泛实验，验证了EvoAgent的优越性。与现有方法相比，EvoAgent在成功率上平均提高了105%，并且减少了超过6倍的无效动作。
通过消融研究确认，持续世界模型对性能提升的贡献为72%，表明了持续世界模型在整合连贯知识方面的重要性，并展示了其在长期任务中的有效性。

2. 研究背景

研究问题

论文主要解决的问题是完成开放式环境中的长时任务（Long-Horizon, LH），这是具身智能体的一个重要且困难的挑战。

现有方法依赖于人类创建的数据或课程，缺乏持续更新多模态经验的能力，并且在面对新任务时可能会遇到灾难性遗忘问题，缺乏持续更新世界知识的能力。

EvoAgent

1. 经验驱动的任务规划器 (Experience-driven Task Planner) —— 左上模块

这是智能体的“参谋部”，负责将宏大目标（如“如何获得钻石？”）拆解为可执行的子任务。

多模态输入：它同时接收视觉观测（Obs）、自身状态（Self: Health/Assets）以及过往的经验（Experience）。
核心组件：利用 LLM（大语言模型） 结合 LoRA 微调技术进行高效推理。
产出：生成一系列子任务 (Subtasks) 序列。

记忆驱动的规划器 $\Psi_{\text{plan}}$ 是一个函数，它将当前的多模态状态 $\mathcal{S}$ 、长视距任务 $\mathcal{T}$ 和记忆 $\mathcal{D}_{\text{MEP}}^{\text{all}}$ 映射到一个子任务序列 $\mathcal{G}$ 。

$\Psi_{\text{plan}} : \mathcal{S} \times \mathcal{T} \times \mathcal{D}_{\text{MEP}}^{\text{all}} \to \mathcal{G}$

其中， $\mathcal{S}$ 包括第一人称观察 $\mathcal{O}_{\text{obs}}$ 、智能体的内部状态 $\mathcal{S}_{\text{self}}$ （如健康或饥饿）和智能体的资源库 $\mathcal{S}_{\text{assets}}$ （如工具或资源）。规划器使用大型语言模型（LLM）来生成子任务。具体步骤如下：

编码：使用图像标记器（如 VQ-GAN）将原始图像、内部状态和资源库编码为 token 嵌入。
投影：使用轻量级投影模块将视觉 token 映射到与文本嵌入相同的空间。
生成：利用 LLM 的解码器架构生成响应，基于提供的多模态输入 token 生成混合序列的视觉和文本 token。
选择：通过线性层和 softmax 操作将每个嵌入映射到语言词汇的概率分布，并选择得分最高的 token 作为最终的子任务。

当世界模型引导的动作控制器反馈任务失败时，LLM 会使用 LoRA 进行微调，基于所有记忆进行调整。

2. 世界模型引导的行为控制器 (WM-guided Action Controller) —— 右上模块

这是智能体的“执行部”，负责在环境中具体操作。

基于 RSSM 的预测：你可以看到熟悉的 $h$ （确定性状态）和 $z$ （随机状态）结构。它利用世界模型在脑中“预演”动作的结果（ $\hat{x}$ 观测预测、 $\hat{r}$ 奖励预测）。
自我验证 (Self-Verification) ：智能体会根据世界模型的预测值与环境反馈的实际值进行比对。如果发现预测偏差太大或任务失败，会触发“终端 (Terminal)”信号进行修正。

WM-引导的动作控制器 $\Pi_{\text{act}}$ 是一个函数，它将当前的多模态状态 $\mathcal{S}$ 、子任务 $\mathcal{G}$ 和世界模型 $\mathcal{M}_w$ 映射到一个动作序列 $a_{t:t+H}$ 。

$\Pi_{\text{act}} : \mathcal{S} \times \mathcal{G} \times \mathcal{M}_w \to \mathcal{A}$

动作选择：控制器利用世界模型预测未来状态并优化动作，公式如下：

$a_{t:t+H} = \arg \max_{a_{t:t+H} \in \mathcal{A}^H} \mathbb{E}_{\mathcal{M}_w} \left[ \sum_{\tau=t}^{t+H} \gamma^{\tau-t} R(s_\tau, a_\tau, g_i) \right]$

其中 $R(s_\tau, a_\tau, g_i)$ 是目标对齐的奖励函数， $\gamma$ 是折扣因子。

自我验证：在执行动作后，智能体与环境交互以收集反馈，并使用自我验证机制确定子任务是否可以终止。
多模态经验池 (MEP) ：MEP 是一个动态存储库，记录智能体与环境交互的经验。每次交互后，经验会被添加到 MEP 中，以便更新世界模型。

3. 基于课程学习的反思器 (CL-based Reflector) —— 底部模块

这是智能体的“学习与进化部”，负责不断优化世界模型。

课程筛选 (Curriculum Selection) ：它不会死记硬背所有经历，而是像人类学习一样，筛选出最有价值的子任务和经验。
模型更新 (WM Updating) ：通过反思失败或成功的案例，更新世界模型的参数 ( $\theta_{M_w} \rightarrow \theta'_{M_w}$ )，使模型对世界的理解越来越精准。

$\Phi_{\text{reflect}}$ 是一个函数，它将当前的多模态状态 $\mathcal{S}$ 、子任务 $\mathcal{G}$ 和多模态经验 $\mathcal{D}_{\text{MEP}}$ 映射到更新后的世界模型 $\mathcal{M}'_w$ 。

$\Phi_{\text{reflect}} : \mathcal{S} \times \mathcal{G} \times \mathcal{D}_{\text{MEP}} \times \mathcal{M}_w \to \mathcal{M}'_w$

反思模块采用两阶段课程学习机制来优化经验选择，然后更新世界模型以缓解历史遗忘：

两阶段课程学习机制：
- 阶段 1：课程子任务选择： 根据子任务与当前目标任务的关联性、效率比、重要性和完成率来选择子任务。
- 阶段 2：课程经验选择： 在选定的子任务中，根据时间差误差（TD-Error）、梯度范数和信息增益来选择经验。
世界模型更新： 使用课程指导的经验更新世界模型，公式如下：

$\theta'_{M_w} \leftarrow \theta_{M_w} - \nabla \left[ \sum_{h_j} w_j \mathcal{L}_{\text{pred}}(h_j) + \mu \cdot \Omega(\theta, \theta^{\text{old}}) \right]$

其中 $w_j$ 强调关键经验， $\Omega$ 用于惩罚对过去任务至关重要的参数偏移。

核心枢纽：持续世界模型 (Continual WM)

图中央的棕色圆圈是整个系统的灵魂。它起到了信息中继站的作用：

持续世界模型包括一个多模态经验池和一个世界模型。
通过闭环动态的自我规划、自我控制和自我反思，EvoAgent可以不断更新多模态经验池和世界知识，过滤无效探索并缓解历史遗忘，从而实现更好的自主规划和动作控制：
- 规划：记忆驱动的规划器根据当前状态、任务和记忆生成子任务。
- 控制：世界模型引导的动作控制器根据当前状态、子任务和世界模型生成动作序列。
- 执行：智能体执行动作并与环境交互，收集反馈。
- 反思：经验启发的反思模块根据交互经验更新世界模型。
- 更新：持续世界模型通过闭环动态更新多模态经验池和世界知识。

实验

实验设置

环境：
- Minecraft：使用Minecraft游戏作为实验环境，因为它是一个受欢迎的开放世界游戏，具有多样化的生物群系和丰富的交互元素。
- 模拟环境：使用MineRL 0.4.4作为模拟环境，智能体以每秒20帧的速度操作，并通过鼠标和键盘的低级动作控制信号与环境交互。
基准：
- Optimus-1基准：使用Optimus-1构建的基准来评估EvoAgent框架。Optimus-1提供了一个包含67个任务的基准，用于评估智能体在跨环境完成长期任务的能力。
- 任务分组：将67个Minecraft任务分为7组，按照Minecraft推荐的类别进行分组。

基线比较

PPO：使用Proximal Policy Optimization（PPO）作为基线之一，展示模型自由方法的性能。
GPT-4V：使用GPT-4V作为另一个基线，展示纯视觉-语言模型的能力。
Jarvis-1：使用Jarvis-1作为基线，展示基于记忆增强的多任务智能体的性能。
Dreamerv3：使用Dreamerv3作为基线，展示基于视觉-语言模型的规划能力。
Optimus-1：使用Optimus-1作为基线，展示混合多模态记忆增强智能体的性能

实验结果

成功率（SR） ：EvoAgent在所有资源层级上均表现出色，特别是在高级任务（如Gold和Diamond）上，成功率显著高于现有方法。EvoAgent的平均成功率比现有方法提高了105%。
探索效率（EE） ：EvoAgent在探索效率上也表现出色，特别是在Gold和Diamond任务上，探索效率比Optimus-1高出数倍，表明其在稀疏奖励场景中减少了无效动作。

总结

1. 核心架构：持续更新的世界模型 (Continual World Model)

这是 EvoAgent 最本质的创新。

传统局限：以往的智能体（如早期的 Dreamer 或 Voyager）通常使用固定的世界模型，或者仅靠外部代码库（Skill Library）积累经验，模型对物理世界的底层理解是静态的。
EvoAgent 突破：它将世界模型（WM）置于持续演进的状态。模型不仅在“脑海”中模拟环境（利用 RSSM 的 $h_t$ 和 $z_t$ ），而且会根据最新的交互经验实时更新参数，确保模型对环境的预测精度随任务进度不断提升。

2. 规划层：记忆驱动与多模态对齐 (Memory-driven Planning)

EvoAgent 极大地增强了 LLM 与底层感知数据的结合。

多模态融合：通过投影模块（Projector）将 VQ-GAN 编码的视觉 token 与文本 token 映射到统一空间，使 LLM 能直接“读懂”第一人称观察（Obs）和资源状态。
长视距拆解：它不仅依赖提示词（Prompt），还通过**经验池（MEP）**引导 LLM 生成更符合当前物理现实的子任务序列。

3. 执行层：基于世界模型的自主验证 (Self-Verification)

EvoAgent 的控制器不再是盲目地执行命令，而是具备了“预判”能力。

脑内预演：在动作执行前，控制器利用 RSSM 在潜在空间预测未来 $H$ 步的状态和奖励，寻找最优路径。
闭环纠错：引入自我验证机制。如果环境反馈与世界模型的预测发生严重偏离，智能体会立即识别出“任务失败”，并触发后续的微调或反思逻辑，而不是死循环。

4. 学习层：两阶段课程反思机制 (Two-stage Curriculum Reflection)

这是解决持续学习中“学什么”和“怎么记”的关键。

阶段一（任务筛选） ：优先选择那些与当前目标关联度高、重要性强的子任务。
阶段二（经验筛选） ：利用 TD-Error（时间差误差） 筛选出模型“理解最不透彻”的经历。高误差代表了高学习价值，这让模型学习效率提升了数倍。
缓解遗忘：在更新参数 $\theta$ 时，加入正则化约束 $\Omega$ ，惩罚对旧任务关键参数的修改。这使得 EvoAgent 在学习“挖钻石”的新知识时，不会忘记“如何合成木镐”的旧常识。

参考

开放世界中的持续学习！EvoAgent：世界模型驱动的面向长期任务的自主进化智能体 - 知乎

EvoAgent(25年2月)：世界模型驱动的面向长期任务的自主进化智能体