Optimus-1(24年7月)Optimus-1是什么 Optimus-1(NIPS 2024)实验室推出的智能体框架

Optimus-1是什么

Optimus-1(NIPS 2024)实验室推出的智能体框架，能解决在开放世界环境中完成长期任务的挑战。Optimus-1包含混合多模态记忆模块(由分层有向知识图HDKG和抽象多模态经验池AMEP组成)，知识引导规划器和经验驱动反射器

现有的 Minecraft Agents 有哪些局限性？

对结构化知识缺乏探索。Minecraft 中充满了丰富的结构化知识，例如工具的合成规则（一根木棍和两块铁锭可以合成一把铁剑）
缺乏充足的多模态经验。现有的智能体在多模态经验的积累与总结上存在缺陷，未能有效整合视觉、语言、动作等多方面的经验

为了解决上述挑战，我们设计了一个混合多模态记忆模块，将结构化知识和多模态经验整合到智能体的记忆机制中。智能体在规划阶段借助结构化知识生成可行的任务计划，而在反思阶段则利用多模态经验对当前状态进行判断，并做出更加合理的决策。

研究方法

Optimus-1 的框架如下图所示。它由

混合多模态记忆模块
知识引导的规划器
经验驱动的反思器
以及行动控制器

组成。

给定一个长序列任务，知识引导的规划器首先从混合多模态记忆中检索任务相关的知识，并基于这些知识生成一系列可执行的子目标。这些子目标依次输入到行动控制器中，生成行动信号以完成任务。在执行任务过程中，经验驱动反思器会定期激活，检索与当前子目标相关的多模态经验作为参考，从而做出更为合理的决策。

1. 混合多模态记忆（Hybrid Multimodal Memory）

对于摘要化多模态经验池 AMEP，视频流首先通过 Video Buffer 和 Image Buffer 过滤，得到固定窗口大小的帧序列，并与文本通过 MineCLIP 计算相似度，若超过阈值，则保存帧序列、文本及环境信息等内容作为多模态经验。这些经验为智能体反思阶段提供细粒度的多模态信息，同时通过摘要化降低了存储开销。

对于层次化有向知识图HDKG，任务执行过程中获取的知识被转化为图结构。例如，“两根木棍和三块木板可以合成一把木镐” 被表示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe}，为智能体的规划阶段提供必要的知识支持，帮助其做出合理的任务规划。

2. 知识引导的规划器（Knowledge-Guided Planner）

给定任务 t，当前的视觉观察 o，知识引导的规划器从 HDKG 中检索相关知识，生成子目标序列 g1,g2,…,gn：

$g_1, g_2, \dots, g_n = p_{\theta}(o, t, p_{\eta}(t))$

其中， $p_{\theta}$ 表示多模态大模型， $p_{\eta}(t)$ 表示从 HDKG 中检索的有向图。

3. 行动控制器 (Action Controller)

行动控制器 $p_{\pi}$ 以当前的视觉观察 $o$ ，以及子目标 $g_i$ 作为输入，生成行动 $a_k$ ：

$a_k = p_{\pi}(o, g_i)$

4. 经验驱动的反思器 (Experience-Driven Reflector)

经验驱动的反思器会定期被启动，以当前的视觉观察 $o$ ，子目标 $g_i$ ，以及从 AMEP 中检索的 case $p_{\epsilon}(g_i)$ 作为输入，生成反思 $r$ ：

$r = p_{\epsilon}(o, g_i, p_{\epsilon}(g_i))$

实验结果

比较Jarvis-1与Optimus-1

一、相同点

研究场景与目标一致
- 均以Minecraft为测试环境，聚焦开放世界、长时序、多任务智能体
- 核心目标：提升复杂任务（如钻石镐）成功率，实现接近人类的规划与执行
底层技术同源
- 均采用多模态大语言模型 (MLLM) 作为规划核心
- 均使用MineCLIP做视觉 - 文本对齐、STEVE-1作为底层动作控制器
- 均采用人类同款键鼠操作空间，而非 API / 代码调用
核心创新方向一致
- 都用记忆增强解决 LLM 幻觉、长时序规划不稳定问题
- 都支持无参数增量自进化，无需微调模型
评估范式相同
- 均在 Minecraft Universe Benchmark 上测试超 200 类任务
- 均以成功率、平均步数、耗时为核心指标，多随机种子验证

二、不同点（核心差异）

1. 记忆机制设计（最本质区别）

Jarvis-1 多模态经验记忆：只存成功案例，以任务 + 场景为 key，计划为 value检索方式：文本 + 视觉相似度匹配，无结构化知识
Optimus-1混合双记忆架构：
- 分层有向知识图谱 (HDKG)：显式存储合成 / 挖掘规则，一次生成完整规划
- 抽象多模态经验池 (AMEP)：同时存成功 + 失败经验，做视觉摘要压缩

2. 规划与反思架构

Jarvis-1交互式规划：自检查 + 自解释，执行中动态修正，依赖多轮重规划
Optimus-1知识引导规划器 + 经验驱动反思器：
- 用 HDKG一步生成完整子目标序列，无需迭代
- 反思模块定期激活，直接输出完成 / 继续 / 重规划，决策更快更稳

3. 任务处理能力

Jarvis-1短时序任务接近满分；钻石镐6.22%→12.5% （延长时间）重规划轮次多，token 消耗大
Optimus-1长时序任务全面领先：钻石组25.02% ，远超 Jarvis-1步骤更少、耗时更短，接近人类水平

4. 经验利用方式

Jarvis-1：只复用成功经验，无失败学习
Optimus-1：同时用成功 + 失败经验，显著提升复杂任务鲁棒性

5. 模型通用性

Jarvis-1：主要基于 GPT 系列，未重点验证开源 MLLM
Optimus-1：支持 GPT-4V、Deepseek-VL、InternLM-XComposer2-VL，混合记忆可让开源模型提升 2~6 倍