Optimus-1是什么
Optimus-1(NIPS 2024)实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。Optimus-1包含混合多模态记忆模块(由分层有向知识图HDKG和抽象多模态经验池AMEP组成),知识引导规划器和经验驱动反射器
现有的 Minecraft Agents 有哪些局限性?
- 对结构化知识缺乏探索。Minecraft 中充满了丰富的结构化知识,例如工具的合成规则(一根木棍和两块铁锭可以合成一把铁剑)
- 缺乏充足的多模态经验。现有的智能体在多模态经验的积累与总结上存在缺陷,未能有效整合视觉、语言、动作等多方面的经验
为了解决上述挑战,我们设计了一个混合多模态记忆模块,将结构化知识和多模态经验整合到智能体的记忆机制中。智能体在规划阶段借助结构化知识生成可行的任务计划,而在反思阶段则利用多模态经验对当前状态进行判断,并做出更加合理的决策。
研究方法
Optimus-1 的框架如下图所示。它由
- 混合多模态记忆模块
- 知识引导的规划器
- 经验驱动的反思器
- 以及行动控制器
组成。
给定一个长序列任务,知识引导的规划器首先从混合多模态记忆中检索任务相关的知识,并基于这些知识生成一系列可执行的子目标。这些子目标依次输入到行动控制器中,生成行动信号以完成任务。在执行任务过程中,经验驱动反思器会定期激活,检索与当前子目标相关的多模态经验作为参考,从而做出更为合理的决策。
1. 混合多模态记忆(Hybrid Multimodal Memory)
对于摘要化多模态经验池 AMEP,视频流首先通过 Video Buffer 和 Image Buffer 过滤,得到固定窗口大小的帧序列,并与文本通过 MineCLIP 计算相似度,若超过阈值,则保存帧序列、文本及环境信息等内容作为多模态经验。这些经验为智能体反思阶段提供细粒度的多模态信息,同时通过摘要化降低了存储开销。
对于层次化有向知识图HDKG,任务执行过程中获取的知识被转化为图结构。例如,“两根木棍和三块木板可以合成一把木镐” 被表示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe},为智能体的规划阶段提供必要的知识支持,帮助其做出合理的任务规划。
2. 知识引导的规划器(Knowledge-Guided Planner)
给定任务 t,当前的视觉观察 o,知识引导的规划器从 HDKG 中检索相关知识,生成子目标序列 g1,g2,…,gn:
其中, 表示多模态大模型, 表示从 HDKG 中检索的有向图。
3. 行动控制器 (Action Controller)
行动控制器 以当前的视觉观察 ,以及子目标 作为输入,生成行动 :
4. 经验驱动的反思器 (Experience-Driven Reflector)
经验驱动的反思器会定期被启动,以当前的视觉观察 ,子目标 ,以及从 AMEP 中检索的 case 作为输入,生成反思 :
实验结果
比较Jarvis-1与Optimus-1
一、相同点
-
研究场景与目标一致
- 均以Minecraft为测试环境,聚焦开放世界、长时序、多任务智能体
- 核心目标:提升复杂任务(如钻石镐)成功率,实现接近人类的规划与执行
-
底层技术同源
- 均采用多模态大语言模型 (MLLM) 作为规划核心
- 均使用MineCLIP做视觉 - 文本对齐、STEVE-1作为底层动作控制器
- 均采用人类同款键鼠操作空间,而非 API / 代码调用
-
核心创新方向一致
- 都用记忆增强解决 LLM 幻觉、长时序规划不稳定问题
- 都支持无参数增量自进化,无需微调模型
-
评估范式相同
- 均在 Minecraft Universe Benchmark 上测试超 200 类任务
- 均以成功率、平均步数、耗时为核心指标,多随机种子验证
二、不同点(核心差异)
1. 记忆机制设计(最本质区别)
-
Jarvis-1 多模态经验记忆: 只存成功案例,以任务 + 场景为 key,计划为 value检索方式:文本 + 视觉相似度匹配,无结构化知识
-
Optimus-1混合双记忆架构:
- 分层有向知识图谱 (HDKG):显式存储合成 / 挖掘规则,一次生成完整规划
- 抽象多模态经验池 (AMEP):同时存成功 + 失败经验,做视觉摘要压缩
2. 规划与反思架构
-
Jarvis-1交互式规划:自检查 + 自解释,执行中动态修正,依赖多轮重规划
-
Optimus-1知识引导规划器 + 经验驱动反思器:
- 用 HDKG一步生成完整子目标序列,无需迭代
- 反思模块定期激活,直接输出完成 / 继续 / 重规划,决策更快更稳
3. 任务处理能力
- Jarvis-1短时序任务接近满分;钻石镐6.22%→12.5% (延长时间)重规划轮次多,token 消耗大
- Optimus-1长时序任务全面领先:钻石组25.02% ,远超 Jarvis-1步骤更少、耗时更短,接近人类水平
4. 经验利用方式
- Jarvis-1:只复用成功经验,无失败学习
- Optimus-1:同时用成功 + 失败经验,显著提升复杂任务鲁棒性
5. 模型通用性
- Jarvis-1:主要基于 GPT 系列,未重点验证开源 MLLM
- Optimus-1:支持 GPT-4V、Deepseek-VL、InternLM-XComposer2-VL,混合记忆可让开源模型提升 2~6 倍