JARVIS-1

0 阅读5分钟

一、背景

当前的智能体面临三大主要挑战:

  1. 感知多模态的环境输入,例如图像、视频,以及自然语言指令和反馈,用于任务规划。这主要由于现有基于LLM的规划器在处理多模态数据方面能力有限。
  2. 具备终身学习与进化的能力,即能够自发提出新任务并自我提升。这是实现通用智能体的关键特征。
  3. 执行一致且准确的长期规划,这需要多轮的知识密集型、逻辑推理型对话,而这对当前的LLM来说仍是巨大挑战。

二、贡献

  1. 从LLM到MLM: 将多模态基础模型 MineCLIP 与LLM组合,构建出了一个多模态语言模型(MLM) 。使得智能体不再“盲目”规划,而是能够感知当前情境并作出相应计划。此外,借助多模态感知,智能体还能获得丰富的环境反馈,从而更容易实现自我检查与解释,修复计划中的潜在错误,提升交互式规划能力。
  2. 多模态记忆机制: 引入了多模态记忆模块,用来存储以往成功的规划经验及相关场景。通过检索相关记忆条目,智能体可以在上下文中利用自身的游戏经验,从而增强规划能力。与传统的强化学习或规划方法相比,JARVIS-1 无需模型更新,因为 MLM 可以通过上下文直接利用这些经验。
  3. 自我指令与自我进化:通过自我指令主动提出新任务,并将获得的经验存入多模态记忆中,从而推动更强的推理和规划能力。

三、核心设计

JARVIS-1是一个多模态智能体架构,其中包括交互式规划器、目标条件控制器和由多模态经验构成的多模态记忆系统。

image.png 在接收到任务和当前观测后,JARVIS-1 首先利用多模态语言模型(MLM)生成一个多模态查询,从记忆中检索相关的规划经验。随后,这些经验连同任务指令一起用于提示基于 MLM 的规划器。该规划器结合自身的预训练知识与检索到的参考计划,最终生成一系列 K 个短时目标 g1, …, gK​,交由控制器执行。当计划成功执行后,将连同任务指令和当时的智能体状态一起存入记忆中。

1. 基于 MLM 的交互式规划

采用零样本的多模态语言模型(MLM)作为规划器,并结合交互式规划框架来解决动态观测执行长时任务的挑战。

  • 利用 MLM 进行情境感知规划:将视觉输入转化为文本描述。
  • 使用自我检验进行规划验证:模拟执行流程,预判是否达成目标,提前修改。
  • 利用环境反馈进行交互式规划:结合失败原因与当前状态重新生成计划。

2.引入多模态记忆的规划机制

  • 采用RAG来增强 JARVIS-1 的长期规划能力。与以往 RAG 方法使用外部知识库不同,我们将收集到的多模态记忆作为知识库,并从中检索交互式经验作为示范提示,从而增强规划效果。
  • 多模态记忆结构:键值对记忆库,其中是多模态的,包括任务和该记忆条目被记录时的观测(即情境);是当时成功执行的计划。
  • 基于推理的查询生成:当接收到一个任务指令时,通过语言模型的推理能力将其分解为子任务或相关任务,并将其作为文本查询,用于检索参考计划。

3.智能体的自我提升机制

  • 探索阶段:JARVIS-1 依据当前能力选择任务 → 执行 → 存储经验。
  • 终身学习:随着记忆积累,能力提升(无需梯度更新),在后续游戏中成功率持续上升。

四、实验

环境设置:文章在《Minecraft》中评估 JARVIS-1,所选任务来自 Minecraft Universe Benchmark。选择使用《Minecraft》原生的人类界面,这适用于观察空间和动作空间。模型以 20 帧每秒的速度运行,并在交互时需使用鼠标和键盘界面。

任务设置:在《Minecraft》中,玩家可以获取上千种物品,每种物品有特定的获取条件或合成配方,在生存模式中,玩家必须从环境中获得物品,或通过合成/冶炼得到目标物品。文章在 Minecraft Universe Benchmark 中选择了超过 200 个任务进行评估,这些任务涉及可以在主世界中获得的物品。为便于统计,根据 Minecraft 的推荐分类将任务划分为 11 个组。由于任务复杂度不同,为每个任务设置了不同的最大游戏步数,该限制根据人类完成该任务的平均时间设定。

评估指标:默认情况下,智能体总是在生存模式下开始,且初始背包为空。当在规定时间内获得目标物品,即视为任务成功。

五、总结

JARVIS-1 在以下方面实现了突破:

  • 对多模态输入具备感知与理解能力
  • 支持长期任务的稳定规划与执行
  • 具有自我生成任务、自我改进的能力
  • 无需梯度更新即可实现终身学习

参考

202504 论文研读-JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models – KC&IS Group