JARVIS-1(23年10月)一、背景当前的智能体面临三大主要挑战：感知多模态的环境输入，例如图像、视频，以及自然

一、背景

当前的智能体面临三大主要挑战：

感知多模态的环境输入，例如图像、视频，以及自然语言指令和反馈，用于任务规划。这主要由于现有基于LLM的规划器在处理多模态数据方面能力有限。
具备终身学习与进化的能力，即能够自发提出新任务并自我提升。这是实现通用智能体的关键特征。
执行一致且准确的长期规划，这需要多轮的知识密集型、逻辑推理型对话，而这对当前的LLM来说仍是巨大挑战。

二、贡献

从LLM到MLM： 将多模态基础模型 MineCLIP 与LLM组合，构建出了一个多模态语言模型（MLM） 。使得智能体不再“盲目”规划，而是能够感知当前情境并作出相应计划。此外，借助多模态感知，智能体还能获得丰富的环境反馈，从而更容易实现自我检查与解释，修复计划中的潜在错误，提升交互式规划能力。
多模态记忆机制： 引入了多模态记忆模块，用来存储以往成功的规划经验及相关场景。通过检索相关记忆条目，智能体可以在上下文中利用自身的游戏经验，从而增强规划能力。与传统的强化学习或规划方法相比，JARVIS-1 无需模型更新，因为 MLM 可以通过上下文直接利用这些经验。
自我指令与自我进化：通过自我指令主动提出新任务，并将获得的经验存入多模态记忆中，从而推动更强的推理和规划能力。

三、核心设计

JARVIS-1是一个多模态智能体架构，其中包括交互式规划器、目标条件控制器和由多模态经验构成的多模态记忆系统。

在接收到任务和当前观测后，JARVIS-1 首先利用多模态语言模型（MLM）生成一个多模态查询，从记忆中检索相关的规划经验。随后，这些经验连同任务指令一起用于提示基于 MLM 的规划器。该规划器结合自身的预训练知识与检索到的参考计划，最终生成一系列 K 个短时目标 g1, …, gK，交由控制器执行。当计划成功执行后，将连同任务指令和当时的智能体状态一起存入记忆中。

1. 基于 MLM 的交互式规划

采用零样本的多模态语言模型（MLM）作为规划器，并结合交互式规划框架来解决动态观测执行长时任务的挑战。

利用 MLM 进行情境感知规划：将视觉输入转化为文本描述。
使用自我检验进行规划验证：模拟执行流程，预判是否达成目标，提前修改。
利用环境反馈进行交互式规划：结合失败原因与当前状态重新生成计划。

2.引入多模态记忆的规划机制

采用RAG来增强 JARVIS-1 的长期规划能力。与以往 RAG 方法使用外部知识库不同，我们将收集到的多模态记忆作为知识库，并从中检索交互式经验作为示范提示，从而增强规划效果。
多模态记忆结构：键值对记忆库，其中键是多模态的，包括任务和该记忆条目被记录时的观测（即情境）；值是当时成功执行的计划。
基于推理的查询生成：当接收到一个任务指令时，通过语言模型的推理能力将其分解为子任务或相关任务，并将其作为文本查询，用于检索参考计划。

3.智能体的自我提升机制

探索阶段：JARVIS-1 依据当前能力选择任务 → 执行 → 存储经验。
终身学习：随着记忆积累，能力提升（无需梯度更新），在后续游戏中成功率持续上升。

四、实验

环境设置：文章在《Minecraft》中评估 JARVIS-1，所选任务来自 Minecraft Universe Benchmark。选择使用《Minecraft》原生的人类界面，这适用于观察空间和动作空间。模型以 20 帧每秒的速度运行，并在交互时需使用鼠标和键盘界面。

任务设置：在《Minecraft》中，玩家可以获取上千种物品，每种物品有特定的获取条件或合成配方，在生存模式中，玩家必须从环境中获得物品，或通过合成/冶炼得到目标物品。文章在 Minecraft Universe Benchmark 中选择了超过 200 个任务进行评估，这些任务涉及可以在主世界中获得的物品。为便于统计，根据 Minecraft 的推荐分类将任务划分为 11 个组。由于任务复杂度不同，为每个任务设置了不同的最大游戏步数，该限制根据人类完成该任务的平均时间设定。

评估指标：默认情况下，智能体总是在生存模式下开始，且初始背包为空。当在规定时间内获得目标物品，即视为任务成功。

五、总结

JARVIS-1 在以下方面实现了突破：

对多模态输入具备感知与理解能力；
支持长期任务的稳定规划与执行；
具有自我生成任务、自我改进的能力；
无需梯度更新即可实现终身学习。

参考

202504 论文研读-JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models – KC&IS Group