Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Exp

0 阅读6分钟

面临的挑战

领域特定数据不足、异构任务之间的干扰以及开放世界环境中的视觉多样性。

创新点

1)我们提出了一种知识增强的数据生成管道,以提供可扩展的高质量训练数据用于智能体开发。

2)为了减轻异构任务之间的干扰,我们引入了一种具有任务级路由的专家混合(MoE)架构。

3)我们开发了一种多模态推理增强的强化学习方法,以增强智能体在Minecraft中应对视觉多样性的推理能力。

这些组件共同使Optimus-3能够以互动和连贯的方式执行长时间任务规划、具身问答、视觉基础、字幕生成、低级动作生成和自我反思。

image.png

图1:Optimus-3作为Minecraft通用智能体的能力演示。它能够以互动的方式执行长时间任务规划、字幕生成、具身问答、基础、低级动作生成和反思。

架构与模型设计

传统的密集架构多模态大型语言模型(MLLMs)在多样化任务上训练时,由于优化目标的冲突(例如,生成文本字幕与预测基础框坐标),会导致性能下降。为了解决这个问题,作者引入了一种任务级路由机制,其中每个输入指令首先由任务路由器(从Sentence-BERT微调而来)分类为五个类别之一:规划、感知(字幕生成)、行动、基础或反思。根据这一分类,查询被路由到专门的任务特定专家,同时激活一个共享知识专家,以捕获跨任务的可泛化表示。这一设计确保在训练过程中仅更新相关专家的参数,从而隔离任务特定学习并防止干扰。

image.png 图2:A:Optimus-3的架构,包括一个任务路由器,为每个查询选择特定的任务专家,一个用于视觉编码的ViT [11],以及一个用于生成响应和低级动作的MoE LLM。给定一个长时间任务,它可以生成可行的计划,然后顺序执行子目标。B:所提出的多模态推理增强的强化学习有效提升了智能体的性能。C:Optimus-3与当前任务特定的SOTA智能体、GPT-4o [1]和原始主干Qwen2.5-VL [2]的性能比较。

数据生成与训练方法

1. 任务池与计划生成

  • Minecraft Wiki 派生的任务池出发
    • 逻辑约束:  不直接让 MLLM 盲目生成步骤,而是利用领域知识图谱 (Knowledge Graph) 。该图谱包含了所有合成表(如:木镐需要木棍和木板)和物理逻辑。
  • 这些计划会作为后续执行的目标指令。

2. 交互轨迹采集 (Action)

  • 自动化执行:  将第一步生成的子目标(Sub-goals)输入给MoE(如 STEVE-1)。
  • 环境反馈验证:  专家模型在环境中实际操作。只有当环境反馈信号确认该轨迹成功完成了任务,这些“观察-动作对”才会被归档。

3.多模态推理轨迹合成 (System 2 Traces)

在专家模型执行过程中,管道会以固定频率采样视觉帧,并结合环境状态数据(如背包物品、周围方块 ID、坐标)生成高质量推理标注:

  • 详细描述 (Captioning):  将环境反馈的结构化数据提供给 GPT-4o,让其对图像进行描述。因为有环境反馈作为约束,生成的描述能精准匹配画面中的库存和环境,彻底解决视觉幻觉。
  • 具身问答 (Embodied QA):  利用 DeepSeek-VL2 根据上述“无幻觉描述”生成问答对,确保问题和答案与环境事实高度一致。
  • 视觉定位 (Grounding):  引入专门的视觉专家模型 Grounding DINO 对画面中的物体进行框选标注,补偿通用模型在坐标预测上的精度不足。
  • 反思数据 (Reflection):  根据环境反馈的执行状态(成功、失败、进度),利用 GPT-4o 标注自我纠正的逻辑链。

4. 环境反馈增强

智能体状态、库存、周围物体等环境信息作为真实值输入给标注模型,显著减少幻觉、提升标注准确性。

图5展示了该管道的有效性,消融研究表明,当去除专家模型或环境反馈时,性能显著下降,强调了领域知识在数据合成中的重要性。 image.png 图5:训练数据的消融研究。original指原始的Qwen2.5-VL,tuned_w/o_k表示在没有知识的数据上微调的模型,tuned_w/_k表示在知识增强管道生成的数据上微调的模型。

强化学习与推理增强

模型不是直接进行强化学习的,而是经历了一个逻辑递进的过程:

  • 第一阶段:监督微调 (SFT)

    • 核心: 学习“说话的逻辑”。
    • 做法: 使用包含 思维链 (CoT) 模板的数据。模型被要求在给出最终动作前,先用文字描述视觉场景,再推导答案。这就像让学生在写出答案前必须写出解题步骤。
  • 第二阶段:强化学习 (RL)

    • 核心:学习“怎么做得更好”。
    • 做法:GRPO

GRPO 的目标函数:

1Gi=1G1yit=1yi{min[rθ(x,yi)Ai,t,clip(rθ(x,yi),1ε,1+ε)Ai,t]λDKL}\frac{1}{G} \sum_{i=1}^{G} \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \{ \min [ r_{\theta}(x, y_i) A_{i,t}, \text{clip}(r_{\theta}(x, y_i), 1-\varepsilon, 1+\varepsilon) A_{i,t} ] - \lambda D_{KL} \}

奖励机制:IoU-密度奖励函数

为了让模型在视觉任务(如在 Minecraft 中定位物体)上更精准,作者设计了一个非常细致的奖励规则:

  • IoU (交并比): 衡量模型预测的方框和物体真实位置的重合度。

  • 分段反馈:

    • 如果 IoU 低于阈值 β\beta,得分 00
    • 如果 IoU 在 β\betaα\alpha 之间,得分线性增加。
    • 如果 IoU 超过 α\alpha,给予高分。

实验评估与结果

Optimus-3的实验评估在MineRL平台上进行,这是Minecraft智能体的标准基准,采用随机初始条件以确保环境多样性。该智能体在六个任务类别上进行评估:长时间行动、规划、字幕生成、具身问答、基础和反思。如表1所示,Optimus-3在所有长时间任务组中实现了最高的成功率,包括在具有挑战性的钻石组中达到15%的成功率——超越了之前的最先进智能体如JARVIS-1和Optimus-2。值得注意的是,Optimus-3在不依赖外部规划者或模型的情况下执行端到端的规划和行动执行,而不像H. Planner†等混合方法。这些提升归因于高质量数据、任务隔离的MoE架构和推理增强的RL的协同效应。

image.png