面临的挑战
领域特定数据不足、异构任务之间的干扰以及开放世界环境中的视觉多样性。
创新点
1)我们提出了一种知识增强的数据生成管道,以提供可扩展的高质量训练数据用于智能体开发。
2)为了减轻异构任务之间的干扰,我们引入了一种具有任务级路由的专家混合(MoE)架构。
3)我们开发了一种多模态推理增强的强化学习方法,以增强智能体在Minecraft中应对视觉多样性的推理能力。
这些组件共同使Optimus-3能够以互动和连贯的方式执行长时间任务规划、具身问答、视觉基础、字幕生成、低级动作生成和自我反思。
图1:Optimus-3作为Minecraft通用智能体的能力演示。它能够以互动的方式执行长时间任务规划、字幕生成、具身问答、基础、低级动作生成和反思。
架构与模型设计
传统的密集架构多模态大型语言模型(MLLMs)在多样化任务上训练时,由于优化目标的冲突(例如,生成文本字幕与预测基础框坐标),会导致性能下降。为了解决这个问题,作者引入了一种任务级路由机制,其中每个输入指令首先由任务路由器(从Sentence-BERT微调而来)分类为五个类别之一:规划、感知(字幕生成)、行动、基础或反思。根据这一分类,查询被路由到专门的任务特定专家,同时激活一个共享知识专家,以捕获跨任务的可泛化表示。这一设计确保在训练过程中仅更新相关专家的参数,从而隔离任务特定学习并防止干扰。
图2:A:Optimus-3的架构,包括一个任务路由器,为每个查询选择特定的任务专家,一个用于视觉编码的ViT [11],以及一个用于生成响应和低级动作的MoE LLM。给定一个长时间任务,它可以生成可行的计划,然后顺序执行子目标。B:所提出的多模态推理增强的强化学习有效提升了智能体的性能。C:Optimus-3与当前任务特定的SOTA智能体、GPT-4o [1]和原始主干Qwen2.5-VL [2]的性能比较。
数据生成与训练方法
1. 任务池与计划生成
- 从 Minecraft Wiki 派生的任务池出发
-
- 逻辑约束: 不直接让 MLLM 盲目生成步骤,而是利用领域知识图谱 (Knowledge Graph) 。该图谱包含了所有合成表(如:木镐需要木棍和木板)和物理逻辑。
- 这些计划会作为后续执行的目标指令。
2. 交互轨迹采集 (Action)
- 自动化执行: 将第一步生成的子目标(Sub-goals)输入给MoE(如 STEVE-1)。
- 环境反馈验证: 专家模型在环境中实际操作。只有当环境反馈信号确认该轨迹成功完成了任务,这些“观察-动作对”才会被归档。
3.多模态推理轨迹合成 (System 2 Traces)
在专家模型执行过程中,管道会以固定频率采样视觉帧,并结合环境状态数据(如背包物品、周围方块 ID、坐标)生成高质量推理标注:
- 详细描述 (Captioning): 将环境反馈的结构化数据提供给 GPT-4o,让其对图像进行描述。因为有环境反馈作为约束,生成的描述能精准匹配画面中的库存和环境,彻底解决视觉幻觉。
- 具身问答 (Embodied QA): 利用 DeepSeek-VL2 根据上述“无幻觉描述”生成问答对,确保问题和答案与环境事实高度一致。
- 视觉定位 (Grounding): 引入专门的视觉专家模型 Grounding DINO 对画面中的物体进行框选标注,补偿通用模型在坐标预测上的精度不足。
- 反思数据 (Reflection): 根据环境反馈的执行状态(成功、失败、进度),利用 GPT-4o 标注自我纠正的逻辑链。
4. 环境反馈增强
将智能体状态、库存、周围物体等环境信息作为真实值输入给标注模型,显著减少幻觉、提升标注准确性。
图5展示了该管道的有效性,消融研究表明,当去除专家模型或环境反馈时,性能显著下降,强调了领域知识在数据合成中的重要性。
图5:训练数据的消融研究。original指原始的Qwen2.5-VL,tuned_w/o_k表示在没有知识的数据上微调的模型,tuned_w/_k表示在知识增强管道生成的数据上微调的模型。
强化学习与推理增强
模型不是直接进行强化学习的,而是经历了一个逻辑递进的过程:
-
第一阶段:监督微调 (SFT)
- 核心: 学习“说话的逻辑”。
- 做法: 使用包含 思维链 (CoT) 模板的数据。模型被要求在给出最终动作前,先用文字描述视觉场景,再推导答案。这就像让学生在写出答案前必须写出解题步骤。
-
第二阶段:强化学习 (RL)
- 核心:学习“怎么做得更好”。
- 做法:GRPO
GRPO 的目标函数:
奖励机制:IoU-密度奖励函数
为了让模型在视觉任务(如在 Minecraft 中定位物体)上更精准,作者设计了一个非常细致的奖励规则:
-
IoU (交并比): 衡量模型预测的方框和物体真实位置的重合度。
-
分段反馈:
- 如果 IoU 低于阈值 ,得分 。
- 如果 IoU 在 和 之间,得分线性增加。
- 如果 IoU 超过 ,给予高分。
实验评估与结果
Optimus-3的实验评估在MineRL平台上进行,这是Minecraft智能体的标准基准,采用随机初始条件以确保环境多样性。该智能体在六个任务类别上进行评估:长时间行动、规划、字幕生成、具身问答、基础和反思。如表1所示,Optimus-3在所有长时间任务组中实现了最高的成功率,包括在具有挑战性的钻石组中达到15%的成功率——超越了之前的最先进智能体如JARVIS-1和Optimus-2。值得注意的是,Optimus-3在不依赖外部规划者或模型的情况下执行端到端的规划和行动执行,而不像H. Planner†等混合方法。这些提升归因于高质量数据、任务隔离的MoE架构和推理增强的RL的协同效应。