Optimus-3(25年6月)面临的挑战领域特定数据不足、异构任务之间的干扰以及开放世界环境中的视觉多样性。创新点

面临的挑战

领域特定数据不足、异构任务之间的干扰以及开放世界环境中的视觉多样性。

创新点

1）我们提出了一种知识增强的数据生成管道，以提供可扩展的高质量训练数据用于智能体开发。

2）为了减轻异构任务之间的干扰，我们引入了一种具有任务级路由的专家混合（MoE）架构。

3）我们开发了一种多模态推理增强的强化学习方法，以增强智能体在Minecraft中应对视觉多样性的推理能力。

这些组件共同使Optimus-3能够以互动和连贯的方式执行长时间任务规划、具身问答、视觉基础、字幕生成、低级动作生成和自我反思。

图1：Optimus-3作为Minecraft通用智能体的能力演示。它能够以互动的方式执行长时间任务规划、字幕生成、具身问答、基础、低级动作生成和反思。

架构与模型设计

传统的密集架构多模态大型语言模型（MLLMs）在多样化任务上训练时，由于优化目标的冲突（例如，生成文本字幕与预测基础框坐标），会导致性能下降。为了解决这个问题，作者引入了一种任务级路由机制，其中每个输入指令首先由任务路由器（从Sentence-BERT微调而来）分类为五个类别之一：规划、感知（字幕生成）、行动、基础或反思。根据这一分类，查询被路由到专门的任务特定专家，同时激活一个共享知识专家，以捕获跨任务的可泛化表示。这一设计确保在训练过程中仅更新相关专家的参数，从而隔离任务特定学习并防止干扰。

图2：A：Optimus-3的架构，包括一个任务路由器，为每个查询选择特定的任务专家，一个用于视觉编码的ViT [11]，以及一个用于生成响应和低级动作的MoE LLM。给定一个长时间任务，它可以生成可行的计划，然后顺序执行子目标。B：所提出的多模态推理增强的强化学习有效提升了智能体的性能。C：Optimus-3与当前任务特定的SOTA智能体、GPT-4o [1]和原始主干Qwen2.5-VL [2]的性能比较。

数据生成与训练方法

1. 任务池与计划生成

从 Minecraft Wiki 派生的任务池出发
- 逻辑约束： 不直接让 MLLM 盲目生成步骤，而是利用领域知识图谱 (Knowledge Graph) 。该图谱包含了所有合成表（如：木镐需要木棍和木板）和物理逻辑。
这些计划会作为后续执行的目标指令。

2. 交互轨迹采集 (Action)

自动化执行： 将第一步生成的子目标（Sub-goals）输入给MoE（如 STEVE-1）。
环境反馈验证： 专家模型在环境中实际操作。只有当环境反馈信号确认该轨迹成功完成了任务，这些“观察-动作对”才会被归档。

3.多模态推理轨迹合成 (System 2 Traces)

在专家模型执行过程中，管道会以固定频率采样视觉帧，并结合环境状态数据（如背包物品、周围方块 ID、坐标）生成高质量推理标注：

详细描述 (Captioning)： 将环境反馈的结构化数据提供给 GPT-4o，让其对图像进行描述。因为有环境反馈作为约束，生成的描述能精准匹配画面中的库存和环境，彻底解决视觉幻觉。
具身问答 (Embodied QA)： 利用 DeepSeek-VL2 根据上述“无幻觉描述”生成问答对，确保问题和答案与环境事实高度一致。
视觉定位 (Grounding)： 引入专门的视觉专家模型 Grounding DINO 对画面中的物体进行框选标注，补偿通用模型在坐标预测上的精度不足。
反思数据 (Reflection)： 根据环境反馈的执行状态（成功、失败、进度），利用 GPT-4o 标注自我纠正的逻辑链。

4. 环境反馈增强

将智能体状态、库存、周围物体等环境信息作为真实值输入给标注模型，显著减少幻觉、提升标注准确性。

图5展示了该管道的有效性，消融研究表明，当去除专家模型或环境反馈时，性能显著下降，强调了领域知识在数据合成中的重要性。图5：训练数据的消融研究。original指原始的Qwen2.5-VL，tuned_w/o_k表示在没有知识的数据上微调的模型，tuned_w/_k表示在知识增强管道生成的数据上微调的模型。

强化学习与推理增强

模型不是直接进行强化学习的，而是经历了一个逻辑递进的过程：

第一阶段：监督微调 (SFT)
- 核心： 学习“说话的逻辑”。
- 做法： 使用包含 思维链 (CoT) 模板的数据。模型被要求在给出最终动作前，先用文字描述视觉场景，再推导答案。这就像让学生在写出答案前必须写出解题步骤。
第二阶段：强化学习 (RL)
- 核心：学习“怎么做得更好”。
- 做法：GRPO

GRPO 的目标函数:

$\frac{1}{G} \sum_{i=1}^{G} \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \{ \min [ r_{\theta}(x, y_i) A_{i,t}, \text{clip}(r_{\theta}(x, y_i), 1-\varepsilon, 1+\varepsilon) A_{i,t} ] - \lambda D_{KL} \}$

奖励机制：IoU-密度奖励函数

为了让模型在视觉任务（如在 Minecraft 中定位物体）上更精准，作者设计了一个非常细致的奖励规则：

IoU (交并比)： 衡量模型预测的方框和物体真实位置的重合度。
分段反馈：
- 如果 IoU 低于阈值 $\beta$ ，得分 $0$ 。
- 如果 IoU 在 $\beta$ 和 $\alpha$ 之间，得分线性增加。
- 如果 IoU 超过 $\alpha$ ，给予高分。

实验评估与结果

Optimus-3的实验评估在MineRL平台上进行，这是Minecraft智能体的标准基准，采用随机初始条件以确保环境多样性。该智能体在六个任务类别上进行评估：长时间行动、规划、字幕生成、具身问答、基础和反思。如表1所示，Optimus-3在所有长时间任务组中实现了最高的成功率，包括在具有挑战性的钻石组中达到15%的成功率——超越了之前的最先进智能体如JARVIS-1和Optimus-2。值得注意的是，Optimus-3在不依赖外部规划者或模型的情况下执行端到端的规划和行动执行，而不像H. Planner†等混合方法。这些提升归因于高质量数据、任务隔离的MoE架构和推理增强的RL的协同效应。