MultiMAE: Multi-modal Multi-task Masked Autoencoders我们提出了一种预

我们提出了一种预训练策略，称为多模态多任务掩码自动编码器 (MultiMAE)。它与标准 Masked Autoencoding 在两个关键方面有所不同：I）它可以选择性地接受除 RGB 图像之外的输入中的额外信息模式（因此是“多模态”），以及 II）其训练目标相应地包括预测除 RGB 图像之外的多个输出（因此“多任务”）。
除了多模态（即不同的输入）之外，多任务（即不同的输出）是一个重要的方面，因为已经表明通常没有一个单一的预训练目标可以最好地转移到所有可能的下游任务。
MultiMAE 不仅要学习原始的 MAE 目标（RGB 内画），还要从任何输入模式（跨模态预测）重建任何任务，所有这些都来自非常稀疏的输入补丁集。第一个目标是学习空间预测编码，而第二个目标导致跨模态预测编码。

来自多种模式（例如 RGB、深度和语义分割）的随机采样补丁的一小部分线性投影到具有固定维度的标记并使用 Transformer 进行编码。任务特定的解码器首先执行从查询到编码标记的交叉注意力步骤，然后是浅层 Transformer 来重建被屏蔽的补丁。查询由掩码标记（灰色）组成，特定于任务的编码标记在其各自的位置添加。（右）微调：通过对多种模式进行预训练，MultiMAE 有助于对单模态和多模态下游任务进行微调。传输时没有执行屏蔽。

多模态编码器

我们的多模态 Transformer 编码器是一个 ViT [26]，但每个附加输入模式都有补丁投影层。具体来说，每个模态的 16×16 补丁使用每个模态的不同线性投影投影到具有正确 Transformer 维度的标记。投影补丁连接成一系列标记，并作为同一 Transformer 编码器的输入给出。我们还添加了一个具有学习嵌入的附加全局标记，类似于 ViT 中使用的类标记。由于与 ViT 的架构相似性，MultiMAE 预训练的权重可以直接用于标准单模态 ViT，只需加载所需的输入投影而忽略其他投影。由于我们所有的模态都具有 2D 结构，我们在线性投影后添加了 2D 正弦余弦位置嵌入 [17,35]。我们没有明确添加任何特定于模态的嵌入，因为每个线性投影中的偏置项可以这样操作。我们只将所有标记的小随机采样子集传递给 Transformer 编码器，作为掩码自动编码目标的一部分。

多模态解码器

为了从可见标记中重建被屏蔽的标记，我们为每个任务使用单独的解码器。每个解码器的输入是来自它所重构的相应任务的完整可见标记集。与MAE[35]一样，这些可见标记与一组掩码令牌联合解码，作为解码器编写重构补丁的占位符(如图2所示)。为了整合来自其他模态的编码标记的信息，我们在每个解码器中添加单个交叉注意力层，使用这些标记作为查询，所有编码标记都作为键/值。在此步骤之前，将正弦余弦位置嵌入和学习的模态嵌入添加到标记中。然后是一个小的 MLP 和 Transformer 块。在 MAE 之后，我们仅在掩码标记上计算损失。由于每个任务都需要自己的解码器，解码器的计算成本与任务的数量成线性关系。为了保持预训练效率，我们使用低维（256 维）的浅层解码器（单个交叉注意力层和 MLP，然后是两个 Transformer 块）。

多模态掩蔽策略

为了使掩码自动编码运行良好，需要屏蔽很大一部分令牌。跨不同模式的屏蔽确保了模型在不同模式之间开发预测编码；首先，选择每个模态的标记数，其次，随机采样每个模态的标记集。每个模态的令牌数。我们从对称狄利克雷分布(λRGB, λD, λS) ∼ Dir(α) 中采样来选择每个模态 λ 的标记比例，其中 λRGB + λD + λS = 1, λ ≥ 0。采样令牌。从每个模态中，我们对上述 Dirichlet 采样步骤指定的令牌数量进行采样，随机均匀而不替换。与不太随机的替代方案[35]相比，均匀采样已被证明可以很好地用于掩码自动编码器。

伪标记多任务训练数据集

我们用三个任务预训练MultiMAE，我们在ImageNet-1K[23]上伪标签。伪标记的优点是我们不需要一个带有对齐任务图像的大型多任务数据集。