4M: Massively Multimodal Masked Modeling(1)它们可以开箱即用地执行各种各样的视

(1)它们可以开箱即用地执行各种各样的视觉任务，(2)它们在对看不见的下游任务或新的输入模式进行微调时表现出色，(3)它们可以作为一个生成模型，可以以任意模式为条件，以非凡的灵活性实现各种具有表现力的多模式编辑功能。
4M 可以训练一个通用的多模态和多任务模型，能够从框中执行一组不同的视觉任务，并能够执行多模态条件生成。这与模型执行修复的能力相结合，实现了强大的图像编辑功能。这种通才模型可以很好地转移到广泛的下游任务或新颖的模式，并且可以很容易地微调到更专业的自身变体中。
为了在具有不同格式（例如文本、边界框、图像或神经网络特征）的模态上训练单个 Transformer，我们选择使用特定于模态的标记器[110] 将它们映射到离散标记的集合或序列来统一它们的表示空间[21、22、74、64]。我们选择使用特定于模态的标记器[110] 将它们映射到离散标记的集合或序列来统一它们的表示空间[21、22、74、64]。这涉及从所有模态中随机选择一小部分标记作为模型的输入，而其余标记的另一个小子集被视为目标。

方法：我们引入了 4M，这是一个使用多模态掩码建模目标为视觉任务训练通用且可扩展的基础模型的框架。我们的方法导致模型学习丰富的表示并在广泛的任务上表现良好，而不需要特定于任务的适应。
性能：我们通过广泛的实验和基准证明了我们方法的有效性，展示了这些模型在开箱即用中执行许多关键视觉任务的能力，以及在对看不见的下游任务进行微调时实现了极具竞争力的性能。
生成能力:我们展示了使用4M训练的模型的灵活和可引导生成能力，使各种多模态编辑任务利用对任意模态进行条件反射。
实验研究:我们进行了广泛的消融分析，以研究影响4M性能的因素，为这些模型的行为和设计提供了重要的见解。
4M 架构和训练目标（如图 2 所示）的设计重点是根据它接受的模式的数量和类型尽可能兼容和可扩展，同时在概念上简单且计算效率高。我们通过以下关键方面的结合来实现这些：
标记化模式： 我们通过将所有模态映射到序列或离散标记集来抽象出特定于模态的复杂性，无论它们是图像、文本、稀疏数据还是神经网络特征图。这允许模态之间的每个可能的映射被视为从另一个序列或一组标记。在第 2.1 节中，我们讨论了我们训练的哪些类型的模式，我们如何生成训练数据，以及如何通过标记化在不同模态上训练模型。
在所有模式上训练单个兼容网络： 视觉、NLP 和其他领域的不同任务传统上需要非常不同的建模选择、架构和损失，这使得对多种模式的联合训练具有挑战性。将所有模态标记化到统一的表示空间中允许我们训练单个 Transformer 编码器-解码器（见图 2），通过（并行或序列化的自回归）标记预测在不同模态之间映射。
多模态掩码预训练目标： Transformers 在各种任务 [60,2] 中具有数据和模型大小的出色可扩展性，特别是当与可扩展的预训练目标配对时，例如掩码重建 [30, 48 , 56]。在第 2.3 节中，我们详细介绍了我们在随机令牌子集上使用多模态掩码建模目标来训练 4M 的方法，以学习强大的跨模态预测编码能力。

模态和数据

（左）：4M 是训练多模态和多任务模型的框架，它对多个类似图像模态（例如 RGB、深度等）和序列模态（例如标题和边界框）的标记化版本进行操作。（右）：4M 预训练目标包括训练一个 Transformer 编码器-解码器来预测随机选择的标记子集，该子集是从所有模态中采样的，基于另一个随机标记子集。
标记化。 所有模态通过使用特定于模态的标记器映射到离散标记（词汇表的索引）的集合或序列。字幕和边界框都被视为文本并使用 WordPiece [30] 进行编码。为了对边界框进行建模，我们遵循 Pix2Seq [21] 的方法，该方法将对象检测的任务转换为序列预测问题。RGB、深度、法线、语义分割图和CLIP特征映射使用学习到的矢量量化自编码器(VQ-VAE)[110]进行标记。链式多模态生成。该简化示例说明了使用 MaskGIT [17] 解码方案从部分 RGB 和边界框输入生成完整的 RGB 图像，然后是字幕的自回归生成。请注意，通过链接（即在生成后续模态时使用完全生成的模态作为条件），我们可以以自洽的方式预测多种模式。这与从原始条件中独立生成每个模态形成对比，其中每个生成的输出与输入一致，但不一定与其他输出一致。

Multimodal Transformer

4M 的架构与标准 Transformer [112] 编码器-解码器非常相似，但包括一些关键的修改，以实现对多种不同图像模式（例如 RGB 或语义分割）的联合建模，但也包括序列模式，例如字幕或边界框。
多模式编码器。 编码器是一个标准的 Transformer 编码器，但具有特定于模态的可学习输入嵌入层，以将令牌索引映射到向量。对于特定模态的每个标记，我们添加了一个可学习的模态嵌入和 1D（对于序列）或 2D（对于密集模态）正弦余弦位置嵌入。为了便于迁移学习，编码器还被设计为使用可学习的补丁线性投影接受 RGB 像素，使其能够加倍作为 Vision Transformer [31] 主干。
多模态解码器。 解码器处理来自密集图像样和类似序列模态的标记，每种类型都需要不同的方法。然而，这两个方面对所有标记都是常见的：首先，它们都可以自由关注交叉注意力层中的任何编码器标记，确保完全访问编码的信息。其次，我们使用注意掩码来分离不同模态的解码器标记。这确保了解码器为每个特定模态生成一致的输出，而不管同时生成其他输出是什么。对于密集的类图像模态，解码器输入由掩码标记以及模态和位置信息组成。解码器的作用是预测这个掩码内容。对于类似序列的模式，解码器的输入包括模态、位置和内容信息。解码器的任务是预测序列中的下一个标记。为了确保每个标记只受前面的标记（而不是任何未来的标记）的影响，我们将因果掩码应用于自注意力，就像自回归模型的标准一样。由于所有目标任务都由离散标记组成，我们可以对所有任务使用交叉熵损失，我们发现这消除了对特定任务损失平衡的需求并提高了训练稳定性。附录 C 中提供了有关架构的更多详细信息。
多模态掩蔽策略
对于多模态预训练，我们使用类似于 MultiMAE [5] 的预训练策略，因为我们从所有模态中采样和编码一小组可见标记/补丁，并训练模型执行跨模态预测编码。对一小组可见标记进行编码已被证明可以显著提高训练效率[48]输入令牌数量较少，目标令牌数量越多，解码器的计算成本就越高，即使它们很小。我们建议使用目标掩码，这意味着我们不会解码所有掩码标记，而是仅解码随机采样的子集。随机均匀地从密集模态中采样标记，并对序列模态执行跨度掩蔽。
多模式编辑。通过结合 4M 的多模态条件生成和修复能力，我们可以执行各种多模态编辑任务，例如执行语义编辑或基于几何条件修复，然而，4M 能够仅使用单个网络执行这些任务，并以多个（部分）模式为条件——单独或同时。条件可以是手动指定的，也可以是使用 4M 本身从图像中提取的，从而消除了专家模型创建条件的必要性。