【论文学习】M6简介多模态预训练在跨模态表征学习的下游任务中取得了成功，然而目前尚缺乏大规模的汉语多模态预训练数据集。

简介

多模态预训练在跨模态表征学习的下游任务中取得了成功，然而目前尚缺乏大规模的汉语多模态预训练数据集。论文中提出了提出了最大的汉语预训练数据集，包括了1.9TB图片和292GB文本，该数据集覆盖范围广泛，包括百科全书、问答、论坛讨论等。

为了充分利用如此大量的高质量数据，文中建议构建一个超大模型，可以处理多种模式的数据，适应不同类型的下游任务，称之为M6，即：Multi-Modality-to-Multi-Modality Multitask Mega-transformer。该模型基于基于自我注意（self-attention）的Transformer，并使用文中提出的任务进行预训练，预训练使模型具有单模态和多模态的理解和生成能力。

综上，文中主要内容包括：

提出一个目前最大的多模态和NLP预训练中文数据集，称为M6语料库
提出了M6，它能够进行单模态和跨模态的理解和生成，并将模型扩展到10B个参数，构建最大的中文预训练模型

图1展示了M6语料库中多模态数据的样例。

M6

多模态预训练既利用了基于自我注意的transformer架构还使用了大规模数据的预训练。

视觉和语言输入

主流的多模态预处理方法是通过目标检测将图像转化为特征序列，然而，目标检测器的性能以及它们的骨干的表达能力强烈地影响了下游任务中预训练模型的最终性能。

在M6中，使用训练过的特征提取器(如ResNet-50)将图像分割成小块，提取二维小块的特征，然后将这些表示按照它们的位置排列成一个序列。

对于输入文字序列，在词序列中使用WordPiece和掩码策略并将其嵌入到一个嵌入层中，和BERT相似。

统一 Encoder-Decoder

整合图像嵌入 $e^i$ 和词嵌入 $e^t$ 到跨模态嵌入序列中得到 $e=\{e^i,e^t\}$ ，然后将序列发送给transformer骨干进行高级特征提取。为了不同的表示，为不同的模态添加相应的段嵌入，利用基于自我注意的transformer块进行统一的跨通道表示学习。具体来说，其构建模块与BERT或GPT相同，由自我注意和点向前馈网络(FFN)组成。在transformer块的顶层，增加一个输出层用于词预测，因此将其权重与嵌入层的权重联系起来。

在统一的框架中，使用不同的掩码策略来启用编码和解码，输入分为三个部分，分别是：视觉输入、掩码语言输入和完整语言输入，对视觉输入和掩码语言输入进行双向掩蔽，对完整的语言输入进行因果掩蔽，从而使模型在同一框架中可以执行编码和解码。

预训练模型

通过多任务设置对模型进行了预训练，包括文本-文本转换、图像-文本转换和多模态-文本转换。

文本-文本转换

如图3所示，该模型学习在文本到文本转换的背景下进行文本去噪和语言建模，使用单个掩码对连续的文本进行掩码，模型应该学会解码整个序列。为了提高模型的生成能力，增加了一个语言建模的设置，编码器不接收输入，解码器根据之前的上下文学习生成单词。

图片-文本转换

图像到文本的转换类似于图像字幕，模型接收视觉信息作为输入，并学习生成相应的描述，在这个设置中，将前面提到的补丁特征序列添加到输入中，并将被掩码的输入留空，该模型对补丁特征进行编码，并解码相应的文本。

多模态-文本转换

在图像-文本转换的基础上，增加了掩码语言的输入，因此模型应该学会在视觉信息和噪声语言信息的基础上生成目标文本，该任务允许模型适应具有视觉和语言输入的下游任务。

扩展到100亿个参数

为了充分利用论文中提出的大型数据集，论文构建一个基于M6架构的超大模型，一个简单的解决策略使通过超参数调优来提升模型大小。

实验

下游任务

多模态下游任务

将M6与多个多模态下游任务的竞争性基准进行比较，包括视觉QA、图像-文本匹配和图像字幕。

视觉问答：要求模型生成给定图像和问题的答案。
图像文字匹配：评价模型的跨通道检索能力。具体地说文中构造了一个来自移动淘宝的文本和图片对的数据集称为E-Commerce ITM，每一对属于一个单独的项目，要求模型进行二元分类，以区分阳性和阴性样本。
图像描述：图像字幕要求模型生成描述给定图像的字幕，这检查了模型的跨模态生成能力。