【论文笔记】VLM：通用视频-文本模型预训练本文发表于 ACL 2021 Findings，第一作者 Hu Xu 来自

这是我参与2022首次更文挑战的第18天，活动详情查看：2022首次更文挑战

本文发表于 ACL 2021 Findings，第一作者 Hu Xu 来自 Facebook AI。
原文链接：VLM: Task-agnostic Video-Language Model Pre-training

本文的另一位作者 Po-Yao Huang 来自 CMU，目前任职于 FAIR 实验室，之前曾介绍过他的工作：
【论文笔记】Attention-based Multimodal Neural Machine Translation - 掘金 (juejin.cn)

Motivation

现有的预训练是特定于任务的，要么1. 采用需要两种模态的单个跨模态编码器，限制了它们在检索式终端任务中的使用，要么2. 采用两个单模态编码器进行更复杂的多任务学习，限制了早期的跨模态融合。

作者希望在进行跨模态融合的同时保持可分离性，让模型在联合特征空间中使用单个 BERT 编码器进行与任务无关的预训练，而不需要多个特定于任务的训练来覆盖复杂的下游任务。具有以下优点：

降低了多 loss 和多模型预训练的复杂性；
像经典语言模型一样通用
模态之间既有特征共享又不牺牲可分离性

Method

作者设计一种基于 Transformer 的编码器，结合了现有的掩蔽帧模型和掩蔽语言模型（MFM-MLM），并且设计了一种新的预训练任务 masked modality model (MMM) 以及与之对应的 loss。通过针对特定任务的微调，可以广泛适应下游任务。

Model

Video tokens：通过一个编码器和一个 MLP 将来自视频的连续帧序列转化为 tokens。编码器选用经过大规模预训练的 S3D，MLP 将编码器的 tokens 投影至与 BERT 的隐藏状态相同的维度。

Text tokens：类似于 BERT，通过 embedding lookup 获取词向量。

video tokens 和 text tokens 通过一个 [SEP] 标记拼接在一起，然后喂入 BERT 。BERT 的输出 $h$ 通过一个线性投影层 $e=Wh+b$ ，作为对视频/文本 tokens 的预测。

Pre-training

预训练时有三种掩码策略，分别是50%的 MFM-MLM，25%的 MMM on Text 和25%的 MMM on Video。三种策略如下图所示：

其中，MFM-MLM 的 loss 为 MFM 和 MLM 损失函数的和。

Fine-tuning（没怎么看懂）

作者使用不同类型的 attention masks 来微调 VLM 的各种任务。

Text-Video Retrieval

现在的很多模型都是将文本和视频 tokens 编码在一起，无法单独获得文本/视频的隐藏状态。作者设计了一个对角放置的注意力遮罩，用来禁止视频和文本 tokens 相互注意和看到，同时仍然允许视频和文本 tokens 在相同的特征空间中使用相同的自注意力层来学习表示。

作者用文本-视频相似性作为 loss 来进行 forwarding。

Action Segmentation

动作分割是给视频的每一帧分配一个预定义的标签，类似于 NLP 中的命名实体识别（NER）任务。

作者输入整个视频、一个虚拟文本 token 和一个孤立的注意力 mask，然后，在 VLM 最后一层的每个视频 token 的隐藏状态之上添加一个分类头(带有预定义标签的序号)。

Action Step Localization

在动作步骤定位中，每个视频属于一个具有多个步骤的任务，其中每个步骤都被描述为一个短文本。

为了保持输入一致，作者为 video forwarding 添加了一个虚拟文本标记，为文本添加了一个虚拟视频标记，通过点积和 Softmax 来计算某一帧在 textual steps 上的分布。

Multiple-choice VideoQA

多选视频问答与动作步骤定位有一定的相似性，区别在于视频隐藏状态不在帧级而是在序列级。

Video Captioning

作者参考了 Transformer 中解码器的设计，向文本段传递移位的标记和三角形注意力遮罩，将 VLM 的文本段微调为自回归损失。使用 BERT 作为解码器，将语言模型头作为预测头进行生成。

Experiment

作者比较了不同学习范式的几个模型，如图：

其中，SSL 指自监督学习，MTL 指多任务学习。可以看出，VLM 比其他它模型小得多，而且是完全自监督的。

对于模型表现，作者在5个下游任务上将 VLM 与其他模型（针对特定任务而设计的）进行了比较，结果如下：

Text-video Retrieval

VLM 的预训练与任务无关，但仍然优于检索风格预训练的基线。这也说明了 MMM 和鼓励的自我注意掩码可以用于联合检索。

Action Segmentation

VLM 的表现优于其他基线，表明模型良好的 token 级视频表示。该任务仅测试视频隐藏状态，证明了 VLM 的单模态编码能力并没有受损。

Action Step Localization

作者依然得到了超越 baseline 的效果，性能直逼有监督学习。作者还用了540个视频进行了弱监督训练，进一步提升了效果。

Video Question Answering

VLM 的表现好于 ActBERT，要知道前者仅仅利用了视频与图片的相似性，而后者由视频-答案对训练而来。

Video Captioning

又取得了令人惊喜的结果，这说明移除显式的解码器并在食品和文本 tokens 之间共享权重可能是可行的。

Ablation Study

作者针对以下三个方面进行了消融实验：

MMM 的比例
文本 token 的最小长度
Masked token Loss

作者发现如果不用 MMM，只用传统的 MFM-MLM，性能会显著下降，印证了作者之前的猜想——在 MFM-MLM 中，掩蔽的 token 更可能是由同模态的邻近 token 预测得到，因此该方案不适合用于学习视频/文本表示。作者还尝试了其它的比例，发现50%是最好的。

作者发现 VLM 的性能在更长的视频/文本对（16个文本 token 及以上）上略有下降，表明较长片段的预训练可能无法覆盖短片段的微调任务。

此外，使用 MFM-MLM 的 loss 可能会降低性能，这表明从视频/文本 token 中学习屏蔽 token 会有所帮助。

Summary

作者提出了一个任务不可知的预训练模型，能够很好地应用到广泛的下游任务中，而且模型参数显著减少。此外，作者还提出了一种新的掩蔽方案 Masked Modality Model，使单一掩蔽语言模型的训练能够接受视频或文本输入，或两者都接受。