这是我参与11月更文挑战的第7天，活动详情查看：2021最后一次更文挑战」

文档理解预训练框架

微软亚洲研究院：通用文档理解预训练模型 LayoutLM

2.0模型的主要特点在于，在输入阶段直接引入了图像信息，利用多模态预训练框架对文本、图像和布局信息进行联合建模。

还提出了一种空间感知自注意力机制 (spatial-aware self-attention) ，以帮助 Transformer 模型学习到文档图像中不同文本块之间的相对位置关系。与此同时，两种新的预训练任务被使用其中——“文本—图像对齐”和“文本—图像匹配”。实验表明，LayoutLM 2.0 模型将文档图像和其中文本内容进行统一多模态预训练，在多个智能文档理解任务中取得了最佳的结果，其中包括表单理解 FUNSD 数据集，票据理解 CORD 和 SROIE 数据集，复杂布局长文档理解 Kleister-NDA 数据集，文档图像分类 RVL-CDIP 数据集，以及文档图像视觉问答 DocVQA 数据集。

preview

LayoutLM 2.0 预训练阶段的3个自监督预训练任务：

遮罩式视觉语言模型（Masked Visual-Language Model）

作为对 LayoutLM 1.0 的扩展，2.0使用的遮罩式视觉语言模型任务要求模型根据图文和布局信息中的上下文还原文本中被遮盖的词，遮盖操作同时遮盖文本中的词和图像中的对应区域，但保留空间位置信息。

文本—图像对齐（Text-Image Alignment）

遮罩式视觉语言模型更关注模型的语言能力，视觉和布局信息只提供隐式线索，为此一种细粒度的多模态对齐任务在 LayoutLM 2.0 中被提出，即文本—图像对齐。该方法在文档图像上随机按行遮盖一部分文本，利用模型的文本部分输出进行词级别二分类，预测每个词是否被覆盖。文本—图像对齐任务帮助模型对齐文本和图像的位置信息。

文本—图像匹配（Text-Image Match）

现有工作证明，粗粒度的文本—图像匹配任务有助于帮助模态信息对齐。对于预训练阶段的文档数据，随机地替换或舍弃一部分文档图像，会构造图文失配的负样本。LayoutLM 2.0 的模型以文档级二分类的方式预测图文是否匹配，以此来对齐文本和图像的内容信息。