布局性语言（LayoutLM

架构

LayoutLM利用BERT架构作为骨干，并增加了两个新的输入嵌入：一个二维位置嵌入和一个图像嵌入（仅用于下游任务）。

预训练

LayoutLM模型在IIT-CDIP测试集上对以下任务进行了预训练：

屏蔽的视觉语言建模：随机屏蔽一些输入标记，但保留相应的二维位置嵌入，然后训练模型来预测给定语境中的屏蔽标记。
多标签文档分类：给定一组扫描的文档，我们使用文档标签来监督预训练过程，这样模型就可以将来自不同领域的知识进行聚类，产生更好的文档级表示。

LAMBERT

架构

LAMBERT引入了一种简单的新方法来解决理解文档的问题，其中非微观的布局影响了局部语义。LAMBERT是对Transformer编码器架构的一种修改，使其能够使用从OCR系统中获得的布局特征，而不需要从头开始重新学习语言语义。我们只用标记边界框的坐标来增加模型的输入，这样就避免了对原始图像的使用。这导致了一个布局感知的语言模型，然后可以在下游任务中进行微调。

预训练

LAMBERT对从Common Crawl中提取的由各种文件组成的PDF文件集进行了训练，总共有大约315k个文件（312万页），以掩盖语言建模的目标。

LayoutLMv2

架构

LayoutLMv2使用多模态的Transformer模型，类似于UniLMv2，在预训练阶段整合文档文本、布局和视觉信息，在一个框架内端到端学习跨模态交互。同时，一个空间感知的自我关注机制被整合到Transformer架构中。

预训练

LayoutLMv2模型在IIT-CDIP测试集上对以下任务进行了预训练：

屏蔽式视觉语言建模
文本-图像匹配：随机选择一些标记行，它们的图像区域被覆盖在文档图像上，在编码器输出之上建立一个分类层，根据每个文本标记是否被覆盖，预测一个标签。
文本-图像匹配：我们将CLS标记处的输出表示送入一个分类器，以预测图像和文本是否来自同一文档页面。它被用来帮助模型学习文档图像和文本内容之间的对应关系。

构造化LM

架构

给出一组来自不同单元的标记和单元的布局信息，通过对相应的词嵌入、单元级的二维位置嵌入和原始的一维位置嵌入相加，计算出单元级的输入嵌入。然后，这些输入嵌入通过一个双向的Transformer编码器，该编码器可以通过注意机制产生上下文的表示。

预训练

StruturalLM模型在IIT-CDIP测试集上对以下任务进行了预训练：

细胞位置分类：首先，我们把它们分成N个相同大小的区域。然后，我们通过单元格的中心二维位置计算出该单元格所属的区域。同时，随机选择一些单元，并将所选单元中的标记的二维位置替换为（0；0；0；0）。在编码器输出之上建立一个分类层。该层预测所选单元所在区域的标签[1,N]，并计算交叉熵损失。
屏蔽的视觉语言建模：我们随机屏蔽一些输入标记，但保留相应的单元格位置嵌入，然后对模型进行预训练以预测被屏蔽的标记。与LayoutLM中的MVLM相比，StructuralLM利用了单元格级别的布局信息，并更准确地预测了被遮蔽的标记。

文件格式化器

架构

联合多模式： VL-BERT, LayoutLMv2, VisualBERT, MMBT]：在这种类型的架构中，视觉和文本被串联成一个长序列，由于介绍中提到的跨模态特征相关性，这使得转化器难以自我关注。

双流多模态： CLIP，VilBERT：每个模态都是一个独立的分支，允许人们为每个分支使用一个任意的模型，这是一个优点。然而，文本和图像只在最后互动，这并不理想。尽早进行融合可能更好。

单流多模式： 把视觉特征也当作标记（就像语言），并把它们与其他特征加在一起。以这种方式将视觉特征与语言标记结合起来（简单的添加）是不自然的，因为视觉和语言特征是不同类型的数据。

离散多模态： DocFormer将视觉、文本和空间特征结合起来。即空间和视觉特征作为剩余连接传递给每个转化器层。在每个转换层中，视觉和语言特征分别与共享的空间特征进行自我关注。

预训练

多模式屏蔽语言建模（MMMLM）： 这是对原始屏蔽语言建模的修改。即对于一个文本序列t，产生一个被破坏的序列et。

我们有意不屏蔽与[MASK]文本对应的视觉区域。这是为了鼓励视觉特征来补充文本特征，从而使文本重建的损失最小化。

学习重建（LTR）： 这项任务类似于自动编码器的图像重建，但有多模态特征。其直觉是，在同时存在图像和文本特征的情况下，图像重建需要两种模式的协作。

文本描述图像（TDI）： 在这项任务中，我们试图教导网络，如果一个给定的文本描述了一个文件图像。为此，我们使用线性层汇集多模态特征，以预测一个二进制答案。在一个批次中，80%的时间是正确的文本和图像配对，其余20%是错误的图像与文本配对。

利特

架构

LiLT使用一个并行的双流转换器。给定一个输入的文档图像，首先使用一个现成的OCR引擎来获取文本边界框和内容。然后，文本和布局信息被分别嵌入并送入相应的基于转化器的架构，以获得增强的特征。双向注意补充机制（BiACM）被引入以完成文本和布局线索的跨模式交互。最后，编码后的文本和布局特征被串联起来。

预训练

LiLT模型在IIT-CDIP测试集上对以下任务进行了预训练：

屏蔽式视觉语言建模：MVLM利用跨模态信息改善语言方面的模型学习。给定的布局嵌入也可以帮助模型更好地捕捉句子间和句子内的关系。
关键点定位：KPL将整个布局平均分为几个区域（默认为7×7=49个区域），并随机掩盖一些输入边界框。模型需要预测每个框的关键点（左上角、右下角和中心点）属于哪个区域，使用单独的头像。
KPL使得模型能够充分理解文本内容，并知道在给出周围的单词/句子时应该放在哪里。
跨模态对齐识别：CMAI收集那些被MVLM和KPL掩盖的标记-盒子对的编码特征，并在此基础上建立一个额外的头来识别每个对是否对齐。
CMAI使模型学习跨模式的感知能力。

布局LMv3

架构

LayoutLMv3应用一个统一的文本-图像多模态转化器来学习跨模态表征。变换器有一个多层结构，每一层主要由多头自注意和位置全连接前馈网络组成。Transformer的输入是文本嵌入Y = y1:𝐿和图像嵌入X = x1:𝑀序列的连接，其中𝐿和𝑀分别为文本和图像的序列长度。通过转化器，最后一层输出文本和图像的上下文表示。LayoutLMv3
是由RoBERTa的预训练权重初始化的。

预训练

LayoutLMv3模型在IIT-CDIP测试集上对以下任务进行了预训练：

屏蔽语言建模（MLM）：30%的文本标记被屏蔽，采用跨度屏蔽策略，跨度长度来自泊松分布（𝜆 = 3）。预训练的目的是根据图像标记X𝑀′和文本标记Y𝐿′的损坏序列的上下文表征，最大限度地提高正确掩蔽文本标记y𝑙的对数可能性，其中𝑀′和𝐿′代表被掩蔽位置。由于布局信息保持不变，这一目标有利于模型学习布局信息与文本和图像背景之间的对应关系。
遮蔽图像建模（MIM）：MIM目标是对MLM目标的对称性，大约40%的图像标记被随机地用顺时针的遮蔽策略遮蔽。MIM目标是由交叉熵损失驱动的，在其周围文本和图像标记的背景下重建被遮蔽的图像标记x𝑚。MIM有利于学习高水平的布局结构，而不是嘈杂的低水平细节。
字词匹配（WPA）：WPA的目标是预测一个文本字的相应图像补丁是否被掩盖。具体来说，当一个未被遮盖的文本标记的相应图像标记也未被遮盖时，将为其分配一个对齐的标签。否则，将分配一个未对齐的标签。在计算WPA损失时，被屏蔽的文本标记被排除在外，以防止模型学习被屏蔽的文本字和图像补丁之间的对应关系。

ERNIE布局

架构

给定一个文档，ERNIE-Layout用布局知识重新排列标记序列，并从视觉编码器中提取视觉特征。
文本和布局嵌入通过线性投影结合成文本特征，并对视觉嵌入执行类似操作。接下来，这些特征被串联起来，并被送入堆叠的多模态转换层，这些转换层配备了空间感知的分离注意机制。

预训练

阅读顺序预测： 为了使模型理解布局知识和阅读顺序之间的关系，并且在接收到不恰当的输入顺序时仍能很好地工作，我们赋予Aˆ ij一个额外的含义，即第j个符号是第i个符号的下一个符号的概率。此外，基础事实是一个0-1矩阵G，其中1表示两个令牌之间存在阅读顺序关系，反之亦然。对于结束位置，下一个令牌就是它自己。在预训练中，我们用Cross-Entropy计算损失。

替换区域预测： 为了使模型能够感知图像斑块和文本之间的细粒度对应关系，在布局知识的帮助下，具体来说，随机选择10%的斑块，用另一幅图像的斑块替换，处理后的图像由视觉编码器编码并输入多模态变换器。然后，转化器输出的[CLS]向量被用来预测哪些斑块被替换。

论文阅读：布局变压器