ERNIE-Layout详解ERNIE-Layout是百度提出的跨模态文档理解模型，依托文心ERNIE，基于布局知识增强

ERNIE-Layout是百度提出的跨模态文档理解模型，依托文心ERNIE，基于布局知识增强技术，融合文本、图像、布局等信息进行联合建模，能够对多模态文档（如文档图片、PDF文件、扫描件等）进行深度理解与分析，为各类上层应用提供SOTA模型底座。

主要创新

目的：增加Layout信息以及更好的组合文本(Text)、图像(Image)、布局(Layout)的特征信息。

输入：输入在序列化阶段，重新组织了输入序列（主要是顺序），引入了布局知识增强，融合文本、图像、布局等信息进行跨模态联合建模
预训练任务：提出阅读顺序预测、细粒度图文匹配等自监督预训练任务
模型：为了提高对Layout的感知能力，提出了一个Spatial-Aware disentangled Attention(空间解耦注意力机制)

输入

Text Embedding

token embedding
1D position embedding
token type embedding

Visual Embedding

image embedding：先使用Fast-RCNN作为Encoder，图片resize为224224，得到77的feature，flaten之后经过F_vs(.)线性变换之后作为image embedding
position embedding(1D)
token type embedding(标记类型)

Layout Embedding

Text Layout:OCR工具获取每个token的(x0, y0, x1, y1, w, h)
Visual layout:OCR工具获取每个image segment的(x0, y0, x1, y1, w, h)

如何组合：

模型

Deberta中Disentangled Attention

模型还是采用了Transformer的结构，但是基于Deberta改进了Transformer的注意力机制，名为Spatial-aware Disentangled Attention Mechanism(空间感知接耦注意力机制)，首先先介绍一下Deberta中的Disentangled Attention Mechanism，传统的Transformer的注意力机制中如下图所示，位置信息是通过在输入embedding中加入postion embedding, pos embedding与token embeding和segment embedding混在一起，在早期加入位置信息令模型在计算self-attention时，位置信息被弱化。

： input hidden vectors，self-attention的输入
: output of self-attention, self-attention的输出
: projection matrices, 映射矩阵
: attention matrix，注意力矩阵
N是输入序列的长度，d是hidden states的维度

Disentangled Attention Mechanism引入了一个相对位置编码，比如将位置信息拆分出来，单独编码, 然后和token（content） embedding求attention，增加计算 “位置-内容” 和 “内容-位置” 注意力的Disentangled Attention。

左边紫色框中的是传统注意力中的Q、K、V，即内容相关的；右面蓝色框中是位置相关的：

: the relative position embedding vectors , 相对位置编码embedding向量矩阵

: projection matrices

: token i 到 j 的 Attention Score

: 的第行

这里的P是一个相对位置编码矩阵，这里的2k是怎么来的呢，假设 k 是最大相对距离，δ(i,j) 是 token i 到 j 的相对位置，定义如下，k默认是 512，也就是说相对距离的范围从 -512 到 512, P就是将i和j之间的相对位置（数字）映射成为d维的向量。

Spatial-aware Disentangled Attention Mechanism

有了上面Deberta的基础，Ernie-layout就比较好理解了，上面Deberta只有token的相对位置，Ernie-layout里设置了3个位置【1D位置、2D x轴、2D y轴】，设置了3个向量来嵌入表示这三个相对位置，分别是：

在looking up embedding表之后，一系列投影矩阵将这些相对位置向量以及内容向量映射为 Q K V，注意力解耦为四个部分：

最后，所有这些注意力分数被求和，得到注意力矩阵 Â。通过缩放和归一化操作

预训练任务

阅读顺序预测

序列化结果由多个文本片段组成，包括一系列单词和2D坐标。该论文提出了阅读顺序预测（ROP），希望注意力矩阵Â携带有关阅读顺序的知识。赋予了Âij额外的含义，即第i个标记的下一个标记是第j个标记的概率。此外，真值矩阵G(就是标注)是一个0-1矩阵，其中1表示两个标记之间存在阅读顺序关系，反之亦然。Loss用交叉熵计算，把attention赋予token j是否是i的下一个阅读顺序。标签是 0-1 矩阵G, 1 为两个token是阅读顺序，反之则为0。

替换区域预测

随机选择10%的图块，并用另一张图像中的图块替换,预测哪些图块是被替换的

其中 Gi 表示被替换补丁的标签，Pi 表示预测的归一化后的概率。

Masked Visual-Language Modeling

和普通的MLM一样，mask 一些token，并预测被mask的token。不同之处在于不mask掉layout信息，这代表着预测mask token时，模型知道位置信息。此外，为了避免视觉信息泄漏mask答案，对原始页面图像上对应于被掩蔽标记的图像区域进行掩蔽

文本-图像对齐

随机选择了一些文本行，并在文档图像上覆盖它们对应的区域。然后，引入了一个分类层来预测每个文本标记是否被覆盖。