通用文档处理 (UDOP) 是一种基础文档 AI 模型,它将文本、图像和布局模式与各种任务格式(包括文档理解和生成)统一起来。UDOP 利用文本内容和文档图像之间的空间相关性,以一种统一的表示形式对图像、文本和布局模态进行建模。
建筑学
统一的视觉、文本和布局编码器
我们提出了一种新的 Vision-Text-Layout (VTL) Transformer 架构,以根据布局信息动态融合和联合图像像素和文本标记。
给定文档图像 v,图像中的 M 个单词标记和提取的布局结构 {(x 1 i , y1 i , x2 i , y2 i )},我们首先将 v 划分为 H/P × W/P 图像块,其中每个补丁的大小为 P × P × C。然后我们用 D-dim 向量对每个补丁进行编码,并将所有补丁嵌入分组到一个向量序列中。其中 N = H/P × W/P 。文本标记也通过词汇查找转换为数字 D-dim 嵌入。
布局诱导视觉文本嵌入
我们为视觉、文本和布局构建统一的表示。我们定义图像块和标记嵌入的布局指示函数 φ 如下:
然后对于每个文本标记嵌入 si ,联合表示是其图像块特征和文本特征的总和:
对于没有任何文本标记的图像块 vj,联合表示 v`j 本身:
然后 {si } 和 {vj } 被送入 VTL 转换器编码器。
为了进一步统一布局和文本表示,我们将布局模态(即连续坐标文本边界框)离散化为布局标记。
我们不在 VTL 转换器编码器中使用 1D 位置嵌入,因为联合嵌入和 2D 位置偏差已经包含了输入文档的布局结构。
模态特定模型变体
我们没有使用一个统一的编码器,而是分别使用一个文本编码器(对文本和布局标记进行编码)和一个视觉编码器。两个编码器都使用位置偏差来表示先前作品之后的布局信息。我们将此变体命名为 UDOP-Dual。
视觉文本布局解码器
VTL 解码器由文本布局解码器和视觉解码器组成。文本布局解码器是一个单向 Transformer 解码器,以序列到序列的方式生成文本和布局标记。对于视觉解码器,我们采用MAE的解码器,直接生成带有文本和布局信息的图像像素。
文本布局解码器和视觉解码器都将交叉参与 VTL 编码器(在 UDOP-Dual 的情况下,它有两个特定于模态的编码器,解码器交叉参与两个编码器输出的连接)。
统一生成预训练
自监督预训练任务
- 布局建模要求模型在给定文档图像和上下文文本的情况下预测(一组)文本标记的位置。
- 视觉文本识别识别图像中给定位置的文本。
- Joint Text-Layout Reconstruction要求模型重建丢失的文本并在文档图像中定位它们。具体来说,我们屏蔽了一定比例的文本标记,并要求模型对标记及其边界框进行处理。
- Masked Image Reconstruction with Text and Layout旨在用文本和布局重建图像。我们采用 MAE 目标进行视觉自监督学习。
监督预训练任务
- 分类任务是预测文档类型。任务提示是“Document Classification on (Dataset Name)”,如“Document Classification on RVLCDIP”,然后是文本标记。目标是文档类。我们使用具有 16 个文档类别的 RVL-CDIP。
- 布局分析此任务是预测文档中实体的位置,如标题、段落等。任务提示是“Layout Analysis on (Dataset Name)”,然后是实体名称。目标是覆盖给定实体的所有边界框。我们使用 PubLayNet。
- 信息提取该任务预测文本查询的实体类型和位置(例如,摘要段落)。任务提示为“关于(数据集名称)的信息提取(文本查询)”。目标是查询的每个标记的实体标签和边界框。我们使用 DocBank、Kleister Charity (KLC)、PWC 和 DeepForm。
- 问答任务是回答与文档图像相关的给定问题。任务提示是“Question Answering on (Dataset Name)”,然后是问题和所有文档标记。目标就是答案。我们使用 WebSRC、VisualMRC、DocVQA、InfographicsVQA 和 WTQ (WikiTableQuestions)。
- Document NLI Document Natural Language Inference 预测文档中两个句子之间的蕴涵关系。提示是“Document Natural Language Inference on (Dataset Name)”,然后是句子对。目标是“蕴含”或“非蕴含”。我们使用 TabFact 来完成这项任务。
实验装置
在 UDOP 中,统一的编码器和文本布局解码器遵循 T5-large 的编码器-解码器架构。视觉解码器是MAE-large decoder。总体 UDOP 有 794M 个可训练参数。
对于UDOP-Dual,text-layout encoder-decoder遵循T5-large,视觉encoder-decoder配置与MAE-large相同。它总共有 1098M 个可训练参数。