译 / 笑翟
摘要
布局是任何图形设计的基本组成部分。创建大量合理的文档布局可能是一项繁琐的任务,需要满足许多约束,包括涉及不同语义元素和对一般外观和间距的全局约束。在本文中,我们提出了一个新的框架, 创建了 READ,用于文档的递归自动编码器,以生成大量和多种文档的合理的 2D 布局。
首先,我们设计一种探索性递归方法提取单个文档的结构分解。利用标记的边界框注释的文档数据集,我们的递归神经网络学习将以简单层次结构的形式给出的结构表示映射到紧凑的代码,其空间由高斯分布近似。可以从这个空间采样新的层次结构,从而获得新的文档布局。
此外,我们 引入一种组合度量来衡量文档布局之间的结构相似性。我们将其部署以显示我们的方法能够产生高度可变和逼真的 布局。我们进一步演示了生成的布局在文档上的标准检测任务的上下文中的实用性,表明当使用READ生成布局的生成文档扩充训练数据时检测性能会提高。
1.背景介绍
图1. 给出了一组训练示例 -- 中间的带注释的真实文档布局 (如左侧是可填充形式) - 右侧是用我们的方法生成类似于训练数据中的合成布局,用独特的颜色标记是语义标记区域。
“Do not read so much, look about you and think of what you see there.” -Richard Feynman
布局对于有效的沟通和引起一个人的视觉注意力。从报纸文章中、杂志、学术手稿、网站等各种其他文件形式,布局设计跨越了大量的真实世界文件分类,并受到最重要的编辑考虑。然而,尽管过去几年研究社区在生成图像 [7,19],音频 [18] 和 3D 内容 [10,12,28,29] 的新颖样本方面的兴趣日益增长,很少有人关注,致力于大型品种的自动生成,合理的文档布局。合成新颖的布局, 首先必须解决两个基本问题,什么文档布局的合适表示方式是什么?鉴于上述情况,如何合成新的布局?
明确解决这些问题的第一项工作莉等人 [11] 最近的布局,它使用生成对抗网络 (GAN) [5] 来处理布局生成。他们展示了在合成多达 9 个元素的看似合理的文档布局方面令人印象深刻的结果,这些元素在文档中表示为边界框。然而,各种类型的高度结构化的文档可以具有相当数量的元素-高达数十甚至数百。此外,他们的培训数据构成了大约 25k 的注释文档,对于各种类型的文档来说,这可能很难获得。因此出现了两个自然问题: 是否可以设计一种生成方法来合成具有大量实体的高度结构化布局?是否有可能在不需要大量培训数据的情况下生成合成文档布局?
图 2. 我们的 RvNN-VAE 框架概述。训练层次结构是为数据集中的每个文档构建的。这些层次结构被映射到一个紧凑的代码 (根据标记为红色的编码器网络,以递归的方式),其空间为 近似为高斯分布。新的层次结构可以从这个空间中采样 (并根据 解码器网络标记为蓝色),获得新的文档布局。
在这项工作中,我们肯定地回答了两个问题。结构化层次结构与人类对文档布局的理解是自然和一致的。因此,我们提出了 READ: 一个生成递归神经网络 (RvNN),它可以适当地模拟这种结构化数据。我们的方法能够生成大量合理的布局,包含密集且高度可变的实体组,仅使用几百个注释文档。使用我们的方法,可以根据图 2 所示的管道,在几分之一秒内从高斯提取的随机向量生成新的文档布局。
给定带注释文档的数据集,其中单个文档由一组带标签的边界框组成,我们首先构建文档层次结构,这些层次结构建立在其语义元素的连通性和隐式对称性之上。这些层次结构或树以递归自下而上的方式映射到紧凑的代码表示形式。通过训练变分自动编码器 (VAE),将生成的固定长度编码不同长度的树的代码约束为大致遵循高斯分布。新的文档布局可以通过递归解码器网络生成,该网络将随机采样的代码从学习的分布映射到完整的文档层次结构。
为了评估我们生成的布局,我们引入了一种新的组合度量 (DocSim),用于测量结构化多维实体之间的布局相似性,以文档为主要示例。我们使用建议的度量来表明我们的方法能够生成代表其训练的文档潜在分布的布局。由于研究合成数据生成方法的主要动机之一源于它们作为深度神经网络训练数据的有用性,我们还考虑了一个标准的文档分析任务。我们用综合生成的文档来增加可用的训练数据,这些文档的布局是由 READ 生成的,并证明我们的增强功能提高了上述文档分析任务的网络性能。
2.相关工作
分析文档中实体之间的结构性质和关系是信息检索领域的一个根本性挑战。虽然像光学字符识别 (OCR) 这样的本地任务已经以非常高的精度得到了解决,但是文档布局的全局和高度可变的性质使得它们的分析变得更加难以捉摸。
早期关于结构文档分析的工作主要依赖于各种类型的专门定制的方法和启发式方法 (e.g., [2,3,8,17] 最近的工作表明,基于深度学习的方法显著提高了分析的质量; 例如,参见 Yang 等人 [31] 的工作,它使用联合文本和视觉表示,将布局分析视为像素分割任务。
这种基于现代深度学习的方法通常需要大量高质量的培训数据,这需要合适的方法来综合生成具有真实布局 [11] 和内容 [13] 的文档。我们的工作继续进行合成布局生成的研究,表明我们的合成数据可以有用地增加文档分析任务的训练数据。
维护布局的可靠表示已被证明在各种图形设计上下文中很有用,这些上下文通常涉及高度结构化和内容丰富的对象。最相关工作我们最近 LayoutGAN 的莉等人 [11],旨在生成现实文件布局使用生成对抗网络 (GAN) 线框渲染层。郑等人 [32] 在生成文档时也采用了基于 GAN 的框架,然而,他们的工作主要集中在 contentaware 生成上,使用文档的内容作为额外的先验。
与卷积神经网络 (CNNs) 不同,卷积神经网络 (CNNs) 在大维向量上操作并涉及多个多通道变换,在我们的工作中,我们使用递归神经网络,它对低维向量进行操作,并使用两层感知器合并任何两个向量。因此,它们在计算上更便宜,而且可以从几个训练样本中学习。
Deka 等人 [4] 使用自动编码器执行布局相似性搜索,以简化移动应用程序的 UI 设计。Ritchie 等人 [22] 提出了一个设计探索工具,用于类似网页的布局和基于内容的检索。O 'donovan 等人 [16] 提出了一个交互式的基于能量的模型,允许新手设计师改进他们的页面布局设计。Swearngin 等人 [26] 应用布局分析以允许设计者操作从屏幕截图中获得的布局。更根本的是,Talton 等人 [27] 利用从数据中学习到的视觉结构和文本模式来获得允许概率生成新的、相似的实体的正式语法。
递归神经网络 (RvNN) 由 Socher 等人 [24,25] 首次引入,用于解析自然场景和自然语言句子。Socher 等人 [23] 全面介绍了 RvNNs 在计算机视觉中各种任务的应用。然而,RvNNs 并没有像 CNNs 那样受到关注,直到最近,RvNNs 与生成模型的耦合被证明在以前未探索的范例上有效地工作,例如生成 3D 形状结构 [10, 33] 和室内 3D 场景 [12]。文档布局在结构上类似于 3D 室内场景,从语义实体松散相关且不受几何连通性 (如 3D 形状中的部分) 约束的意义上来说。
但与室内场景不同,在室内场景中,任何有效子场景排列都会合成看似合理的全局场景 [14,30],文档中的语义实体必须放置在正确的位置,以使生成的布局看起来逼真; 例如,标题应该总是出现在顶部。换句话说,文档布局实施了更多的全局约束。
3.训练模型
我们的 RvNN-VAE 生成布局框架是在具有基于语义的标签的文档数据集上训练的。也就是说,每个文档都由一组带标签的边界框组成 (例如,杂志-文章标有标题、段落等)。我们使用一组标记的边界框,我们称之为原子单位,为我们训练集中的每个文档构建训练层次结构。这些层次结构被纳入我们的 RvNN-VAE 框架 (见图 2),并具有合适的培训目标。经过训练后,RvNN-VAE 网络通过将随机采样的向量解码为具有相应语义标签的 2D 边界框的层次结构来生成新的布局。
3.1.建立训练层次结构
图3. 从 IC-DAR2015 [1] 训练集中提取文档的探索性布局。输入文档和注释 盒子显示在顶部。请注意,当两个框合并时, 合并的边界框是两个框的并集。
给定标记的边界框注释,我们首先基于原子单元边界框的连通性和隐式对称性,为训练集中的每个文档提取结构分解,通过从左到右和从上到下扫描文档。结果以二叉树的形式存储。我们以递归的方式将每对原子元素 (我们将其视为叶节点) 合并为一个框的联合,根据盒子之间的相对位置。内部节点也以类似的方式处理。这个探索过程一直持续到所有的盒子被合并在一个单一的根节点下。如图3在单个训练样本上演示了这种探索过程的结果。如图所示,我们使用各种类型的空间关系 (见图4)。
由于文档是由人类设计的,相关的原子单元盒之间存在弱对称结构; 空间相关的场通常具有相似的盒几何形状。从左到右和从上到下遍历并不总是保证具有相似几何形状的原子单元被组合在一起,例如,放置在同一盒几何形状下的一个盒可能不会组合在一起。然而,我们证明了我们的 RvNN-VAE 框架能够通过我们简单的遍历策略有效地捕获盒子之间的关系,而没有任何复杂的手工启发式。
3.2.搭建递归布局模型
将用于训练的提取层次结构中的每个原子单元最初使用其边界盒尺寸 ( 在
范围内归一化) 表示与它的语义标签连接,该标签被编码为单热向量。要使用递归模型高效地建模文档布局,我们首先使用一个简单的单层神经网络将原子单元边界框映射到
矢量表示 (我们根据经验设置
)。我们的递归自动编码器网络由空间关系编码器 (SREs) 和解码器 (SRDs) 组成。每个编码器和解码器都是一个多层感知器 (MLP),表述为:
我们用 表示重量
和偏差
聚集在所有层上,在输入
上运行。我们模型中的每个 MLP 都有一个隐藏层,因此,
。
我们的 SREs 可以在 (i) 一对叶子上运行,或者 (ii) 内部节点和叶子上运行。无论如何,我们将两个节点表示都表示为 。合并的父代码
是根据
和两个边界框之间的相对位置计算的,用
表示。相对位置总是计算
左子节点 (当合并内部节点和叶节点时,它是内部节点)。第
SRE 表述为:
(1)
相应的 SRD 将父代码 y 拆分回其子代码 和
,以及它们之间的相对位置
(见图 2,右下角)。它使用一个反向映射,并制定如下:
(2)
层次结构中的每个节点代表一个特征向量,该特征向量由 c SREs (或 SRDs) 中的一个编码 (或解码)。特别是,我们注意到,由于网络是递归的,对于不同的节点,相同的编码器或解码器可能会被多次使用。如下文更详细的描述,每个步骤中使用的编码器的类型取决于该步骤中元素之间的空间关系。
在解码过程中,我们确定节点的空间关系类型 i,以便可以使用相应的解码器。为此,我们联合训练一个辅助节点分类器,以确定在每个递归解码步骤中应用哪个 SRD。该分类器是一个具有一个隐藏层的神经网络,它将层次结构中节点的代码作为输入,并输出该节点代表叶子还是内部节点。在内部节点的情况下,调用相应的 SRD,如果它是叶,使用非递归单层神经网络,代码被投影回标记的边界框表示 (与语义类别对应的单热向量连接的框维度)。
图 4.中使用的不同类型的空间编码器/解码器对 学习文档布局。左子项 (或引用框) 为 以黑色粗大的轮廓显示。计算相对位置 W.r.t.左孩子。
我们考虑的编码和解码文档布局的空间关系类型是: 右、左、下、左下、右下、封闭和宽底 (c = 7),见图 4。请注意,我们从左到右和从上到下遍历文档,因此,我们不必考虑任何类型的顶部空间关系。关于这些空间关系的完整描述,请参考补充材料。
3.3. 训练详细
我们 RvNN-VAE 网络的总训练损失是:
(3)
其中第一项是叶级重建损失:
(4)
这里, 和
是解码器上的
叶向量编码器,分别和
是叶子的数量。第二项是边界框之间的相对位置重建损失 (叶-叶或内部节点框和一个叶框):
(5)
哪里 和
分别表示解码器和编码器端的相对位置向量。第三个术语是一个标准的分类交叉熵
损失:
(6)
其中 σ 是 softmax 函数,a 是特征向量 从内部 (或根) 节点的输出映射到 应用了哪个节点分类器,并且 i ∈ [0,c-1] 对应于在 节点。
最后,等式 3 中的最后一个术语是 KL-背离损失 为了近似所有根代码的空间 (RvNN-VAE 的编码器输出):
(7)
哪里 是潜在的空间和
是标准正态分布
。
为了训练我们的 RvNN-VAE 网络,我们随机初始化从高斯分布采样的权重。输出在空间上更加平衡的文档布局, 我们开发了一些 (可选的) 后处理步骤,如补充材料中所述。
4.评估模型
为了评估我们的方法在外观和可变性方面的表现,我们提出了一种新的组合
布局相似性度量我们称之为 DocSim。灵感来自如何
机器翻译的 BLEU 度量 (双语评估后研究) [20] 测量句子相似性,我们的目标是获得简单且易于计算的结构相似性
文件之间的度量; 一个类似于人类感知的相似性,但并不太 over-specified.2,我们通过以下对 BLEU 的解释来介绍我们的度量: 考虑所有单词之间的二分图
W 在第一句中,所有单词 在第二句中
句子
,其中
和
之间有一个边,如果
两者都代表同一个词 (或者说,是同义词)。然后通过计算数字计算 BLEU 分数
这两个句子之间最大匹配的边。我们的度量,DocSim,类似地比较了两个给定的
文档布局
,
如下: 对于任意一对边界框
和
,我们分配一个加权边
这表明
和
在形状上有多相似,
位置和文档中的 “角色”。最后的分数是
然后计算为最大的合计重量
(加权) 布局
和
之间的匹配。
形式上,假设我们得到了两份文件 D1 和 D2,每个都被视为一组一个或多个边界框 “类型” (现实世界文档中此类类型的示例 可以是段落、标题、图形等)。每个边界 盒子表示为由其最小值组成的四重 以及文档中的最大 x 和 y 坐标。 坐标被标准化,以适应单位 1 × 1 平方。 两个标准化文档之间的相似性度量 D1 和 D2 分两步计算: 权重分配到 箱对,箱间最大重量匹配。
为框对分配权重。我们想给盒子对分配权重,这样类似的对 大致位于同一地点,并且大致相同 面积,将具有更高的重量。下一步,我们将 使用这些权重分配最大权重匹配 在 D1 的盒子和 D2 的盒子之间; 总相似性得分只是匹配的总权重。
图 5.给出了 ICDAR2015 的文档布局,我们展示了 从 [31] 中描述的概率方法获得的最近邻和使用我们方法的最近邻。彩色 图例: 标题、段落、页脚、页码、图。
设 和
为两个归一化边界框,其中
框畢的 x 坐标表示
及其
Y 协调是
。如果
和
有不同
类型,则它们之间的权重为
(这本质上意味着不同类型的盒子不能
匹配)。否则,我们将重量计算为
其中参数 、
、
定义如下:
位置参数
是
和
中心之间的相对欧几里德距离
文件。我们希望减少
和
如果他们彼此相距很远。形状差异是
和
的宽度和高度,分别为
。
由于较大的边界框在
文件的 “一般外观”,我们希望指定
较大盒子之间边缘的重量较大。因此,我们将面积因子定义为 ,
我们选择
。为了解释这个选择,观察到将常数更改为 C = 1 将分配
小盒子之间的边缘几乎没有重量,而
强烈支持这种类型的边缘。最后,我们设置
形状常数为
。这意味着形状
两个盒子之间的差异在
他们的权重计算比位置参数。
盒子之间最大重量匹配。考虑一个二分图,其中一部分包含 的所有框
而另一部分则由
的所有方框组成,而
和
的边重
为
如上所述。我们找到一个最大重量匹配
在这个二分图中使用了众所周知的
匈牙利法 [9]。
之间的相似性评分
被定义为
其中总和超过所有对 (B1,B2) ∈ M(D1,D2)。在 补充材料,我们提供可视化 DocSim 携带的匹配程序。
5. 实验结果
为了评估我们的布局生成方法,我们进行了几组实验,旨在了解 生成的布局是否高度可变,以及 视觉上-类似于培训文档。我们还证明了它们作为文档分析培训数据的有用性 任务。在补充材料中,我们提供了详细的 消融分析解释了我们的设计选择 SRE/SRDs 的数量。我们评估我们的 RvNN-VAE 以下两个数据集上的框架。
ICDAR2015 数据集。我们使用公开可用的 ICDAR2015 [1] 数据集,包含 478 个文档 以杂志文章为主题。对于这些文档,我们考虑以下语义类别: 标题、段落、页脚、页码和图形。
用户请求的 (美国) 数据集。我们组装了一个数据集 2036 征求用户信息的文件 (税务表格, 银行申请等)。这些文件通常表现出高度复杂的结构和大量的 原子元素。这些特性为生成模型生成文档提出了一个有趣的挑战。 布局。对于这些类型的文档,我们考虑以下语义类别: 键值、标题和段落。 键值框是具有单个问题 (键) 的区域 用户必须回答/地址 (值)。作为数据集 我们收集了未填写的文档,键值框 包含应由用户填写的区域。我们使用 Amazon Mechanical Turk (AMT) 对所有类别进行语义注释。
培训: 我们使用 PyTorch 框架 [21],有一个 批量为 128,学习率为 3*10-4。平均而言,语义注释的边界框的数量 在美国训练集中是 27.73 (最小 = 13,最大 = 45),17.61 (最小值 = 3,最大值 = 75) 用于 ICDAR2015 训练集。如图所示 在表 4 最右边的两列中,统计了我们的 生成的数据相似。培训需要近 24 小时 在美国数据集上,在 ICDAR2015 上大约 10 小时 数据集,在 NVIDIA GTX 1080 Ti GPU 上。
5.1.定量评价
我们使用我们提出的相似性度量,DocSim, 定量评估我们的布局生成方法。转 测量我们生成的文档布局的相似性 到潜在的文档布局分布,从中 我们对训练数据进行采样,迭代训练集和测试集,对于这些集合中的每个文档,我们 在我们生成的布局中找到最近的邻居。为此 结束,文档 D 的最近邻是文档 D0,使得分达到最大 DocSim(D,D0),相应地,D 相对于 数据集 D 被定义为 maxD0 ∈ D DocSim(D,D0)。在我们的 最近的邻居实验,我们过滤掉文档 D0 任何类别的盒子数量超过 3 个高于或低于 (重叠移除前) D。
在 ICDAR2015 数据集上。作为基线,我们获得 使用描述的概率方法的合成布局 在 [31] 中,使用他们公开的实现。值得注意的是,[31] 的主要重点是语义分割 文档及其概率布局综合方法 (输出一、二、三列文档) 为 作为他们主要学习任务的助手而开发。
在 [31] 的概率综合方法中,标记 盒子根据预定义的分布进行采样 (例如,用概率 q 选择段落)。我们获得 使用概率方案的 5k 布局的集合 P [31]; 布局与标题段落合成 图类,选择概率 0.1,0.7 和 0.2, 分别。同样,我们获得了由我们的 RVNN-VAE 框架生成的 5k 布局的集合 G,在那里我们 使用 icdar2015 的 400 个文档的培训集 T。 来自 ICDAR2015 的所有剩余 78 个文档的集合 T 0 被认为是我们的测试集。
我们通过比较基线收集 P 进行实验 根据他们捕捉的程度,我们的 G 系列 潜在文档布局空间,评估使用 我们的DocSim 分数。首先,我们运行以下内容: 对于任何 训练文件 T ∈ T,我们选择 GT ∈ G 作为 从我们的集合生成文档,最大化 DocSim(T,G) 在所有 ∈ G 之间,和类似的 ypt ∈ pas 来自概率合成集合的文档,该集合在所有 P ∈ P 中最大化 DocSim(T,P)。 然后,T 和 G 之间的相似性得分计算为 DocSim(T,GT) 在所有 T ∈ T 上的平均值; 对于所有 T ∈ T,T 和 P 之间的相似性得分是使用 DocSim(T,PT) 模拟计算的。最后,我们重复 以上实验,用测试代替训练集 T SetT0.
图 6. 给定由我们的方法生成的文档布局,我们从训练集中检索三个最接近的布局 (ICDAR2015 在 最上面一行,我们在最下面一行) 和离我们生成的集合最近的三个。彩色图例 (ICDAR2015): 见图 5。彩色图例 (美国): 标题、段落、键值。
表 1.文档布局的空间分析。继 [11], 我们使用语义实体的重叠索引和对齐索引作为 评估我们布局的另一项措施。
表 2 中给出的分数证明了我们的学习的文档布局在结构上更类似于 ICDAR2015 数据集中的样本,表明我们的网络能够有意义地了解其训练的文档布局的潜在分布。
此外,在评估之后,我们使用重叠和对齐指数进行定量分析 莉等人 [11]。重叠指数是占总数的百分比。 内部任意两个边界框之间的重叠区域 整页。第二个度量,对齐指数,是通过寻找其中的最小标准偏差来计算的 所有边界框的左坐标或中心坐标。表 1 显示真实 ICDAR2015 布局 [1] 、概率布局 [31] 和我们生成的布局的重叠索引和对齐索引的百分比。如中所示 表,我们的结果与 培训数据,证明我们的解决方案捕获了这些数据 指标很好 (并且比概率更好 布局)。在补充中,我们还展示了盒子中心的分布及其在布局中的尺寸。
在美国数据集上。因为我们不知道以前的工作 解决这些类型的文件,我们没有 要比较的基线方法。然而,我们可以调查我们的网络在这个数据集上的学习能力, 其中包含相对大量的文档 (2036)。因此,除了培训我们的网络 完整数据集,我们还使用较小的训练样本子集。
由于整个美国数据集是高度可变的,我们计算我们的 中的每对文档布局的相似性评分 整个美国数据集,并将数据集分为五组 (使用谱聚类)。然后我们训练我们的网络 包含至少 500 个文档的群集,使用 80-20 训练和测试拆分,并为生成 2k 文档布局 每个集群。
然后,我们将通过训练在整个美国数据集上获得的相似性分数与在 美国聚类 (所有聚类得分的平均值)。有趣的是,火车/测试集的分数几乎是 相同 (轻微的得分优势为 0.002 到 0.003 对于整个美国数据集,这是 2-3% 的优势)。 这表明我们的方法不需要很大的 与训练的潜在空间相匹配的数据量 设置得相当好; 事实上,如相对所示 相似的分数,在集群捕获上训练的模型 训练的潜在空间设置大致与 全套训练的模型。在图 6 中,我们显示了 从训练集到的三个最接近的文档布局 使用我们的方法生成的随机选择的布局样本。正如中间三列所示,三列 最接近的训练样本与我们生成的布局有一些相似之处,但是它们不一样,进一步验证 生成样本的新颖性。最右边的一列,描述生成集合中最近的邻居, 说明了生成结果中的变化。查看 更多结果的补充材料。
5.2.用于检测任务的数据增强
表 2. 我们的方法与概率方法的比较 从 [31],就与潜在分布的相似性而言 数据集 (分为训练和测试)。
表 3. 增强对的检测和分割性能 ICDAR2015 [1] 数据集使用数据增强 (第二行) 、具有概率布局的合成样本 (第三行) 或者我们学习的布局 (底部行)。
为了演示我们生成的布局的效用,我们 对文档执行标准检测任务,并使用由我们的方法生成的布局文档来增加训练数据。我们训练面具 R-CNN [6],一个流行的物体检测和分割网络, 在 ICDAR2015 数据集上,评估获得的结果 有或没有执行数据扩充。
为了为 Mask R-CNN 生成训练样本,我们将内容注入到我们生成的布局中 (在 ICDAR2015 数据集的 400 个文档上进行了训练)。为此,我们刮 维基百科的文本和图像。我们也合成 使用描述的概率方法训练样本 在 [31] 中,将我们的结果与 用他们的文档扩充数据集。这两种情况下的内容都是从相同的抓取数据中取样的, 因此,唯一的区别在于布局。此外,我们 将我们的结果与标准增强技术进行比较, 它使用光度和几何增强来丰富 ICDAR2015 数据集 (有关一些增强样本,请参阅补充材料)。在表 3 中,我们比较 边界框检测和分割结果 通过对不同数据集的训练获得。对于这两种类型 在结果 (框/掩模) 中,我们报告平均精度 (AP) 平均得分超过 IoU 阈值和特定 IoU 值 (AP50,AP75)。报告的结果超过了剩下的 78 份文件,我们没有对此进行培训。作为表 演示,我们生成的布局持续改进 检测和分割 IoU 分数 (至少 3%)。在 比较,用合成的文档获得的分数 使用概率方法或使用常规增强技术几乎与获得的分数相同 在数据集上,不进行任何扩充。改进的 性能说明了高度可变布局在生成有意义的合成数据中的巨大重要性,验证了我们的技术成功地学习了类似于输入数据集的布局分布。
5.3. 和之前的比较
表 4.在用于训练的样本数量、训练集中语义类别的数量以及每个生成文档的平均框数方面与先前工作的比较。
据我们所知,LayoutGAN [11] 是 仅针对我们的背景进行前期工作。因为缺乏公开 [11] 的可用代码和数据集,我们对方法统计进行了定量比较,并呈现 它们在表 4 中,正如在 [11] 中所做的那样,我们使用重叠和对齐度量 (如前所述) 进行比较 在真实布局、我们生成的布局和概率布局之间 布局 (见表 1)。
6. 总结与未来展望
在这项工作中,我们提出了一种生成 2D 文档合成布局的新方法,包括递归神经网络和变分自编码器。 我们还介绍了一种测量文档相似性的度量 DocSim,并使用该度量来演示新颖性以及我们生成布局的多样性。
我们的方法有几个局限性。首先, 虽然我们的方法可以生成高度可变的布局,有了几十个元素,但我们还不能生成高度复杂的布局 (例如,美国税收表格 1040),以及它理解如何可靠地表示和生成这样的布局将是非常有趣的。第二,我们生成的布局可能包含不需要的工件,例如错位和框重叠。我们使用简单的启发式方法处理这些工件,但也许一个更系统的解决方案是将当前框架与GAN 结合, 这将鼓励生成的布局在视觉上更类似于训练样本。
在未来,补充我们的使用合适的生成方法生成布局 鉴于 “有意义” 的高质量语义内容布局。此外,虽然我们的网络不需要大量的注释数据,但仍有待观察,如果有一种方法可以设计布局生成方法,需要更少的注释训练数据,也许是一次性的,或者很少的方法来产生合理的和 “类似的” “寻找” 布局。最后,递归神经网络被显示 (在这里和以前的作品中) 对生成 “人为” 的分层结构,如文档和室内场景,它们能被合并用于生成高度结构化的自然场景吗?