最经典的版面分析数据集

227 阅读8分钟

版面分析技术是一种从图像文档中提取结构化信息的关键技术。它通过计算机视觉和人工智能手段,自动识别和理解文档中的版面布局、文本、图像和表格等元素,为文档的数字化处理和信息提取提供了强有力的支持。

一、背景意义

1、数字化转型:随着数字化转型的加速,大量纸质文档需要被转换为数字格式,以便更好地存储、检索和分析。

2、信息提取需求:版面分析技术能够提高文档信息提取的准确性和效率,满足日益增长的自动化处理需求。

3、智能化发展:版面分析是实现文档智能化处理的基础,为后续的文本分析、数据挖掘等提供结构化输入。

二、技术原理

版面分析技术主要包括以下几个步骤:

1、图像预处理:包括去噪、二值化、旋转校正等,以提高后续处理的准确性。

2、版面布局分析:通过分析文档的整体结构,将页面划分为不同的区域或区块。

3、元素定位与分割:对每个区块内的元素进行定位和分割,以便进行后续的处理。

4、文本识别:将分割出的文本转换为可编辑的文本格式,实现OCR功能。

三.、应用和挑战

应用领域:

1、文档管理:自动分类、检索和索引文档。

2、信息安全:证件、票据的真伪鉴别和信息提取。

3、智能交通:交通标志、路标的识别和解析。

挑战:

1、复杂版面处理:处理复杂版面布局、多字体混合排版等问题。

2、识别准确性:提高识别的准确性和效率。

未来发展

技术进步:随着人工智能技术的发展,版面分析技术将更加精准和高效。

跨领域应用:版面分析技术将在更多领域得到应用,如医疗、法律、教育等。

智能化服务:版面分析技术将为智能化服务提供更多可能性,如智能文档审核、自动化报告生成等。

版面分析技术的发展依赖于大量的标注数据集,这些数据集提供了图像文档及其对应的版面布局标注信息。例如,PubLayNet数据集、CDLA数据集、TableBank数据集和D4LA数据集等,都是用于版面分析的标注数据集,它们包含了不同类别的文档图像和详细的版面布局标注,用于训练和测试版面分析模型。

数据集的标注质量对版面分析技术的发展至关重要。高质量的标注数据可以提高模型的准确性和鲁棒性。例如,PubLayNet数据集中的标注是通过自动生成的方式得到的,而DocLayNet则是由训练有素的专家手工注释,提供了布局分割的黄金标准。

数据集:PubLayNet

  • 发布时间:2019-09
  • 数据集内容:PubLayNet 是一个用于文档布局分析的数据集,通过自动匹配 XML 表示和 PubMed Central 上公开的超过 100 万篇 PDF 文章的内容。数据集的大小与已建立的计算机视觉数据集相当,包含超过 360,000 张文档图像,其中典型的文档布局元素被注释。
  • 数据集地址:PubLayNet|文档分析数据集|计算机视觉数据集

数据集:CDLA

  • 更新时间:2024-05-08

  • 数据集内容:CDLA是一个面向中文文献类(论文)场景的中文文档版面分析数据集。该数据集包含5000张训练集和1000张验证集,分布在train和val目录下。数据集涵盖10个label,包括正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。标注工具为labelme,标注格式与labelme一致,主要字段包括shapes、labels、points、shape_type、imagePath、imageHeight和imageWidth。数据集支持转换为COCO格式,方便进一步的数据处理和分析。

  • 数据集列表:SWHL/CDLA|文档版面分析数据集|中文文献处理数据集

数据集:TableBank

  • 发布时间:2022-05-23

  • 数据集内容:为了解决对标准开放域表基准数据集的需求,作者提出了一种新颖的弱监督方法来自动创建 TableBank,该方法比现有的用于表分析的人工标记数据集大几个数量级。与传统的弱监督训练集不同,我们的方法不仅可以获得大规模的训练数据,而且可以获得高质量的训练数据。如今,网络上有大量的电子文档,例如 Microsoft Word (.docx) 和 Latex (.tex) 文件。这些在线文档本质上在其源代码中包含表格的标记标签。直观地说,可以通过在每个文档中使用标记语言添加边界框来操作这些源代码。对于 Word 文档,可以在标识每个表格的边界的地方修改内部 Office XML 代码。对于 Latex 文档,也可以在识别表格边界框的地方修改 tex 代码。通过这种方式,可以为商业文档、官方填写、研究论文等各种领域创建高质量的标记数据,这对于大规模的表格分析任务非常有利。 TableBank 数据集总共包含 417,234 个高质量标记表及其在各个领域的原始文档。

  • 数据集地址:TableBank|文档分析数据集|表格识别数据集

数据集:D4LA数据集

  • 创建时间:2023-08-16

  • 数据集内容:D4LA 文档版面分析数据集,包含12类文档工27类文档版面类型。

  • 数据集地址:D4LA-版面分析数据集

数据集:DocLayNet

  • 更新时间:2023-05-17

  • 数据集内容:DocLayNet是一个由IBM Research创建的大型人工标注数据集,专注于文档布局分析。该数据集包含80,863个独特的页面,涵盖6种文档类别,如财务报告、手册、科学文章、法律与规定、专利和政府招标。数据集提供页面级别的布局分割真实数据,使用边界框标注11种不同的类别标签。此外,数据集还包括多种语言,其中近95%的文档为英文,其余包括德文、法文和日文。数据集支持的任务包括对象检测、图像分割和令牌分类。

  • 数据集地址:pierreguillou/DocLayNet-small

数据集:DocBank

  • 发布时间:2020-04

  • 数据集内容:DocBank是一个大规模的文档图像数据集,包含50万份文档图像,主要用于文档布局分析和信息提取任务。数据集中的文档类型多样,包括学术论文、法律文件、商业报告等。每份文档图像都标注了文本行、单词和字符的位置信息,适用于训练和评估文档理解模型。

  • 数据集地址:DocBank|文档分析数据集|机器学习数据集

数据集:PRImA Layout Analysis Dataset

  • 发布时间:2009-01

  • 数据集内容:PRImA Layout Analysis Dataset 是一个用于文档图像分析和布局分析的数据集。该数据集包含了大量扫描的文档图像,每个图像都带有详细的布局信息,如文本区域、图像区域、表格区域等。这些信息对于开发和评估文档分析算法非常有用。

  • 数据集地址:PRImA Layout Analysis Dataset|文档图像分析数据集|布局识别数据集

数据集:FUNSD

  • 发布时间:2019-07

  • 数据集内容:FUNSD是由瑞士联邦理工学院信号处理实验室5创建的数据集,专注于噪声扫描文档中的表单理解。该数据集包含199个真实、全标注的扫描表单,这些表单在外观上具有广泛的变化,适用于文本检测、光学字符识别、空间布局分析和实体标注/链接等任务。数据集的创建过程采用自底向上的方法进行标注,确保了数据集在文档理解任务中的多样性和实用性。FUNSD数据集的应用领域主要集中在自动化信息提取和结构化,旨在解决从扫描文档中提取和理解信息的问题。

  • 数据集地址:FUNSD|文档理解数据集|信息提取数据集

如果想要了解更多数据集,请打开: