基于ERNIELayout&PDFplumber-UIEX的多方案学术论文信息抽取

171 阅读1分钟

本项目链接:aistudio.baidu.com/aistudio/pr…

0.问题描述

可以参考issue: ERNIE-Layout在(人名和邮箱)信息抽取的诸多问题阐述#4031

  1. ERNIE-Layout因为看到功能比较强大就尝试了一下,但遇到信息抽取错误,以及抽取不全等问题
  2. 使用PDFPlumber库和PaddleNLP UIE模型抽取,遇到问题:无法把姓名和邮箱一一对应。

1.基于ERNIE-Layout的DocPrompt开放文档抽取问答模型

ERNIE-Layout以文心文本大模型ERNIE为底座,融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,提出阅读顺序预测、细粒度图文匹配等自监督预训练任务,升级空间解偶注意力机制,在各数据集上效果取得大幅度提升,相关工作ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding已被EMNLP 2022 Findings会议收录[1]。考虑到文档智能在多语种上商用广泛,依托PaddleNLP对外开源业界最强的多语言跨模态文档预训练模型ERNIE-Layout。