介绍说明
MinerU 是opendatalab开源的数据提取工具,侧重于复杂PDF文档的高效解析提取,特别是在处理包含大量公式、图表等复杂布局的PDF文件,它的pipeline能够准确提取PDF中的各种元素,包括但不限于文本、图像、表格和公式等,非常适合需要从专业文献中提取信息的场景。详细参考官网:opendatalab.com/OpenSourceT…
本地(MacOS)安装 + 验证
详细安装步骤可参考官文(本身是国内研发团队开发的平台,有中文文档支持):github.com/opendatalab…
我本地的安装过程记录如下;
1、下载 magic-pdf 命令行工具
pip install magic-pdf[full]==0.7.0b1 --extra-index-url wheels.myhloli.com -i pypi.tuna.tsinghua.edu.cn/simple
2、HF下载模型 PDF-Extract-Kit(opendatalab开源的PDF解析模型)
huggingface-cli download wanderkid/PDF-Extract-Kit
3、在家目录新建magic-pdf配置文件
vim ~/magic-pdf.json
模板内容参考官文:github.com/opendatalab…
我的本地配置文件内容,修改配置开启表格识别 "is_table_recog_enable":true
{
"bucket_info":{
"bucket-name-1":["ak", "sk", "endpoint"],
"bucket-name-2":["ak", "sk", "endpoint"]
},
"models-dir":"/Users/shixiangweii/.cache/huggingface/hub/models--wanderkid--PDF-Extract-Kit/snapshots/f836e5cd55b42a48c486c91cf63345aae14fc8e4/models",
"device-mode":"cpu",
"table-config": {
"is_table_recog_enable": true,
"max_time": 400
}
}
4、执行测试
把当前路径下的test.pdf 使用自动模式进行解析,解析结果输出在当前目录
magic-pdf -p test.pdf -o . -m auto
执行结果:magic_pdf.tools.common:do_parse:119 - local output dir is ./test/auto
总结
执行结果和Unstructured“大差不差”,对于PDF中图片类型的表格同样会有错别字的问题,后续进一步使用调研下。