技术调研:MinerU 本地安装测试

711 阅读1分钟

介绍说明

MinerU 是opendatalab开源的数据提取工具,侧重于复杂PDF文档的高效解析提取,特别是在处理包含大量公式、图表等复杂布局的PDF文件,它的pipeline能够准确提取PDF中的各种元素,包括但不限于文本、图像、表格和公式等,非常适合需要从专业文献中提取信息的场景。详细参考官网:opendatalab.com/OpenSourceT…

本地(MacOS)安装 + 验证

详细安装步骤可参考官文(本身是国内研发团队开发的平台,有中文文档支持):github.com/opendatalab…

我本地的安装过程记录如下;

1、下载 magic-pdf 命令行工具

pip install magic-pdf[full]==0.7.0b1 --extra-index-url wheels.myhloli.com -i pypi.tuna.tsinghua.edu.cn/simple

2、HF下载模型 PDF-Extract-Kit(opendatalab开源的PDF解析模型)

huggingface-cli download wanderkid/PDF-Extract-Kit

3、在家目录新建magic-pdf配置文件

vim ~/magic-pdf.json

模板内容参考官文:github.com/opendatalab…

我的本地配置文件内容,修改配置开启表格识别 "is_table_recog_enable":true

{
    "bucket_info":{
        "bucket-name-1":["ak", "sk", "endpoint"],
        "bucket-name-2":["ak", "sk", "endpoint"]
    },
    "models-dir":"/Users/shixiangweii/.cache/huggingface/hub/models--wanderkid--PDF-Extract-Kit/snapshots/f836e5cd55b42a48c486c91cf63345aae14fc8e4/models",
    "device-mode":"cpu",
    "table-config": {
        "is_table_recog_enable": true,
        "max_time": 400
    }
}

4、执行测试

把当前路径下的test.pdf 使用自动模式进行解析,解析结果输出在当前目录

magic-pdf -p test.pdf -o . -m auto

执行结果:magic_pdf.tools.common:do_parse:119 - local output dir is ./test/auto

总结

执行结果和Unstructured“大差不差”,对于PDF中图片类型的表格同样会有错别字的问题,后续进一步使用调研下。