技术调研：MinerU 本地安装测试介绍说明 MinerU 是opendatalab开源的数据提取工具，侧重于复杂PDF

介绍说明

MinerU 是opendatalab开源的数据提取工具，侧重于复杂PDF文档的高效解析提取，特别是在处理包含大量公式、图表等复杂布局的PDF文件，它的pipeline能够准确提取PDF中的各种元素，包括但不限于文本、图像、表格和公式等，非常适合需要从专业文献中提取信息的场景。详细参考官网：opendatalab.com/OpenSourceT…

本地（MacOS）安装 + 验证

详细安装步骤可参考官文（本身是国内研发团队开发的平台，有中文文档支持）：github.com/opendatalab…

我本地的安装过程记录如下；

1、下载 magic-pdf 命令行工具

pip install magic-pdf[full]==0.7.0b1 --extra-index-url wheels.myhloli.com -i pypi.tuna.tsinghua.edu.cn/simple

2、HF下载模型 PDF-Extract-Kit（opendatalab开源的PDF解析模型）

huggingface-cli download wanderkid/PDF-Extract-Kit

3、在家目录新建magic-pdf配置文件

vim ~/magic-pdf.json

模板内容参考官文：github.com/opendatalab…

我的本地配置文件内容，修改配置开启表格识别 "is_table_recog_enable":true

{
    "bucket_info":{
        "bucket-name-1":["ak", "sk", "endpoint"],
        "bucket-name-2":["ak", "sk", "endpoint"]
    },
    "models-dir":"/Users/shixiangweii/.cache/huggingface/hub/models--wanderkid--PDF-Extract-Kit/snapshots/f836e5cd55b42a48c486c91cf63345aae14fc8e4/models",
    "device-mode":"cpu",
    "table-config": {
        "is_table_recog_enable": true,
        "max_time": 400
    }
}

4、执行测试

把当前路径下的test.pdf 使用自动模式进行解析，解析结果输出在当前目录

magic-pdf -p test.pdf -o . -m auto

执行结果：magic_pdf.tools.common:do_parse:119 - local output dir is ./test/auto

总结

执行结果和Unstructured“大差不差”，对于PDF中图片类型的表格同样会有错别字的问题，后续进一步使用调研下。