用命令行批量解析 PDF:mineru-open-api CLI 完整教程

4 阅读3分钟

不想写代码?一条命令解析 PDF,MinerU CLI 零门槛上手。


MinerU 是什么

MinerU 是上海人工智能实验室开源的文档解析工具,可以把 PDF、Word、PPT、图片转换成 Markdown、JSON 等结构化格式。

最近团队发布了 MinerU2.5-Pro(2026年4月),在 OmniDocBench v1.6 基准上拿到了 95.69 分,刷新生态最好成绩。更难得的是,这个成绩是在 1.2B 参数小体量下达成的,参数量不到同类方案的 1/200,纯靠数据工程驱动。

MinerU 的核心能力:

能力说明
版面分析多栏识别、阅读顺序、页眉页脚过滤
文本识别109 种语言 OCR
公式识别复杂数学公式转 LaTeX
表格提取PDF 表格结构化输出
图片处理图表、嵌入图像、内容保留

没有 GPU?没关系,MinerU 提供云端 API(mineru.net),不用自己部署,直接调用。本文介绍的 CLI 工具就是接入这个 API 最简单的方式,一条命令就能跑。


安装

Windows (PowerShell)

irm https://cdn-mineru.openxlab.org.cn/open-api-cli/install.ps1 | iex

macOS / Linux

curl -fsSL https://cdn-mineru.openxlab.org.cn/open-api-cli/install.sh | sh

验证安装:

mineru-open-api version

两个核心命令:flash-extract vs extract

flash-extractextract
需要 Token❌ 免登录✅ 需要
文件大小最大 10 MB最大 200 MB
页数最大 20 页最大 600 页
输出格式仅 MarkdownMarkdown + HTML + LaTeX + DOCX + JSON
批量单文件支持批量
适合场景快速预览、AI Agent正式项目、大文件、存档

flash-extract:免登录,零配置

# 解析本地 PDF,输出到终端
mineru-open-api flash-extract report.pdf

# 解析 URL 上的 PDF
mineru-open-api flash-extract https://example.com/paper.pdf

# 保存到文件
mineru-open-api flash-extract report.pdf -o ./output/

# 指定语言和页码
mineru-open-api flash-extract report.pdf --language en --pages 1-10

extract:需要 Token,但功能更强

配置 Token

Token 获取:mineru.net/apiManage/t…

# 方式1:命令行传 token
mineru-open-api extract report.pdf --token 你的token

# 方式2:环境变量
export MINERU_TOKEN=你的token
mineru-open-api extract report.pdf

# 方式3:保存到配置文件
mineru-open-api auth

extract 基础用法

# 输出 Markdown 到终端
mineru-open-api extract report.pdf

# 输出多种格式
mineru-open-api extract report.pdf -f md,docx,html -o ./results/

# 从 URL 解析
mineru-open-api extract https://example.com/paper.pdf

# 指定模型(vlm 推荐,html 用于网页)
mineru-open-api extract report.pdf --model vlm

开启 OCR / 公式 / 表格识别

# 扫描件 PDF 需要开 OCR
mineru-open-api extract scanned-paper.pdf --ocr

# 关闭公式识别(默认开启)
mineru-open-api extract report.pdf --formula=false

# 关闭表格识别(默认开启)
mineru-open-api extract report.pdf --table=false

crawl:网页内容提取

# 提取单个网页
mineru-open-api crawl https://mineru.net

# 批量提取多个网页
mineru-open-api crawl https://mineru.net https://github.com/opendatalab/MinerU -o ./pages/

# 读取 URL 列表文件
mineru-open-api crawl --list urls.txt -o ./pages/

批量处理

批量文件

# 处理目录下所有 PDF
mineru-open-api extract ./*.pdf -o ./results/

# 读取文件列表
mineru-open-api extract --list files.txt -o ./results/

stdin 管道输入

# 把 PDF 内容传给其他工具
cat report.pdf | mineru-open-api extract --stdin --stdin-name report.pdf | jq .

# 下载并直接解析
curl -L https://example.com/paper.pdf | mineru-open-api extract --stdin --stdin-name paper.pdf

管道传给 LLM

mineru-open-api extract report.pdf | llm "总结这份报告的核心观点"

注意事项

stdout 规则

不用 -o 时,内容输出到终端(stdout),但有两条规则:

  • 只能有一个输入文件
  • 只能输出一种格式
  • DOCX 等二进制格式不能输出到 stdout

批量处理时必须加 -o 指定输出目录

Token 验证

# 查看当前 Token 配置(脱敏显示)
mineru-open-api auth --show

# 验证 Token 是否有效
mineru-open-api auth --verify

典型使用场景

快速预览 PDF 内容

mineru-open-api flash-extract paper.pdf | head -50

把 PDF 转成 Markdown 存档

mineru-open-api extract archive/*.pdf -f md -o ./markdown-archive/

批量提取论文并传给 LLM 总结

for pdf in papers/*.pdf; do
  echo "=== $pdf ===" >> summaries.txt
  mineru-open-api extract "$pdf" | llm "用三句话总结" >> summaries.txt
done

抓取网页内容构建知识库

mineru-open-api crawl --list article-urls.txt -o ./content/

相关链接