用命令行批量解析 PDF：mineru-open-api CLI 完整教程> 不想写代码？一条命令解析 PDF，Mine

不想写代码？一条命令解析 PDF，MinerU CLI 零门槛上手。

MinerU 是什么

MinerU 是上海人工智能实验室开源的文档解析工具，可以把 PDF、Word、PPT、图片转换成 Markdown、JSON 等结构化格式。

最近团队发布了 MinerU2.5-Pro（2026年4月），在 OmniDocBench v1.6 基准上拿到了 95.69 分，刷新生态最好成绩。更难得的是，这个成绩是在 1.2B 参数小体量下达成的，参数量不到同类方案的 1/200，纯靠数据工程驱动。

MinerU 的核心能力：

能力	说明
版面分析	多栏识别、阅读顺序、页眉页脚过滤
文本识别	109 种语言 OCR
公式识别	复杂数学公式转 LaTeX
表格提取	PDF 表格结构化输出
图片处理	图表、嵌入图像、内容保留

没有 GPU？没关系，MinerU 提供云端 API（mineru.net），不用自己部署，直接调用。本文介绍的 CLI 工具就是接入这个 API 最简单的方式，一条命令就能跑。

安装

Windows (PowerShell)

irm https://cdn-mineru.openxlab.org.cn/open-api-cli/install.ps1 | iex

macOS / Linux

curl -fsSL https://cdn-mineru.openxlab.org.cn/open-api-cli/install.sh | sh

验证安装：

mineru-open-api version

两个核心命令：flash-extract vs extract

	`flash-extract`	`extract`
需要 Token	❌ 免登录	✅ 需要
文件大小	最大 10 MB	最大 200 MB
页数	最大 20 页	最大 600 页
输出格式	仅 Markdown	Markdown + HTML + LaTeX + DOCX + JSON
批量	单文件	支持批量
适合场景	快速预览、AI Agent	正式项目、大文件、存档

flash-extract：免登录，零配置

# 解析本地 PDF，输出到终端
mineru-open-api flash-extract report.pdf

# 解析 URL 上的 PDF
mineru-open-api flash-extract https://example.com/paper.pdf

# 保存到文件
mineru-open-api flash-extract report.pdf -o ./output/

# 指定语言和页码
mineru-open-api flash-extract report.pdf --language en --pages 1-10

extract：需要 Token，但功能更强

配置 Token

Token 获取：mineru.net/apiManage/t…

# 方式1：命令行传 token
mineru-open-api extract report.pdf --token 你的token

# 方式2：环境变量
export MINERU_TOKEN=你的token
mineru-open-api extract report.pdf

# 方式3：保存到配置文件
mineru-open-api auth

extract 基础用法

# 输出 Markdown 到终端
mineru-open-api extract report.pdf

# 输出多种格式
mineru-open-api extract report.pdf -f md,docx,html -o ./results/

# 从 URL 解析
mineru-open-api extract https://example.com/paper.pdf

# 指定模型（vlm 推荐，html 用于网页）
mineru-open-api extract report.pdf --model vlm

开启 OCR / 公式 / 表格识别

# 扫描件 PDF 需要开 OCR
mineru-open-api extract scanned-paper.pdf --ocr

# 关闭公式识别（默认开启）
mineru-open-api extract report.pdf --formula=false

# 关闭表格识别（默认开启）
mineru-open-api extract report.pdf --table=false

crawl：网页内容提取

# 提取单个网页
mineru-open-api crawl https://mineru.net

# 批量提取多个网页
mineru-open-api crawl https://mineru.net https://github.com/opendatalab/MinerU -o ./pages/

# 读取 URL 列表文件
mineru-open-api crawl --list urls.txt -o ./pages/

批量处理

批量文件

# 处理目录下所有 PDF
mineru-open-api extract ./*.pdf -o ./results/

# 读取文件列表
mineru-open-api extract --list files.txt -o ./results/

stdin 管道输入

# 把 PDF 内容传给其他工具
cat report.pdf | mineru-open-api extract --stdin --stdin-name report.pdf | jq .

# 下载并直接解析
curl -L https://example.com/paper.pdf | mineru-open-api extract --stdin --stdin-name paper.pdf

管道传给 LLM

mineru-open-api extract report.pdf | llm "总结这份报告的核心观点"

注意事项

stdout 规则

不用 -o 时，内容输出到终端（stdout），但有两条规则：

只能有一个输入文件
只能输出一种格式
DOCX 等二进制格式不能输出到 stdout

批量处理时必须加 -o 指定输出目录。

Token 验证

# 查看当前 Token 配置（脱敏显示）
mineru-open-api auth --show

# 验证 Token 是否有效
mineru-open-api auth --verify

典型使用场景

快速预览 PDF 内容

mineru-open-api flash-extract paper.pdf | head -50

把 PDF 转成 Markdown 存档

mineru-open-api extract archive/*.pdf -f md -o ./markdown-archive/

批量提取论文并传给 LLM 总结

for pdf in papers/*.pdf; do
  echo "=== $pdf ===" >> summaries.txt
  mineru-open-api extract "$pdf" | llm "用三句话总结" >> summaries.txt
done

抓取网页内容构建知识库

mineru-open-api crawl --list article-urls.txt -o ./content/

用命令行批量解析 PDF：mineru-open-api CLI 完整教程