今日聚焦 · MinerU Skill 实战指南 | 核心:用 AI 一句话驱动文档智能提取
上周收到一份 80 页的 PDF 研究报告,扫描版,图里还有表格。
以前遇到这种情况,我的处理流程大概是:打开 Adobe → 复制粘贴 → 格式乱掉 → 手动修 → 再乱掉 → 再修……
这次我没有。
我打开 AI 对话框,把文件拖进去,说了一句:"帮我提取这份报告的内容,转成 Markdown。"
完事儿了。
MinerU 是什么
MinerU 是一个文档智能提取工具,能把 PDF、Word、PPT、图片、网页,提取成结构清晰的 Markdown。表格保留、公式保留、扫描件 OCR 识别。
官方提供了一个 CLI 工具叫 mineru-open-api,很好用——但对普通用户来说,还是有点门槛:
- 命令叫什么?参数怎么填?
flash-extract和extract有什么区别?- 遇到 429 限流怎么办?文件超大怎么处理?
MinerU Skill 解决的就是这个问题。
它是一个安装在 OpenClaw(AI Agent 框架)里的技能包,把所有的命令决策都封装掉了。你只需要说人话,AI 来处理技术细节。
两种模式,AI 帮你选
MinerU Skill 内置了一个决策树,这是整个工具最聪明的地方:
Flash 模式(免 Token)
- 速度快,免费使用
- 适合普通 PDF 和文字清晰的文档
- 日常 80% 的场景都够用
- 装完即用,无需任何配置
精准模式(需 Token)
- 需要在 mineru.net 配置 API Token
- 适合扫描件、手写文字、数学公式密集文档
- 效果比 Flash 模式高一个档次
- 论文、财报、医疗档案首选
AI 的决策逻辑
不用记规则,不用查文档,不用猜"我该用哪个"——AI 自动判断,遇到 429 限流也会自动切换,不是扔给你一个报错。
能干什么?直接举例
场景 | 你说的话 |
论文提取 | "把这篇 Nature 论文转成 Markdown,公式别丢" |
扫描件识别 | "这份扫描版合同,帮我把文字提取出来" |
批量处理 | "把这个文件夹里的 PDF 全部提取一遍" |
网页存档 | "把这个网页保存成 Markdown 格式" |
报告整理 | "把这个 Word 报告转成结构化 Markdown" |
说的是需求,不是命令。
怎么安装
方式一(推荐): 直接对 AI 说 "帮我安装 MinerU 文档提取技能",OpenClaw 自动从 ClawHub 拉取安装,无需任何手动操作。
方式二(手动):
- 下载 Skill zip 文件
- 解压后拖进 AI 对话框
- 说"安装这个 Skill"
配置精准模式 Token(可选):
去 mineru.net/apiManage/token 创建一个 Token,然后告诉 AI:
"帮我配置 MinerU Token:xxx"
为什么 Skill 比直接用 CLI 好
一句话:降低了使用门槛,保证了结果稳定。
CLI 工具很强,但有学习成本:命令记不住、参数搞混、报错不知道怎么处理。
Skill 把所有决策逻辑封装了进去,AI 成了你和工具之间的"翻译层"——你只需要说人话,它来搞定技术细节。
这就是 AI Agent + 专业工具组合价值所在。
如果你经常需要处理文档,MinerU Skill 值得花五分钟装上试试。有问题欢迎留言。