我把 MinerU 装进了 AI,现在处理文档只需要说一句话

41 阅读3分钟

今日聚焦 · MinerU Skill 实战指南 | 核心:用 AI 一句话驱动文档智能提取

上周收到一份 80 页的 PDF 研究报告,扫描版,图里还有表格。

以前遇到这种情况,我的处理流程大概是:打开 Adobe → 复制粘贴 → 格式乱掉 → 手动修 → 再乱掉 → 再修……

这次我没有。

我打开 AI 对话框,把文件拖进去,说了一句:"帮我提取这份报告的内容,转成 Markdown。"

完事儿了。


MinerU 是什么

MinerU 是一个文档智能提取工具,能把 PDF、Word、PPT、图片、网页,提取成结构清晰的 Markdown。表格保留、公式保留、扫描件 OCR 识别。

官方提供了一个 CLI 工具叫 mineru-open-api,很好用——但对普通用户来说,还是有点门槛:

  • 命令叫什么?参数怎么填?
  • flash-extractextract 有什么区别?
  • 遇到 429 限流怎么办?文件超大怎么处理?

MinerU Skill 解决的就是这个问题。

它是一个安装在 OpenClaw(AI Agent 框架)里的技能包,把所有的命令决策都封装掉了。你只需要说人话,AI 来处理技术细节。


两种模式,AI 帮你选

MinerU Skill 内置了一个决策树,这是整个工具最聪明的地方:

Flash 模式(免 Token)

  • 速度快,免费使用
  • 适合普通 PDF 和文字清晰的文档
  • 日常 80% 的场景都够用
  • 装完即用,无需任何配置

精准模式(需 Token)

  • 需要在 mineru.net 配置 API Token
  • 适合扫描件、手写文字、数学公式密集文档
  • 效果比 Flash 模式高一个档次
  • 论文、财报、医疗档案首选

AI 的决策逻辑

不用记规则,不用查文档,不用猜"我该用哪个"——AI 自动判断,遇到 429 限流也会自动切换,不是扔给你一个报错。

whiteboard_exported_image (1).png

能干什么?直接举例

场景

你说的话

论文提取

"把这篇 Nature 论文转成 Markdown,公式别丢"

扫描件识别

"这份扫描版合同,帮我把文字提取出来"

批量处理

"把这个文件夹里的 PDF 全部提取一遍"

网页存档

"把这个网页保存成 Markdown 格式"

报告整理

"把这个 Word 报告转成结构化 Markdown"

说的是需求,不是命令。


怎么安装

方式一(推荐): 直接对 AI 说 "帮我安装 MinerU 文档提取技能",OpenClaw 自动从 ClawHub 拉取安装,无需任何手动操作。

方式二(手动):

  1. 下载 Skill zip 文件
  2. 解压后拖进 AI 对话框
  3. 说"安装这个 Skill"

配置精准模式 Token(可选):

去 mineru.net/apiManage/token 创建一个 Token,然后告诉 AI:

"帮我配置 MinerU Token:xxx"


为什么 Skill 比直接用 CLI 好

一句话:降低了使用门槛,保证了结果稳定。

CLI 工具很强,但有学习成本:命令记不住、参数搞混、报错不知道怎么处理。

Skill 把所有决策逻辑封装了进去,AI 成了你和工具之间的"翻译层"——你只需要说人话,它来搞定技术细节。

这就是 AI Agent + 专业工具组合价值所在。


如果你经常需要处理文档,MinerU Skill 值得花五分钟装上试试。有问题欢迎留言。