Claude Code、Cursor、Kimi Code、Codex、Cline——现在大家写代码越来越依赖 Code Agent。但大模型有一个短板:读不了 PDF。
你丢给它一个 PDF 文件路径,它只会告诉你"这是个二进制文件,我读不了"。论文、技术文档、产品手册、扫描合同——全都打不开。
解决方案只需要一行命令:
npx skills add tanis90/pdf-converter-mineru
装完之后,你的 Code Agent 就能直接读取、解析、总结任何 PDF 文件,包括扫描件。
这行命令做了什么
npx skills add 是 OpenClaw 的 Skill 安装命令。OpenClaw 是 Code Agent 的技能市场——类似 VS Code 的扩展商店,但面向的是 AI 编程助手。
这行命令会拉取一个叫 pdf-converter-mineru 的 Skill,装到你本地的 skills 目录下。装好之后,你的 Code Agent 就获得了一个新能力:调用 MinerU Open API 把 PDF 转成 Markdown,然后自己阅读和理解内容。
整个过程对你来说是透明的。你不需要手动调用任何命令,也不需要配置 MCP server——直接对你的 Code Agent 说"帮我读这个 PDF"就行。
哪些 Code Agent 支持
这个 Skill 基于 OpenClaw 的开放标准,一次安装,跨工具通用:
| Code Agent | 支持情况 |
|---|---|
| Claude Code | 原生支持 |
| Cursor | 支持 |
| Cline | 支持 |
| Augment | 支持 |
| Kimi Code | 支持 |
| CodeBuddy | 支持 |
| Warp | 支持 |
不管你日常用哪个 Code Agent,装一次就行。
它能做什么
装完 Skill 之后,你可以直接这样对你的 Code Agent 说:
读论文:
> 帮我读一下 ./papers/attention-is-all-you-need.pdf,总结核心贡献
提取表格:
> 把 quarterly-report.pdf 里的财务数据表格提取出来
扫描件识别:
> 这份扫描的合同 contract-scan.pdf,帮我找到付款条款
批量处理:
> 把 ./docs/ 下所有 PDF 转成 Markdown
Code Agent 会自动判断用哪种模式:
- 小文件、快速阅读 →
flash-extract(免登录,秒出结果) - 大文件、需要保留表格和公式 →
extract(高精度模式)
你不需要记任何命令参数。
为什么不用 MCP server
给 Code Agent 加文档能力,很多人第一反应是"装个 MCP server"。比如跑一个本地的 document parsing 服务,配置 JSON,再写好 tool 的 schema。
能用,但太重了。
Skill 的优势是:
- 一行安装,不需要 Docker、不需要额外进程、不需要配置文件
- 零运维,不用管服务是否在跑、端口有没有冲突
- 跨工具通用,同一个 Skill 在 Claude Code、Cursor、Kimi Code 里都能用
- 自动选择策略,Code Agent 自己决定用 flash 模式还是精度模式
- 开箱即用,装完直接说话就行
MCP server 更适合需要长期运行、有复杂状态管理的场景。而"读一份 PDF"这种无状态的能力,用 Skill 是更轻量的选择。
底层的文档解析能力到底怎么样
底层用的是 MinerU,上海 AI Lab 开源的文档解析引擎,GitHub 56000+ Stars,OmniDocBench 评测综合排名第一。
MinerU 不是简单的文本提取工具。它是一个完整的 document AI 引擎,核心能力包括:
- 版面分析:双栏、三栏、混合排版都能正确识别
- 表格识别:复杂嵌套表格保留结构,不会拆碎
- 公式识别:数学公式自动转 LaTeX
- OCR:扫描件、拍照文档、图片型 PDF 都能处理,支持 80+ 种语言
- 多格式输出:Markdown、Word、HTML、LaTeX、JSON
如果你在做 RAG pipeline,这意味着你可以直接在 Code Agent 里完成"PDF → 结构化 Markdown → 向量化"的前两步,不用额外写 PDF 解析代码。
如果你在选 best pdf parser for RAG,MinerU 在表格还原和公式识别上的精度,是大多数 Python PDF parser 做不到的。
实际使用场景
场景一:读技术文档写代码
你在用一个 API,文档只有 PDF 版本。以前你得自己打开 PDF,翻到对应章节,再复制粘贴到对话里。现在:
> 读一下 api-reference.pdf,找到认证相关的部分,然后帮我写一个 Python 的认证 client
Code Agent 会自己解析 PDF,找到 auth 章节,理解参数和流程,然后直接写代码。
场景二:论文调研
你要调研某个方向的 5 篇论文:
> 把 ./papers/ 下面 5 篇 PDF 都读一遍,给我一个对比表格,列出每篇的方法、数据集、主要结果
场景三:处理扫描文档
法务给了一堆扫描的合同 PDF,你需要提取关键条款:
> 读 contract-2024.pdf,这是扫描件,帮我提取合同金额、付款期限、违约条款
MinerU 的 OCR 会先把扫描件转成文字,Code Agent 再理解内容并提取你要的信息。
场景四:文档格式转换
> 把 report.pdf 转成 Word 发给我
> 把 paper.pdf 转成 Markdown 存到 ./output/
> 把 slides.pptx 转成 Markdown
支持 PDF、图片、DOCX、PPTX、Excel 等格式的输入。
安装
真的只有一行:
npx skills add tanis90/pdf-converter-mineru
装完之后,如果你本地还没有 mineru-open-api CLI,Code Agent 会自动检测并引导你安装——不需要你自己去查文档。flash-extract 模式免登录可以直接用;如果需要高精度模式(大文件、导出 Word、批量处理),Code Agent 也会提示你做认证。
常见问题
文件大小有限制吗?
flash-extract 模式限制 10 MB / 20 页。extract 模式支持 200 MB / 600 页,覆盖绝大多数文档。
支持中文文档吗?
默认就支持中英混排。MinerU 的 OCR 覆盖 80+ 种语言,中日韩、阿拉伯语、泰语等都没问题。
和直接用 MinerU CLI 有什么区别?
直接用 CLI 你需要自己敲命令、管理输出文件、再把结果贴给 AI。装了 Skill 之后,Code Agent 自己完成整个流程——你只需要用自然语言描述你想做什么。
和 MCP server 方案怎么选?
如果你已经有在跑的 MCP server 生态,可以继续用。如果你只是想让 Code Agent 能读 PDF,Skill 是更轻量的方案——一行命令搞定,不需要额外的进程和配置。
总结
让 Code Agent 获得文档阅读能力,不需要配 MCP server,不需要写代码,一行命令:
npx skills add tanis90/pdf-converter-mineru
装完之后,PDF、扫描件、Word、PPT、图片——直接丢给你的 Code Agent,让它自己读。
无论你用的是 Claude Code、Cursor、Kimi Code 还是 Cline,同一个 Skill,同一行命令。