我给 Claude Code 装了个 PDF 解析 Skill,再也不用手动转格式了
Claude Code、Cursor、Windsurf 这些 Code Agent 用起来很爽,但都有个共同的短板:没法直接读 PDF 和截图。你让它读一份产品文档,它会告诉你"无法读取",开发流程就断在这里了。
解决办法是装一个 MinerU 的 Skill,一行命令:
npx skills add tanis90/pdf-converter-mineru
装完之后 Code Agent 就能直接解析 PDF 了。下面说说原理和实际用起来的效果。
为什么用 Skill 而不是自己搭 MCP Server
"文档阅读"是个无状态需求,用 Skill 比自己配解析服务器轻量得多:
- 一行命令装好,不用 Docker,不用配环境变量,没有后台进程。
- 基于 OpenClaw 开放标准,Claude Code、Cursor、Windsurf 都能用。
- 免费,不需要 API Key。内置智能判断,会根据文档大小自动选解析策略。
实际对比过:没装之前要手动打开 PDF、截取内容、粘贴到终端,还经常格式错乱。装了之后直接对话就行。
实际用起来什么样
场景 1:解析 API 文档写代码
很多老的内部接口文档只有 PDF 格式。直接跟 Agent 说:
"帮我读一下这篇 api_spec.pdf,重点看认证授权章节,然后用 Python 写一个支持重试机制的 client。"
Agent 会自动调 MinerU Skill 把 PDF 转成 Markdown(用 flash-extract),然后从里面提取认证参数写代码。
场景 2:带复杂表格和公式的论文
复现论文时最怕表格数据对不齐、公式变乱码:
"解析这篇 attention.pdf,把第四章的对比表格提取出来作为代码测试的 mocked data。"
双栏排版的顶会论文也能还原成 Markdown,AI 可以正常读取。
MinerU 是什么
这个 Skill 背后是上海人工智能实验室开源的文档解析引擎 MinerU,GitHub 56.9K+ Stars,OmniDocBench 综合评测第一。
和 PyPDF2 这类简单提取库不同,MinerU 有两套引擎(Pipeline + 基于 InternVL 的视觉多模态模型),在公式(CDM 97.29)、嵌套表格(TEDS-S 94.48%)、图文混排上的表现都不错。转出来的 Markdown 很适合喂给 LLM 和 RAG 系统。