背景
做过 RAG 的同学都知道,检索效果差,80% 不是召回算法的问题,是数据质量的问题。
而数据质量问题,很大程度上源于文档解析这一环——PDF 里的表格、公式、图文关系,在传统解析工具下会大量损失。
MinerU 是目前开源社区中最成熟的解决方案之一,GitHub 58.5k+ Star,上海 AI 实验室出品。
核心能力速览
# 安装
pip install mineru
# 基础使用
from mineru import MinerU
result = MinerU().parse("your_document.pdf")
print(result.markdown) # 高保真 Markdown 输出
解析能力:
- 多格式支持:PDF / PPT / DOCX / 图片 / 网页 URL
- 布局分析:多栏排版、旋转页面、复杂版式
- 表格还原:跨页 / 合并单元格 → Markdown / HTML / CSV
- 公式识别:LaTeX / MathML 输出
- 图文提取:保留上下文关联
集成生态:
- 原生 MCP 协议支持
- Dify / Coze / n8n 插件
- Claude Desktop / Notion 接入
- REST API(支持高并发、Agent 免登录通道)
MinerU 实战训练营
OpenDataLab 官方主办,课程内容:
| 模块 | 内容 |
|---|---|
| 多环境部署 | NVIDIA 4090 + 国产沐曦算力平台 |
| API 调用 | 批量 PDF 异步解析,高并发工程实践 |
| 模型微调 | MinerU 1.2B SFT 全流程 |
| Skill 开发 | OpenClaw 文档问答 Skill |
| Agent 搭建 | Vibe Coding + 真实场景落地 |
| 深度评测 | Dingo 工具量化对标 + OCR 评测 |
时间:3月25日开营,5月7日结营,每周直播答疑