MinerU 实战训练营：RAG 数据预处理的最后一块拼图背景做过 RAG 的同学都知道，检索效果差，80% 不是召回

背景

做过 RAG 的同学都知道，检索效果差，80% 不是召回算法的问题，是数据质量的问题。

而数据质量问题，很大程度上源于文档解析这一环——PDF 里的表格、公式、图文关系，在传统解析工具下会大量损失。

MinerU 是目前开源社区中最成熟的解决方案之一，GitHub 58.5k+ Star，上海 AI 实验室出品。

# 安装
pip install mineru

# 基础使用
from mineru import MinerU
result = MinerU().parse("your_document.pdf")
print(result.markdown)  # 高保真 Markdown 输出

解析能力：

集成生态：

OpenDataLab 官方主办，课程内容：

时间：3月25日开营，5月7日结营，每周直播答疑