第一次在掘金发项目:个人新工具pdf转md-MarkMuse

70 阅读1分钟

MarkMuse:内部 RAG 大规模文档预处理解决方案

背景

  • 公司正在建设基于 RAG 的知识库,急需高质量的文档预处理与数据清洗方案。

目前功能

  • 高精度 PDF→Markdown:基于 Mistral AI OCR,精确提取文本与结构。

  • 多模态支持:图片提取与增强(支持 OpenAI/千帆),为多模态分析打基础。

  • 模板化提示词:内置 Jinja2 与 LangChain,灵活自定义转换规则。

  • 批量与云存储:一键批量转换,原生集成 S3/MinIO 存储。

Mistral AI 获取

  • 平台地址
  • 免费申请key量大管饱
  • 可以看一看文档效果pdf的ocr识别可以说第一

image.png

快速上手


pip install -r requirements.txt

cp env.sample .env && 编辑 .env 填写 API 密钥

python markmuse.py --file input.pdf --output-dir output_folder

更多使用细节请参考 使用指南

应用场景

  • RAG 系统知识库的数据预处理与清洗

  • 自动生成 Markdown 文档,减少手动校验成本

  • 支持多源文件批量处理,提升效率

后期规划

  1. 文档自动摘要:生成章节级别摘要,提取核心要点

  2. 多模态图片总结:AI 自动概览图片内容

  3. 结构化重排版:优化文档层级与可读性

  4. 统一 RAG 分块:按检索需求输出标准化数据片段

欢迎留言讨论,或访问源码仓库进行试用与贡献!

仓库链接