第一次在掘金发项目：个人新工具pdf转md-MarkMuse

2025-04-29 89 阅读1分钟

MarkMuse：内部 RAG 大规模文档预处理解决方案

背景

公司正在建设基于 RAG 的知识库，急需高质量的文档预处理与数据清洗方案。

目前功能

高精度 PDF→Markdown：基于 Mistral AI OCR，精确提取文本与结构。
多模态支持：图片提取与增强（支持 OpenAI/千帆），为多模态分析打基础。
模板化提示词：内置 Jinja2 与 LangChain，灵活自定义转换规则。
批量与云存储：一键批量转换，原生集成 S3/MinIO 存储。

Mistral AI 获取

平台地址
免费申请key量大管饱
可以看一看文档效果pdf的ocr识别可以说第一

快速上手


pip install -r requirements.txt

cp env.sample .env && 编辑 .env 填写 API 密钥

python markmuse.py --file input.pdf --output-dir output_folder

更多使用细节请参考使用指南。

应用场景

RAG 系统知识库的数据预处理与清洗
自动生成 Markdown 文档，减少手动校验成本
支持多源文件批量处理，提升效率

后期规划

文档自动摘要：生成章节级别摘要，提取核心要点
多模态图片总结：AI 自动概览图片内容
结构化重排版：优化文档层级与可读性
统一 RAG 分块：按检索需求输出标准化数据片段

欢迎留言讨论，或访问源码仓库进行试用与贡献！