【重磅开源】纯前端RAG文档处理神器,让你的知识库质量提升10倍!
🔥 为什么你需要这个工具?
在构建RAG(检索增强生成)知识库时,你是否遇到过这些痛点:
- 文档格式混乱,结构不统一
- 大量文件需要手动预处理,效率低下
- 文档中包含大量无关内容,影响检索质量
- 不同格式文件需要不同处理方式,难以批量操作
- 担心隐私数据泄露,不敢使用在线服务
RAG文档处理器就是为解决这些问题而生的!它是一个完全在浏览器中运行的文档批处理工具,专为RAG知识库的文档预处理设计,让你的知识库质量提升10倍!
✨ 核心特性
- 🚀 纯前端实现:完全在浏览器端运行,无需后端服务,保护隐私数据安全
- 📝 多格式支持:轻松处理md、txt、html等多种文本格式
- 🤖 自定义智能体:可配置多个AI智能体,每个智能体有独立的处理逻辑
- 📦 批量处理:支持多文件批量上传和处理,效率翻倍
- 📊 处理进度跟踪:实时显示处理进度和状态,掌控全局
- 💾 本地存储:配置和处理结果保存在本地,保护隐私
- 🔄 并发处理:支持多文件并发处理,提高效率
🛠️ 技术栈
项目采用现代前端技术栈构建,确保高性能和良好的用户体验:
- React 18.3.1:前端核心框架
- TypeScript 5.5.3:提供类型安全的开发体验
- Vite 5.4.8:现代构建工具,提供快速的开发体验
- Tailwind CSS:原子化CSS框架,用于UI样式开发
- Radix UI:无样式组件库,提供可访问性组件
- Zustand:轻量级状态管理库
- React Query:API状态管理和缓存
- Axios:HTTP客户端,用于API调用
🚀 如何使用
1. 配置API
首次使用需要配置OpenAI API密钥:
- 点击"设置"按钮
- 输入您的OpenAI API密钥
- 可选:修改API基础URL(如果使用代理服务)
- 保存配置
2. 创建智能体
智能体是处理文档的核心,你可以根据不同需求创建多个智能体:
- 进入"智能体"页面
- 点击"新建智能体"
- 填写智能体名称和描述
- 编写处理提示词(Prompt)
- 选择模型和参数
- 保存智能体配置
3. 上传和处理文件
有了智能体后,就可以开始处理文件了:
- 进入"文件"页面
- 上传需要处理的文件(支持多选)
- 选择要使用的智能体
- 点击"处理"按钮开始处理
- 等待处理完成
- 下载处理结果
💡 智能体配置示例
以下是一个用于优化Markdown文档结构的智能体配置示例:
你是一个专业的文档数据清洗专家,负责处理和优化用于RAG知识库构建的文档。请按照以下指南对提供的文档进行全面清洗和标准化处理:
### 数据清洗任务:
1. 去除无关内容:
- 删除所有广告内容
- 移除页眉页脚信息(如页码、章节标题等重复出现的元素)
- 清除水印文本
- 去除版权声明、免责声明等非核心内容
- 删除装饰性特殊字符和符号
2. 标准化格式:
- 将所有文本转换为UTF-8编码
- 统一标点符号(如将全角标点转为半角,或根据文档主要语言选择合适的标点规范)
- 规范化空格使用(删除多余空格,保持段落间隔一致)
- 对于中文文档,确保使用标准中文标点
- 对于英文部分,统一大小写规范(如专有名词、缩写等)
3. 处理缺失值和噪声:
- 修正OCR错误(如"0"与"O"、"1"与"l"的混淆)
- 识别并修复断行导致的词语分割
- 合并被错误分割的段落
- 修正明显的拼写和语法错误
- 标记无法修复的损坏内容
4. 结构优化:
- 重新组织文档的层次结构(标题、小标题、段落)
- 确保列表格式一致(编号、项目符号等)
- 保持表格数据的完整性和可读性
- 确保图表引用的连贯性
5. 语义保全:
- 确保清洗过程不改变原文档的核心含义
- 保留专业术语和领域特定词汇
- 维持上下文关系和逻辑连贯性
🔐 隐私与安全
RAG文档处理器高度重视用户隐私和数据安全:
- 本地处理:所有文件处理在浏览器端完成,不上传到任何服务器
- 加密存储:API密钥在本地加密存储
- 无数据收集:不收集任何用户数据或使用情况统计
- 开源透明:代码完全开源,可审计
🌟 适用场景
-
企业知识库建设:
- 处理历史文档,统一格式和结构
- 清理内部文档中的敏感信息
- 优化技术文档,提高检索质量
-
个人知识管理:
- 整理学习笔记,提高结构化程度
- 处理网页保存的内容,去除广告和无关信息
- 标准化各种来源的资料,便于构建个人知识库
-
内容创作者:
- 批量处理草稿,提高内容质量
- 统一多篇文章的格式和风格
- 优化内容结构,提高可读性
🤝 如何贡献
欢迎贡献代码或提出建议!请遵循以下步骤:
- Fork本仓库
- 创建您的特性分支 (
git checkout -b feature/amazing-feature
) - 提交您的更改 (
git commit -m 'Add some amazing feature'
) - 推送到分支 (
git push origin feature/amazing-feature
) - 打开一个Pull Request
📝 结语
RAG文档处理器是构建高质量知识库的得力助手,它能帮助你快速处理大量文档,提高知识库的质量和检索效果。无论你是企业知识管理者、研究人员还是个人知识爱好者,这个工具都能为你节省大量时间,提高工作效率。
赶快前往GitHub仓库,开始使用这个强大的工具吧!
注意:本工具需要OpenAI API密钥才能正常工作。请确保您有有效的API密钥并在设置中正确配置。