零代码搭建本地知识库:基于DeepSeek+RAG+Ollama+Cherry Studio全流程指南
一、方案优势与工具简介
核心价值:通过本地化部署的LLM(DeepSeek)与RAG技术结合,实现:
- 企业敏感数据100%离线处理
- 个人知识库智能问答
- 本地模型快速响应
- 支持PDF/Word/网页等多格式文档
工具链:
- Ollama:开源模型托管平台(支持150+模型)
- DeepSeek-R1:深度求索开源的16K长文本大模型
- dmeta-embedding:中文语义向量模型
- Cherry Studio:AI应用可视化客户端
二、环境准备与工具安装
1. 安装Ollama服务
访问Ollama官网下载对应系统安装包:
- Windows用户双击
.exe自动安装 - macOS使用
brew install ollama - Linux执行
curl -fsSL https://ollama.com/install.sh | sh
验证安装成功:
ollama --version
# 应显示版本号(如:0.1.25)
2. 获取模型文件
在终端执行以下命令(按设备配置选择模型):
# 基础版(8G显存+16G内存)
ollama run deepseek-r1:8b
# 高性能版(24G显存+32G内存)
ollama run deepseek-r1:128b
3. 安装嵌入模型
执行中文向量化模型安装:
ollama run shaw/dmeta-embedding-zh
三、Cherry Studio配置详解
-
客户端安装
从Cherry Studio官网下载最新版本,完成基础安装。 -
连接本地模型服务
- 左下角设置 → 模型服务 → Ollama
- 添加模型服务:
API地址: http://localhost:11434/v1/ API密钥: 任意字符(本地验证可不填) - 点击「检查连接」确认状态正常
-
关键配置项
- 务必为
dmeta-embedding-zh选择嵌入模式 - 设置默认对话模型为
deepseek-r1 - 调整上下文长度至16K(匹配模型能力)
- 务必为
四、知识库创建实战
-
新建知识库
- 点击「知识库」→「新建」
- 命名后选择
dmeta-embedding-zh作为嵌入模型
-
文档导入技巧
- 支持格式:PDF/Word/Markdown/HTML/TXT
- 批量上传建议不超过50个文件
- 网页抓取需完整URL(支持https)
-
向量化处理
上传后自动启动解析,进度条显示绿色即完成。常见处理速度:- 文本文件:约100页/分钟
- PDF扫描件:依赖OCR识别速度
五、智能问答测试
-
基础对话测试
# 示例问题 "请解释RAG技术的工作原理" -
知识库检索验证
# 基于上传文档提问 "我们公司2023年的研发投入占比是多少?" -
混合问答模式
"结合行业趋势分析,我们的产品路线图需要哪些调整?"
六、高级配置技巧
-
性能优化方案
# 调整Ollama运行参数 OLLAMA_NUM_GPU=2 ollama serve -
多知识库协同
- 创建
技术文档、市场情报等分类库 - 通过
@知识库名称指定检索源
- 创建
-
API集成开发
import requests response = requests.post( "http://localhost:11434/v1/chat/completions", json={ "model": "deepseek-r1", "messages": [{"role": "user", "content": "问题内容"}] } )
七、常见问题排查
| 现象 | 解决方案 |
|---|---|
| 模型加载失败 | 检查显存占用,尝试较小模型 |
| 知识库检索无结果 | 确认dmeta模型设为嵌入模式 |
| 响应速度慢 | 调整Ollama的num_ctx参数 |
| 中文乱码 | 安装中文字体包并重启服务 |
结语
本方案在Intel i7-12700H + RTX 4070设备上实测,可流畅处理200页以内的技术文档问答。通过本地化部署既保障了数据安全,又充分发挥了DeepSeek模型的逻辑推理能力。建议企业用户可将此方案部署在内网服务器,配合NAS实现团队级知识管理。
技术演进路线:
- 短期:接入本地搜索引擎实现混合检索
- 中期:训练行业专属LoRA适配器
- 长期:构建自动化知识图谱系统
欢迎在评论区交流部署经验,共同推进中文LLM的落地应用!