本地部署大模型+构建私有知识库+调用大模型API

354 阅读9分钟

一、本地部署DeepSeek

1.下载安装LM Studio

下载文件后双击exe文件,根据下图安装提示按步骤进行安装

[LM-Studio-0.3.9-6-x64.exe]

2.下载大模型文件

参数模型硬件要求如下,请根据本机的配置选择合适的模型
** DeepSeek-R1-1.5B**
**CPU: **最低 4 核(推荐 Intel/AMD 多核处理器)
**内存: **8GB+
**硬盘: **3GB+ 存储空间(模型文件约 1.5-2GB)
**显卡: **非必需(纯 CPU 推理),若 GPU 加速可选 4GB+ 显存(如 GTX 1650)
场景:低资源设备部署,如树莓派、旧款笔记本、嵌入式系统或物联网设备
DeepSeek-R1-7B

**CPU: **8 核以上(推荐现代多核 CPU)
**内存: **16GB+
**硬盘: **8GB+(模型文件约 4-5GB)
**显卡: **推荐 8GB+ 显存(如 RTX 3070/4060)
场景:中小型企业本地开发测试、中等复杂度 NLP 任务,例如文本摘要、翻译、轻量级多轮对话系统
DeepSeek-R1-8B

**CPU: **8 核以上(推荐现代多核 CPU)
**内存: **16GB+
**硬盘: **8GB+(模型文件约 4-5GB)
**显卡: **推荐 8GB+ 显存(如 RTX 3070/4060)
场景:需更高精度的轻量级任务(如代码生成、逻辑推理)
DeepSeek-R1-14B

**CPU: **12 核以上
**内存: **32GB+
**硬盘: **15GB+
显卡: 16GB+ 显存(如 RTX 4090 或 A5000)
场景:企业级复杂任务、长文本理解与生成
DeepSeek-R1-32B

CPU: 16 核以上(如 AMD Ryzen 9 或 Intel i9)
内存: 64GB+
硬盘: 30GB+
显卡: 24GB+ 显存(如 A100 40GB 或双卡 RTX 3090)
场景:高精度专业领域任务、多模态任务预处理
DeepSeek-R1-70B

**CPU: **32 核以上(服务器级 CPU)
**内存: **128GB+
**硬盘: **70GB+
显卡: 多卡并行(如 2x A100 80GB 或 4x RTX 4090)
**场景:**科研机构/大型企业、高复杂度生成任务
从百度网盘下载
链接: pan.baidu.com/s/1x_Hj2QiQ… 提取码: gdku
网页在线下载(也可以在该网站下载其他本地模型,下载文件的格式为gguf)
1.5B:hf-mirror.com/bartowski/D…
7B:hf-mirror.com/unsloth/Dee…
14B:hf-mirror.com/bartowski/D…
32B:hf-mirror.com/bartowski/D…
70B:hf-mirror.com/unsloth/Dee…
注:图中Q2、Q3、Q4等通常是指模型的量化级别,数字越大精度越高,一般选择Q4

3.配置本地模型

在磁盘下创建三级文件夹(如图所示,LLM→DeepSeek→1.5B),将gguf模型文件放置于第三层文件夹中注:这步很重要,如果没有按照要求设置,会导致读取不到本地模型

打开LM Studio,进入文件页面,更改模型目录

选择刚刚创建的三级文件夹中的第一级,即可看到本地模型,若仍没显示,可点击刷新按钮

4.加载本地模型

进入聊天页面,点击顶部加载模型会自动显示本地模型,选中一个模型

选择模型后需要配置模型的参数,前三个参数可根据自己的硬件调整,后面的参数按照默认设置即可,设置完成后点击“加载模型”按钮
上下文长度
含义:模型处理文本时能够考虑的最大词元(token)数量。
调整效果:增加上下文长度可以提高模型理解长文本的能力,但会增加内存消耗和计算时间。
一般设置为2048的倍数
GPU 挂载
含义:指定用于模型计算的GPU数量。
调整效果:增加GPU数量可以提高模型的推理速度,但需要更多的硬件资源。
CPU Thread Pool Size
含义:指定用于模型计算的CPU线程池大小。
调整效果:增加线程池大小可以提高CPU的并行处理能力,从而提高模型的推理速度,但也会增加CPU的负载。
评估批处理大小
含义:指定每次模型评估时处理的样本数量。
调整效果:增加批处理大小可以提高模型的推理速度,但也会增加内存消耗。
RoPE 频率基底
含义:控制旋转位置编码(RoPE)的频率基底。
调整效果:影响模型对位置信息的处理方式,可以优化模型在某些任务上的性能。
RoPE 频率缩放
含义:控制旋转位置编码(RoPE)的频率缩放。
调整效果:影响模型对位置信息的处理方式,可以优化模型在某些任务上的性能。
保持模型在内存中
含义:是否将模型常驻内存,以加快加载速度。
调整效果:保持模型在内存中可以加快模型的加载速度,但会占用更多的内存资源。
尝试 mmap()
含义:使用内存映射文件(mmap)技术来加载模型。
调整效果:使用mmap可以提高模型加载的速度和效率,特别是在处理大模型时。
种子
含义:设置随机数生成器的种子值。
调整效果:设置种子值可以确保实验的可重复性,使得每次运行的结果一致。
快速注意力
含义:启用快速注意力机制。
调整效果:快速注意力机制可以提高模型的推理速度,但可能会对模型的性能产生一定影响。
K Cache Quantization Type
含义:指定键缓存(K Cache)的量化类型。
调整效果:量化可以减少模型的内存占用和计算量,但可能会对模型的性能产生一定影响。
V Cache Quantization Type
含义:指定值缓存(V Cache)的量化类型。
调整效果:量化可以减少模型的内存占用和计算量,但可能会对模型的性能产生一定影响。
Remember settings for deepseek-r1-distill-qwen-1.5b
含义:是否记住当前模型的设置。
调整效果:勾选此选项可以在下次加载模型时自动应用当前设置,无需重新配置。

加载成功后即可开始对话

5.关闭软件联网保护隐私

本步骤非必须,如果想更好的保护隐私不被泄露,可遵循下述步骤将软件断网

进入高级安全Windowsdefender防护墙

选择入站规则-新建规则

选择程序-下一步-选择路径

选择安装lmstudio的路径中名字叫LM Studio.exe文件

阻止连接

输入这条规则的名称,点击完成即可

再次新建禁止联网规则,分别添加另外两个文件

LM Studio所在目录\resources\elevate.exe
C:\Users\Administrator.lmstudio\bin\lms.exe

[阻止ele.wmv]

[禁止lms.wmv]

在出站规则中也将以上三个文件设置禁止联网,步骤同上

二、构建私有知识库

1.下载安装AnyThingLLM

[AnythingLLMDesktop.exe]

按步骤安装

安装成功后打开软件,跳过前面的引导页,都按默认选择

创建一个工作区

2.切换到LM Studio,打开本地服务

[切换到LMStudio打开本地服务.wmv]

进入开发者页面

选择要加载的模型(见第一部分第4节)

开启本地服务

3.配置anythingllm

[配置anythingllm并构建本地知识库.wmv]

回到anythingllm软件,点击设置按钮

进入聊天设置,切换LLM供应商

找到LMstudio

要记得点击update进行保存

在代理配置中也选上LM Studio(注意要点击configure进行保存)

返回对话页,这样就建立了与LMstudio的本地连接

4.构建本地知识库

本地知识库:使用lmstudio上的本地模型创建的知识库
若不放心安全问题,在配置完成后,可参照一.5关闭anythingLLM联网

点击上传按钮

上传本地文件

将上传的文件移入工作区

5.构建在线知识库

在线知识库:通过API调用在线大模型,再创建知识库

新建工作区,进入设置,选择其他LLM提供商,以deep seek为例

输入APIkey(如何获取APIkey可参考第三部分第一节)

设置apikey成功后,再根据构建本地知识库的步骤上传文件即可

三、调用大模型API(以DeepSeek为例)

1.申请DeepSeekAPI

进入www.deepseek.com/,点击右上角“API开放平台”,开始注册登录

进入左侧“API keys”页面,点击“创建API key”,输入名称

创建后会自动生成key(它是一种用于身份验证的密钥,允许用户通过API访问特定的服务或数据。它就像一把钥匙,确保只有授权的用户才能使用服务,同时帮助控制访问频率和权限),请将这个key保存好,因为关闭后无法再次查看

2.聊天

2.1.安装Chatbox

也可以用刚刚下载的AnythingLLM实现,但个人认为单纯用作聊天的话,Chatbox的体验更佳!

[Chatbox-1.9.7-Setup.exe]

根据提示步骤安装chatbox

2.2.设置API

打开软件后,选择“使用自己的API Key”或本地模型

在选择AI模型提供方界面找到deep seekAPI

填入刚刚在deep seek创建的APIkey

然后选择模型,默认的是普通的chat聊天模型,想要带推理的选择reasoner(但是这个模型最近太火爆了,经常无响应)

然后就可以在聊天界面对话了

3.编程

3.1.下载continue插件

3.2.设置API

点击connect后还会出现一个小的输入框,再次输入APIkey即可。

3.3.cursor / windsurf

[CursorUserSetup-x64-0.46.8.exe]

[WindsurfUserSetup-x64-1.3.11.exe]

四、相关资料

【华西证券】计算机行业深度:Deepseek,国产AI应用的“诺曼底时刻”.pdf

2025年DeepSeek如何赋能职场应用?——从提示语技巧到多场景应用-中央民族大学&清华大学.pdf

2025普通人如何抓住DeepSeek红利-清华大学.pdf

DeepSeek-DeepSeek_V3技术报告.pdf

清华大学——DeepSeek从入门到精通.pdf

厦大团队:大模型概念、技术与应用实践(140页PPT读懂大模型).pptx

2025年DeepSeek 7大场景+50大案例+全套提示词 从入门到精通干货.pdf