本地部署大模型+构建私有知识库+调用大模型API一、本地部署DeepSeek 1.下载安装LM Studio 下载文件后

一、本地部署DeepSeek

1.下载安装LM Studio

下载文件后双击exe文件，根据下图安装提示按步骤进行安装

[LM-Studio-0.3.9-6-x64.exe]

2.下载大模型文件

参数模型硬件要求如下，请根据本机的配置选择合适的模型
✅** DeepSeek-R1-1.5B**
**CPU: **最低 4 核（推荐 Intel/AMD 多核处理器）
**内存: **8GB+
**硬盘: **3GB+ 存储空间（模型文件约 1.5-2GB）
**显卡: **非必需（纯 CPU 推理），若 GPU 加速可选 4GB+ 显存（如 GTX 1650）
场景：低资源设备部署，如树莓派、旧款笔记本、嵌入式系统或物联网设备
✅ DeepSeek-R1-7B
**CPU: **8 核以上（推荐现代多核 CPU）
**内存: **16GB+
**硬盘: **8GB+（模型文件约 4-5GB）
**显卡: **推荐 8GB+ 显存（如 RTX 3070/4060）
场景：中小型企业本地开发测试、中等复杂度 NLP 任务，例如文本摘要、翻译、轻量级多轮对话系统
✅ DeepSeek-R1-8B
**CPU: **8 核以上（推荐现代多核 CPU）
**内存: **16GB+
**硬盘: **8GB+（模型文件约 4-5GB）
**显卡: **推荐 8GB+ 显存（如 RTX 3070/4060）
场景：需更高精度的轻量级任务（如代码生成、逻辑推理）
✅ DeepSeek-R1-14B
**CPU: **12 核以上
**内存: **32GB+
**硬盘: **15GB+
显卡: 16GB+ 显存（如 RTX 4090 或 A5000）
场景：企业级复杂任务、长文本理解与生成
✅ DeepSeek-R1-32B
CPU: 16 核以上（如 AMD Ryzen 9 或 Intel i9）
内存: 64GB+
硬盘: 30GB+
显卡: 24GB+ 显存（如 A100 40GB 或双卡 RTX 3090）
场景：高精度专业领域任务、多模态任务预处理
✅ DeepSeek-R1-70B
**CPU: **32 核以上（服务器级 CPU）
**内存: **128GB+
**硬盘: **70GB+
显卡: 多卡并行（如 2x A100 80GB 或 4x RTX 4090）
**场景：**科研机构/大型企业、高复杂度生成任务

从百度网盘下载链接: pan.baidu.com/s/1x_Hj2QiQ… 提取码: gdku

网页在线下载（也可以在该网站下载其他本地模型，下载文件的格式为gguf） 1.5B：hf-mirror.com/bartowski/D… 7B：hf-mirror.com/unsloth/Dee… 14B：hf-mirror.com/bartowski/D… 32B：hf-mirror.com/bartowski/D… 70B：hf-mirror.com/unsloth/Dee… 注：图中Q2、Q3、Q4等通常是指模型的量化级别，数字越大精度越高，一般选择Q4

3.配置本地模型

在磁盘下创建三级文件夹（如图所示，LLM→DeepSeek→1.5B），将gguf模型文件放置于第三层文件夹中注：这步很重要，如果没有按照要求设置，会导致读取不到本地模型

打开LM Studio，进入文件页面，更改模型目录

选择刚刚创建的三级文件夹中的第一级，即可看到本地模型，若仍没显示，可点击刷新按钮

4.加载本地模型

进入聊天页面，点击顶部加载模型会自动显示本地模型，选中一个模型

选择模型后需要配置模型的参数，前三个参数可根据自己的硬件调整，后面的参数按照默认设置即可，设置完成后点击“加载模型”按钮
上下文长度：
含义：模型处理文本时能够考虑的最大词元（token）数量。
调整效果：增加上下文长度可以提高模型理解长文本的能力，但会增加内存消耗和计算时间。
一般设置为2048的倍数
GPU 挂载：
含义：指定用于模型计算的GPU数量。
调整效果：增加GPU数量可以提高模型的推理速度，但需要更多的硬件资源。
CPU Thread Pool Size：
含义：指定用于模型计算的CPU线程池大小。
调整效果：增加线程池大小可以提高CPU的并行处理能力，从而提高模型的推理速度，但也会增加CPU的负载。
评估批处理大小：
含义：指定每次模型评估时处理的样本数量。
调整效果：增加批处理大小可以提高模型的推理速度，但也会增加内存消耗。
RoPE 频率基底：
含义：控制旋转位置编码（RoPE）的频率基底。
调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。
RoPE 频率缩放：
含义：控制旋转位置编码（RoPE）的频率缩放。
调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。
保持模型在内存中：
含义：是否将模型常驻内存，以加快加载速度。
调整效果：保持模型在内存中可以加快模型的加载速度，但会占用更多的内存资源。
尝试 mmap()：
含义：使用内存映射文件（mmap）技术来加载模型。
调整效果：使用mmap可以提高模型加载的速度和效率，特别是在处理大模型时。
种子：
含义：设置随机数生成器的种子值。
调整效果：设置种子值可以确保实验的可重复性，使得每次运行的结果一致。
快速注意力：
含义：启用快速注意力机制。
调整效果：快速注意力机制可以提高模型的推理速度，但可能会对模型的性能产生一定影响。
K Cache Quantization Type：
含义：指定键缓存（K Cache）的量化类型。
调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。
V Cache Quantization Type：
含义：指定值缓存（V Cache）的量化类型。
调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。
Remember settings for deepseek-r1-distill-qwen-1.5b：
含义：是否记住当前模型的设置。
调整效果：勾选此选项可以在下次加载模型时自动应用当前设置，无需重新配置。

加载成功后即可开始对话