AI 最佳实战:最简单、最强大的 DeepSeek R1 本地部署及配置建议指南

583 阅读9分钟

AI 最佳实战:最简单、最强大的 DeepSeek R1 本地部署及配置建议指南

2025 年云原生运维实战文档 X 篇原创计划 第 03 篇 |AI 最佳实战「2025」系列 第 01 篇

你好,我是术哥,欢迎来到运维有术

只会用 Ollama 本地运行 DeepSeek R1 等大模型?本文介绍一款简单、强大的本地运行各种 LLM 的工具,LM Studio。

本文福利:适用于Ollama 和 LM Studio 的离线安装包及 DeepSeek R1 的1.5B、7B、14B、32B 模型文件。

获取地址:https://pan.quark.cn/s/020bd232d0af
提取码:W7KG

1. LM Studio 是什么?

LM Studio 是一款桌面应用程序,用于在个人计算机本地开发和试验 LLM。

主要功能如下:

  • 用于运行本地 LLM 的桌面应用程序
  • 类似 ChatGPT 的聊天界面
  • 通过 Hugging Face,搜索和下载 LLM 模型
  • 可以本地创建兼容 OpenAI 接口的本地服务器
  • 用于管理本地 LLM 模型和配置

使用 LM Studio,您可以...

  • 以完全离线的模式,在笔记本和台式电脑上运行 LLM

  • 与您的本地文档聊天(0.3 中的新功能)

  • 通过应用内聊天 UI 或兼容 OpenAI 的 API 在本地服务器使用模型

  • 从 Hugging Face 🤗 下载任何兼容的模型文件和存储库

  • 在应用程序的发现页面中发现新的和值得注意的 LLM

LM Studio 支持任何在 Hugging Face上 GGUF格式的 DeepSeek-R1、Qwen、 Llama、Mistral、Phi、Gemma、StarCoder 等模型。

硬件最低要求: M1/M2/M3/M4 Mac,或具有支持 AVX2 的处理器的 Windows / Linux PC。

2. 安装 LM Studio

本文以 Windows 系统为例演示 LM Studio 的安装和使用。

2.1 下载 LM Studio

首先需要下载安装 LM Studio,点击链接https://lmstudio.ai/进入到 LM Studio官网。

根据自己的操作系统类型,点击下载即可。

LM-Studio-Home

2.2 安装

Windows 版本的安装包 455MB,不算很大,下载比较快,下载到本地目录后,双击进行安装。

lmstudio-install-1

根据磁盘空间大小,选择安装路径。

lmstudio-install-2

等待安装完成。

lmstudio-install-3

安装完成后点击「完成」,并勾选「运行 LM Studio」。

lmstudio-install-4

LM Studio 运行后,内容如下,点击右上角的「Skip onboarding」,进入默认对话页面。

lmstudio-install-home

3. 设置 LM Studio

在正式体验 LM Studio 之前,我们需要下载本地 DeepSeek R1 模型。

点击 LM Studio 左侧的放大镜图标,在 Model Search 功能菜单,打开默认的模型列表。

lmstudio-hf-config-2

在搜索栏搜索 DeepSeek。此时,会发现可用模型很少,右侧显示 No result found

lmstudio-hf-config-1

这是因为,LM Studio 默认从 Hugging Face 下载 LLM 模型文件,受限于网络原因大多数人无法正常访问 Hugging Face。因此,为了提高访问成功率和访问速度,我们需要替换 Hugging Face 为国内镜像站 https://hf-mirror.com/

关闭 LM Studio,使用 vscode 或是其他高级文本编辑器,打开 LM Studio 安装目录,本文使用 d:\Program Files\LM Studio,请根据实际情况替换。

lmstudio-hf-config-3

搜索 huggingface.co 替换为 hf-mirror.com

lmstudio-hf-config-4

点击批量替换图标,完成批量替换。

lmstudio-hf-config-5

按提示,点击「替换」按钮。(涉及 3个 js 文件)

lmstudio-hf-config-6

完成替换后,搜索结果中内容为空。

lmstudio-hf-config-7

打开 LM Studio,进入模型搜索菜单,再次搜索 DeepSeek R1。此时,会发现很多可用的模型并显示详细信息。

lmstudio-hf-config-8

4. 下载模型

接下来,我们介绍如何下载DeepSeek R1本地模型。

在下载模型之前,建议设置本地模型的存储路径,windows 系统下模型的默认存储路径在系统目录的 c:\Users\当前用户\.lmstudio\models。由于模型文件比较大,建议存放到非系统目录。

lmstudio-model-config-1

点击模型目录管理的「Change」按钮。

lmstudio-model-config-2

选择更改后的目录,本文使用d:\lmstudio\models(需要提前创建),点击「选择文件夹」。

lmstudio-model-config-3

正确修改后的结果如下:

lmstudio-model-config-4

接下来回到模型管理,搜索DeepSeek R1,在返回的结果中选择DeepSeek R1 Distill (Qwen 7B),点击「Download」。

lmstudio-model-download-1

点击「Download」后,会弹出下载任务管理窗口,显示下载进度。

lmstudio-model-download-7b

如果你机器有16G以上显存的显卡,可以使用14B的模型。

lmstudio-model-download-14b

可以点击模型信息的下拉列表,查看模型详情,LM Studio 会自动根据机器配置,判断此模型是否适配。

lmstudio-model-download-14b-1

以14B为例,我的电脑运行Q4和 Q3的模型,适配图标均是绿色,并且在 Q4 的模型上有个大拇指的图标,说明 14B Q4的更适合。

lmstudio-model-download-14b-2

5. 本地运行 DeepSeek R1 模型

接下来我们进行一个简单的对话,测试。

我们用最近比较有意思的一个问题进行测试,据说目前为止这个测试只有 DeepSeek R1 回答正确,其他的各种模型都回答错了。

问题:DeepSeek 这个单词中有几个字母e,我们看看本地部署的1.5B、7B、14B 模型回答的差异。

回到 Chats 功能菜单,选择需要加载模型并进行设置。

lmstudio-qa-1

根据设置模型,也可以直接勾选 Remember settings,点击「Load Model」加载模型。

lmstudio-qa-config

加载后进入对话窗口,在对话框输入问题。

lmstudio-qa-2

接下来我们看一下不同尺寸的模型对于该问题的思考和回答结果。

1.5B

  • 思考过程

lmstudio-qa-1.5b-1

  • 结果(思考过程比较混乱,但是结果居然是对的

lmstudio-qa-1.5b-2

7B

  • 第一次思考和结果

lmstudio-qa-7b

  • 反问一次

lmstudio-qa-7b-1

巴巴的自己一顿分析,最后还是错了。

lmstudio-qa-7b-2

14B

  • 思考

lmstudio-qa-14b-1

  • 结果(思考过程明显强于前两个模型,且结果也正确,证明参数越大能力越强

lmstudio-qa-14b-2

6. 本地部署配置需求清单

本地部署应该选择哪个参数量的?如何判断,需要多少多少GPU资源,是否支持量化,准确性怎么样?

6.1 参数量与适用场景

参数量 适用场景典型应用
1.5B- 移动端/嵌入式设备
- 简单文本生成(如短回复、摘要)
- 低延迟实时交互
智能客服基础版、手机端轻应用
7B- 日常对话
- 代码辅助生成
- 教育问答
个人助手、教育工具、小型开发项目
8B- 代码补全与调试
- 技术文档生成
开发者工具(如VS Code插件)、编程教学
14B- 多轮复杂对话
- 基础逻辑推理
- 长文本续写
高级客服、内容创作辅助、商业报告生成
32B- 专业领域问答(法律、医学)
- 长篇小说生成 - 复杂数据分析
企业级知识库、专业咨询系统、创意与作平台
70B- 多模态任务衔接
- 学术研究支持
- 高精度翻译
科研机构、大型企业私有化部署、跨语言服务平台
671B- 前沿AI研究
- 超复杂系统仿真
- 全领域知识融合
国家级实验室、超算中心、通用人工智能(AGI)探索

6.2 硬件配置与量化技术支持

参数量最低硬件配置(GPU)CPU模式需求量化技术支持部署成本
1.5B4GB显存(如GTX 1650)8GB 内存4- bit 量化后仅需 2GB显存极低 (个人设备可承载)
7B8GB显存(如RTX3060)16GB 内存4-bit 量化后需 4.68G 接近 5 GB 的显存
8B10GB显存(如RTX 3080)20GB 内存需 8-bit量化中低
14B24GB显存(如RTX 4090)32GB 内存需多卡并行 + 量化中等
32B多卡(如2×A5000,48GB显存)64GB内存 + 高速SSD必须量化+模型切分
70B多卡集群(如4×A100 80GB)不推荐纯 CPU模式依赖分布式推理框架极高
671B超算集群(TPU/Pod架构)不可行专用压缩算法天价(仅机构级)

6.3 性能指标与适用人群

参数量 速度准确性资源消耗适用人群
1.5B极快(毫秒级)基础任务合格极低学生、移动开发者
7B快(秒级响应)多数任务可靠个人用户、中小团队
8B中等(側重代码优化)代码场景突出中等程序员、技术极客
14B玉较慢(3-10秒)逻辑能力提升较高企业用户、内容创作者
32B慢(需缓存优化)专业领域增强行业专家、研究机构
70B极慢(批处理优先)接近商用模型极高大型企业、科研团队
671B玉非实时(小时级)突破性能力极限资源国家级实验室、科技巨头

个人选型建议:

  • 最优是32B可以胜任各种任务(4bit 量化后需要 20G 显存,或是16G显存+CPU)
  • 最低 14B(4bit 量化后仅需10G显存,)

以上,就是我今天分享的全部内容。下一期分享的内容还没想好,敬请期待开盲盒

如果你喜欢本文,请分享、收藏、点赞、评论! 请持续关注 @运维有术,及时收看更多好文!

欢迎加入 「知识星球|运维有术」 ,获取更多的 KubeSphere、Kubernetes、云原生运维、自动化运维、大数据、AI 大模型、Milvus 向量库等实战技能。

免责声明:

  • 笔者水平有限,尽管经过多次验证和检查,尽力确保内容的准确性,但仍可能存在疏漏之处。敬请业界专家大佬不吝指教。
  • 本文所述内容仅通过实战环境验证测试,读者可学习、借鉴,但严禁直接用于生产环境由此引发的任何问题,作者概不负责

Get 本文实战视频

版权声明

  • 所有内容均属于原创,感谢阅读、收藏,转载请联系授权,未经授权不得转载