DeepSeek 本地部署完整教程(2026 最新版)

8 阅读6分钟

作者简介:50 岁程序员,20 年开发经验,跑过多次马拉松,正在学习大模型技术并探索兼职变现。本文是"50 岁学大模型"系列第 2 篇。


为什么选择 DeepSeek?

在第 1 篇文章里,我说要学习大模型技术。很多读者问我:"50 岁了,学这个来得及吗?应该从哪入手?"

我的建议是:先动手部署一个本地模型,玩起来再说。

而 DeepSeek,是目前最适合新手的开源大模型:

1. 开源免费

  • 完全开源,可以商用

  • 不需要 API Key,随便用

  • 社区活跃,问题容易找到答案

2. 性能强悍

  • DeepSeek-V3 671B 参数,性能接近 GPT-4

  • DeepSeek-R1 推理能力突出,适合代码/数学

  • 量化版本小模型(7B/8B),普通电脑也能跑

3. 本地部署,数据隐私

  • 数据在自己电脑上,不用担心泄露

  • 不需要联网,离线也能用

  • 适合企业私有化部署(这是变现机会!)


部署方式对比

我测试了 3 种部署方式,给你一个清晰的对比:

| 方式 | 难度 | 显存要求 | 推荐指数 | 适合人群 |

|------|------|---------|---------|---------|

| Ollama | ⭐ 简单 | 8GB+ | ⭐⭐⭐⭐⭐ | 新手首选 |

| LM Studio | ⭐⭐ 中等 | 8GB+ | ⭐⭐⭐⭐ | 喜欢图形界面 |

| 原生部署 | ⭐⭐⭐⭐ 困难 | 24GB+ | ⭐⭐ | 高级玩家 |

我的推荐:Ollama,10 分钟搞定,零基础也能学会。


方式 1:Ollama 部署(10 分钟搞定)⭐推荐

环境要求

| 配置 | 最低要求 | 推荐配置 |

|------|---------|---------|

| 内存 | 8GB | 16GB+ |

| 显存 | 4GB | 8GB+ |

| 硬盘 | 10GB 可用空间 | 50GB+ |

| 系统 | Windows/Mac/Linux | - |

我的电脑: 2014 款 MacBook Pro,16GB 内存,能跑 7B/8B 模型


第 1 步:安装 Ollama

Windows/Mac:

  1. 访问官网:ollama.com

  2. 下载安装包

  3. 双击安装(一路下一步)

Linux:


curl -fsSL https://ollama.com/install.sh | sh

  
验证安装:

ollama --version

  
看到版本号就说明安装成功了。

第 2 步:下载 DeepSeek 模型

打开终端/命令行,执行:

*# 下载 DeepSeek-R1 蒸馏版(推荐新手)*

ollama run deepseek-r1:8b

*# 或者下载 DeepSeek-V3(性能更强,需要更大显存)*

ollama run deepseek-v3:8b

  
模型大小选择:

| 模型               | 大小   | 显存要求 | 适合场景   |
| ---------------- | ---- | ---- | ------ |
| deepseek-r1:1.5b | 1.5B | 2GB  | 测试/学习  |
| deepseek-r1:7b   | 7B   | 8GB  | 日常使用   |
| deepseek-r1:8b   | 8B   | 8GB  | 日常使用 ⭐ |
| deepseek-r1:14b  | 14B  | 16GB | 专业使用   |
| deepseek-r1:32b  | 32B  | 24GB | 高性能需求  |

新手建议: 先下 8B 版本,够用且流畅。  
  
下载时间: 根据网速,大概 5-30 分钟(8B 模型约 5GB)

第 3 步:启动服务

下载完成后,Ollama 会自动启动服务。  
  
验证服务:

*# 查看已下载的模型*

ollama list

*# 查看运行状态*

ollama ps

  
输出示例:

NAME ID SIZE MODIFIED

deepseek-r1:8b a1b2c3d4e5 4.7 GB 2 minutes ago

第 4 步:API 调用测试

方式 1:命令行对话

ollama run deepseek-r1:8b

  
然后直接输入问题,比如:

>>> 你好,介绍一下你自己

>>> 用 Python 写一个快速排序

>>> 1+1 等于几?

  
方式 2:API 调用(编程用)

import requests

import json

url = "http://localhost:11434/api/generate"

payload = {

"model": "deepseek-r1:8b",

"prompt": "你好,请用一句话介绍你自己",

"stream": False

}

response = requests.post(url, json=payload)

result = response.json()

print(result['response'])

  
方式 3:Web 界面(推荐)  
  
Ollama 自带简单的 Web 界面,访问:

http://localhost:11434

  
或者安装 Open WebUI(更美观):

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

  
然后访问 http://localhost:3000

方式 2:LM Studio 部署(图形界面)

如果你觉得命令行太复杂,可以用 LM Studio,纯图形界面操作。

第 1 步:下载安装

1.  访问官网:

    <https://lmstudio.ai>

<!---->

1.  下载对应系统版本

<!---->

1.  安装并启动

第 2 步:下载模型

1.  点击左侧"Search"图标

<!---->

1.  搜索"DeepSeek"

<!---->

1.  选择合适的模型(推荐 8B)

<!---->

1.  点击"Download"

第 3 步:开始对话

1.  点击左侧"Chat"图标

<!---->

1.  顶部选择已下载的模型

<!---->

1.  在对话框输入问题

<!---->

1.  点击"Send"

优点: 操作简单,可视化好  
缺点: 功能相对少,API 调用不如 Ollama 方便

常见问题

Q1:显存不够怎么办?

方案 1:使用更小的模型

ollama run deepseek-r1:1.5b *# 只要 2GB 显存*

  
方案 2:使用量化版本

ollama run deepseek-r1:8b-q4 *# 4bit 量化,显存减半*

  
方案 3:用 CPU 跑(慢但能用)

*# Ollama 会自动切换,不需要额外配置*

Q2:如何量化模型?

使用 llamma.cpp 工具:

*# 克隆仓库*

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

*# 编译*

make

*# 量化(以 8B 模型为例)*

./quantize models/deepseek-r1-8b.gguf models/deepseek-r1-8b-q4.gguf q4_0

  
量化级别选择:

| 量化    | 大小 | 精度损失 | 推荐   |
| ----- | -- | ---- | ---- |
| q4_0 | 最小 | 较大   | 显存紧张 |
| q5_0 | 中等 | 较小   | ⭐推荐  |
| q8_0 | 较大 | 很小   | 追求精度 |

Q3:API 调用示例

Python 示例(完整):

import requests

import json

class DeepSeekClient:

def __init__(self, model="deepseek-r1:8b"):

self.url = "http://localhost:11434/api/generate"

self.model = model

def chat(self, prompt, max_tokens=1024):

payload = {

"model": self.model,

"prompt": prompt,

"stream": False,

"options": {

"num_predict": max_tokens

}

}

response = requests.post(self.url, json=payload)

result = response.json()

return result.get('response', '')

*# 使用示例*

if __name__ == '__main__':

client = DeepSeekClient()

*# 问问题*

answer = client.chat("用 Python 写一个快速排序")

print(answer)

  
输出:

def quick_sort(arr):

if len(arr) <= 1:

return arr

pivot = arr[len(arr) // 2]

left = [x for x in arr if x < pivot]

middle = [x for x in arr if x == pivot]

right = [x for x in arr if x > pivot]

return quick_sort(left) + middle + quick_sort(right)

下一步

部署完成后,你可以:

1. 接入自己的应用

-   用 Python/Node.js 调用 API

<!---->

-   集成到现有系统

<!---->

-   搭建聊天机器人

2. 学习微调

-   用 LlamaFactory 微调 DeepSeek

<!---->

-   适配特定领域(医疗/法律/金融)

<!---->

-   提升专业场景表现

3. 搭建知识库(RAG)

-   用 Dify/RAGFlow 搭建企业知识库

<!---->

-   结合 DeepSeek 做智能问答

<!---->

-   这是可以变现的方向!(5k-30k/项目)

给新手的建议

1.  先跑起来再说 - 不要纠结配置,先让模型转起来

<!---->

1.  从小模型开始 - 8B 够用,别一上来就搞 70B

<!---->

1.  多动手尝试 - 报错不可怕,Google/问 AI 都能解决

<!---->

1.  记录问题 - 你遇到的问题,别人也会遇到(这是写文章的好素材!)

总结

DeepSeek 本地部署其实很简单:  


1.  安装 Ollama(5 分钟)

<!---->

1.  下载模型(10-30 分钟)

<!---->

1.  启动服务(1 分钟)

<!---->

1.  开始使用

总耗时: 不到 1 小时  
总成本: 0 元(免费开源)