DeepSeek近期广受关注,我自己实测了一下,效果确实与ChatGPT 4.0差不多,甚至有过之而无不及,我之前也分享过在本地部署过Chat-GLM-6B、LLaMA 3 等大模型,忍不住想部署一下它的蒸馏模型,我有一台搭载20系8GB显存英伟达显卡的Linux机器,可以直接尝试本地安装DeepSeek7B/8B模型,今天就分享一下部署过程。
Ollama
Ollama官网地址:
ollama.com/
Ollama 是一个开源实用工具,专为在本地环境下运行、管理和部署大型语言模型(LLMs,Large Language Models)而设计。它让 LLMs 的安装、设置和使用变得更加简单,支持多种流行的开源模型,比如 LLaMA、Mistral 和 DeepSeek 等,非常适合开发者和研究人员在本地快速进行各种实验和开发项目。
下载安装 Ollama:
在命令行输入以下命令安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
验证一下:
接下来根据自己的机器配置安装相应的 DeepSeek 量化蒸馏版本
在 Ollama 资料库地址找到相应的版本:
我试了一下7b和8b
ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b
两个蒸馏模型的磁盘占用都在 4GB 多,下载速度非常快,回答输出的速度也比API快一些
显存占用大概在 6GB 左右
测试完成后,由于这台机器在本地我还需要将 Ollama 接口服务穿透到外网,为此需要设置环境变量,把项目启动的监听地址从127.0.0.1 修改为0.0.0.0,并编辑 Ollama 的自动启动服务配置文件:
sudo vi /etc/systemd/system/ollama.service
在[Service]模块添加以下内容::
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
完整内容如下:
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/root/anaconda3/bin:/root/anaconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/usr/local/cuda-12.2/bin"
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
[Install]
WantedBy=default.target
修改完成后保存,并重启相关服务:
systemctl daemon-reload
systemctl restart ollama
验证监听是否正常:
systemctl status ollama
webUI
市面上有很多成熟的 WebUI 工具,我使用的是 lobe-chat,它是一个开源的聊天 WebUI 网站,功能强大且稳定,更新及时,之前文章我也介绍过它。
现在用它接入Ollama,lobe-chat 开源地址:
本地私有化部署文档:
我这里使用docker-compose部署,研究了一下官网文档修改了一下,docker-compose.yaml 文件内容:
version: '3.8'
services:
lobe-chat:
ports:
- 3210:3210
environment:
- ENABLED_OPENAI=0
- ACCESS_CODE=*******
- OLLAMA_PROXY_URL=http://***.***.***.***:11434
- OLLAMA_MODEL_LIST=deepseek-r1:7b,deepseek-r1:8b
- DEFAULT_AGENT_CONFIG='model=deepseek-r1:7b,deepseek-r1:8b;provider=ollama'
container_name: lobe-chat
image: lobehub/lobe-chat
OLLAMA_PROXY_URL是穿透到公网IP过后的IP地址
使用 docker-compose up -d 启动后,无需再次设置 Ollama。先输入任意内容,系统会提示输入管理员密码(即 ACCESS_CODE),然后切换到 DeepSeek 模型即可。来看一下最终效果:
最后
可以看到简单的问题都无法难倒 DeepSeek 的 7B/8B 模型,即使我用了弱智吧经典难题,量化蒸馏的版本也具备一定的深度思考能力,不过需要注意的是,这些本地部署模型没有联网功能。
最后,我分享一下自己搭建的 DeepSeek 模型:lobe.tuwei.space/chat 密码:pythontest