autoDL安装ollama+deepseek-r1:1.5b+ollama多GPU部署

124 阅读2分钟

AutoDL服务器选择

a243f490-3043-4258-91fb-46ec207cdc38.png

22623a3f-bfb0-41fc-8b43-2e85d8f94b38.png

根据gpu服务器显存大小,对比下方图中。目前租用3080,显存10GB,可以选择1.5b,7b,8b;为了节省gpu服务器资源,以最小模型安装1.5b;

0b24b0ed-2abf-4490-b2bb-dac8aa2f9b3a.png

AutoDL安装ollama

  1. 打开JupyterLab image.png
  2. 启用学术加速网络
source /etc/network_turbo

3. 安装ollama服务‘

curl -fsSL https://ollama.com/install.sh | sh

4. 开放ollama端口

systemd 之所以被广泛使用,是因为它带来了更多的系统管理功能,支持并行服务启动、按需加载服务、日志管理等。这让 systemd 成为现代 Linux 发行版的首选。然而,某些环境(如 Docker 容器、WSL)默认并不使用 systemd,导致运行 systemctl 时出现上述错误。

由于AutoDL运行在docker虚拟环境上,所以无法使用systemctl。采用export 配置全局变量

由于AutoDL只能开放6006端口,所以我们要想在本地电脑访问到ollama接口,必须手动设置ollama端口为6006了;同时将ollama的模型保存地址也修改到autodl-tmp文件夹下

  • 编辑/etc/profile 文件
vim /etc/profile
  • 添加以下内容
export OLLAMA_HOST="0.0.0.0:6006"
export OLLAMA_MODELS=/root/autodl-tmp/models
  • 输入以下命令使得配置生效
source /etc/profile
  • 启动ollama服务
ollama serve
  • 下载模型命令
ollama run deepseek-r1:1.5b

5.API执行

ollama模型默认会开启两个API接口供访问

http://localhost:6006/api/generate

http://localhost:6006/api/chat

由于AutoDL本身就是基于docker的虚拟环境,所以不是实体服务器物理机,因此没有独立的IP.想要访问AutoDL的6006端口,需要在本地开启一个代理

image.png

6、测试

cf5df6fd-f598-452a-b2a5-fb92ea90d754.png

ollama多GPU部署

  1. 租双卡3090*2

image.png

2.编辑/etc/profile 文件,添加以下内容,必须重新启动服务器

export OLLAMA_HOST="0.0.0.0:6006"
export OLLAMA_MODELS=/root/autodl-tmp/models
export CUDA_VISIBLE_DEVICES=0,1              # 这里根据实际的GPU标号进行修改
export OLLAMA_SCHED_SPREAD=1                 # 这个参数负载均衡,如果不配置会导致每个显卡负载不均衡。

3. 启动ollama服务,查询显卡负载情况,nvidia-smi

image.png