autoDL安装ollama+deepseek-r1:1.5b+ollama多GPU部署AutoDL服务器选择根据gp

AutoDL服务器选择

根据gpu服务器显存大小，对比下方图中。目前租用3080，显存10GB,可以选择1.5b，7b，8b；为了节省gpu服务器资源，以最小模型安装1.5b；

AutoDL安装ollama

打开JupyterLab
启用学术加速网络

source /etc/network_turbo

3. 安装ollama服务‘

curl -fsSL https://ollama.com/install.sh | sh

4. 开放ollama端口

systemd 之所以被广泛使用，是因为它带来了更多的系统管理功能，支持并行服务启动、按需加载服务、日志管理等。这让 systemd 成为现代 Linux 发行版的首选。然而，某些环境（如 Docker 容器、WSL）默认并不使用 systemd，导致运行 systemctl 时出现上述错误。

由于AutoDL运行在docker虚拟环境上，所以无法使用systemctl。采用export 配置全局变量

由于AutoDL只能开放6006端口，所以我们要想在本地电脑访问到ollama接口，必须手动设置ollama端口为6006了；同时将ollama的模型保存地址也修改到autodl-tmp文件夹下

编辑/etc/profile 文件

vim /etc/profile

添加以下内容

export OLLAMA_HOST="0.0.0.0:6006"
export OLLAMA_MODELS=/root/autodl-tmp/models

输入以下命令使得配置生效

source /etc/profile

启动ollama服务

ollama serve

下载模型命令

ollama run deepseek-r1:1.5b

5.API执行

ollama模型默认会开启两个API接口供访问

http://localhost:6006/api/generate

http://localhost:6006/api/chat

由于AutoDL本身就是基于docker的虚拟环境，所以不是实体服务器物理机，因此没有独立的IP.想要访问AutoDL的6006端口，需要在本地开启一个代理

6、测试

ollama多GPU部署

租双卡3090*2

2.编辑/etc/profile 文件，添加以下内容，必须重新启动服务器

export OLLAMA_HOST="0.0.0.0:6006"
export OLLAMA_MODELS=/root/autodl-tmp/models
export CUDA_VISIBLE_DEVICES=0,1              # 这里根据实际的GPU标号进行修改
export OLLAMA_SCHED_SPREAD=1                 # 这个参数负载均衡，如果不配置会导致每个显卡负载不均衡。

3. 启动ollama服务，查询显卡负载情况，nvidia-smi