AutoDL服务器选择
根据gpu服务器显存大小,对比下方图中。目前租用3080,显存10GB,可以选择1.5b,7b,8b;为了节省gpu服务器资源,以最小模型安装1.5b;
AutoDL安装ollama
- 打开JupyterLab
- 启用学术加速网络
source /etc/network_turbo
3. 安装ollama服务‘
curl -fsSL https://ollama.com/install.sh | sh
4. 开放ollama端口
systemd 之所以被广泛使用,是因为它带来了更多的系统管理功能,支持并行服务启动、按需加载服务、日志管理等。这让 systemd 成为现代 Linux 发行版的首选。然而,某些环境(如 Docker 容器、WSL)默认并不使用 systemd,导致运行
systemctl时出现上述错误。由于AutoDL运行在docker虚拟环境上,所以无法使用systemctl。采用export 配置全局变量
由于AutoDL只能开放6006端口,所以我们要想在本地电脑访问到ollama接口,必须手动设置ollama端口为6006了;同时将ollama的模型保存地址也修改到autodl-tmp文件夹下
- 编辑/etc/profile 文件
vim /etc/profile
- 添加以下内容
export OLLAMA_HOST="0.0.0.0:6006"
export OLLAMA_MODELS=/root/autodl-tmp/models
- 输入以下命令使得配置生效
source /etc/profile
- 启动ollama服务
ollama serve
- 下载模型命令
ollama run deepseek-r1:1.5b
5.API执行
ollama模型默认会开启两个API接口供访问
http://localhost:6006/api/generate
http://localhost:6006/api/chat
由于AutoDL本身就是基于docker的虚拟环境,所以不是实体服务器物理机,因此没有独立的IP.想要访问AutoDL的6006端口,需要在本地开启一个代理
6、测试
ollama多GPU部署
- 租双卡3090*2
2.编辑/etc/profile 文件,添加以下内容,必须重新启动服务器
export OLLAMA_HOST="0.0.0.0:6006"
export OLLAMA_MODELS=/root/autodl-tmp/models
export CUDA_VISIBLE_DEVICES=0,1 # 这里根据实际的GPU标号进行修改
export OLLAMA_SCHED_SPREAD=1 # 这个参数负载均衡,如果不配置会导致每个显卡负载不均衡。
3. 启动ollama服务,查询显卡负载情况,nvidia-smi