部署前准备
- 环境要求
- 操作系统:Linux/MacOS/Windows(WSL2)
- Docker:>20.10版本
- GPU支持,需要CUDA
- 验证Docker环境
docker --version
部署Xinference
1.拉取镜像
docker pull xprobe/xinference:latest
如果使用仅CPU镜像:
docker pull xprobe/xinference:latest-cpu
2.启动容器:
仅CPU模式:
docker run -d --restart=always --name=xinference \
-e XINFERENCE_MODEL_SRC=modelscope \
-v /opt/xinference:/opt/xinference \
-e XINFERENCE_HOME=/opt/xinference \
-p 9997:9997 xprobe/xinference:latest-cpu
xinference-local -H 0.0.0.0 --log-level debug
docker run -d --restart=always --name=xinference \
-e XINFERENCE_MODEL_SRC=modelscope \
-e XINFERENCE_HOME=/opt/xinference \
-v /opt/xinference:/opt/xinference \
--gpus all \
-p 9997:9997 xprobe/xinference:latest \
xinference-local -H 0.0.0.0 --log-level debug
其中 -v /opt/xinference:/opt/xinference \ 前面的文件夹为宿主机上的文件夹,后面的为容器内的,映射到宿主机的文件夹。
3.服务器有GPU,所以添加了--gpus all 结果报错:
按照nvidia的介绍进行container-toolkit的安装 docs.nvidia.com/datacenter/… 先安装dnf包管理器
yum install dnf
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
dnf install -y nvidia-container-toolkit
systemctl restart docker
再执行就正常了:
终于可以愉快地部署模型了,在部署过程中,可以
docker logs -f xinference
实时查看进度