VLLM 部署的一些细节,关于CUDA对应版本的问题
VLLM官方文档:docs.vllm.ai/en/latest/g…
VLLM Github : github.com/vllm-projec…
本文主要解决部署VLLM时遇到的CUDA版本不兼容的问题
本文使用的环境:
python:3.10.0
CUDA:11.7
Pytorch:2.2.2+cu118
vllm:0.4.1+cu118
vllm运行日志截图:
一、部署VLLM时,使用的CUDA版本的选择
VLLM官方提供的CUDA对应的版本有两个,分别是11.8和12.1。
这两个版本的含义指的是支持的CUDA最高版本:比如你要安装VLLM0.4.1+cu118这个版本时, 你本地的cuda需要低于cuda11.8,torch的cuda版本选择也是同理。在部署时只需要弄清楚这两个版本的对应关系就能完成VLLM部署了。
注意:当你本地安装了11.8时,运行vllm报错建议更换cuda11.8以下的版本。
在查看本地的CUDA版本时,请使用nvcc -V,不要使用nvidia-smi查看
安装CUDA:
1. wget http://mirrors.chukk.cc:8866/cuda/cuda_11.7.1_515.65.01_linux.run
2. chmod +x *.run
3. ./cuda_11.7.1_515.65.01_linux.run
安装完成后使用 nvcc -V 查看本地CUDA版本
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Jun__8_16:49:14_PDT_2022
Cuda compilation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler.31442593_0
如果使用nvcc -V 命令后发现本地CUDA版本未改变,请注意这时候需要使用shell脚本来切换CUDA
更换CUDA的脚本:qiyuan-z.github.io/2022/01/04/…
二、安装VLLM依赖
pip install vllm-0.4.1+cu118-cp310-cp310-manylinux1_x86_64.whl --trusted-host mirrors.chukk.cc --index-url http://mirrors.chukk.cc:7104/xinglin/devpi/+simple/
如果需要更换pytorch版本的话请注意查看torch对应的cuda版本应与vllm的cuda版本一致
三、启动脚本
python -m vllm.entrypoints.openai.api_server \
--model /mnt/models/models/Meta-Llama-3-70B-Instruct \
--gpu-memory-utilization 0.7 \
--tensor-parallel-size 6
model:就是模型的路径 --gpu-memory-utilization:就是gpu显存使用率 --tensor-parallel-size:推理并行卡数