VLLM 部署的一些细节，关于CUDA对应版本的问题

VLLM官方文档：docs.vllm.ai/en/latest/g…

VLLM Github ： github.com/vllm-projec…

本文主要解决部署VLLM时遇到的CUDA版本不兼容的问题

本文使用的环境：

python：3.10.0

CUDA：11.7

Pytorch：2.2.2+cu118

vllm：0.4.1+cu118

vllm运行日志截图：

一、部署VLLM时，使用的CUDA版本的选择

VLLM官方提供的CUDA对应的版本有两个，分别是11.8和12.1。

这两个版本的含义指的是支持的CUDA最高版本：比如你要安装VLLM0.4.1+cu118这个版本时，你本地的cuda需要低于cuda11.8，torch的cuda版本选择也是同理。在部署时只需要弄清楚这两个版本的对应关系就能完成VLLM部署了。

注意：当你本地安装了11.8时，运行vllm报错建议更换cuda11.8以下的版本。

在查看本地的CUDA版本时，请使用nvcc -V，不要使用nvidia-smi查看

安装CUDA：

1. wget http://mirrors.chukk.cc:8866/cuda/cuda_11.7.1_515.65.01_linux.run
2. chmod +x *.run
3. ./cuda_11.7.1_515.65.01_linux.run

安装完成后使用 nvcc -V 查看本地CUDA版本

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Jun__8_16:49:14_PDT_2022
Cuda compilation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler.31442593_0

如果使用nvcc -V 命令后发现本地CUDA版本未改变，请注意这时候需要使用shell脚本来切换CUDA

更换CUDA的脚本：qiyuan-z.github.io/2022/01/04/…

二、安装VLLM依赖

pip install vllm-0.4.1+cu118-cp310-cp310-manylinux1_x86_64.whl --trusted-host mirrors.chukk.cc --index-url http://mirrors.chukk.cc:7104/xinglin/devpi/+simple/

如果需要更换pytorch版本的话请注意查看torch对应的cuda版本应与vllm的cuda版本一致

三、启动脚本

python -m vllm.entrypoints.openai.api_server \
--model /mnt/models/models/Meta-Llama-3-70B-Instruct \
--gpu-memory-utilization 0.7 \
--tensor-parallel-size 6

model:就是模型的路径 --gpu-memory-utilization:就是gpu显存使用率 --tensor-parallel-size：推理并行卡数

解决vllm部署时遇到的CUDA对应版本问题

VLLM 部署的一些细节，关于CUDA对应版本的问题

一、部署VLLM时，使用的CUDA版本的选择

二、安装VLLM依赖

三、启动脚本