VLLM安装及启动模型需要依赖我的是5070ti 需要cuda12.8+pytorh2.9 创建conda虚拟环境,环

需要依赖我的是5070ti 需要cuda12.8+pytorh2.9

创建conda虚拟环境,环境名称为vllm,python的版本为3.10

conda create -n vllm python=3.10

切换vllm环境

conda activate vllm

安装vllm

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

默认情况下，如果模型未指向有效的本地目录，它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型，请在运行上述命令之前设置以下内容：

export VLLM_USE_MODELSCOPE=true
pip install modelscope>=1.18.1

启动了qwen

备注：qwen3早已通过魔塔社区下载到了服务器本地

vllm serve --model /usr/local/qwen2.5/Qwen2.5-0.5B-Instruct --tensor-parallel-size 1 --gpu-memory-utilization 0.19 --max-num-batched-tokens 10 
--max-model-len 50 --quantization fp8 --enforce-eager --port 8000

#查看是否成功

http://localhost:8000/v1/models