需要依赖 我的是5070ti 需要cuda12.8+pytorh2.9
创建conda虚拟环境,环境名称为vllm,python的版本为3.10
conda create -n vllm python=3.10
切换vllm环境
conda activate vllm
安装vllm
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
默认情况下,如果模型未指向有效的本地目录,它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型,请在运行上述命令之前设置以下内容:
export VLLM_USE_MODELSCOPE=true
pip install modelscope>=1.18.1
启动了qwen
备注:qwen3早已通过魔塔社区下载到了服务器本地
vllm serve --model /usr/local/qwen2.5/Qwen2.5-0.5B-Instruct --tensor-parallel-size 1 --gpu-memory-utilization 0.19 --max-num-batched-tokens 10
--max-model-len 50 --quantization fp8 --enforce-eager --port 8000
#查看是否成功
http://localhost:8000/v1/models