VLLM安装及启动模型

193 阅读1分钟

需要依赖 我的是5070ti 需要cuda12.8+pytorh2.9

创建conda虚拟环境,环境名称为vllm,python的版本为3.10

conda create -n vllm python=3.10  

切换vllm环境

conda activate vllm

安装vllm

pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

默认情况下,如果模型未指向有效的本地目录,它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型,请在运行上述命令之前设置以下内容:

export VLLM_USE_MODELSCOPE=true
pip install modelscope>=1.18.1

启动了qwen

备注:qwen3早已通过魔塔社区下载到了服务器本地

vllm serve --model /usr/local/qwen2.5/Qwen2.5-0.5B-Instruct --tensor-parallel-size 1 --gpu-memory-utilization 0.19 --max-num-batched-tokens 10 
--max-model-len 50 --quantization fp8 --enforce-eager --port 8000

#查看是否成功

http://localhost:8000/v1/models 

生产级别。指定显卡并允许工具调用,日志输出。切勿使用kill -9杀,显卡资源释放不了,kill -15

CUDA_VISIBLE_DEVICES=0,1,4,5 vllm serve /mnt/xinference/.xinference/modelscope/hub/Qwen/Qwen3-30B-A3B/ \
  --tensor-parallel-size 2 \
  --dtype bfloat16 \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.95 \
  --max-num-seqs 256 \
  --enable-auto-tool-choice \ 
  --tool-call-parser qwen3_coder \ # 如 deepseek_v32、hermes 等,依模型而定 
  --enable-expert-parallel \
  --port 8011 \
  --enforce-eager \
  --served-model-name Qwen3-30B-A3B