1.下载模型和安装vllm
pip install "vllm>=0.8.5"
#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-30B-A3B-FP8', cache_dir='/root/data')
2. vLLM启动
export CUDA_VISIBLE_DEVICES=0,1
vllm serve /root/data/Qwen/Qwen3-30B-A3B-FP8 \
--host 0.0.0.0 \
--port 30000 \
--trust-remote-code \
--dtype float16 \
--block-size 32 \
--gpu-memory-utilization 0.85 \
--tensor-parallel-size 2 \
--enable-reasoning \
--reasoning-parser deepseek_r1
3.curl测试
curl查看模型 curl http://localhost:30000/v1/models
curl测试问题:
curl -X POST http://localhost:30000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "/root/data/Qwen/Qwen3-30B-A3B-FP8",
"prompt": "有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。\n过了一会儿,父亲突然崩溃了,这是为什么?",
"max_tokens": 2000,
"temperature": 0.85
}'
答案如下: 牛逼啊轻松回答?
显存占用情况: