双卡4090 vllm启动Qwen/Qwen3-30B-A3B-FP8

924 阅读1分钟

1.下载模型和安装vllm

pip install "vllm>=0.8.5"
#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-30B-A3B-FP8', cache_dir='/root/data')

2. vLLM启动

export CUDA_VISIBLE_DEVICES=0,1

vllm serve /root/data/Qwen/Qwen3-30B-A3B-FP8 \

--host 0.0.0.0 \

--port 30000 \

--trust-remote-code \

--dtype float16 \

--block-size 32 \

--gpu-memory-utilization 0.85 \

--tensor-parallel-size 2 \

--enable-reasoning \

--reasoning-parser deepseek_r1

3.curl测试

curl查看模型 curl http://localhost:30000/v1/models

image.png

curl测试问题:

curl -X POST http://localhost:30000/v1/completions \

-H "Content-Type: application/json" \

-d '{

"model": "/root/data/Qwen/Qwen3-30B-A3B-FP8",

"prompt": "有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。\n过了一会儿,父亲突然崩溃了,这是为什么?",

"max_tokens": 2000,

"temperature": 0.85

}'

答案如下: 牛逼啊轻松回答?

image.png

显存占用情况:

image.png