Qwen3.6模型vLLM vs SGLang部署指南与性能表现(中)

0 阅读1分钟

 部署 Qwen 3.6 模型

  1. 在在线环境下,可直接通过 HuggingFace 或 ModelScope 搜索 Qwen3.6 模型并进行部署,具体步骤参考下方。

  2. 在离线环境中,需要提前下载好模型权重,并将其分发到所有 Worker 节点,同时挂载到对应的 Worker 容器中。随后,在 GPUStack 控制台 - 模型文件菜单中,选择添加模型文件 - 本地路径,填写对应的模型权重路径。需要注意,这里填写的应为容器内路径,例如:

​编辑

联网环境:在 GPUStack 控制台 - 部署菜单下,选择 部署模型 → ModelScope,直接搜索 Qwen3.6 模型进行部署。

离线环境:可从 GPUStack 控制台 - 模型文件菜单中,选择已添加的 Qwen3.6 模型进行部署。

vLLM

 后端:选择 vLLM 

版本:选择前面自定义添加的 0.19.1-custom

GPU:2 块 4090 48GB GPU

使用以下后端参数启动,后端参数支持单行或多行形式(注意 --tensor-parallel-size 2 已设置双卡张量并行,请确保有两块 GPU 可分配;其它环境请根据实际情况调整并行策略):

后端参数

--tp-size 2 --reasoning-parser qwen3 --tool-call-parser qwen3_coder --speculative-algorithm EAGLE --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4 --mamba-scheduler-strategy extra_buffer --mem-fraction-static 0.9

环境变量

SGLANG_ENABLE_SPEC_V2=1

等待模型启动时,可以在操作中点击查看日志,实时观察启动过程:

vLLM

​编辑

SGLang

​编辑

当模型实例状态显示为 Running 时,说明模型已经成功启动,可以进行后续的测试。

​编辑