Qwen3.6模型vLLM vs SGLang部署指南与性能表现(中）添加自定义 vLLM 和 SGLang 版本

添加自定义 vLLM 和 SGLang 版本

GPUStack 支持可插拔的推理引擎架构，允许自定义推理后端及其版本，用于引入 GPUStack 未内置的 vLLM / SGLang / MindIE 版本，或接入其他自定义推理引擎镜像。

为了部署 Qwen3.6 模型，需要添加 vLLM 最新发布的 v0.19.1 和 SGLang 最新发布的 v0.5.10.post1 版本。

vLLM

在推理后端菜单，编辑 vLLM，在版本配置中选择添加版本，添加一个新的 vLLM 版本，指向 vLLM 官方镜像自定义添加 vLLM 0.19.1 配置如图所示：

编辑

SGLang

在推理后端菜单，编辑 SGLang，在版本配置中选择添加版本，添加一个新的 SGLang 版本，指向 SGLang 官方镜像自定义添加 SGLang 0.5.10.post1 配置如图所示：

编辑

也可以切换到 YAML 模式，直接使用以下的 YAML 导入（公众号复制可能存在特殊格式，可以发送给 AI 重新整理 YAML 格式）：vLLM

backend_name: vLLM
version_configs:
0.19.1-custom:
image_name: vllm/vllm-openai:v0.19.1
entrypoint: vllm serve
run_command: >-
{{model_path}} --host {{worker_ip}} --port {{port}} --served-model-name
{{model_name}}
env: {}
custom_framework: cuda

SGLang

backend_name: SGLang
version_configs:
0.5.10.post1-custom:
image_name: lmsysorg/sglang:v0.5.10.post1
entrypoint: sglang serve
run_command: '--model-path {{model_path}} --host {{worker_ip}} --port {{port}}'
env: {}
custom_framework: cuda

编辑