Qwen3.6模型vLLM vs SGLang部署指南与性能表现(中)

0 阅读1分钟

 添加自定义 vLLM 和 SGLang 版本

GPUStack 支持可插拔的推理引擎架构,允许自定义推理后端及其版本,用于引入 GPUStack 未内置的 vLLM / SGLang / MindIE 版本,或接入其他自定义推理引擎镜像。

为了部署 Qwen3.6 模型,需要添加 vLLM 最新发布的 v0.19.1 和 SGLang 最新发布的 v0.5.10.post1 版本。

vLLM

推理后端菜单,编辑 vLLM,在版本配置中选择添加版本,添加一个新的 vLLM 版本,指向 vLLM 官方镜像自定义添加 vLLM 0.19.1 配置如图所示:

​编辑

SGLang

推理后端菜单,编辑 SGLang,在版本配置中选择添加版本,添加一个新的 SGLang 版本,指向 SGLang 官方镜像自定义添加 SGLang 0.5.10.post1 配置如图所示:

​编辑

也可以切换到 YAML 模式,直接使用以下的 YAML 导入(公众号复制可能存在特殊格式,可以发送给 AI 重新整理 YAML 格式):vLLM

backend_name: vLLM
version_configs:
0.19.1-custom:
image_name: vllm/vllm-openai:v0.19.1
entrypoint: vllm serve
run_command: >-
{{model_path}} --host {{worker_ip}} --port {{port}} --served-model-name
{{model_name}}
env: {}
custom_framework: cuda

SGLang

backend_name: SGLang
version_configs:
0.5.10.post1-custom:
image_name: lmsysorg/sglang:v0.5.10.post1
entrypoint: sglang serve
run_command: '--model-path {{model_path}} --host {{worker_ip}} --port {{port}}'
env: {}
custom_framework: cuda

​编辑