使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维（中） 3. 官方与自定义推理镜像

3. 官方与自定义推理镜像接入

GPUStack 支持接入官方及自定义推理镜像，以满足不同版本的 vLLM 和 SGLang 后端部署需求。

以下示例展示如何在沐曦 GPU 上接入官方镜像并部署自定义版本模型。

3.1 自定义 vLLM 后端部署

编辑

在 ModelScope 中使用自定义 vLLM 后端版本 0.15.0-custom 部署模型，本次测试选择 Qwen/Qwen3-30B-A3B-Instruct-2507。
部署完成后，可在试验场进行模型对话测试，确认推理服务正常运行。编辑编辑编辑

编辑