3. 官方与自定义推理镜像接入
GPUStack 支持接入官方及自定义推理镜像,以满足不同版本的 vLLM 和 SGLang 后端部署需求。
以下示例展示如何在沐曦 GPU 上接入官方镜像并部署自定义版本模型。
3.1 自定义 vLLM 后端部署
- 在 GPUStack 控制台中进入 推理后端 → vLLM,编辑后端并添加新版本,使用沐曦官方 vLLM 镜像
编辑
-
在 ModelScope 中使用自定义 vLLM 后端版本 0.15.0-custom 部署模型,本次测试选择 Qwen/Qwen3-30B-A3B-Instruct-2507。
-
部署完成后,可在试验场进行模型对话测试,确认推理服务正常运行。
编辑编辑编辑
编辑
编辑