使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维(中)

0 阅读1分钟

 3. 官方与自定义推理镜像接入

GPUStack 支持接入官方及自定义推理镜像,以满足不同版本的 vLLM 和 SGLang 后端部署需求。

以下示例展示如何在沐曦 GPU 上接入官方镜像并部署自定义版本模型。

3.1 自定义 vLLM 后端部署

  1. 在 GPUStack 控制台中进入 推理后端 → vLLM,编辑后端并添加新版本,使用沐曦官方 vLLM 镜像

​编辑

  1. 在 ModelScope 中使用自定义 vLLM 后端版本 0.15.0-custom 部署模型,本次测试选择 Qwen/Qwen3-30B-A3B-Instruct-2507

  2. 部署完成后,可在试验场进行模型对话测试,确认推理服务正常运行。​编辑​编辑​编辑

​编辑

​编辑