使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维（中） 1.5 添加沐曦 GPU

1.5 添加沐曦 GPU K8s 集群（可选）、

GPUStack 也支持导入 Kubernetes 集群，以纳管 K8s 集群中的 GPU 节点：

在沐曦 GPU 节点上部署 Kubernetes 集群，并确认 kubectl 可正常操作。

在 GPUStack 控制台创建一个 Kubernetes 类型的集群，厂商选择 MetaX。

参考 1.4 章节中的（1）驱动状态检查和（2）运行时目录检查，在各节点进行验证确认。、编辑

复制 GPUStack 提供的导入 Kubernetes 命令，在节点上执行注册节点。

确认节点已成功注册，GPU 状态正常，并能够采集各项指标。

编辑

在 GPUStack 集群准备完成后，即可开始部署具体的推理服务。本章节以 vLLM 和 SGLang 为例，展示模型部署与试验操作流程。

请注意，在部署前需自行确认沐曦 GPU 上对应的 vLLM/SGLang 版本是否支持目标模型。

2.1 使用 vLLM 部署模型

在 GPUStack 模型库中选择目标模型，本次测试以 Qwen/Qwen3-30B-A3B-Instruct-2507 为例。

选择内置的 vLLM 后端进行模型部署。

部署完成后，可在试验场进行模型对话测试，验证模型推理是否正常。

编辑

2.2 使用 SGLang 部署模型

在 GPUStack 模型库中选择目标模型，本次测试同样使用 Qwen/Qwen3-30B-A3B-Instruct-2507。

选择内置的 SGLang 后端进行模型部署。

部署完成后，在试验场进行对话测试，确保模型运行正常。

编辑