使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维(中)

0 阅读2分钟

 1.5 添加沐曦 GPU K8s 集群(可选)、

GPUStack 也支持导入 Kubernetes 集群,以纳管 K8s 集群中的 GPU 节点:

 在沐曦 GPU 节点上部署 Kubernetes 集群,并确认 kubectl 可正常操作。

在 GPUStack 控制台创建一个 Kubernetes 类型的集群,厂商选择 MetaX。

参考 1.4 章节中的(1)驱动状态检查和(2)运行时目录检查,在各节点进行验证确认。、​编辑

复制 GPUStack 提供的导入 Kubernetes 命令,在节点上执行注册节点。

确认节点已成功注册,GPU 状态正常,并能够采集各项指标。

​编辑

​编辑

  1. vLLM 与 SGLang 推理服务部署与运行

在 GPUStack 集群准备完成后,即可开始部署具体的推理服务。本章节以 vLLM 和 SGLang 为例,展示模型部署与试验操作流程。

请注意,在部署前需自行确认沐曦 GPU 上对应的 vLLM/SGLang 版本是否支持目标模型。

2.1 使用 vLLM 部署模型

在 GPUStack 模型库中选择目标模型,本次测试以 Qwen/Qwen3-30B-A3B-Instruct-2507 为例。

选择内置的 vLLM 后端进行模型部署。

部署完成后,可在试验场进行模型对话测试,验证模型推理是否正常。

​编辑

​编辑

​编辑

2.2 使用 SGLang 部署模型

在 GPUStack 模型库中选择目标模型,本次测试同样使用 Qwen/Qwen3-30B-A3B-Instruct-2507

选择内置的 SGLang 后端进行模型部署。

部署完成后,在试验场进行对话测试,确保模型运行正常。

​编辑

​编辑

​编辑