1.5 添加沐曦 GPU K8s 集群(可选)、
GPUStack 也支持导入 Kubernetes 集群,以纳管 K8s 集群中的 GPU 节点:
在沐曦 GPU 节点上部署 Kubernetes 集群,并确认 kubectl 可正常操作。
在 GPUStack 控制台创建一个 Kubernetes 类型的集群,厂商选择 MetaX。
参考 1.4 章节中的(1)驱动状态检查和(2)运行时目录检查,在各节点进行验证确认。、编辑
复制 GPUStack 提供的导入 Kubernetes 命令,在节点上执行注册节点。
确认节点已成功注册,GPU 状态正常,并能够采集各项指标。
编辑
编辑
- vLLM 与 SGLang 推理服务部署与运行
在 GPUStack 集群准备完成后,即可开始部署具体的推理服务。本章节以 vLLM 和 SGLang 为例,展示模型部署与试验操作流程。
请注意,在部署前需自行确认沐曦 GPU 上对应的 vLLM/SGLang 版本是否支持目标模型。
2.1 使用 vLLM 部署模型
在 GPUStack 模型库中选择目标模型,本次测试以 Qwen/Qwen3-30B-A3B-Instruct-2507 为例。
选择内置的 vLLM 后端进行模型部署。
部署完成后,可在试验场进行模型对话测试,验证模型推理是否正常。
编辑
编辑
编辑
2.2 使用 SGLang 部署模型
在 GPUStack 模型库中选择目标模型,本次测试同样使用 Qwen/Qwen3-30B-A3B-Instruct-2507。
选择内置的 SGLang 后端进行模型部署。
部署完成后,在试验场进行对话测试,确保模型运行正常。
编辑
编辑
编辑