vLLM 跨机分布式部署
主节点配置
- 在 GPUStack 部署页面,展开部署菜单,选择 ModelScope
编辑
-
搜索并选择模型:
Eco-Tech/Qwen3.5-397B-A17B-w8a8-mtp -
初始配置时,先将副本数调整为 0
编辑
- 将推理后端设置为 vLLM,并将版本指定为我们在前面步骤中添加的
0.18.0rc1
编辑
- 将调度方式修改为“手动”,并勾选主节点(Node 1)对应的所有 NPU 卡
编辑
- 进入详细参数配置页面
编辑
从节点配置
-
直接克隆已配置好的主节点模型
编辑编辑
-
将调度选项中,勾选从节点(Node 2)对应的所有 NPU 卡
编辑
- 调整从节点的高级参数,与主节点相比差异如下- --api-server-count=2
- --data-parallel-start-rank=1
- --headless
- 调整从节点的环境变量,与主节点相比差异如下:- HCCL_IF_IP=192.168.13.33
- HCCL_IF_IP=192.168.13.34
启动并测试模型
至此,跨机 DP 的相关参数已全部配置完毕。您可以将主节点与从节点的副本数从 0 恢复为 1,以启动模型实例。启动的先后顺序没有严格限制,短时间内依次启动即可。
等待主节点模型成功启动并处于 Running 状态后,即可在试验场发起对话测试。
注意:从节点会一直处于 Staring 状态,这是正常的。
编辑