Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B(下)

0 阅读1分钟

 vLLM 跨机分布式部署

主节点配置

  1. 在 GPUStack 部署页面,展开部署菜单,选择 ModelScope

​编辑

  1. 搜索并选择模型:Eco-Tech/Qwen3.5-397B-A17B-w8a8-mtp

  2. 初始配置时,先将副本数调整为 0

​编辑

  1. 将推理后端设置为 vLLM,并将版本指定为我们在前面步骤中添加的 0.18.0rc1

​编辑

  1. 将调度方式修改为“手动”,并勾选主节点(Node 1)对应的所有 NPU 卡

​编辑

  1. 进入详细参数配置页面

​编辑

从节点配置

  1. 直接克隆已配置好的主节点模型​​​​​​​​编辑​编辑

  2. 将调度选项中,勾选从节点(Node 2)对应的所有 NPU 卡

​编辑

  1. 调整从节点的高级参数,与主节点相比差异如下- --api-server-count=2
  • --data-parallel-start-rank=1
  • --headless
  1. 调整从节点的环境变量,与主节点相比差异如下:- HCCL_IF_IP=192.168.13.33
  • HCCL_IF_IP=192.168.13.34

启动并测试模型

至此,跨机 DP 的相关参数已全部配置完毕。您可以将主节点与从节点的副本数从 0 恢复为 1,以启动模型实例。启动的先后顺序没有严格限制,短时间内依次启动即可。

等待主节点模型成功启动并处于 Running 状态后,即可在试验场发起对话测试。

注意:从节点会一直处于 Staring 状态,这是正常的。

​编辑