Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B(下）

咕噜服务器小米

2026-04-22 0 阅读1分钟

vLLM 跨机分布式部署

主节点配置

在 GPUStack 部署页面，展开部署菜单，选择 ModelScope

编辑

搜索并选择模型：Eco-Tech/Qwen3.5-397B-A17B-w8a8-mtp
初始配置时，先将副本数调整为 0

编辑

将推理后端设置为 vLLM，并将版本指定为我们在前面步骤中添加的 0.18.0rc1

编辑

将调度方式修改为“手动”，并勾选主节点（Node 1）对应的所有 NPU 卡

编辑

进入详细参数配置页面

编辑

从节点配置

直接克隆已配置好的主节点模型编辑编辑
将调度选项中，勾选从节点（Node 2）对应的所有 NPU 卡

编辑

调整从节点的高级参数，与主节点相比差异如下- --api-server-count=2

--data-parallel-start-rank=1
--headless

调整从节点的环境变量，与主节点相比差异如下：- HCCL_IF_IP=192.168.13.33

HCCL_IF_IP=192.168.13.34

启动并测试模型

至此，跨机 DP 的相关参数已全部配置完毕。您可以将主节点与从节点的副本数从 0 恢复为 1，以启动模型实例。启动的先后顺序没有严格限制，短时间内依次启动即可。

等待主节点模型成功启动并处于 Running 状态后，即可在试验场发起对话测试。

注意：从节点会一直处于 Staring 状态，这是正常的。

编辑