Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B(上）在大模型推理的多机部署中，vLLM

在大模型推理的多机部署中，vLLM 常见的实现方式是基于 Ray 的分布式方案。不过，借助多节点参数组合（如 DP + TP），也可以在不依赖额外调度框架的情况下完成跨机协同推理。本文将以实际环境为例，介绍如何通过这种方式完成多节点部署配置。

拉取最新的 vllm-ascend 镜像
在 GPUStack 平台中，将该镜像作为 vLLM 后端添加
获取跨机部署所需的网络信息（提取主从节点的网卡名称与 IP 地址）
配置主节点
配置从节点
启动服务并进行推理测试

添加自定义后端版本

编辑

在平台中添加自定义后端时，请参考以下配置：版本名称：建议与镜像的 Tag 保持一致（例如 0.18.0rc1）镜像地址：swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-ascend:v0.18.0rc1 (GPUStack 同步的国内源镜像，原镜像：quay.io/ascend/vllm-ascend:v0.18.0rc1)支持框架：CANN入口命令：vllm serve执行命令：{{model_path}} --host {{worker_ip}} --port {{port}} --served-model-name {{model_name}}

获取跨机部署的信息

在进行跨机部署前，需要分别确认主节点和从节点的网卡信息。

主节点网络状态：

编辑

从节点网络状态：

编辑

根据实际网络环境选择任一可用网卡即可。关键要求是该网卡与其他节点处于同一网段，并且能够正常通信。