在大模型推理的多机部署中,vLLM 常见的实现方式是基于 Ray 的分布式方案。不过,借助多节点参数组合(如 DP + TP),也可以在不依赖额外调度框架的情况下完成跨机协同推理。本文将以实际环境为例,介绍如何通过这种方式完成多节点部署配置。
-
拉取最新的 vllm-ascend 镜像
-
在 GPUStack 平台中,将该镜像作为 vLLM 后端添加
-
获取跨机部署所需的网络信息(提取主从节点的网卡名称与 IP 地址)
-
配置主节点
-
配置从节点
-
启动服务并进行推理测试
添加自定义后端版本
编辑
编辑
在平台中添加自定义后端时,请参考以下配置:版本名称:建议与镜像的 Tag 保持一致(例如 0.18.0rc1)镜像地址:swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-ascend:v0.18.0rc1 (GPUStack 同步的国内源镜像,原镜像:quay.io/ascend/vllm-ascend:v0.18.0rc1)支持框架:CANN入口命令:vllm serve执行命令:{{model_path}} --host {{worker_ip}} --port {{port}} --served-model-name {{model_name}}
获取跨机部署的信息
在进行跨机部署前,需要分别确认主节点和从节点的网卡信息。
主节点网络状态:
编辑
从节点网络状态:
编辑
根据实际网络环境选择任一可用网卡即可。关键要求是该网卡与其他节点处于同一网段,并且能够正常通信。