昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署(下)

0 阅读3分钟

 多机分布式部署 DeepSeek R1 模型

名称中输入自定义的模型名称

模型路径指定为提前下载并已挂载到容器中的 DeepSeek R1 模型的绝对路径

后端中选择 Ascend MindIE

展开高级设置,配置以下后端参数:

--data-parallel-size=4

--tensor-parallel-size=8

--moe-tensor-parallel-size=1

--moe-expert-parallel-size=32

--npu-memory-fraction=0.95

​编辑

确认兼容性检查通过后,保存部署:

​编辑

GPUStack 会自动处理 MindIE 的分布式推理部署,包括设置环境变量、自动生成 config.json 和 ranktable 配置文件、启动多机 MindIE Service Daemon 服务等等,可以将鼠标移动到  Distributed Across Workers 查看多节点资源分配情况,在右侧的操作中可以查看 MindIE 主节点的启动日志,正常启动模型需要几分钟到十几分钟:

​编辑

如果启动异常但未在 MindIE 主节点的启动日志中发现报错,可以进一步排查从节点日志。方法是进入其他服务器节点的 GPUStack 容器,打开以下路径,检查对应的 MindIE 从节点日志是否存在异常:cd /var/lib/gpustack/log/serve/

如果部署顺利,MindIE 分布式推理服务会正常启动,模型能够成功运行。在 Workers 列表中,可以看到资源使用情况,其中 NPU 显存占用率约为 95% ,表明多台昇腾节点的 NPU 资源已被充分利用:

​编辑

模型部署成功并运行后,即可在 GPUStack 试验场中对其进行测试。

进入试验场 - 对话页面:若仅部署了一个模型,系统会默认选中该模型若部署了多个模型,则可在右侧模型选项,下拉手动选择 DeepSeek-R1

随后,输入提示词,即可与模型进行交互,测试模型的生成效果与推理性能:

​编辑

通过多模型对比功能,在多个窗口选中同一个模型,也能方便地进行简单的并发推理测试

​编辑

通过以上教程,我们已经成功在 GPUStack 集群上使用 Ascend MindIE 的分布式推理能力,部署运行 DeepSeek R1 671B。该教程也同样适用于其它单机昇腾服务器无法承载的超大模型,具体支持的模型列表可参考 MindIE 官方模型支持列表说明www.hiascend.com/software/mi…

与原生的 MindIE 分布式推理方案相比,GPUStack 在部署过程中简化了繁琐的手动配置步骤,降低了配置出错或遗漏的风险,使得在昇腾硬件上运行超大规模模型的过程更加高效、稳定且易于管理。GPUStack 为企业在昇腾平台上进行大规模模型推理提供了一套更加便捷可靠的 AI 基础设施,显著提升生产效率和用户体验。