分布式训练推理 - 小蹩脚的收藏集 - 掘金

分布式训练推理

更多收藏集

1篇文章 · 0订阅

图解大模型训练之：数据并行下篇( DeepSpeed ZeRO，零冗余优化)

在上篇介绍中，通讯负载不均的优化我们解释过了，但还遗留了一个显存开销问题：数据并行中，每个GPU上都复制了一份完整模型，当模型变大时，很容易打爆GPU的显存，那要怎么办呢？

猛猿
1年前
1.1k
点赞
评论

图解大模型训练之：数据并行下篇( DeepSpeed ZeRO，零冗余优化)