分布式训练

分布式训练

分布式训练

分布式训练方面内容

暂无订阅共2篇文章创建于2024-08-21

基于DistributedDataParallel (DDP)的单机多卡数据并行(torchrun启动)

上次我们了解了DDP的原理和multiprocessing启动的数据并行，这次我们介绍用更流行的torchrun方式启动数据并行。可以简单的理解为torchrun是mp方式的进一步的封装。

1年前
602
3
评论

基于DistributedDataParallel (DDP)的单机多卡数据并行(torchrun启动)

基于DistributedDataParallel (DDP)的单机多卡数据并行(multiprocessing启动)

这次我们一起学习下分布式的基础内容——基于Distributed Data Parallel (DDP)的单机多卡数据并行，包括其核心的Ring-All-Reduce通信模式原理、例子和详细代码实现。

1年前
559
5
评论

基于DistributedDataParallel (DDP)的单机多卡数据并行(multiprocessing启动)