PyTorch简介 PyTorch 分为 torch.nn.parallel.DataParallel (DP) 和 t

简介

PyTorch 分为 torch.nn.parallel.DataParallel (DP) 和 torch.nn.parallel.DistributedDataParallel (DDP)。

DP是单进程多线程的，只能在单机上工作；DDP是多进程的，可以在多级多卡上工作。DP通常比DDP慢，主要原因有：
1. DP是单进程的，受到GIL的限制；
2. DP每个step都需要拷贝模型，以及划分数据和收集输出；
DDP可以与模型并行相结合；
DP的通信成本随着卡数线性增长，DDP支持Ring-AllReduce，通信成本是固定的。

DP是较简单的一种数据并行方式，直接将模型复制到多个GPU上并行计算，每个GPU计算batch中的一部分数据，各自完成前向和反向后，将梯度汇总到主GPU上。其基本流程：
1. 加载模型、数据至内存；
2. 创建DP模型；
3. DP模型的forward过程：
  1. 一个batch的数据均分到不同device上；
  2. 为每个device复制一份模型；
  3. 至此，每个device上有模型和一份数据，并行进行前向传播；
  4. 收集各个device上的输出；
4. 每个device上的模型反向传播后，收集梯度到主device上，更新主device上的模型，将模型广播到其他device上；
5. 3-4循环。
在DP中，只有一个主进程，主进程下有多个线程，每个线程管理一个device的训练。因此，DP中内存中只存在一份数据，各个线程间是共享这份数据的。DP和Parameter Server的方式很像。