TensorFlow分布式随记

176 阅读1分钟

怎样进行分布式

TensorFlow服务器分为:

  • 参数服务器(parameter server 可以有多台),更新参数,保存参数。
  • 工作服务器(worker),主要功能就是计算(创建会话,运行会话,创建文件,计算),默认在所有worker当中指定一个老大。

分布式更新参数的模式:协调存储,更新参数

  • 同步模式更新(每台计算节点的计算速度可能不一样,等待全部节点计算结束再更新参数)
  • 异步模式更新
    worker1:计算变化值1,w' = w - 变化值1
    worker2:计算变化值2,w'' = w - 变化值2
    w_ = worder1和worker2的平均值 (上图中的P操作)