大模型显存分析

106 阅读1分钟

Collective Operations

  • Broadcast:将一个节点上的数据广播到集群内所有的节点

202402232228.png

  • Scatter: 将数据的进行切片再分发给集群内所有的节点

202402232232.png

  • Gather:可以在集群内把多个节点的数据收集到一个节点上

202402232233.png

  • Reduce:在集群内把多个节点的数据规约运算到一个主节点上,规约操作例如求和、取最大值或取最小值等

202402232230.png

  • AllReduce:其在集群内的所有节点上都执行相同的Reduce操作,可以将集群内所有节点的数据规约运算得到的结果发送到所有的节点上

202402232229.png

  • ReduceScatter:将所有的节点上的数据先规约(比如SUM求和)到1个节点上,再进行分片scatter到集群内的所有节点上

202402232231.png

  • AllGather:把多个节点的数据收集到一个主节点上(Gather),再把这个收集到的数据分发到其他节点上(broadcast),即收集集群内所有的数据到所有的节点上

202402232234.png

训练过程中的显存占用分析

202402232226.png

202402232227.png

推理过程中的显存占用分析

202408082052.png