分布式机器学习

分布式机器学习

分布式机器学习

分布式机器学习

等 28 人订阅共117篇文章创建于2021-09-07

新书出版：《分布式机器学习——系统、工程与实战》

经过一年多的努力，我的书《分布式机器学习——系统、工程与实战》终于上架了，在这里打个广告，希望大家支持。

2年前
1.3k
6
1

新书出版：《分布式机器学习——系统、工程与实战》

[源码解析] TensorFlow 分布式之 ClusterCoordinator

本文我们主要来看看ParameterServerStrategy如何分发计算，也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。

3年前
1.8k
点赞
评论

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

对于 ParameterServerStrategy V2，本文主要看看如何使用，如何初始化。在下一篇之中会重点看看如何分发计算。

3年前
2.4k
3
1

[源码解析] TensorFlow 分布式之 MirroredStrategy

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是：如何更新 Mirrored 变量？如何分发计算？本文我们看看其总体思路和如何更新变量。

3年前
2.1k
7
评论

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。

3年前
2.3k
1
评论

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器---(8) ---Distributed Hash之后向传播

在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

3年前
2.0k
6
评论

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (6) --- Distributed hash表

在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

3年前
1.4k
4
评论

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (4)

在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文主要介绍流水线的前两级，最后

3年前
665
4
评论

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器---(3)

在本系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

3年前
1.1k
7
评论

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2)

在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

3年前
807
3
评论

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器 --(1)

本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

3年前
838
1
1

[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型。本文将看看 Megatron 如何给流水线各个阶段安排执行执行序列。

3年前
4.0k
6
评论

[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行

Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3。

3年前
4.3k
7
评论

[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

NVIDIA Megatron是一个基于PyTorch的分布式训练框架，用来训练超大Transformer模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3。

3年前
3.9k
6
评论

[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT

3年前
3.1k
3
评论

[源码解析] 模型并行分布式训练Megatron (1) --- 论文&基础

Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3。

3年前
5.1k
3
评论

[源码分析] Facebook如何训练超大模型--- (5)

FSDP（Fully Sharded Data Parallel）是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，用来训练超大模型。之前文章之中我们谈到了FSDP支

3年前
1.2k
点赞
评论

[源码分析] Facebook如何训练超大模型 --- (4)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，之前文章之中我们谈到了FSDP支持混合精度训练，所以我们

3年前
882
1
评论

[源码分析] Facebook如何训练超大模型 --- (3)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，本文从源码角度来介绍 FSDP 如何实现offload。

3年前
2.4k
1
评论

[源码分析] Facebook如何训练超大模型 --- (2)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用，本文从源码角度来介绍

3年前
1.1k
点赞
评论