首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
分布式机器学习
罗西的思考
创建于2021-09-07
订阅专栏
分布式机器学习
等 28 人订阅
共117篇文章
创建于2021-09-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
新书出版:《分布式机器学习——系统、工程与实战》
经过一年多的努力,我的书 《分布式机器学习——系统、工程与实战》终于上架了,在这里打个广告,希望大家支持。
[源码解析] TensorFlow 分布式之 ClusterCoordinator
本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2
对于 ParameterServerStrategy V2,本文主要看看如何使用,如何初始化。在下一篇之中会重点看看如何分发计算。
[源码解析] TensorFlow 分布式之 MirroredStrategy
MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总体思路和如何更新变量。
[源码解析] TensorFlow 分布式环境(1) --- 总体架构
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。
[源码解析] NVIDIA HugeCTR,GPU 版本参数服务器---(8) ---Distributed Hash之后向传播
在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (6) --- Distributed hash表
在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4)
在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。 本文主要介绍流水线的前两级,最后
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器---(3)
在本系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (2)
在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器 --(1)
本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型。本文将看看 Megatron 如何给流水线各个阶段安排执行执行序列。
[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行
Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3。
[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现
NVIDIA Megatron是一个基于PyTorch的分布式训练框架,用来训练超大Transformer模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3。
[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT
[源码解析] 模型并行分布式训练Megatron (1) --- 论文&基础
Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3。
[源码分析] Facebook如何训练超大模型--- (5)
FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,用来训练超大模型。 之前文章之中我们谈到了FSDP支
[源码分析] Facebook如何训练超大模型 --- (4)
FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,之前文章之中我们谈到了FSDP支持混合精度训练,所以我们
[源码分析] Facebook如何训练超大模型 --- (3)
FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,本文从源码角度来介绍 FSDP 如何实现offload。
[源码分析] Facebook如何训练超大模型 --- (2)
FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍
下一页