首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
分布式机器学习
罗西的思考
创建于2021-09-07
订阅专栏
分布式机器学习
等 28 人订阅
共117篇文章
创建于2021-09-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
[源码分析] Facebook如何训练超大模型---(1)
FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO。
[论文翻译] 分布式训练 Parameter sharding 之 Google Weight Sharding
本文以Google 论文Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training为主来学习参数分片。
[论文翻译] 分布式训练 Parameter sharding 之 ZeRO
本文以论文和官博为主来进行分析ZeRO,这是微软开发的一个可以高效利用显存的优化器,其会将模型状态量分布在多个并行 GPU 之上,目的是在不使用模型并行的情况下对让数十亿参数模型进行训练。
[源码解析] PyTorch 分布式之 ZeroRedundancyOptimizer
PyTorch Zero Redundancy Optimizer 是一类旨在解决数据并行训练和模型并行训练之间权衡问题的算法。其思想来源于微软的ZeRO。
[源码解析] 快手八卦 --- 机器学习分布式训练新思路(3)
“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。
[源码解析] 快手八卦 --- 机器学习分布式训练新思路(2)
“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。
[源码解析] 快手八卦 --- 机器学习分布式训练新思路(1)
“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。
[源码解析] PyTorch 分布式之弹性训练(7)---节点变化
本文分析PyTorch弹性训练如何处理节点变化。即对成员更改作出反应,并使用新的成员来重启所有workers,从而实现弹性训练。
[源码解析] PyTorch 分布式之弹性训练(6)---监控/容错
关于PyTorch弹性训练,迄今为止我们已经分别介绍了 Agent 和 rendezous,但是有些部分并没有深入,比如监控,本文就把它们统一起来,对弹性训练做一个整体逻辑上的梳理。
[源码解析] PyTorch 分布式之弹性训练(5)---Rendezvous 引擎
本文是PyTorch的弹性训练第五篇,看看Rendezvous 的内部引擎,比如如何处理节点加入,节点离开,等待,心跳等等。
[源码解析] PyTorch 分布式之弹性训练(4)---Rendezvous 架构和逻辑
在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第四篇,看看Rendezvous 的结构和总体逻辑。
[源码解析] PyTorch 分布式之弹性训练(3)---代理
我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第三篇,看看弹性代理的基本功能。
[源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程
我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第二篇,重点关注的是如何启动弹性训练,并且可以对系统总体架构有所了解。
[源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路
我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第一篇,介绍其历史和设计理念,也会与Horovod做一下对比。
[源码解析] PyTorch 分布式(18) --- 使用 RPC 的分布式管道并行
我们已经学习了PyTorch 分布式的基本模块,接下来我们通过几篇文章来看看如何把这些模块应用到实践之中,顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用 RPC 来完成分布式管道并行。
[源码解析] PyTorch 分布式(17) --- 结合 DDP 和分布式 RPC 框架
我们已经学习了PyTorch 分布式的基本模块,接下来我们通过几篇文章来看看如何把这些模块应用到实践之中,顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何把DDP和RPC framework结
[源码解析] PyTorch 分布式(16) --- 使用异步执行实现批处理 RPC
我们已经学习了PyTorch 分布式的基本模块,接下来我们通过几篇文章来看看如何把这些模块应用到实践之中,顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用异步执行操作来实现批处理 RPC。
[源码解析] PyTorch 分布式(15) --- 使用分布式 RPC 框架实现参数服务器
我们已经学习了PyTorch 分布式的基本模块,接下来我们通过几篇文章来看看如何把这些模块应用到实践之中,顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用分布式 RPC 框架实现参数服务器
[源码解析] PyTorch 分布式(14) --使用 Distributed Autograd 和 Distributed Optimizer
在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,接下来我们通过几篇文章来看看如何把这些模块应用到实践之中,顺便把PyTorch分布式逻辑整体梳理一下。
[源码解析] PyTorch分布式优化器(3)---- 模型并行
本系列介绍分布式优化器,三篇文章分别是基石篇,DP/DDP/Horovod之中数据并行的优化器,PyTorch 分布式优化器,按照深度递进。本文介绍PyTorch 分布式优化器和PipeDream。
下一页