分布式机器学习

分布式机器学习

分布式机器学习

分布式机器学习

等 28 人订阅共117篇文章创建于2021-09-07

[源码解析] PyTorch 如何使用GPU

在 PyTorch DataParallel 训练过程中，其会在多个GPU之上复制模型副本，然后才开始训练。笔者在分析过程中，发现如果不把一些GPU相关基础知识整理出来，很难理解DataParalle

4年前
1.2k
2
评论

[源码解析] PyTorch 分布式(1)------历史和概述

本文主要在对PyTorch官方文档的翻译之上加入了自己的理解，希望给大家一个PyTorch分布式的历史脉络和基本概念，有兴趣的朋友可以仔细研究一下历史，看看一个机器学习系统如何一步一步进入分布式世界。

4年前
2.3k
点赞
评论

[源码解析] PyTorch 如何实现后向传播 (4)---- 具体算法

前文中我们介绍了反向传播引擎的动态逻辑，因为具体反向传播算法是在设备线程中完成的，所以我们单独用一章来讲解。

4年前
1.7k
点赞
评论

[源码解析] Pytorch 如何实现后向传播 (3)---- 引擎动态逻辑

前文我们提到了 autograd 引擎的静态架构，从本文开始我们从动态角度看看引擎如何实现动态逻辑。

4年前
1.1k
点赞
评论

[源码解析] Pytorch 如何实现后向传播 (2)---- 引擎静态结构

前文最终我们提到调用引擎来进行反向传播，本文我们首先从静态角度来看引擎，就是看看其数据结构和静态性质。

4年前
1.2k
点赞
评论

[源码解析] Pytorch 如何实现后向传播 (1)---- 调用引擎

本系列将通过大概十篇左右文章来分析 PyTorch 的自动微分功能如何实现。本文是后向传播的第一篇，介绍调用流程：如何从 Python 代码进入到 C++ autograd 引擎。

4年前
1.8k
2
评论

[源码解析] PyTorch如何实现前向传播(3) --- 具体实现

本系列将通过大概十篇左右文章来分析 PyTorch 的自动微分功能如何实现。本文是前向传播的第三篇，介绍具体实现机制。

4年前
1.8k
1
评论

[源码解析]PyTorch如何实现前向传播(2) --- 基础类(下)

本系列将通过大概十篇左右文章来分析 PyTorch 的自动微分功能如何实现。本文是前向传播的第二篇，介绍自动微分（梯度计算）所涉及的部分 PyTorch 基础类。因为字数太多（1万两千字），所以拆分

4年前
1.5k
点赞
评论

[源码解析]PyTorch如何实现前向传播(1) --- 基础类(上)

本系列将通过大概十篇左右文章来分析 PyTorch 的自动微分功能如何实现。本文是前向传播的第一篇，介绍自动微分（梯度计算）所涉及的部分 PyTorch 基础类。

4年前
1.7k
2
评论

深度学习利器之自动微分(3) --- 示例解读

本文从 PyTorch 两篇官方文档开始为大家解读两个示例。本文不会逐句翻译，而是选取重点并且试图加入自己的理解。

4年前
1.6k
3
评论

深度学习利器之自动微分(2)

本文和上文以 [Automatic Differentiation in Machine Learning: a Survey] 为基础，逐步分析自动微分这个机器学习的基础利器。

4年前
1.9k
3
评论

深度学习利器之自动微分(1)

本文和下文以 [Automatic Differentiation in Machine Learning: a Survey]这篇论文为基础，逐步分析自动微分这个机器学习的基础利器。

4年前
2.4k
7
3

[源码解析] PyTorch 流水线并行实现 (6)--并行计算

前几篇文章我们介绍了 PyTorch 流水线并行的基本知识，自动平衡机制和切分数据，本文我们结合论文内容来看看如何实现并行。

4年前
1.7k
4
1

[源码解析] PyTorch 流水线并行实现 (5)--计算依赖

前几篇文章我们介绍了 PyTorch 流水线并行的基本知识，自动平衡机制和切分数据等，本文我们结合论文内容来看看如何实现流水线依赖，核心就是如何建立这些小批次之间的跨设备依赖关系。

4年前
1.1k
4
评论

[源码解析] PyTorch 流水线并行实现 (4)--前向计算

前几篇文章我们介绍了 PyTorch 流水线并行的基本知识，自动平衡机制和切分数据，本文我们结合论文内容来看看如何保证前向计算执行顺序

4年前
1.2k
3
评论

[源码解析] PyTorch 流水线并行实现 (3)--切分数据和运行时系统

前几篇文章我们介绍了 PyTorch 流水线并行的基本知识和自动平衡机制，本文我们介绍如何切分数据和运行时系统。

4年前
1.4k
2
评论

[源码解析] PyTorch 流水线并行实现 (2)--如何划分模型

上一篇文章我们介绍了 PyTorch 流水线并行的基本知识，本文我们介绍其自动平衡机制和模型分割。

4年前
1.2k
3
评论

[源码解析] PyTorch 流水线并行实现 (1)--基础知识

本系列开始介绍PyTorch的流水线并行实现。实质上，PyTorch就是 GPipe 的PyTorch版本。

4年前
701
4
评论

[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练

本文以 PyTorch on Horovod 为切入点，分析一下 Horovod 弹性训练的恢复流程。

4年前
452
2
评论

[源码解析] 深度学习流水线并行 PipeDream(6)--- 1F1B策略

在前文中，我们介绍了PipeDream的总体架构，Profile阶段，计算分区阶段，模型转换阶段，运行时引擎和通信模块，本文是 PipeDream 系列最后一篇，介绍 1F1B 策略。

4年前
950
4
评论