首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
分布式训练
顾京
创建于2024-08-21
订阅专栏
分布式训练方面内容
暂无订阅
共2篇文章
创建于2024-08-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
基于DistributedDataParallel (DDP)的单机多卡数据并行(torchrun启动)
上次我们了解了DDP的原理和multiprocessing启动的数据并行,这次我们介绍用更流行的torchrun方式启动数据并行。可以简单的理解为torchrun是mp方式的进一步的封装。
基于DistributedDataParallel (DDP)的单机多卡数据并行(multiprocessing启动)
这次我们一起学习下分布式的基础内容——基于Distributed Data Parallel (DDP)的单机多卡数据并行,包括其核心的Ring-All-Reduce通信模式原理、例子和详细代码实现。