首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大模型预训练系列
猛猿
创建于2024-07-03
订阅专栏
介绍大模型预训练相关知识
等 1 人订阅
共3篇文章
创建于2024-07-03
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
图解大模型训练之:数据并行下篇( DeepSpeed ZeRO,零冗余优化)
在上篇介绍中,通讯负载不均的优化我们解释过了,但还遗留了一个显存开销问题:数据并行中,每个GPU上都复制了一份完整模型,当模型变大时,很容易打爆GPU的显存,那要怎么办呢?
图解大模型训练之:数据并行上篇(DP, DDP与ZeRO)
今天我们来介绍一种应用最广泛,最易于理解的并行范式:数据并行。 数据并行的核心思想是:在各个GPU上都拷贝一份完整模型,各自吃一份数据,算一份梯度,最后对梯度进行累加来更新整体模型。
图解大模型训练之:流水线并行(Pipeline Parallelism),以Gpipe为例
本篇文章将探索流水线并行,经典的流水线并行范式有Google推出的Gpipe,和微软推出的PipeDream。两者的推出时间都在2019年左右,大体设计框架一致。主要差别为:在梯度更新上,Gpipe是