首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Megatron框架论文解析
订阅
rins
更多收藏集
微信扫码分享
微信
新浪微博
QQ
5篇文章 · 0订阅
[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型。本文将看看 Megatron 如何给流水线各个阶段安排执行执行序列。
[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行
Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3。
[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现
NVIDIA Megatron是一个基于PyTorch的分布式训练框架,用来训练超大Transformer模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3。
[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT
[源码解析] 模型并行分布式训练Megatron (1) --- 论文&基础
Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3。