大模型 - JuiceFun的收藏集 - 掘金

大模型

更多收藏集

2篇文章 · 0订阅

大模型分布式训练并行技术（六）-多维混合并行

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡

吃果冻不吐果冻皮
2年前
8.0k
11
3

大模型分布式训练并行技术（二）-数据并行

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式

吃果冻不吐果冻皮
2年前
9.2k
10
3

大模型分布式训练并行技术（二）-数据并行