用户53009365363

赞

3

|

搜索文章

赞

文章( 3 ) 沸点( 0 )

大模型分布式训练并行技术（三）-流水线并行

近年来，随着Transformer、MOE 架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单

吃果冻不吐果冻皮
2年前
12k
10
评论

大模型分布式训练并行技术（三）-流水线并行

大模型分布式训练并行技术（六）-多维混合并行

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡

吃果冻不吐果冻皮
2年前
7.9k
11
3

大模型分布式训练并行技术（九）-总结

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式

吃果冻不吐果冻皮
2年前
5.4k
4
1

加入于

2025-08-12