人工智能与机器学习 - 西水_様的收藏集 - 掘金

人工智能与机器学习

更多收藏集

2篇文章 · 0订阅

大模型分布式训练并行技术（二）-数据并行

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式

吃果冻不吐果冻皮
2年前
9.0k
10
3

大模型分布式训练并行技术（二）-数据并行

大模型分布式训练并行技术（一）-概述

利用AI集群，使机器学习算法更好地从大数据中训练出性能优良的大模型是分布式机器学习的目标。为了实现该目标，一般需要根据硬件资源与数据/模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，进行分

吃果冻不吐果冻皮
3年前
16k
5
评论