大模型基础技术

大模型基础技术

大模型基础技术

讲清楚预训练大语言模型过程中会涉及到的技术点。

暂无订阅共2篇文章创建于2023-09-05

transformer模型相关的计算：参数量、FLOPs、训练显存、最大batch size

模型参数量计算计算过程如下：模型训练的并行方式分为3种，DP(data parallel) / TP(tensor parallel) / PP(pipline parallel)，MoE模型在训

2年前
2.1k
点赞
评论

Batch Size杂谈

在OpenAI 2018年的一篇论文《An Empirical Model of Large-Batch Training》中就介绍了batch size的选择问题，论文中gradient noise

2年前
673
点赞
评论