首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型基础技术
陈道一
创建于2023-09-05
订阅专栏
讲清楚预训练大语言模型过程中会涉及到的技术点。
暂无订阅
共2篇文章
创建于2023-09-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
transformer模型相关的计算:参数量、FLOPs、训练显存、最大batch size
模型参数量计算 计算过程如下: 模型训练的并行方式分为3种,DP(data parallel) / TP(tensor parallel) / PP(pipline parallel),MoE模型在训
Batch Size杂谈
在OpenAI 2018年的一篇论文《An Empirical Model of Large-Batch Training》中就介绍了batch size的选择问题,论文中gradient noise