大语言模型

大语言模型

大语言模型

关于大语言模型的一切。

等 7 人订阅共4篇文章创建于2023-07-12

大语言模型高效训练基础知识：优化器AdamW和Adafator

AdamW AdamW指的是Adam + Weight Decay（权重衰减）。 Adam相信很多读者已经了解了，Weight Decay解释起来也比较容易，为了防止过拟合，在计算损失函数时需要增加L

1年前
1.3k
点赞
评论

ChatGPT训练流程

Outputi。将奖励模型作为Environment对模型输出进行打分，将分数作为奖励。二元分类说法并不准确，原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较，胜出的回复应该得到更多的分数，亦即获得更大的奖励。或者也可以认为是在两者之间做分类，将更符合人...

1年前
441
1
评论

大模型基础知识 - 语言模型及其演进公开版

本文为作者内部分享文档，由于不涉敏可以公开，分享本身是课程形式，有什么疑问欢迎在评论区留言。关于使用计算机的方式 -> 我们这里讲的是底层的使用方式，应用层来看的话都是通过软件来使用，但软件也是经由编写程序编译之后的产物，归根结底还是通过代码。关于颠覆部分领域 -> 负责任地讲，...

1年前
2.4k
8
1

大模型高效训练基础知识：fp16与混合精度训练

计算机表示浮点数有多种精度，其中Float16和Float32最为常见，即 fp32: Sign(1bit) + Range(8 bits) + Precision(23 bits) fp16: Si

1年前
571
点赞
评论