LLM

LLM

LLM

所有关于LLM内容的博客都在这里

暂无订阅共6篇文章创建于2025-06-25

PPO算法是一种强化学习算法，主要思想是控制智能体每次更新策略的变化幅度，确保它不会偏离当前的策略太远，从而保持稳定性。

1年前
326
点赞
评论

transformer各层向量维度变化及注意力机制代码实现

transformer的维度变化主要发生在embedding层、multi-head attention层和前馈网络（FFN）层。假设在进入embedding层前，张量的输入维度是$X\in R^{

1年前
354
点赞
评论

大模型高效微调方法原理总结

Prompt-tuning prompt-tuning的原理是将模型所有的参数冻结，在embedding层前加一段prompt embedding，来使模型获得更好的效果。prompt类型有hard

11月前
187
点赞
评论

BERT关键总结

BERT的结构 BERT是由多层双向的transformer编码器组成的。 input会经过token embedding,positional embedding和segment embedding

11月前
103
点赞
评论

BN和LN的区别

Batch Normalization:对一个batch中的每个特征【分别】做归一化 Layer Normalization:【分别】对每个样本中的所有特征做归一化

11月前
71
点赞
评论

分词器相关技术

在学习分词器相关技术的时候偶然看到一个讲解视频，觉得很惊艳，于是写篇博客记录一下视频地址：LLM分词器相关技术介绍文本分词这个阶段的目标是对文本进行分词和嵌入，以便用于LLM 将词元转换为词元I

11月前
71
点赞
评论