首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
语言
Chirp
创建于2024-08-07
订阅专栏
和大语言模型 LLM 相关的一些东西吧。
暂无订阅
共3篇文章
创建于2024-08-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
transformers库,把rope编码类型设为dynamic的大坑
用 transformers 库写模型时发现个很离谱的 bug。离谱不在于 bug 本身,而是 transformers 本身已经意识到这个 bug,但因为 “速度更重要” 而搁置不改了。
打破SFTTrainer黑箱,用自己的方式进行大语言模型有监督微调
TRL 库的 SFTTrainer 把训练过程封装得太彻底了。想尝试不使用 SFTTrainer,而是分步实现各个步骤来完成语言模型的有监督微调。
transformer 中的 RoPE 位置编码
为了让 Transformer 模型获知输入序列的位置关系,需要想办法把位置信息嵌入到序列中。旋转位置编码 RoPE 是目前最为流行的位置编码方案。