首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLM后训练
用户844513426565
创建于2025-10-13
订阅专栏
相关课程链接:https://github.com/datawhalechina/Post-training-of-LLMs/ 这里是课程的个人笔记
暂无订阅
共5篇文章
创建于2025-10-13
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
后训练之SFT实践篇
Llama_Factory Llama_Factory是一个支持多种模型,覆盖预训练、训练后优化(SFT、DPO等),更支持Lora、QLora等,是个值得学习了解的工具。本教程从Llama_Fact
后训练之总结
不同的训练后优化方法各有优缺点,需要结合具体的资源、需求等来选择。 监督微调SFT通过最大化示例回答的概率来模仿目标响应模式; 直接偏好优化DPO通过对比学习鼓励优质回答/抑制劣质回答; 在线强化学习
后训练之Online RL
两种强化学习: 离线学习(模型只从预先收集的(prompt, response, reward)三元组中学习) 在线学习(模型在实时生成新响应的过程中不断学习)。 在线学习四步: 响应(生成新的响应(
后训练之DPO
什么是DPO? DPO/直接偏好优化:直接偏好优化可以被视为一种从正面和负面回复中进行对比学习的方法。 DPO适用于什么阶段? DPO适用于指令微调大模型(上文提到的基础大模型通过SFT训练之后得到的
后训练之SFT理论篇
对齐和后训练 在预训练阶段,基础模型从海量文本中学习文本内蕴含的语义知识,从而学会合理地预测下一个token。 经过预训练后,基础模型能够自发地生成下一个token。