首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型对齐算法合集
树獭叔叔
创建于2026-03-23
订阅专栏
大模型对齐算法合集
暂无订阅
共3篇文章
创建于2026-03-23
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
DPO:最简单的对齐算法
DPO:最简单的对齐算法 📚 目录 DPO是什么:抛弃RL的对齐方法 RLHF的问题:为什么还要更简单 DPO的核心创新:直接优化偏好 详细机制:从公式到代码 IPO:DPO的改进版(解决饱和问题)
GRPO:比PPO更简单的RLHF算法
📚 目录 GRPO是什么:PPO的简化版 PPO的问题:为什么需要改进 GRPO的核心创新:组内对比 详细机制:从公式到代码 对比PPO:优势与权衡 代码实现 📌 前置概念:从PPO到GRPO GRP
从RLHF到PPO:让AI学会说人话
📚 目录 RLHF整体框架:三阶段训练 第三阶段的四个组件:形象理解 组件的模型结构:共享Base,替换Head 训练流程:一次完整迭代 PPO的核心创新:Clip机制 代码实现与常见问题 📌 前置概