当人们讨论"ChatGPT为何如此迷人"时,常归功于两点:数据洪水的规模效应和聊天界面的丝滑体验。但鲜少人注意到背后真正的魔法——RLHF(人类反馈强化学习),这项让AI学会"察言观色"的黑科技。
🤯 冷知识:五年前,强化学习(RL)和自然语言处理(NLP)还像油和水互不相溶。RL只能在游戏里打打方块(比如Atari),而NLP学者对它敬而远之。如今RLHF竟能驯服千亿参数的语言怪兽?这相当于教霸王龙跳芭蕾!
完美隐喻了ChatGPT的诞生:
- 预训练:生吞互联网的野怪(食谱含标题党/阴谋论/暴论)
- 监督微调(SFT) :名校进修后变得"人模狗样"
- RLHF:终极驯化,越来越像个人,成为某个领域的专家,学会职业假笑服务客户
⚠️ 驯兽师笔记:
可跳过SFT直接RLHF,但三阶段全开效果最佳。预训练烧掉98%算力(OpenAI实锤),SFT和RLHF只是解锁怪兽已有的隐藏技能。
第一阶段:预训练——互联网"大胃王比赛"
目标:培养终极"补全王"
输入:互联网的残羹冷炙
输出:GPT/LLaMA等语言怪兽
虽然听起来很简单,但补全功能其实非常强大, 因为许多任务可以被看作是补全任务:翻译、 摘要、编写代码 、做数学题等等。例如, 给定提示: “How are you in French is ...” (法语中 的“你好吗“是... ) ,语言模型可能会用 “ Comment ç a va ” 来补全, 从而有效地实现了两种语 言之间的翻译
举个栗子🌰:
你问:"My favorite color is..."(我喜欢的颜色是...)
AI答:"blue"(蓝色)——合理
若答:"the mitochondria is the powerhouse of the cell"(线粒体是细胞动力源)——这很互联网
🤖 语言模型的奥秘:
本质上是个概率统计大师。当看到"你好"时,它脑中闪过:"下一词是'吗'的概率73%,'呀'的概率12%..."。就像老外学中文:"吃了吗?"比"吃原子弹?"更可能接"您"。
📊 数据恐慌时刻:
- GPT-3干饭量:5000亿词元 ≈ 750万本书
- 当前LLM训练数据增速 >> 人类新数据产量
- 恐怖预告:未来互联网将充斥AI生成内容 → 新模型可能是在吃AI的"呕吐物"!现在是 2025 年 Garbage in, garbage out 的恶果已经初现,DeepSeek 连很多自媒体都在说,反思模式变傻了
第二阶段:监督微调(SFT)——AI的"名校冲刺班"
预训练后的痛点:预训练后,AI仍是"话题终结者" ,要不词不达意,要不给人的感觉对方是不是个傻子
例如问:"如何做披萨?"
我们期望的是给出制作披萨的菜谱
但是预训练好的大模型可能回答:
- 补充问题:"几人份?" ❌
- 反问:"要什么配料?" ❌
- 直接给菜谱 ✅
"几人份" 搞什么鬼?,大模型的词不达意,回答就像一个义乌小商品城购买的 5 块钱的机器狗,却号称可以完美解决宝宝的每次的十万个为什么!
如何有效解决回答满足场景和领域模版的问题呢, 方案是请人类导师教"标准答案"格式:
🎓 教学方式:
- OpenAI:雇学霸标注工(90%本科+,33%硕士)手写1.3万条问答范例
- DeepMind:互联网淘"对话钻石"(秘籍:找带Q&A格式的文本)
📐 数学很性感?
训练=让AI模仿人类示范,损失函数只计算答案部分的交叉熵(通俗说:答案抄错要罚站!)
✨ 冷知识:
经SFT调教的130亿参数InstructGPT,输出质量碾压1750亿参数的原始GPT-3。说明:微调胜于蛮力!
第三阶段:RLHF——人类的"香蕉奖励法"
灵魂拷问 : SFT已教AI答题,为何还要RLHF?
答案是:SFT只教"对错",RLHF教"高下"!
例如:西班牙人都会什么语言?
- 示范数据=告诉你"西班牙语"是正解
- RLHF=告诉你"Java也是解,但比西班牙语差两分"
步骤1:训练"评分法官"(奖励模型RM)
-
数据来源:人类比较投票(例:回答A vs 回答B,哪个更优?)
-
魔法公式:RM的目标是拉大优劣回答的分差
-
关键发现:用SFT模型初始化RM效果更佳(法官要比演员懂行!
步骤2:强化学习调教(PPO算法)
- 绝招:PPO算法(OpenAI 2017年发明)
- 精髓:让AI生成回答 → RM打分 → 优化得分
- 紧箍咒:KL散度约束防"放飞自我"(否则AI可能写"42是宇宙终极答案"博高分)
附赠猛料:RLHF与幻觉的"相爱相杀"
关于AI幻觉(即一本正经胡说八道),各派吵翻天:
-
OpenAI派:实验证明RLHF让幻觉更严重!
-
Schulman派(PPO之父):RLHF本可治幻觉!
- 当前现状:RM只判答案优劣,未惩罚"编造"
- 未来可能的解药:训练RM时对编造内容扣分更狠
💡 民间老偏方:
提示词加"不确定时答'我不知道'",或要求简洁回答(话痨易发病)
🚀 未来战局:
当数据成为新石油,RLHF是炼油术。理解三阶段训练,助你选出最适合业务的AI怪兽!,希望有一天你也能训练出自己的霸王龙去跳掌上芭蕾
参考资料: