AI 大语言模型之领域专家诞生揭秘,让我们了解如何教霸王龙跳芭蕾舞

82 阅读5分钟

当人们讨论"ChatGPT为何如此迷人"时,常归功于两点:数据洪水的规模效应聊天界面的丝滑体验。但鲜少人注意到背后真正的魔法——RLHF(人类反馈强化学习),这项让AI学会"察言观色"的黑科技。

🤯 冷知识:五年前,强化学习(RL)和自然语言处理(NLP)还像油和水互不相溶。RL只能在游戏里打打方块(比如Atari),而NLP学者对它敬而远之。如今RLHF竟能驯服千亿参数的语言怪兽?这相当于教霸王龙跳芭蕾!

image.png

完美隐喻了ChatGPT的诞生:

  1. 预训练:生吞互联网的野怪(食谱含标题党/阴谋论/暴论)
  2. 监督微调(SFT) :名校进修后变得"人模狗样"
  3. RLHF:终极驯化,越来越像个人,成为某个领域的专家,学会职业假笑服务客户

⚠️ 驯兽师笔记
可跳过SFT直接RLHF,但三阶段全开效果最佳。预训练烧掉98%算力(OpenAI实锤),SFT和RLHF只是解锁怪兽已有的隐藏技能。

第一阶段:预训练——互联网"大胃王比赛"

image.png

目标:培养终极"补全王"
输入:互联网的残羹冷炙
输出:GPT/LLaMA等语言怪兽

虽然听起来很简单,但补全功能其实非常强大, 因为许多任务可以被看作是补全任务:翻译、 摘要、编写代码 、做数学题等等。例如, 给定提示: “How are you in French is  ...”   (法语中  的“你好吗“是...  ,语言模型可能会用 Comment ç a va 来补全, 从而有效地实现了两种语    言之间的翻译

举个栗子🌰
你问:"My favorite color is..."(我喜欢的颜色是...)
AI答:"blue"(蓝色)——合理
若答:"the mitochondria is the powerhouse of the cell"(线粒体是细胞动力源)——这很互联网

🤖 语言模型的奥秘
本质上是个概率统计大师。当看到"你好"时,它脑中闪过:"下一词是'吗'的概率73%,'呀'的概率12%..."。就像老外学中文:"吃了吗?"比"吃原子弹?"更可能接"您"。

📊 数据恐慌时刻

  • GPT-3干饭量:5000亿词元 ≈ 750万本书
  • 当前LLM训练数据增速 >> 人类新数据产量
  • 恐怖预告:未来互联网将充斥AI生成内容 → 新模型可能是在吃AI的"呕吐物"!现在是 2025 年 Garbage in, garbage out 的恶果已经初现,DeepSeek 连很多自媒体都在说,反思模式变傻了

第二阶段:监督微调(SFT)——AI的"名校冲刺班"

预训练后的痛点:预训练后,AI仍是"话题终结者" ,要不词不达意,要不给人的感觉对方是不是个傻子

例如问:"如何做披萨?"

我们期望的是给出制作披萨的菜谱

但是预训练好的大模型可能回答:

  1. 补充问题:"几人份?" ❌
  2. 反问:"要什么配料?" ❌
  3. 直接给菜谱 ✅

"几人份" 搞什么鬼?,大模型的词不达意,回答就像一个义乌小商品城购买的 5 块钱的机器狗,却号称可以完美解决宝宝的每次的十万个为什么!

如何有效解决回答满足场景和领域模版的问题呢, 方案是请人类导师教"标准答案"格式:

🎓 教学方式

  • OpenAI:雇学霸标注工(90%本科+,33%硕士)手写1.3万条问答范例
  • DeepMind:互联网淘"对话钻石"(秘籍:找带Q&A格式的文本)

📐 数学很性感?
训练=让AI模仿人类示范,损失函数只计算答案部分的交叉熵(通俗说:答案抄错要罚站!)

冷知识
经SFT调教的130亿参数InstructGPT,输出质量碾压1750亿参数的原始GPT-3。说明:微调胜于蛮力!

第三阶段:RLHF——人类的"香蕉奖励法"

image.png 灵魂拷问SFT已教AI答题,为何还要RLHF?

答案是:SFT只教"对错",RLHF教"高下"!

例如:西班牙人都会什么语言?

  • 示范数据=告诉你"西班牙语"是正解
  • RLHF=告诉你"Java也是解,但比西班牙语差两分"

步骤1:训练"评分法官"(奖励模型RM)

  • 数据来源:人类比较投票(例:回答A vs 回答B,哪个更优?)

  • 魔法公式:RM的目标是拉大优劣回答的分差

  • 关键发现:用SFT模型初始化RM效果更佳(法官要比演员懂行!

image.png

步骤2:强化学习调教(PPO算法)

  • 绝招:PPO算法(OpenAI 2017年发明)
  • 精髓:让AI生成回答 → RM打分 → 优化得分
  • 紧箍咒:KL散度约束防"放飞自我"(否则AI可能写"42是宇宙终极答案"博高分)

image.png

附赠猛料:RLHF与幻觉的"相爱相杀"

关于AI幻觉(即一本正经胡说八道),各派吵翻天:

  • OpenAI派:实验证明RLHF让幻觉更严重!

  • Schulman派(PPO之父):RLHF本可治幻觉!

    • 当前现状:RM只判答案优劣,未惩罚"编造"
    • 未来可能的解药:训练RM时对编造内容扣分更狠

image.png

💡 民间老偏方
提示词加"不确定时答'我不知道'",或要求简洁回答(话痨易发病)

🚀 未来战局

当数据成为新石油,RLHF是炼油术。理解三阶段训练,助你选出最适合业务的AI怪兽!,希望有一天你也能训练出自己的霸王龙去跳掌上芭蕾

image.png

参考资料: