SFT 模型 vs RL 模型
想象在教一个学生学习:
- SFT 模型就像手把手教学,一步步告诉学生该怎么做。我们需要清晰地表达自己的思路,通过引入 Few-shots 来示范我们想要的结果。
- RL 模型则像给出考试题目和评分标准,让学生自己思考如何从问题(Q)得出答案(A)。通过假设 → 验证 → 排除的链条逼近真相。
| SFT 模型 | RL 模型 | |
|---|---|---|
| 教学方式 | 手把手教具体步骤 | 只给目标让学生自己思考 |
| 最佳提示词 | 详细的分步指南 | 清晰的目标和关键要求 |
| 生活比喻 | 菜谱式教学 | 开放式解题,只给作文题目和评分标准 |
为什么要了解这两种模型?
| 维度 | SFT 模型(监督微调) | RL 模型(强化学习) |
|---|---|---|
| 技术原理 | 基于标注数据的指令微调 | 通过奖励机制优化策略网络 |
| 训练方式 | 分步教学:输入-输出的精确对齐 | 目标导向:定义奖励函数自主探索 |
| 数据依赖 | 依赖高质量标注指令数据 | 需要偏好数据构建奖励模型 |
早期的 AI 助手(如 GPT-3)主要采用 SFT(监督式微调)训练。使用这类模型时,我们需要像写菜谱一样详细说明每一步该怎么做。
但现在的 AI(如 GPT-4)更多采用 RL(强化学习)训练,它们更像一个会独立思考的助手。只需要说明目标,它就能自己规划路径,通过不断尝试找到最佳解决方案。
这就像教小朋友做题,SFT 模型需要老师给出完整解题步骤,而 RL 模型只需要告诉对错,让小朋友自己摸索解题方法。
如何编写提示词
简单来说,就是给模型一个起点(Q)和一个终点(A),就像告诉它 “我要从家去公司”,至于中间怎么走,让模型自己去推理规划。
起点即任务信息,要求越详细,得到的结果越具体。经常使用之后发现写提示词的时候把握三个要点能提升质量:
| 要点 | 举例 | |
|---|---|---|
| 说清起点 | 你现在要解决什么问题? | 我需要向高中生解释量子力学 |
| 明确终点 | 你希望得到什么样的回答? | 用生活案例比喻,控制在 500 字以内 |
| 设置界限 | 绝对不能出现什么? | 不要用专业术语,拒绝分点陈述 |
实践案例对比
基础版提示词(不够清晰)
"请解释量子隧穿效应"
优化版提示词(更有指导性)
扮演角色:著名物理学家费曼
目标听众:对物理感兴趣的高中生
任务要求:
1. 用穿墙的足球来解释量子隧穿(200字)
2. 联系日常生活解释不确定性原理(100字)
3. 用一句话引发思考
表达要求:
- 多用生活化的比喻
- 避免专业公式
- 重点突出"概率"这个核心概念