AI 提示词工程总结:SFT vs RL,从"教步骤"到"划重点"

334 阅读3分钟

SFT 模型 vs RL 模型

想象在教一个学生学习:

  • SFT 模型就像手把手教学,一步步告诉学生该怎么做。我们需要清晰地表达自己的思路,通过引入 Few-shots 来示范我们想要的结果。
  • RL 模型则像给出考试题目和评分标准,让学生自己思考如何从问题(Q)得出答案(A)。通过假设 → 验证 → 排除的链条逼近真相。
SFT 模型RL 模型
教学方式手把手教具体步骤只给目标让学生自己思考
最佳提示词详细的分步指南清晰的目标和关键要求
生活比喻菜谱式教学开放式解题,只给作文题目和评分标准

为什么要了解这两种模型?

维度SFT 模型(监督微调)RL 模型(强化学习)
技术原理基于标注数据的指令微调通过奖励机制优化策略网络
训练方式分步教学:输入-输出的精确对齐目标导向:定义奖励函数自主探索
数据依赖依赖高质量标注指令数据需要偏好数据构建奖励模型

早期的 AI 助手(如 GPT-3)主要采用 SFT(监督式微调)训练。使用这类模型时,我们需要像写菜谱一样详细说明每一步该怎么做。

但现在的 AI(如 GPT-4)更多采用 RL(强化学习)训练,它们更像一个会独立思考的助手。只需要说明目标,它就能自己规划路径,通过不断尝试找到最佳解决方案。

这就像教小朋友做题,SFT 模型需要老师给出完整解题步骤,而 RL 模型只需要告诉对错,让小朋友自己摸索解题方法。

如何编写提示词

简单来说,就是给模型一个起点(Q)和一个终点(A),就像告诉它 “我要从家去公司”,至于中间怎么走,让模型自己去推理规划。

起点即任务信息,要求越详细,得到的结果越具体。经常使用之后发现写提示词的时候把握三个要点能提升质量:

要点举例
说清起点你现在要解决什么问题?我需要向高中生解释量子力学
明确终点你希望得到什么样的回答?用生活案例比喻,控制在 500 字以内
设置界限绝对不能出现什么?不要用专业术语,拒绝分点陈述

实践案例对比

基础版提示词(不够清晰)

"请解释量子隧穿效应"

优化版提示词(更有指导性)

扮演角色:著名物理学家费曼
目标听众:对物理感兴趣的高中生
任务要求:
1. 用穿墙的足球来解释量子隧穿(200字)
2. 联系日常生活解释不确定性原理(100字)
3. 用一句话引发思考

表达要求:
- 多用生活化的比喻
- 避免专业公式
- 重点突出"概率"这个核心概念