一、 强化学习核心概念与设置
强化学习(Reinforcement Learning, RL)研究智能体(Agent)如何在复杂环境中通过试错来最大化长期累积奖赏
1. 马尔可夫决策过程 (MDP)
强化学习常用 MDP 四元组 来描述 :
- (状态空间):机器感知到的环境描述 。
- (动作空间):机器能采取的行为集合 。
- (状态转移概率):执行动作后转移到下一个状态的可能性 。
- (奖赏函数):环境根据动作给出的即时反馈 。
2. 探索与利用 (Exploration vs. Exploitation)
这是 RL 面临的核心窘境 :
- 探索:尝试未知的动作以发现更好的潜力 。
- 利用:根据已知信息选择当前奖赏最高的动作。
- 解决方案:-贪心法(以 概率探索,1- 概率利用)或 Softmax 算法
二、 晦涩公式与核心算法解析
1. 值函数 (Value Functions) — “前景预判器”
值函数用于评估一个状态或动作的“好坏”。
- 状态值函数 :从状态 出发,执行策略 后的长期累积奖赏期望
- 状态-动作值函数 :在状态 执行动作 后,再执行策略 的期望奖赏
2. Bellman 等式 (递归的精髓)
课件中给出的公式:
通俗解释:当前状态的价值 = (当前动作的即时奖赏) + (折扣后的未来状态价值)。它揭示了值函数在时间上的相关性。
3. 时序差分学习 (Temporal Difference, TD)
TD 学习克服了蒙特卡罗法必须等整个轨迹结束才能更新的缺点,实现增量式更新
- 是 TD 目标(实际看到的 + 对未来的预估)。
- 是旧预估。
- 两者之差就是 TD 误差。算法通过步长 不断缩小这个误差
三、 强化学习的进阶范式
1. 有模型 vs. 免模型学习
- 有模型 (Model-based):环境的 和 已知,通过动态规划(策略迭代/值迭代)寻优
- 免模型 (Model-free):模型未知,必须通过采样轨迹进行学习,如 Sarsa(同策略)和 Q-Learning(异策略)
2. 模仿学习 (Imitation Learning)
针对搜索空间巨大、奖赏函数难设计的问题
- 直接模仿学习:将专家轨迹作为“标记”进行监督学习
- 逆强化学习 (IRL):从专家范例中反推奖赏函数,再训练策略
四、 前沿应用:基于人类反馈的强化学习 (RLHF)
这是大语言模型(如 ChatGPT)对齐的关键
1. 为什么 LLM 需要 RLHF?
- 考虑整体影响:相比监督学习逐词反馈,RL 针对整段文本打分
- 缓解幻觉:通过惩罚错误答案引导模型学会放弃回答(拒绝幻觉)
- PPO 算法中的四个角色
- 策略模型 (Policy):生成回复的“演员”
- 奖励模型 (Reward):判断好坏的“裁判”
- 评论模型 (Critic):预判未来收益的“智囊”
- 参考模型 (Reference):防止模型更新过快跑偏的“锚点”