【机器学习】09_强化学习

0 阅读3分钟

一、 强化学习核心概念与设置

强化学习(Reinforcement Learning, RL)研究智能体(Agent)如何在复杂环境中通过试错来最大化长期累积奖赏

1. 马尔可夫决策过程 (MDP)

强化学习常用 MDP 四元组 E=X,A,P,RE = \langle X, A, P, R \rangle 来描述 :

  • XX (状态空间):机器感知到的环境描述 。
  • AA (动作空间):机器能采取的行为集合 。
  • PP (状态转移概率):执行动作后转移到下一个状态的可能性 。
  • RR (奖赏函数):环境根据动作给出的即时反馈 。

2. 探索与利用 (Exploration vs. Exploitation)

这是 RL 面临的核心窘境 :

  • 探索:尝试未知的动作以发现更好的潜力 。
  • 利用:根据已知信息选择当前奖赏最高的动作。
  • 解决方案ϵ\epsilon-贪心法(以 ϵ\epsilon 概率探索,1-ϵ\epsilon 概率利用)或 Softmax 算法

二、 晦涩公式与核心算法解析

1. 值函数 (Value Functions) — “前景预判器”

值函数用于评估一个状态或动作的“好坏”。

  • 状态值函数 Vπ(x)V^{\pi}(x):从状态 xx 出发,执行策略 π\pi 后的长期累积奖赏期望
  • 状态-动作值函数 Qπ(x,a)Q^{\pi}(x, a):在状态 xx 执行动作 aa 后,再执行策略 π\pi 的期望奖赏

2. Bellman 等式 (递归的精髓)

课件中给出的公式: Vγπ(x)=aAπ(x,a)xXPxxa(Rxxa+γVγπ(x))V_{\gamma}^{\pi}(x) = \sum_{a \in A} \pi(x, a) \sum_{x' \in X} P_{x \to x'}^{a} (R_{x \to x'}^{a} + \gamma V_{\gamma}^{\pi}(x'))

通俗解释:当前状态的价值 = (当前动作的即时奖赏) + (折扣后的未来状态价值)。它揭示了值函数在时间上的相关性。

3. 时序差分学习 (Temporal Difference, TD)

TD 学习克服了蒙特卡罗法必须等整个轨迹结束才能更新的缺点,实现增量式更新 Q(x,a)Q(x,a)+α(r+γQ(x,a)Q(x,a))Q(x, a) \leftarrow Q(x, a) + \alpha(r + \gamma Q(x', a') - Q(x, a))

  • r+γQ(x,a)r + \gamma Q(x', a') 是 TD 目标(实际看到的 + 对未来的预估)。
  • Q(x,a)Q(x, a) 是旧预估。
  • 两者之差就是 TD 误差。算法通过步长 α\alpha 不断缩小这个误差

三、 强化学习的进阶范式

1. 有模型 vs. 免模型学习

  • 有模型 (Model-based):环境的 PPRR 已知,通过动态规划(策略迭代/值迭代)寻优
  • 免模型 (Model-free):模型未知,必须通过采样轨迹进行学习,如 Sarsa(同策略)和 Q-Learning(异策略)

2. 模仿学习 (Imitation Learning)

针对搜索空间巨大、奖赏函数难设计的问题

  • 直接模仿学习:将专家轨迹作为“标记”进行监督学习
  • 逆强化学习 (IRL):从专家范例中反推奖赏函数,再训练策略

四、 前沿应用:基于人类反馈的强化学习 (RLHF)

这是大语言模型(如 ChatGPT)对齐的关键

1. 为什么 LLM 需要 RLHF?

  • 考虑整体影响:相比监督学习逐词反馈,RL 针对整段文本打分
  • 缓解幻觉:通过惩罚错误答案引导模型学会放弃回答(拒绝幻觉)
  1. PPO 算法中的四个角色
  2. 策略模型 (Policy):生成回复的“演员”
  3. 奖励模型 (Reward):判断好坏的“裁判”
  4. 评论模型 (Critic):预判未来收益的“智囊”
  5. 参考模型 (Reference):防止模型更新过快跑偏的“锚点”