【机器学习】09_强化学习

2026-01-22 28 阅读3分钟

一、强化学习核心概念与设置

强化学习（Reinforcement Learning, RL）研究智能体（Agent）如何在复杂环境中通过试错来最大化长期累积奖赏

1. 马尔可夫决策过程 (MDP)

强化学习常用 MDP 四元组 $E = \langle X, A, P, R \rangle$ 来描述：

$X$ (状态空间)：机器感知到的环境描述。
$A$ (动作空间)：机器能采取的行为集合。
$P$ (状态转移概率)：执行动作后转移到下一个状态的可能性。
$R$ (奖赏函数)：环境根据动作给出的即时反馈。

2. 探索与利用 (Exploration vs. Exploitation)

这是 RL 面临的核心窘境：

探索：尝试未知的动作以发现更好的潜力。
利用：根据已知信息选择当前奖赏最高的动作。
解决方案： $\epsilon$ -贪心法（以 $\epsilon$ 概率探索，1- $\epsilon$ 概率利用）或 Softmax 算法

二、晦涩公式与核心算法解析

1. 值函数 (Value Functions) — “前景预判器”

值函数用于评估一个状态或动作的“好坏”。

状态值函数 $V^{\pi}(x)$ ：从状态 $x$ 出发，执行策略 $\pi$ 后的长期累积奖赏期望
状态-动作值函数 $Q^{\pi}(x, a)$ ：在状态 $x$ 执行动作 $a$ 后，再执行策略 $\pi$ 的期望奖赏

2. Bellman 等式 (递归的精髓)

课件中给出的公式： $V_{\gamma}^{\pi}(x) = \sum_{a \in A} \pi(x, a) \sum_{x' \in X} P_{x \to x'}^{a} (R_{x \to x'}^{a} + \gamma V_{\gamma}^{\pi}(x'))$

通俗解释：当前状态的价值 = (当前动作的即时奖赏) + (折扣后的未来状态价值)。它揭示了值函数在时间上的相关性。

3. 时序差分学习 (Temporal Difference, TD)

TD 学习克服了蒙特卡罗法必须等整个轨迹结束才能更新的缺点，实现增量式更新 $Q(x, a) \leftarrow Q(x, a) + \alpha(r + \gamma Q(x', a') - Q(x, a))$

$r + \gamma Q(x', a')$ 是 TD 目标（实际看到的 + 对未来的预估）。
$Q(x, a)$ 是旧预估。
两者之差就是 TD 误差。算法通过步长 $\alpha$ 不断缩小这个误差

三、强化学习的进阶范式

1. 有模型 vs. 免模型学习

有模型 (Model-based)：环境的 $P$ 和 $R$ 已知，通过动态规划（策略迭代/值迭代）寻优
免模型 (Model-free)：模型未知，必须通过采样轨迹进行学习，如 Sarsa（同策略）和 Q-Learning（异策略）

2. 模仿学习 (Imitation Learning)

针对搜索空间巨大、奖赏函数难设计的问题

直接模仿学习：将专家轨迹作为“标记”进行监督学习
逆强化学习 (IRL)：从专家范例中反推奖赏函数，再训练策略

四、前沿应用：基于人类反馈的强化学习 (RLHF)

这是大语言模型（如 ChatGPT）对齐的关键

1. 为什么 LLM 需要 RLHF？

考虑整体影响：相比监督学习逐词反馈，RL 针对整段文本打分
缓解幻觉：通过惩罚错误答案引导模型学会放弃回答（拒绝幻觉）

PPO 算法中的四个角色
策略模型 (Policy)：生成回复的“演员”
奖励模型 (Reward)：判断好坏的“裁判”
评论模型 (Critic)：预判未来收益的“智囊”
参考模型 (Reference)：防止模型更新过快跑偏的“锚点”