强化学习到大模型训练理论概要（四）Lecture 11 Fast Reinforcement Learning 设置、框

Lecture 11 Fast Reinforcement Learning

设置、框架与方法 接下来将会考虑两种设置、多种框架和方法。

设置：赌博机问题（单次决策）、马尔可夫决策过程（MDPs）。
框架：正式评估强化学习（RL）算法质量的评价标准。
方法：为在特定设置下实现特定评价标准的算法类别。

Setting : Introduction to multi-armed bandits

多臂赌博机问题

多臂赌博机问题是一个包含 $(\mathcal{A}, \mathcal{R})$ 的元组。
$\mathcal{A}$ ：已知的 $m$ 个动作（拉杆）组成的集合。
$\mathcal{R}^a(r) = \mathbb{P}[r \mid a]$ 是奖赏的未知概率分布。
在每一步 $t$ ，代理选择一个动作 $a_t \in \mathcal{A}$ 。
环境生成一个奖赏 $r_t \sim \mathcal{R}^{a_t}$ 。
目标：最大化累积奖赏 $\sum_{\tau=1}^{t} r_\tau$ 。

通过一个案例来帮助你理解多臂赌博机模型在决策问题中的应用，尤其是在评估不同治疗方案上的应用。 问题情境

决策问题：如何最佳地治疗脚趾骨折的患者。
三个常见的处理选项：
1. 手术
2. 将骨折的脚趾与另一个脚趾绑在一起（用健康的脚趾固定法）
3. 不采取措施
结果度量：一个二元变量，表示脚趾在6周后是否愈合（+1表示愈合，0表示未愈合），通过X光检查判断。

模拟模型

将该问题建模为具有三个臂的多臂赌博机模型，其中每个臂是具有未知参数 $\theta_i$ 的伯努利变量。

判断题 选择下列所有正确的选项：

拉动一个臂/采取一个行动对应于脚趾是否愈合。
多臂赌博机比马尔可夫决策过程（MDP）更适合解决该问题，因为治疗每个患者涉及多个决策。
在治疗一个患者之后，如果 $\theta_i \neq 0$ 且 $\theta_i \neq 1 \forall i$ ，有时患者的脚趾会愈合，而有时不会。
不确定。

答案和解释

选项3是正确的：
- 拉动一个臂对应于对一名患者的治疗。
- 多臂赌博机模型更适合该问题，因为每个动作对应于对一个患者的治疗，而一个患者的治疗效果不会影响下一个患者的治疗。
- 伯努利变量 $\theta_i$ 表示在概率意义上脚趾愈合或不愈合的不确定性，从而可能会在某些情况下愈合，而在其他情况下不会。

说明多臂赌博机如何在某些决策情境中提供简化和有力的分析工具，尤其是在每个决策独立于其它决策且有概率性结果的情况下。

Approach: greedy methods

Greedy Algorithm

我们考虑计算 $\hat{Q}_t(a) \approx Q(a) = \mathbb{E}[R(a)]$ 的算法
通过蒙特卡罗评估估计每个动作的价值

\hat{Q}_t(a) = \frac{1}{N_t(a)} \sum_{i=1}^{t-1} r_i \cdot \mathbb{1}(a_i = a)

贪婪算法选择具有最高价值的动作

a_t^* = \arg\max_{a \in \mathcal{A}} \hat{Q}_t(a)

$\hat{Q}_t(a)$ 是对动作 $a$ 的期望回报 $Q(a)$ 的估计。
$N_t(a)$ 代表在时间 $t$ 时选择动作 $a$ 的次数。
$r_i$ 是第 $i$ 次选择的回报， $\mathbb{1}(a_i = a)$ 是一个指示函数，当且仅当第 $i$ 次选择的动作是 $a$ 时为1。
贪婪算法指每次都选择当前估计价值最高的动作 $a_t^*$ 。
贪婪算法可能永远锁定在次优动作。

示例：处理脚趾骨折的方法，使用贪婪算法

假设每个臂（动作）的真实（未知）伯努利奖励参数为：
- 手术： $Q(a^1) = \theta_1 = 0.95$
- 用健康的脚趾固定： $Q(a^2) = \theta_2 = 0.9$
- 不采取措施： $Q(a^3) = \theta_3 = 0.1$
贪婪算法：
1. 对每个臂采样一次
  - 采取动作 $a^1$ （ $r \sim \text{Bernoulli}(0.95)$ ），得到0， $\hat{Q}(a^1) = 0$
  - 采取动作 $a^2$ （ $r \sim \text{Bernoulli}(0.90)$ ），得到+1， $\hat{Q}(a^2) = 1$
  - 采取动作 $a^3$ （ $r \sim \text{Bernoulli}(0.1)$ ），得到0， $\hat{Q}(a^3) = 0$
2. 贪婪策略下一次选择每个臂的概率是多少？假设平局情况均匀分配。 $\mathbb{P}(a^2) = 1$
3. 贪婪算法在这种情况下会找到最好的臂吗？不能。

在这个例子中，通过采样和更新估计值，贪婪策略将选择当前估计最高的操作。在初始采样中， $a^2$ 的估计值 $\hat{Q}(a^2)$ 为1，因此下一次会优先选择 $a^2$ ，即完全有概率（1）选择它。

Framework: Regret

评估算法的性能

我们如何评估强化学习（RL）或赌博机算法的质量？
到目前为止：计算复杂度、收敛性、收敛到固定点，以及实证性能。
今天：介绍一个正式的度量，衡量RL/赌博机算法在任意环境中的表现，相较于最优表现的情况。

Regret(损失)

**动作值（Action-value）**是动作 $a$ 的平均奖励： $Q(a) = \mathbb{E}[r \mid a]$
最优值（Optimal value） $V^*$ ： $V^* = Q(a^*) = \max_{a \in \mathcal{A}} Q(a)$
**损失（Regret）**是单步的机会损失： $l_t = \mathbb{E}[V^* - Q(a_t)]$
**总损失（Total Regret）**是总的机会损失： $L_t = \mathbb{E}\left[\sum_{\tau=1}^{t} (V^* - Q(a_\tau))\right]$
最大化累积奖励 ⇔ 最小化总损失

Evaluating Regret 评估损失

次数 $N_t(a)$ ：动作 $a$ 被选择的次数（在时间步 $t$ 时）。
间隙 $\Delta_a$ ：动作 $a$ 与最优动作 $a^*$ 之间的价值差异， $\Delta_i = V^* - Q(a_i)$ （即 $a^*$ 相对于其他动作的优势）。
损失（Regret） 是间隙和次数的函数：

L_t = \mathbb{E}\left[\sum_{\tau=1}^{t} (V^* - Q(a_\tau))\right]

$= \sum_{a \in \mathcal{A}} \mathbb{E}[N_t(a)](V^* - Q(a))$

= \sum_{a \in \mathcal{A}} \mathbb{E}[N_t(a)]\Delta_a

一个好的算法应确保在较大间隙时选择次数较少，但间隙事先未知。

示例：处理脚趾骨折的方法，乐观性，评估贪婪算法的损失

每个臂（动作）的真实（未知）伯努利奖励参数为：
- 手术： $Q(a^1) = \theta_1 = 0.95$
- 用健康的脚趾固定： $Q(a^2) = \theta_2 = 0.9$
- 不采取措施： $Q(a^3) = \theta_3 = 0.1$
贪婪算法：

动作	最优动作	观察到的奖励	损失
$a^1$	$a^1$	0	0
$a^2$	$a^1$	1	0.05
$a^3$	$a^1$	0	0.85
$a^2$	$a^1$	1	0.05
$a^2$	$a^1$	0	0.05

对于贪婪方法，损失可以在决策次数（时间步长）中呈线性增长。在贪婪算法中，不同动作选择导致的损失值以及如何随着时间线性积累。贪婪策略在次优选择上可能积累更多损失，这显示了它的局限性。
注意：在实际环境中，我们无法评估损失，因为这需要知道真实最优动作的期望奖励。
相反，我们可以证明在任何赌博机问题中，算法潜在损失的一个上界。

Approach: ϵ-greedy methods

ϵ-Greedy Algorithm

$\epsilon$ -贪婪算法的步骤如下：
- 以概率 $1 - \epsilon$ 选择 $a_t = \arg\max_{a \in \mathcal{A}} \hat{Q}_t(a)$
- 以概率 $\epsilon$ 随机选择一个动作
总是会有 $\epsilon$ 的时间做出次优决策

示例：处理脚趾骨折的方法， $\epsilon$ -贪婪算法

假设每个臂（动作）的真实（未知）伯努利奖励参数为：
- 手术： $Q(a^1) = \theta_1 = 0.95$
- 用健康的脚趾固定： $Q(a^2) = \theta_2 = 0.9$
- 不采取措施： $Q(a^3) = \theta_3 = 0.1$
$\epsilon$ -贪婪算法
1. 对每个臂采样一次
  - 采取动作 $a^1$ （ $r \sim \text{伯努利}(0.95)$ ），得到+1， $\hat{Q}(a^1) = 1$
  - 采取动作 $a^2$ （ $r \sim \text{伯努利}(0.90)$ ），得到+1， $\hat{Q}(a^2) = 1$
  - 采取动作 $a^3$ （ $r \sim \text{伯努利}(0.1)$ ），得到0， $\hat{Q}(a^3) = 0$
2. 设 $\epsilon = 0.1$
3. $\epsilon$ -贪婪算法下一次选择每个臂的概率是多少？假设平局情况均匀分配。
- 90% 的概率贪婪选择： $a^1$ 和 $a^2$ 各为45%
- 10% 的概率中，每个 $a_1, a_2, a_3$ 各为3.3%

线性损失

计数 $N_t(a)$ 是动作 $a$ 的期望选择次数
间隙 $\Delta_a$ 是动作 $a$ 和最优动作 $a^*$ 之间的价值差异， $\Delta_i = V^* - Q(a_i)$
损失（Regret） 是间隙和计数的函数 $L_t = \sum_{a \in \mathcal{A}} \mathbb{E}[N_t(a)] \Delta_a$
非正式地说，如果一个算法在一定比例的时间内选择次优动作，那么它具有线性损失
假设存在 $a$ 使得 $\Delta_a > 0$
选择所有
1. $\epsilon = 0.1$ 时， $\epsilon$ -贪婪算法可能有线性损失
2. $\epsilon = 0$ 时， $\epsilon$ -贪婪算法可能有线性损失
3. 不确定两者都可能有线性损失。

在不同 $\epsilon$ 值下， $\epsilon$ -贪婪算法产生线性损失的可能性，强调如果算法在非最优选择上持续花费一定的时间，可能会导致损失线性增长。不同策略（贪婪、 $\epsilon$ -贪婪、和衰减的 $\epsilon$ -贪婪）随着时间步长增加所产生的总损失（regret）的区别，并探讨了损失表现的特征。

图示解释：
- 图中的纵轴表示总损失（总的机会损失），横轴表示时间步长。
- 曲线展示了不同策略的总损失如何随着时间的推移而变化：
  - 蓝色线（greedy）：表示纯贪婪策略，总损失呈线性增长。这是因为这种策略总是选择当前认为最优的选项，缺乏探索可能导致长期次优选择。
  - 红色线（ $\epsilon$ -greedy）：表示固定 $\epsilon$ 的贪婪策略，其总损失仍然呈现线性增长，但稍好于纯贪婪策略。这是因为 $\epsilon$ -贪婪策略一定比例上随机选择，因此有一定探索。
  - 黑色线（decaying $\epsilon$ -greedy）：表示 $\epsilon$ 随着时间逐渐减小的贪婪策略，该策略的损失增长速度低于线性。这是因为随着探索的逐渐减少，策略越来越接近最优。
- "Explore forever" 和 "Explore never" 都显示出线性总损失，表明一成不变的探索或不探索都不足以获得最优解。
- 最后一个问题探讨是否有可能实现亚线性损失（损失的增长速度低于线性），即总损失相对于时间步/决策数量增长较慢。这通常需要一种机制，可以动态调整探索和利用的平衡，以便在较长时间内表现出较好的性能。

Types of Regret bounds 损失边界的类型

问题无关（Problem independent）：将损失的增长限制在 $T$ 的函数内， $T$ 是算法操作的总时间步长。
问题相关（Problem dependent）：将损失限制为拉动每个臂的次数与该臂和最优臂 $a^*$ 之间的奖励差距的函数。

Lower Bound 下界

利用下界来确定这个问题的难度。
任何算法的性能由最优臂与其他臂之间的相似性决定。
困难的问题具有均值不同但外观相似的臂。
这可以通过间隙 $\Delta_a$ 和分布的相似性 $D_{KL}(\mathcal{R}^a \parallel \mathcal{R}^{a^*})$ 形式化描述。
定理（Lai 和 Robbins）：渐近总损失至少是时间步数的对数增长 $\lim_{t \to \infty} L_t \geq \log t \sum_{a | \Delta_a > 0} \frac{\Delta_a}{D_{KL}(\mathcal{R}^a \parallel \mathcal{R}^{a^*})}$
下界是亚线性的，这一点是值得期待的。

Approach: Optimism under uncertainty

Optimism in the Face of Uncertainty

选择可能具有高价值的行动
为什么？
两种结果：
- 获取高奖励：如果这个选择的回报确实很高
- 学习一些东西：如果这个选择的回报实际上较低，进行尝试将（期望上）减少其平均奖励和关于其价值的不确定性

Upper Confidence Bounds

为每个行动值估计上置信界限 $U_t(a)$ ，使得 $Q(a) \leq U_t(a)$ 具有很高的概率
这取决于行动 $a$ 被选择的次数 $N_t(a)$
选择最大化上置信界限 Upper Confidence Bound (UCB) 的行动

a_t = \arg \max_{a \in A} [U_t(a)]

Hoeffding’s Inequality

定理（霍夫丁不等式）：设 $X_1, \ldots, X_n$ 是独立同分布（i.i.d.）的随机变量，其取值在 $[0,1]$ 之间，且让 $\bar{X_n} = \frac{1}{n} \sum_{\tau=1}^{n} X_\tau$ 为样本均值。则有：

P\left[E[X] > \bar{X_n} + u\right] \leq \exp(-2nu^2)

P\left(|E[X] - \bar{X_n}| > u\right) \leq 2 \exp(-2nu^2)

取 $u^2 = \frac{1}{n} \log \frac{2}{\delta}$ ，则有：

\bar{X_n} - u \leq E[X] \leq \bar{X_n} + u \quad \text{以概率} \geq 1 - \delta

该不等式表明，样本均值 $\bar{X}_n$ 与期望 $E[X]$ 的偏差可以通过选择适当的 $u$ 进行控制，并且可以用指数衰减的形式展示概率界限。
应用：
- 如果想要以高概率保证样本均值与期望值的接近性，可以根据需要调整 $u$ 的大小。

UCB Bandit Regret 这引出了 UCB1 算法

a_t = \arg \max_{a \in A} \left[ \hat{Q}(a) + \sqrt{\frac{2 \log \frac{1}{\delta}}{N_t(a)}} \right]

其中：
- $\hat{Q}(a)$ 为行动 $a$ 的经验均值
- $\delta$ 是一个小的正数
- $N_t(a)$ 是在 $t$ 步骤之后选择行动 $a$ 的样本数

玩具示例：处理骨折脚趾的方法，乐观主义

每个行动（手臂）的真实（未知）参数为：
- 手术： $Q(a^1) = \theta_1 = 0.95$
- 夹板固定： $Q(a^2) = \theta_2 = 0.90$
- 什么也不做： $Q(a^3) = \theta_3 = 0.10$
UCB1（Auer, Cesa-Bianchi, Fischer 2002）
1. 每个手臂采样一次
  - 执行动作 $a^1$ (r ~ Bernoulli(0.95))，获得 +1， $\hat{Q}(a^1) = 1$
  - 执行动作 $a^2$ (r ~ Bernoulli(0.90))，获得 +1， $\hat{Q}(a^2) = 1$
  - 执行动作 $a^3$ (r ~ Bernoulli(0.10))，获得 0， $\hat{Q}(a^3) = 0$
2. 设定 $t = 3$ ，计算每个行动的上置信界限
$UCB(a) = \hat{Q}(a) + \sqrt{\frac{2 \log \frac{1}{\delta}}{N_t(a)}}$
1. 设置 $t = 3$ / $t = t + 1$ ，选择行动 $a_t = \arg \max_a UCB(a)$
2. 观察到奖励 1
3. 计算每个行动的上置信界限：
$UCB(a^1) = 1 + \sqrt{\frac{2 \log \frac{1}{\delta}}{2}}, \quad UCB(a^2) = 1 + \sqrt{\frac{2 \log \frac{1}{\delta}}{1}}, \quad UCB(a^3) = 0 + \sqrt{\frac{2 \log \frac{1}{\delta}}{1}}$

Confidence Level $\delta$

很小
如果问题设置中有固定数量的时间步 $T$ ，可以设定 $\delta = \frac{\delta}{T |A|}$
- 并集界限：
$P\left(\bigcup E_i\right) \leq \sum_{i} P(E_i)$
通常希望在其他设置中也进行这种处理。

UCB 多臂老虎机的Regret Bound

任何次优的手臂 $a \neq a^*$ 被 UCB 至多拉取 $E[N_T(a)] \leq C' \frac{\log \frac{1}{\delta}}{\Delta_a^2} + \frac{\pi^2}{3} + 1$ 。因此，UCB 的 Regret Bound 由下式界定：

\sum_a \Delta_a E[N_T(a)] \leq \sum_a C' \frac{\log T}{\Delta_a^2} + |A|(\frac{\pi^2}{3} + 1)。

（手臂均值在 $[0, 1]$ 内）

P\left(|Q(a) - \hat{Q}_t(a)| \geq \sqrt{\frac{C \log \frac{1}{\delta}}{N_t(a)}}\right) \leq \frac{\delta}{T}

Q(a) - \sqrt{\frac{C \log \frac{1}{\delta}}{N_t(a)}} \leq \hat{Q}_t(a) \leq Q(a) + \sqrt{\frac{C \log \frac{1}{\delta}}{N_t(a)}}

\hat{Q}_t(a) + \sqrt{\frac{C \log \frac{1}{\delta}}{N_t(a^*)}} \geq \hat{Q}_t(a^*) + \sqrt{\frac{C \log \frac{1}{\delta}}{N_t(a^*)}} \geq Q(a^*)

Q(a) + 2\sqrt{\frac{C \log \frac{1}{\delta}}{N_t(a)}} \geq Q(a^*)

2\sqrt{\frac{C \log \frac{1}{\delta}}{N_t(a)}} \geq Q(a^*) - Q(a) = \Delta_a

N_t(a) \leq \frac{4C \log \frac{1}{\delta}}{\Delta_a^2}

UCB Bandit Regret

这引出了 UCB1 算法：

a_t = \arg \max_{a \in A} \left[ \hat{Q}(a) + \sqrt{\frac{2 \log t}{N_t(a)}} \right]

定理：UCB 算法实现对数渐近总悔恨的界限

\lim_{t \to \infty} L_t \leq 8 \log t \sum_{a \,| \Delta_a > 0} \frac{1}{\Delta_a}

Lecture 12 Fast Reinforcement Learning II

Bandits and Probably Approximately Correct

多臂老虎机符号回顾

多臂老虎机是一个包含 $(A, R)$ 的元组。
$A$ : 已知的 $m$ 个行动（手臂）集合。
$R^a(r) = \mathbb{P}[r | a]$ 是一个未知的奖励概率分布。
在每个时间步 $t$ 代理选择一个行动 $a_t \in A$ 。
环境产生一个奖励 $r_t \sim R^{a_t}$ 。
目标：最大化累积奖励 $\sum_{\tau=1}^{t} r_\tau$ 。
Regret 是一次机会损失：
$l_t = \mathbb{E}[V^* - Q(a_t)]$
Total Regret 是总的机会损失：
$L_t = \mathbb{E}\left[\sum_{\tau=1}^{t} V^* - Q(a_\tau)\right]$
最大化累积奖励 $\Leftrightarrow$ 最小化总悔恨。

Optimistic Initialization with Greedy Bandit Algorithms

简单且实用的想法：将 $Q(a)$ 初始化为较高的值。
通过增量蒙特卡洛评估更新行动价值。
开始时确保 $N(a) > 0$ 。

\hat{Q}_t(a_t) = \hat{Q}_{t-1} + \frac{1}{N_t(a_t)}(r_t - \hat{Q}_{t-1})

如果仔细选择初始化值，结果会发现可以取得良好的性能。
在一个新的算法评估标准下进行。

Framework: Probably Approximately Correct Algorithms

Theoretical regret bounds说明了regret如何随着 $T$ 增长。
可能会造成很多小错误或不频繁的大错误。
可能关注于限制非小错误的数量。
更正式地说，Approximately Correct Algorithms（PAC）算法：
- 在每个时间步，选择一个动作 $a$ 。
- 所选动作的价值是 $\epsilon$ -最优的： $Q(a) \geq Q(a^*) - \epsilon$ 。
- 以至少 $1 - \delta$ 的概率满足上述条件。
- 在除多项式数量的时间步骤外，始终符合以上条件。
在问题参数（如：动作数量、 $\epsilon$ 、 $\delta$ 等）上是多项式时间复杂度。
大多数 PAC 算法基于乐观主义或汤普森采样（Thompson Sampling）。
一些采用乐观主义的 PAC 算法简单地将所有值初始化为一个（特定于问题的）高值。

Toy Example: Probably Approximately Correct and Regret

Greedy Bandit Algorithms vs Optimistic Initialization

贪婪算法 Greedy：线性总悔恨
Constant ϵ-greedy：线性总悔恨
Decaying ϵ-greedy：次线性悔恨，但需要知道间隙（gaps），而这些间隙是未知的
Optimistic initialization：如果以足够乐观的方式初始化值，获得次线性悔恨；否则为线性悔恨

Bayesian Bandits

到目前为止，我们并未对奖励分布 $R$ 作出任何假设。
- 除了对奖励的界限。
Bayesian Bandits 利用奖励的先验知识 $p[R]$ 。

简短回顾 / 贝叶斯推断概述

在贝叶斯视角下，我们从未知参数的先验分布开始。
- 在这里，未知的奖励分布针对每个手臂。
根据对该参数的观察/数据，使用贝叶斯法则更新我们对未知参数的确定性。
例如，设定手臂 $i$ 的奖励是一个依赖于参数 $\phi_i$ 的概率分布。
对 $\phi_i$ 的初始先验为 $p(\phi_i)$ 。
拉取手臂 $i$ 并观察奖励 $r_{i1}$ 。
使用贝叶斯法则更新 $\phi_i$ 的估计：

p(\phi_i|r_{i1}) = \frac{p(r_{i1}|\phi_i)p(\phi_i)}{p(r_{i1})} = \frac{p(r_{i1}|\phi_i)p(\phi_i)}{\int_{\phi_i} p(r_{i1}|\phi_i)p(\phi_i)d\phi_i}

一般来说，如果没有对先验和数据似然形式的额外结构，确切计算这个更新可能会很棘手。
但有时可以通过分析来完成。
如果先验和后验的参数表示形式相同，则称先验和模型为共轭。
例如，指数族分布有共轭先验。

简短回顾 / 贝叶斯推断：伯努力分布

考虑一个老虎机问题，其中手臂的奖励是从参数为 $\theta$ 的伯努力分布中抽取的二元结果 0 或 1。
- 例如，广告点击率、患者治疗成功与失败等。
Beta 分布 $\text{Beta}(\alpha, \beta)$ 是伯努力分布的共轭分布。

p(\theta|\alpha, \beta) = \theta^{\alpha-1}(1 - \theta)^{\beta-1} \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}

其中 $\Gamma(x)$ 是伽马函数。

假设对 $\theta$ 的先验是 $\text{Beta}(\alpha, \beta)$ 如上所示。
然后在观察到奖励 $r \in \{0, 1\}$ 后，更新后基于 $\theta$ 的后验分布为：

\text{Beta}(r + \alpha, 1 - r + \beta)

贝叶斯推断在决策中的应用

维护对奖励参数的分布。
使用这个分布来指导行动选择。

Bayesian Bandits概述

到目前为止，我们并未对奖励分布 $R$ 作出任何假设。
- 除了对奖励的界限。
贝叶斯老虎机利用奖励的先验知识 $p[R]$ 。
它们计算奖励的后验分布 $p[R | h_t]$ ，其中 $h_t = (a_1, r_1, \ldots, a_{t-1}, r_{t-1})$ 。
使用后验分布来指导探索。
- 上置信界限（Bayesian UCB）。
- 概率匹配（汤普森采样）。
如果先验知识准确，性能会更好。

Thompson Sampling

概率匹配

假设对每个手臂的奖励具有参数化分布。
概率匹配根据动作 $a$ 是最佳动作的概率来选择动作：

\pi(a | h_t) = \mathbb{P}[Q(a) > Q(a'), \forall a' \neq a | h_t]

概率匹配在面对不确定性时通常是乐观的：
- 不确定的动作具有更高被认为是最佳动作的概率。
从后验分布中分析地计算一个动作是最佳的概率可能会很困难。
有点不可思议的是，有一种简单的方法实现概率匹配。

Thompson Sampling

汤普森采样实现概率匹配

\pi(a | h_t) = \mathbb{P}[Q(a) > Q(a'), \forall a' \neq a | h_t]

= \mathbb{E}_{R | h_t}\left[1(a = \text{arg max}_{a \in A} \, Q(a))\right]

Bayesian Regret

Framework: Regret and Bayesian Regret

我们如何在贝叶斯设置中评估性能？
Frequentist regret假设存在一组真实（未知的）参数：

\text{Regret}(A, T; \theta) = \mathbb{E}_{\tau} \left[ \sum_{t=1}^{T} Q(a^*) - Q(a_t) \big| \theta \right]

其中 $\mathbb{E}_{\tau}$ 表示基于给定算法 $A$ 所采取的动作历史和观察到的奖励的期望。

BayesRegret 假设存在一个关于参数的先验：

\text{BayesRegret}(A, T; \theta) = \mathbb{E}_{\theta \sim p_{\theta}, T} \left[ \sum_{t=1}^{T} Q(a^*) - Q(a_t) \big| \theta \right]

Bounding Regret Using Optimism

我们如何在贝叶斯设置中评估性能？
Frequentist regret假设存在一组真实（未知的）参数：

\text{Regret}(A, T; \theta) = \mathbb{E}_{\tau} \left[ \sum_{t=1}^{T} Q(a^*) - Q(a_t) \big| \theta \right] \leq \mathbb{E}_{\tau} \left[ \sum_{t=1}^{T} U_t(a_t) - Q(a_t) \big| \theta \right]

其中 $\mathbb{E}_{\tau}$ 表示基于给定算法 $A$ 所采取的动作历史和观察到的奖励的期望（在事件 $U_t$ 是一个上界的情况下）。

Thompson sampling implements probability matching

标准汤普森采样的频率界限不（最后检查时）与频率算法的最佳界限相匹配。
从经验上来看，汤普森采样可以有效，尤其是在上下文多臂老虎机中。

Optimal Policy for Bayesian Bandits?

汤普森采样通常表现良好，但它是否是最优的？
在已知先验和已知时间跨度的情况下，可以计算出一个决策策略，以最大化可用时间内的期望奖励。
计算上的挑战：天真地说，这将产生一个决策策略，该策略是针对历史记录与下一个要抽取的手臂的函数。

Gittins Index for Bayesian Bandits

汤普森采样通常效果良好，但它是否是最优的？
在已知先验和已知时间跨度的情况下，可以计算出会最大化可用时间内期望奖励的决策策略。
计算上的挑战：天真地说，这将创建一个决策策略，该策略是历史记录和下一个要抽取的手臂的函数。
索引策略：一种决策策略，为每个手臂计算一个“实值索引”，并选择具有最大索引的手臂，使用仅来自该手臂和时间跨度的统计数据（来源于 Lattimore 和 Svespari 2019 年的《Bandit Algorithms》）。
吉廷斯指数：在贝叶斯多臂老虎机中最大化预期折扣奖励的最优策略。

Lecture 13 Fast RL III

设置、框架与方法

在这三次讲座中将讨论两个设置、多个框架和方法。
设置：老虎机（单次决策）、马尔可夫决策过程（MDPs）。
框架：评估标准，用于正式评估强化学习算法的质量。截至目前，已经看到经验评估、渐近收敛、悔恨、可能近似正确等。
方法：为了在特定集合中实现特定评估标准的一类算法。截至目前，已看到的探索方法有：贪婪（greedy）、ε-贪婪（ε-greedy）、乐观（optimism）、汤普森采样（Thompson sampling），适用于多臂老虎机。
目标：在大型复杂领域中实现快速、高效的强化学习。

MDPs

Fast RL in Markov Decision Processes

非常类似的框架和方法集在强化学习的快速学习中是相关的。
框架：
- 悔恨（Regret）
- 贝叶斯悔恨（Bayesian regret）
- 可能近似正确（Probably Approximately Correct, PAC）
方法：
- 在不确定性下的乐观（Optimism under uncertainty）
- 概率匹配 / 汤普森采样（Probability matching / Thompson sampling）
框架：可能近似正确（Probably Approximately Correct, PAC）

Model-Based Interval Estimation with Exploration Bonus (MBIE-EB)

Framework: PAC for MDPs 可能近似正确（PAC）

对于给定的 $\epsilon$ 和 $\delta$ ，一个强化学习算法 $A$ 若在除了 $N$ 步之外的所有步骤中，算法 $A$ 在时间步骤 $t$ 选择的动作 $a_t$ 与最优动作 $\epsilon$ -接近，则该算法是 PAC，其中 $N$ 是 $|S|$ 、 $|A|$ 、 $\frac{1}{1 - \gamma}$ 、 $\frac{1}{\epsilon}$ 、 $\frac{1}{\delta}$ 的多项式函数。
这对所有算法都适用吗？ MBIE-EB is a PAC RL Algorithm 定理：假设 $\epsilon$ 和 $\delta$ 是两个介于 0 和 1 之间的实数，且 $M = \langle S, A, T, R, \gamma \rangle$ 是任意的马尔可夫决策过程（MDP）。存在一个输入 $m = m\left(\frac{1}{\epsilon}, \frac{1}{\delta}\right)$ ，满足以下条件：

m\left(\frac{1}{\epsilon}, \frac{1}{\delta}\right) = O\left(\frac{|S|}{\epsilon^2(1-\gamma)^4} + \frac{1}{\epsilon^2(1-\gamma)^4} \ln\frac{|S||A|}{\epsilon(1-\gamma)\delta}\right)

并且 $\beta = \left(\frac{1}{(1 - \gamma)}\right) \sqrt{\ln(2)|S||A|m/\delta}/2$ 。如果在 MDP $M$ 上执行 MBIE-EB，则如下成立：设 $A_t$ 为执行 MBIE-EB 时在时间 $t$ 的策略， $s_t$ 表示在时间 $t$ 的状态。以至少 $1 - \delta$ 的概率，有

V^{A_t}_M(s_t) \geq V^*_M(s_t) - \epsilon

这对除了 $O\left(\frac{|S||A|}{\epsilon^3(1-\gamma)^6} (|S| + \ln\frac{|S||A|}{\epsilon(1-\gamma)\delta}) \ln \frac{1}{\delta}\right)$ 的时间步 $t$ 都成立。

One of the key ideas: Simulation Lemma

Bound error in value function due to error in dynamics & reward models

Bayesian MDPs

Bayesian Bandits

贝叶斯老虎机利用对奖励的先验知识 $p[R]$ 。
它们计算奖励的后验分布 $p[R | h_t]$ ，其中 $h_t = (a_1, r_1, \ldots, a_{t-1}, r_{t-1})$ 。
使用后验分布来指导探索：
- 上置信界（Upper Confidence Bounds, Bayesian UCB）
- 概率匹配（Probability Matching, Thompson Sampling）
如果先验知识准确，性能更佳。

伯努利老虎机

考虑一个老虎机问题，其中一个臂的奖励是从参数为 $\theta$ 的伯努利分布中抽取的二元结果 $\{0, 1\}$ ，
- 例如：广告点击率、病人治疗的成功/失败等。
Beta 分布 $\text{Beta}(\alpha, \beta)$ 是伯努利分布的共轭分布：

p(\theta | \alpha, \beta) = \theta^{\alpha - 1}(1 - \theta)^{\beta - 1} \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}

其中 $\Gamma(x)$ 是伽马函数。

假设对 $\theta$ 的先验是 $\text{Beta}(\alpha, \beta)$ ，如上所述。
然后在观察到奖励 $r \in \{0, 1\}$ 后，更新后的 over $\theta$ 的后验分布为：

\text{Beta}(r + \alpha, 1 - r + \beta)

Thompson Sampling for Bandits Bayesian Model-Based RL

维护 MDP 模型的后验分布。
估计转移和奖励， $p[P, R | h_t]$ ，其中 $h_t = (s_1, a_1, r_1, \ldots, s_t)$ 是历史记录。
使用后验分布来指导探索：
- 上置信界（Upper Confidence Bounds, Bayesian UCB）
- 概率匹配（Probability Matching, Thompson Sampling） Thompson Sampling: Model-Based RL
汤普森采样实现概率匹配 $\pi(s, a | h_t) = \mathbb{P}[Q(s, a) \geq Q(s, a'), \forall a' \neq a | h_t]$

= \mathbb{E}_{P, R | h_t} \left[ 1(a = \arg \max_{a \in A} Q(s, a)) \right]

使用贝叶斯法则计算后验分布 $p[P, R | h_t]$ 。
从后验中抽样一个 MDP $P, R$ 。
使用喜欢的规划算法求解 MDP，以获取 $Q^*(s, a)$ 。
为抽样的 MDP 选择最优动作 $a_t = \arg \max_{a \in A} Q^*(s_t, a)$ 。

Posterior Sampling for Reinforcement Learning (PSRL)

Seed Sampling and Concurrent PSRL. Dimakopoulou, Van Roy (ICML 2018)

Generalization and Strategic Exploration

活跃的研究领域：结合泛化与战略探索。
许多方法基于这里概述的原则：
- 在不确定性下的乐观策略。
- 汤普森采样。
这些问题对大状态空间和大动作空间的老虎机以及马尔可夫决策过程（MDPs）非常重要。
接下来的内容：简要讨论上下文老虎机 contextual bandits，然后讨论马尔可夫决策过程。

Contextual Multiarmed Bandits

多臂老虎机是一个元组 $(A, R)$ ，其中 $A$ 是已知的 $m$ 个动作（臂）的集合。
- $R^a(r) = \mathbb{P}[r | a]$ 是对奖励的未知概率分布。
- 在每个步骤 $t$ 中，智能体选择一个动作 $a_t \in A$ 。
- 环境生成奖励 $r_t \sim R^{a_t}$ 。
- 目标：最大化累积奖励 $\sum_{\tau=1}^{t} r_{\tau}$ / 最小化 total regret。
上下文老虎机：上下文/状态空间 $S$ 和动作空间 $A$ 。
- $R^{a,s}(r) = \mathbb{P}[r | a, s]$ 是针对特定状态和动作的未知概率分布。
- 如果状态和/或动作空间非常大，通常会使用一个函数来表示输入状态与动作和输出奖励之间的关系。 Beneﬁts of Generalization: Bandits vs Contextual Multiarmed Bandits: 图表显示了使用上下文信息（通过 LinUCB）可以显著提高选择动作的决策质量，尤其是在动作空间较大时。这说明了泛化在多臂老虎机和上下文老虎机中的重要性。

Contextual Multiarmed Bandits

上下文/状态空间 $S$ 和动作空间 $A$ 。
- $R^{a,s}(r) = \mathbb{P}[r | a, s]$ 是针对特定状态和动作的未知奖励概率分布。
如果状态和/或动作空间非常大，通常会使用一个函数来表示输入状态与动作及输出奖励之间的关系。
通常将奖励建模为输入特征 (\phi(s, a)) 的线性函数： $r = \theta \phi(s, a) + \varepsilon \quad \text{其中} \quad \varepsilon \sim \mathcal{N}(0, \sigma^2)$

Disjoint Linear Contextual Multi-armed Bandits 不相交线性上下文多臂老虎机

假设每个臂 $a$ 都有自己独特的 $\theta_a$ 参数。
奖励模型为： $r(s, a) = \theta_a \phi(s) + \varepsilon \quad \text{其中} \quad \varepsilon \sim \mathcal{N}(0, \sigma^2)$
检查您的理解：
- $r = \theta \phi(s, a) + \varepsilon$ 能否表示一个不相交的线性模型？

Learning in Linear Contextual Multiarmed Bandits

r = \theta \phi(s, a) + \varepsilon

此前我们使用了霍夫丁不等式来表示对标量奖励的不确定性。
现在我们希望通过对 $\theta$ 的不确定性来表示对 $r$ 的不确定性（检查您的理解：为什么这足以捕捉对 $r$ 的不确定性？）
这需要我们计算一个不确定性集（uncertainty set）来描述向量 $\theta$ 。
这可以以计算可行的方式完成，参考 A Contextual-Bandit Approach to Personalized News Article Recommendation, WWW 2010 or Chapter 19 in Lattimore and Szepesvari )

Generalization and Optimism

回顾 MBIE-EB 算法在有限状态和动作域中的应用。
在连续或极大状态和/或动作空间中需要进行哪些修改？
估计不确定性：
- $(s, a)$ 和 $(s, a, s')$ 的计数在我们只期望遇到某个状态一次的情况下并不有用。

Model-Based Interval Estimation with Exploration Bonus (MBIE-EB)

Recall: Value Function Approximation with Control

对于 Q 学习，使用时序差分（TD）目标

r + \gamma \max\_{a'} \hat{Q}(s', a'; w)

该目标利用当前函数近似值的最大值。

\Delta w = \alpha \left( r(s) + \gamma \max\_{a'} \hat{Q}(s', a'; w) - \hat{Q}(s, a; w) \right) \nabla\_w \hat{Q}(s, a; w)

修改为：

\Delta w = \alpha \left( r(s) + r\_{\text{bonus}}(s, a) + \gamma \max\_{a'} \hat{Q}(s', a'; w) - \hat{Q}(s, a; w) \right) \nabla\_w \hat{Q}(s, a; w)

$r_{\text{bonus}}(s, a)$ 应该反映对从状态 $s$ 和动作 $a$ 未来奖励的不确定性。
针对深度强化学习（deep RL）中对访问次数/访问密度进行估计的方法包括：
- Bellemare 等人 (NIPS 2016)
- Ostrovsky 等人 (ICML 2017)
- Tang 等人 (NIPS 2017)
注意：奖励项是在访问时计算的。在回放期间，这些项可能会变得过时。

Generalization and Strategic Exploration: Thompson Sampling

利用贝叶斯视角也激发了一些方法。
一种方法：在表示和参数上使用汤普森采样（Mandel, Liu, Brunskill, Popovic IJCAI 2016）。
在扩展到非常大领域时，考虑无模型方法也是很有用的。
这并非易事：希望能够从可能的 $Q^*$ 的后验中进行采样。
引导式 DQN（Bootstrapped DQN） (Osband et al. NIPS 2016)。
通过贝叶斯深度 Q 网络进行有效探索（Azizzadenesheli, Anandkumar, NeurIPS 工作坊 2017）：
- 使用深度神经网络。
- 在最后一层使用贝叶斯线性回归。
- 对于生成的后验保持乐观态度。
- 非常简单，从经验上来看，效果远好于仅在最后一层或引导式 DQN 上进行线性回归；在某些情况下不如奖励奖金。

Meta-Learning for RL Exploration

最终，我们通常希望拥有能够在多个任务中学习的代理。
我们能否让代理学习如何探索？
DREAM（Liu et al. NeurIPS 2022）是一个例子。
决策预训练变换器（Decision Pretrained Transformer）（Lee, Xie, Pacchiano, Chandak, Finn, Nachum 和 Brunskill NeurIPS 2023）是另一个例子。

Decision-Pretrained Transformer for Meta RL Can Learn and Leverage (Unknown) Task Structure To Significantly Accelerate Exploration

Summary

你应该了解的内容

定义强化学习中探索与利用的张力，以及为什么这种张力在监督学习或无监督学习中不会出现。
能够定义和比较“良好”性能的不同标准（经验性、收敛性、渐近性、后悔、PAC）。
能够将讨论的算法映射到它们所满足的性能标准。
理解 UCB（上置信界）证明的概要。