DRL 基础定义 $X$：大写字母表示随机变量 $x$：小写字母表示随机变量的观测值 Agent: 一个嵌入在环境中的系

定义

$X$ ：大写字母表示随机变量
$x$ ：小写字母表示随机变量的观测值

Agent:

一个嵌入在环境中的系统，并采取行动以改变环境的状态。

状态 ( State $S$ ):

状态可以被视为系统历史的摘要，它决定了系统的未来演变。

状态空间 $\mathcal{S}$ 是包含所有可能状态的集合。

在时间步 $t$ ，过去的状体被观察到，因此我们知道它们的值： $s_1, \cdots, s_t$ ；
然而，未来的状态 $S_{t+1}, S_{t+2}, \cdots$ 是未观察到的随机变量。

Action ( $A$ ):

基于状态和其他考虑因素的代理决策。

动作空间 $\mathcal{A}$ 是包含所有动作的集合。

动作空间可以是离散集，如 $\{\text{left}, \text{right}, \text{up}\}$ ，可以是连续集，如 $[0, 1] \times [-90, 90]$ 。
在时间步 $t$ ，过去的动作被观察到： $a_1, \cdots, a_t$ ，
未来的动作 $A_{t+1}, A_{t+2}, \cdots$ 是未观察到的随机变量。

奖励 (Reward $R$ ):

奖励是代理从环境中直接响应其动作而收到的值。

在时间步 $t$ ，所有的过去奖励都被观察到： $r_1, r_2, \cdots, r_t$ 。
未来的奖励 $R_i$ （对于 $i > t$ ）是未观察到的，它取决于随机变量 $S_{t+1}$ 和 $A_{t+1}$ 。因此，在时间步 $t$ ，未来的奖励 $R_{t+1}, R_{t+2}, \cdots$ 是随机变量。

策略函数 Policy function ( $\pi$ ):

Agent 的决策函数。策略是概率密度函数 (PDF):

\pi(a|s) = \mathbb{P}(A=a|S=s)

策略函数将观察到的状态 $S=s$ 映射到集合 $\mathcal{A}$ 中所有动作上的概率分布。由于 $\pi$ 是一个 PDF， $\sum_{a \in \mathcal{A}} \pi(a|s) = 1$ 。

对于所有 $a \in \mathcal{A}$ ，Agent 将以概率 $\pi(a|s)$ 执行动作 $a$ 。

动作 $A$ 根据策略函数随机采样。新状态 $S'$ 根据状态转移函数随机采样。

状态转移 State transition ( $p$ ):

给定当前状态 $S=s$ ，代理的动作 $A=a$ 将导致环境给出的新状态 $S'$ 。

状态转移函数是概率密度函数 (PDF)

p(s'|s,a) = \mathbb{P}(S'=s'|S=s, A=a)

对于所有 $s' \in \mathcal{S}$ ，环境以概率 $p(s'|s,a)$ 使 $s'$ 成为新状态。

轨迹（Trajectory）:

代理与环境的交互产生一系列 $(\text{状态}, \text{动作}, \text{奖励})$ 三元组: $s_1, a_1, r_1, \quad s_2, a_2, r_2, \quad s_3, a_3, r_3, \cdots$

回报 ( Return $U$ ):

回报（即累积未来奖励 cumulative future reward）定义为

U_t = R_t + R_{t+1} + R_{t+2} + R_{t+3} + \cdots

折现回报（即累积折现未来奖励 cumulative discounted future reward）定义为

U_t = R_t + \gamma \cdot R_{t+1} + \gamma^2 \cdot R_{t+2} + \gamma^3 \cdot R_{t+3} + \cdots

$\gamma \in (0,1)$ 是折现率。

回报 $U_t$ 是一个随机变量，因为未来的奖励 $R_t, R_{t+1}, R_{t+2}, \cdots$ 是未观测的随机变量。回想一下， $R_i$ ( $i \geq t$ ) 中的随机性来自未来的状态 $S_i$ 和动作 $A_i$ 。

动作价值函数 (Action-value function $Q_{\pi}$ ):

动作价值函数 $Q_\pi(s_t, a_t)$ 衡量给定状态 $s_t$ 和策略 $\pi$ 下，动作 $a_t$ 的优劣。

Q_\pi(s_t, a_t) = \mathbb{E}[U_t | S_t = s_t, A_t = a_t]

期望是相对于未来的动作 $A_{t+1}, A_{t+2}, \cdots$ 和未来的状态 $S_{t+1}, S_{t+2}, \cdots$ 取的，它们是随机变量。

注意 $Q_\pi(s_t, a_t)$ 依赖于策略函数 $\pi$ 和状态转移函数 $p$ 。

最优动作价值函数（Optimal action-value function $Q^*$ ）：

最优动作价值函数 $Q^*(s_t, a_t)$ 衡量在状态 $s_t$ 下动作 $a_t$ 的优劣。

Q^{*}(s, a) = \max_{\pi} Q_{\pi}(s, a).

$Q^*(s, a)$ 与策略函数 $\pi$ 无关。

已知 $s_t$ 和 $a_t$ ，不论未来采取什么样的策略 $\pi$ ，回报 $U_t$ 的期望不可能超过 $Q^*$ 。

状态价值函数（State-value function $V_{\pi}$ ）：

状态价值函数 $V_{\pi}(s_t)$ 在给定策略 $\pi$ 的情况下衡量当前状态 $s_t$ 的优劣。 $\mathbb{E}_S[V_{\pi}(S)]$ 评估了策略 $\pi$ 有多好。

V_{\pi}(s_t) = \mathbb{E}_{A \sim \pi(\cdot | s_t)}[Q_{\pi}(s_t, A)]

动作是离散的：

V_{\pi}(s_t) = \mathbb{E}_A [Q_{\pi}(s_t, A)] = \sum_a \pi(a|s_t) \cdot Q_{\pi}(s_t, a)

动作是连续的:

V_{\pi}(s_t) = \mathbb{E}_A [Q_{\pi}(s_t, A)] = \int \pi(a|s_t) \cdot Q_{\pi}(s_t, a) \, da

最优状态价值函数（Optimal state-value function $V_{*}$ ）：

最优状态价值函数 $V_{*}(s_t)$ 衡量当前状态 $s_t$ 的优劣。

V_{*}(s) = \max_{\pi} V_{\pi}(s).

请注意， $V_{*}(s)$ 与策略函数 $\pi$ 无关。

同策略(On-policy）与异策略(Off-policy)

行为策略：

控制智能体与环境交互的策略被称作行为策略。行为策略的作用是收集经验（experience），即观测的状态、动作、奖励。

目标策略：

强化学习的目标是得到一个策略函数，用这个策略函数来控制智能体。这个策略函数就叫做目标策略。

同策略：行为策略和目标策略相同。

异策略：行为策略和目标策略不同。

异策略的好处是可以用行为策略收集经验，把 $(s_t,a_t,r_t,S_{t+1})$ 这样的四元组记录到一个数组里，在事后反复利用这些经验去更新目标策略。

经验回放数组（replay buffer）： $(s_t,a_t,r_t,S_{t+1})$ 四元组。经验回放只适用于异策略，不适用于同策略，其原因是收集经验时用的行为策略不同于想要训练出的目标策略。

价值学习

动作价值函数 $Q_\pi(s_t, a_t)$ 衡量给定状态 $s_t$ 和策略 $\pi$ 下，动作 $a_t$ 的优劣

Q_\pi(s_t, a_t) = \mathbb{E}[U_t | S_t = s_t, A_t = a_t]

最优动作价值函数 $Q^*(s_t, a_t)$ 衡量在状态 $s_t$ 下动作 $a_t$ 的优劣。

Q^{*}(s, a) = \max_{\pi}~ Q_{\pi}(s, a)

已知 $s_t$ 和 $a_t$ ，不论未来采取什么样的策略 $\pi$ ，回报 $U_t$ 的期望不可能超过 $Q^*$ 。

最优动作价值函数 $Q^*(s, a)$ 可以用于控制 agent：观察状态 $s_t$ ，agent执行 :

a_t = \arg\max_{a \in \mathcal{A}} Q^*(s_t, a)

TD 算法是一大类算法，常见的有 Q-learning 和 SARSA。

Q-learning 的目的是学习最优动作价值函数 $Q^*(s_t, a_t)$ 。
SARSA 的目的是学习动作价值函数 $Q_{\pi}(s_t, a_t)$ 。

贝尔曼方程

Discounted Return

\begin{align} U_{t} &=R_{t}+\gamma\cdot R_{t+1}+\gamma^{2}\cdot R_{t+2}+\gamma^{3}\cdot R_{t+3}+\gamma^{4}\cdot R_{t+4}+\cdots \\ \\ &=R_{t}+\gamma\cdot(R_{t+1}+\gamma\cdot R_{t+2}+\gamma^{2}\cdot R_{t+3}+\gamma^{3}\cdot R_{t+4}+\cdots) \\ \\ &=R_{t} + \gamma (U_{t+1}) \end{align}

$\gamma \in (0,1)$ 是折现率。
$R_i$ （对于 $i > t$ ）是未来的奖励，是随机变量。

贝尔曼方程 $1$

假设 $R_t$ 是 $S_t$ 、 $A_t$ 、 $S_{t+1}$ 的函数。那么

Q_{\pi}(s_{t},a_{t}) =\mathbb{E}_{S_{t+1},A_{t+1}} \bigg[R_{t}+\gamma\cdot Q_{\pi}(S_{t+1},A_{t+1}) ~|~ S_{t}=s_{t},A_{t}=a_{t} \bigg]

贝尔曼方程 $2$ （将 $Q_{\pi}$ 表示成 $V_{\pi}$ ）

由于 $V_{\pi}(S_{t+1})= \mathbb{E}_{A_{t+1}} [Q_{\pi}(S_{t+1},A_{t+1})]$ :

Q_{\pi}(s_{t},a_{t}) =\mathbb{E}_{S_{t+1}} \bigg[R_{t}+\gamma\cdot V_{\pi}(S_{t+1}) ~|~ S_{t}=s_{t},A_{t}=a_{t} \bigg]

贝尔曼方程 $3$ （将 $Q_{\pi}$ 表示成 $V_{\pi}$ ）

由于 $V_{\pi}(S_{t})= \mathbb{E}_{A_{t}} [Q_{\pi}(S_{t},A_{t})]$ :

V_{\pi}(s_{t}) =\mathbb{E}_{A_t, S_{t+1}} \bigg[R_{t}+\gamma\cdot V_{\pi}(S_{t+1}) ~|~ S_{t}=s_{t} \bigg]

最优贝尔曼方程

Q_{\star}\bigl(s_{t},a_{t}\bigr)\ =\ \mathbb{E}_{S_{t+1}\sim p(\cdot|s_{t},a_{t})}\bigg[R_{t}+\gamma \cdot \max_{A \in \mathcal{A}} ~ Q_{\star}(S_{t+1},A\bigr) ~|~ S_{t}=s_{t},A_{t}=a_{t}\bigg].

`Q-learning`

Q-learning 的目的是学习最优动作价值函数 $Q^*(s_t, a_t)$ 。

Q^{*}(s, a) = \max_{\pi}~ Q_{\pi}(s, a)

实践中使用 深度 Q 网络（deep Q network，DQN） $Q(s, a; \mathbf w)$ 近似最优动作价值函数 $Q^*(s_t, a_t)$ ，其中的 $\mathbf w$ 表示神经网络中的参数。

TD 训练 DQN

根据最优贝尔曼方程

\underbrace {Q_{\star}\bigl(s_{t},a_{t}\bigr)}_{U_t \text{的期望}} =\ \mathbb{E}_{S_{t+1}\sim p(\cdot|s_{t},a_{t})}\bigg[R_{t}+\gamma \cdot \underbrace {\max_{A \in \mathcal{A}} ~ Q_{\star}(S_{t+1},A\bigr)}_{U_{t+1} \text{的期望}} ~|~ S_{t}=s_{t},A_{t}=a_{t}\bigg].

做蒙特卡洛近似：

当智能体执行动作 $a_t$ 之后，环境通过状态转移函数 $p(s_{t+1} \mid s_t, a_t)$ 计算出新状态 $s_{t+1}$ 。
奖励 $R_t$ 最多只依赖于 $S_t$ 、 $A_t$ 、 $S_{t+1}$ 。那么当我们观测到 $s_t$ 、 $a_t$ 、 $s_{t+1}$ 时，则奖励 $R_t$ 也被观测到，记作 $r_t$ 。
用 $4$ 元组 $(s_t, a_t, r_t, s_{t+1})$ 计算出
$r_t + \gamma \cdot \max_{A \in \mathcal{A}} Q_{\star}(s_{t+1}, A)$
作为最优贝尔曼方程 右边期望的蒙特卡洛近似，得到：
$Q_{\star}(s_t, a_t) \approx r_t + \gamma \cdot \max_{A \in \mathcal{A}} Q_{\star}(s_{t+1}, a)$

把最优动作价值函数 $Q_*(s, a)$ 替换成神经网络 $Q(s, a; \mathbf{w})$ , 得到:

\begin{aligned} \underbrace{Q(s_t, a_t; \mathbf{w})}_{\text{预测} ~\hat{q}_t} ~\approx~ \underbrace{r_t + \gamma \cdot \max_{a \in \mathcal A}~ Q(s_{t+1}, a; \mathbf{w})}_{\text{TD目标} ~ \hat{y}_t} \\ \end{aligned}

损失函数:

L(\mathbf{w}) = \frac{1}{2} \left[ Q(s_t, a_t; \mathbf{w}) - \hat{y}_t \right]^2

$L$ 关于 $\mathbf{w}$ 的梯度:

\nabla_{\mathbf{w}} L(\mathbf{w}) = \underbrace{\left( \hat{q}_t - \hat{y}_t \right)}_{ \text{TD 误差 } \delta_t} \cdot \nabla_{\mathbf{w}} Q(s_t, a_t; \mathbf{w}).

`SARSA` 算法

State-Action-Reward-State-Action，SARSA 的目的是学习动作价值函数 $Q_\pi(s_t, a_t)$

Q_\pi(s_t, a_t) = \mathbb{E}[U_t | S_t = s_t, A_t = a_t]

实践中使用 价值网络（value network） $q(s, a; \mathbf w)$ 近似 动作价值函数 $Q_\pi(s_t, a_t)$ ，其中的 $\mathbf w$ 表示神经网络中的参数。

SARSA 算法

根据 贝尔曼方程 $1$ ：

Q_{\pi}(s_{t},a_{t}) =\mathbb{E}_{S_{t+1},A_{t+1}} \bigg[R_{t}+\gamma\cdot Q_{\pi}(S_{t+1},A_{t+1}) ~|~ S_{t}=s_{t},A_{t}=a_{t} \bigg]

做蒙特卡洛近似：

给定当前状态 $s_t$ ，智能体执行动作 $a_t$ ，环境会给出奖励 $r_t$ 和新的状态 $s_{t+1}$ 。然后基于 $s_{t+1}$ 做随机抽样：
$\tilde{a}_{t+1} ~\sim~ \pi(\cdot \mid s_{t+1})$
SARSA 算法用到了 $5$ 元组： $(s_t , a_t , r_t , s_{t+1}, \tilde{a}_{t+1})$ 计算出：
$r_t + \gamma \cdot Q_{\pi}(s_{t+1},\tilde{a}_{t+1})$
作为贝尔曼方程 右边期望的蒙特卡洛近似，得到：
$Q_{\pi}(s_t, a_t) ~\approx~ r_t + \gamma \cdot Q_{\pi}(s_{t+1},\tilde{a}_{t+1})$

把动作价值函数 $Q_{\pi}(s, a)$ 替换成价值网络 $q(s, a; \mathbf{w})$ , 得到：

\begin{aligned} \underbrace{q(s_t, a_t; \mathbf{w})}_{\text{预测} ~\hat{q}_t} ~\approx~ \underbrace{r_t + \gamma \cdot q(s_{t+1}, \tilde{a}_{t+1}; \mathbf{w})}_{\text{TD目标} ~ \hat{y}_t} \\ \end{aligned}

损失函数:

L(\mathbf{w}) = \frac{1}{2} \left[ q(s_t, a_t; \mathbf{w}) - \hat{y}_t \right]^2

$L$ 关于 $\mathbf{w}$ 的梯度:

\nabla_{\mathbf{w}} L(\mathbf{w}) = \underbrace{\left( \hat{q}_t - \hat{y}_t \right)}_{ \text{TD 误差 } \delta_t} \cdot \nabla_{\mathbf{w}} q(s_t, a_t; \mathbf{w})

Q-learning 与 SARSA 的对比：


`Q-learning`	近似 $Q_{*}$	异策略	可以使用经验回放
SARSA	近似 $Q_{\pi}$	同策略	不能使用经验回放
{.table-hover}

Q-learning的目标是学习 DQN $Q(s, a; \mathbf w)$ ，作为最优动作价值函数 $Q^*(s_t, a_t)$ 的近似。因为 $Q^*$ 与策略 $\pi$ 无关，所以在理想情况下，不论收集经验用的行为策略 $\pi$ 是什么，都不影响 Q-learning 得到的最优动作价值函数。

Q-learning 中损失函数 $L$ 关于 $\mathbf{w}$ 的梯度与 $\pi$ 无关（ $Q(s, a; \mathbf w)$ 与 $\pi$ 无关）:
$\nabla_{\mathbf{w}} L(\mathbf{w}) = \underbrace{\left( \hat{q}_t - \hat{y}_t \right)}_{ \text{TD 误差 } \delta_t} \cdot \nabla_{\mathbf{w}} Q(s_t, a_t; \mathbf{w}).$
因此，Q-learning属于 异策略（off-policy），允许行为策略区别于目标策略，可以用经验回放。
SARSA 算法的目标是学习 价值网络（value network） $q(s, a; \mathbf w)$ ，作为 动作价值函数 $Q_\pi(s_t, a_t)$ 的近似。 $Q_{\pi}$ 与策略 $\pi$ 相关，不同的策略 $\pi$ 对应 $Q_{\pi}$ 不同。策略 $\pi$ 越好， $Q_{\pi}$ 的值越大。

经验回放数组里的经验 $(s_j, a_j, r_j, s_{j+1})$ 是过时的行为策略 $\pi_{ \text{old}}$ 收集到的，与当前策略 $\pi_{\text{now}}$ 及其对应的价值 $Q_{\pi_{\text{now}}}$ 对应不上。想要学习 $Q_{\pi}$ 的话，必须用与当前策略 $\pi_{\text{now}}$ 收集到的经验，而不能用过时的 $\pi_{\text{old}}$ 收集到的经验。

SARSA 中损失函数 $L$ 关于 $\mathbf{w}$ 的梯度与 $\pi$ 相关（ $q(s, a; \mathbf w)$ 与 $\pi$ 相关）:
$\nabla_{\mathbf{w}} L(\mathbf{w}) = \underbrace{\left( \hat{q}_t - \hat{y}_t \right)}_{ \text{TD 误差 } \delta_t} \cdot \nabla_{\mathbf{w}} q(s_t, a_t; \mathbf{w})$
因此，SARSA 属于 同策略（on-policy），不允许行为策略区别于目标策略，不能用经验回放。

多步 `TD` 目标

回报 $U_t$ 可以写成：

\begin{align} U_t &= \bigg( R_t + \gamma R_{t+1} + \cdots + \gamma^{m-1} R_{t+m-1} \bigg) + \bigg( \gamma^m R_{t+m} + \cdots + \gamma^{n-t} R_n \bigg) \\\\ &= \left( \sum_{i=0}^{m-1} \gamma^i R_{t+i} \right) + \gamma^m \bigg( R_{t+m} + \gamma R_{t+m+1} + \cdots + \gamma^{n-t-m} R_n \bigg)\\\\ &=\left( \sum_{i=0}^{m-1} \gamma^i R_{t+i} \right) + \gamma^m U_{t+m} \end{align}

不难得出定理:

设 $R_k$ 是 $S_k$ , $A_k$ , $S_{k+1}$ 的函数， $\forall k = 1, \cdots, n$ 。那么

\underbrace{Q_\pi(s_t, a_t)}_{U_t ~\text{的期望}} = \mathbb{E} \left[ \left( \sum_{i=0}^{m-1} \gamma^i R_{t+i} \right) + \gamma^m \cdot \underbrace{Q_\pi \left( S_{t+m}, A_{t+m} \right)}_{U_{t+1} ~\text{的期望}} ~|~ {S_t = s_t, A_t = a_t}\right]

公式中的期望是关于随机变量 $S_{t+1}, A_{t+1}, \cdots, S_{t+m}, A_{t+m}$ 求的。

多步TD目标

在 $t$ 时刻，价值网络做出预测 $\hat{q}_t = q(s_t , at_ ; \mathbf w)$ ，它是对 动作价值函数 $Q_\pi(s_t, a_t)$ 的估计。

已知当前状态 $s_t$ ，用策略 $\pi$ 控制智能体与环境交互 $m$ 次，得到轨迹：

\begin{aligned} r_t, \quad s_{t+1}, a_{t+1}, r_{t+1},\quad \cdots, \quad s_{t+m-1}, a_{t+m-1}, r_{t+m-1},\quad s_{t+m}, a_{t+m}. \end{aligned}

在 $t + m$ 时刻，用观测到的轨迹对上式右边的期望做蒙特卡洛近似，把近似的结果记作：

\left( \sum_{i=0}^{m-1} \gamma^i r_{t+i} \right) + \gamma^m \cdot Q_\pi(s_{t+m}, a_{t+m}).

用 $q(s_{t+m}, a_{t+m}; \mathbf w)$ 近似 $Q_\pi(s_{t+m}, a_{t+m})$ ，得到：

\hat{y_t} \triangleq \left( \sum_{i=0}^{m-1} \gamma^i r_{t+i} \right) + \gamma^m \cdot q(s_{t+m}, a_{t+m}; \mathbf w).

$\hat{y_t}$ 即为 $m$ 步 TD 目标。

$\widehat{q_t} = q(s_t, a_t; \mathbf w)$ 和 $\widehat{y_t}$ 分别是价值网络在 $t$ 时刻和 $t + m$ 时刻做出的预测，两者都是对 $Q_\pi(s_t, a_t)$ 的估计值。

$\hat{q_t}$ 是纯粹的预测。
$\hat{y_t}$ 基于 $m$ 组实际观测，因此 $\widehat{y_t}$ 比 $\widehat{q_t}$ 更可靠。

我们鼓励 $\widehat{q_t}$ 接近 $\widehat{y_t}$ 。设损失函数为

L(\mathbf w) \triangleq \frac{1}{2} \bigg[ q(s_t, a_t; \mathbf w) - \widehat{y_t} \bigg]^2.

做一步梯度下降更新价值网络参数 $\mathbf w$ ：

\mathbf w \leftarrow \mathbf w - \alpha \cdot \left( \widehat{q_t} - \widehat{y_t} \right) \cdot \nabla_w q(s_t, a_t; \mathbf w).

价值学习高级技巧

经验回放（experience replay）

收集训练数据

可以用任何策略函数 $\pi$ 去控制智能体与环境交互，这个 $\pi$ 是行为策略（behavior policy）。

比较常用的是 $\epsilon$ -greedy 策略：

a_t = \begin{cases} \arg\max_a ~Q(s_t, a; \mathbf w),\quad\quad &\text{以概率 } (1 - \epsilon); \\\\ \text{均匀抽取 } \mathcal A \text{ 中的一个动作}, &\text{以概率 } \epsilon. \end{cases}

经验回放数组（replay buffer）

把 agent 与环境交互的记录（即经验）储存到一个数组里，事后反复利用这些经验训练 agent。

这个数组被称为经验回放数组（replay buffer）。

把智能体的轨迹划分成 $(s_t, a_t, r_t, s_{t+1})$ 这样的 $4$ 元组，存入一个数组，指定数组的大小 $b$ 。
数组中只保留最近 $b$ 条数据；当数组存满之后，删除掉最旧的数据。
数组的大小 $b$ 是个需要调的超参数，会影响训练的结果。通常设置 $b$ 为 $10^5$ ∼ $10^6$ 。
在回放数组中的 $4$ 元组数量不够的时候，DQN 只与环境交互，DQN 参数不更新，否则实验效果不好。

经验回放的优点

打破序列的相关性。agent 收集经验的时候，相邻两个 $4$ 元组 $(s_t, a_t, r_t, s_{t+1})$ 和 $(s_{t+1}, a_{t+1}, r_{t+1}, s_{t+2})$ 有很的相关性。

经验回放每次从数组里随机抽取一个 $4$ 元组，用来对 DQN 参数做一次更新。

这样随机抽到的 $4$ 元组都是独立的，消除了相关性。
重复利用收集到的经验。

经验回放的局限性

经验回放适用于异策略，不适用于同策略。

经验回放数组里的数据全都是用行为策略（behavior policy）控制 agent 收集到的。策略的变化导致收集经验时用的行为策略是过时的策略，不同于当前我们想要更新的策略——即目标策略（target policy）。

优先经验回放

普通经验回放每次均匀抽样得到一个样本——即 $4$ 元组 $(s_j, a_j, r_j, s_{j+1})$ ，用来更新参数。

优先经验回放给每个 $4$ 元组一个权重，然后根据权重做非均匀随机抽样。如果 DQN 对 $(s_j , a_j)$ 的价值判断不准确，即 $Q(s, a; \mathbf w)$ 离 $Q^*(s_t, a_t)$ 较远，则 $4$ 元组 $(s_j, a_j, r_j, s_{j+1})$ 应当有较高的权重。

$4$ 元组 $(s_j, a_j, r_j, s_{j+1})$ 的权重是 TD 误差的绝对值 $|\delta_j|$ ：

\delta_j ~\triangleq~ Q(s_j, a_j; \mathbf{w}_{\text{now}}) - \left[ r_t + \gamma \cdot \max_{a \in \mathcal{A}}~ Q(s_{j+1}, a; \mathbf{w}_{\text{now}}) \right].

有两种方法设置抽样概率，两种方式的原理是一样的， $|\delta_j|$ 大的样本被抽样到的概率大。

$\epsilon$ 是个很小的数，防止抽样概率接近零，用于保证所有样本都以非零的概率被抽到。
$p_j \propto |\delta_j| + \epsilon$
先对 $|\delta_j|$ 做降序排列，然后计算
$p_j \propto \frac{1}{\text{rank}(j)}$
此处 $\text{rank}(j)$ 是 $|\delta_j|$ 的序号。大的 $|\delta_j|$ 的序号小，小的 $|\delta_j|$ 的序号大。

学习率

不同的样本有不同的抽样概率，会导致 DQN 的预测有偏差。应该相应调整学习率，抵消掉不同抽样概率造成的偏差。如果一条样本被抽样的概率大，那么它的学习率就应该比较小：

\alpha_j = \frac{\alpha}{(b \cdot p_j)^\beta}

$b$ 是经验回放数组中样本的总数， $\beta \in (0,1)$ 是个需要调的超参数。（论文里建议一开始让 $\beta$ 比较小，最终增长到 $1$ 。）

`TD` 算法改进

Q-learning 中的 TD 目标：

\widehat{y}_j = r_j + \gamma \cdot \max_{a \in A} ~ Q(s_{j+1}, a; \textcolor{#A54F08}{\mathbf{w}})

将最大化拆成两步：

选择——即基于状态 $s_{j+1}$ ，选出一个动作使得 DQN 的输出最大化：
$a^* = \arg\max_{a \in A} ~ Q(s_{j+1}, a; \textcolor{#A54F08}{\mathbf{w}})$
求值——即计算 $(s_{j+1}, a^*)$ 的值，从而算出 TD 目标：
$\hat{y}_j = r_j + Q(s_{j+1}, a^*; \textcolor{#A54F08}{\mathbf{w}})$

目标网络

定义目标网络 (target network)：

Q(s, a; \textcolor{#6D8E14}{\mathbf{w}^{-}})

目标网络的神经网络结构与 DQN 完全相同，但是参数 $\color{#6D8E14}{\mathbf{w}^{-}}$ 不同于 $\color{#A54F08}{\mathbf{w}}$ 。

使用目标网络 计算 TD 目标。

选择和求值都用目标网络：

选择：
$a^- = \arg\max_{a \in A} ~Q(s_{j+1}, a; \textcolor{#6D8E14}{\mathbf{w}^{-}})$
求值：
$\hat{y}_j = r_j + Q(s_{j+1}, a^-; \textcolor{#6D8E14}{\mathbf{w}^{-}})$

双 Q-learning 算法

第 $1$ 步的选择用 DQN，第 $2$ 步的求值用目标网络：

选择：
$a^* = \arg\max_{a \in A} ~Q(s_{j+1}, a; \textcolor{#A54F08}{\mathbf{w}})$

求值：
$\widehat{y}_j = r_j + Q(s_{j+1}, a^*; \textcolor{#6D8E14}{\mathbf{w}^{-}})$

双 Q-learning 可以缓解最大化造成的高估是因为：

\underbrace{Q(s_{j+1}, a^*; \textcolor{#6D8E14}{\mathbf{w}^{-}})}_{\text{双 Q-learning}} ~\leq ~\underbrace{\max_{a \in \mathcal A} ~Q(s_{j+1}, a; \textcolor{#6D8E14}{\mathbf{w}^{-}})}_{\text{用目标网络的 Q-learning }}

因此

\underbrace{\tilde{y}_t}_{\text{双 Q-learning}} ~\leq~ \underbrace{\tilde{y}_t^{-}}_{\text{用目标网络的 Q-learning }}

即双 Q-learning 得到的 TD 目标更小。因此，与用目标网络的 Q-learning 相比，双 Q-learning 缓解了高估。

选择	求值	自举造成偏差	最大化造成高估
原始 `Q-learning`	`DQN`	`DQN`	严重
`Q-learning` + 目标网络	目标网络	目标网络	不严重
双 `Q-learning`	`DQN`	目标网络	不严重
{.table-hover}

`DQN` 网络结构改进

最优优势函数 (optimal advantage function) $D_*$ ：

D_*(s, a) \triangleq Q_*(s, a) - V_*(s)

易得：

Q_*(s, a) = V_*(s) + D_*(s, a) - \underbrace{\max_{a \in \mathcal{A}} ~D_*(s, a)}_{\equiv~ 0}, \quad \forall s \in \mathcal{S},~ a \in \mathcal{A}

【对决网络 (Dueling Network)】

对决网络 (dueling network) 也是对最优动作价值函数 $Q_{*}$ 的近似。对决网络与 DQN 的区别在于神经网络结构不同。对决网络由两个神经网络组成：

$D(s, a; \mathbf w^D)$ ：对最优优势函数 $D_*(s, a)$ 的近似。
$V (s; \mathbf w^V )$ ：对最优状态价值函数 $V_*(s, a)$ 的近似。

对决网络 (dueling network)：

Q(s, a; \mathbf{w}) ~\triangleq~ V(s; \mathbf{w}^V) + D(s, a; \mathbf{w}^D) - \max_{a \in \mathcal{A}} ~D(s, a; \mathbf{w}^D)

它的参数记作 $\mathbf{w} \triangleq (\mathbf{w}^V; \mathbf{w}^D)$

$\max_{a \in \mathcal{A}} ~D(s, a; \mathbf{w}^D)$ 的作用：

保证训练的过程中， $V$ 和 $D$ 不能随意上下波动，从而保证参数的稳定。

实际实现对决网络：

Q(s, a; \mathbf{w}) ~\triangleq~ V(s; \mathbf{w}^V) + D(s, a; \mathbf{w}^D) - \text{mean}_{a \in \mathcal{A}} ~D(s, a; \mathbf{w}^D)

【噪声网络（noisy net）】

把神经网络中的参数 $\mathbf w$ 替换成 $\mathbf \mu + \mathbf \sigma \circ \mathbf \xi$ 。此处的 $\mathbf \mu$ , $\mathbf \sigma$ , $\mathbf \xi$ 的形状与 $\mathbf w$ 完全相同。

$\mathbf \mu$ , $\mathbf \sigma$ 分别表示均值和标准差，它们是神经网络的参数，需要从经验中学习。
$\mathbf \xi$ 是随机噪声，它的每个元素独立从标准正态分布 $\mathcal{N}(0, 1)$ 中随机抽取。
符号“ $\circ$ ”表示逐项乘积。

如果 $\mathbf w$ 是矩阵，那么有

w_{ij} = \mu_{ij} + \sigma_{ij} \cdot \xi_{ij}.

噪声 DQN

把标准的 DQN $Q(s, a; \mathbf w)$ 中的 $\mathbf w$ 替换成 $\mathbf \mu + \mathbf \sigma \circ \mathbf \xi$ 得到噪声 DQN，记作：

\tilde{Q}(s, a, \mathbf \xi; \mathbf \mu, \mathbf \sigma) ~\triangleq~ Q(s, a; \mathbf \mu + \mathbf \sigma \circ \mathbf \xi).

$\mathbf \mu$ 和 $\mathbf \sigma$ 是参数，一开始随机初始化，然后从经验中学习；
$\mathbf \xi$ 随机生成，每个元素都从 $\mathcal{N}(0, 1)$ 中抽取。

噪声 DQN 的参数数量比标准 DQN 多一倍。

收集经验

噪声 DQN 本身带有随机性，可以鼓励探索，起到与 $\epsilon$ -greedy 策略相同的作用。直接用

a_t = \arg\max_{a \in A} ~ \tilde{Q}(s, a, \mathbf \xi; \mathbf \mu, \mathbf \sigma)

作为行为策略，效果比 $\epsilon$ -greedy 更好。每做一个决策，要重新随机生成一个 $\xi$ 。

Q-learning

训练时，每一轮从经验回放数组中随机抽样出一个 $4$ 元组 $(s_j, a_j, r_j, s_{j+1})$ 。

从标准正态分布中做抽样，得到 $\mathbf \xi^{\prime}$ 的每一个元素。

计算 TD 目标：

\widehat{y_j} = r_j + \gamma \cdot \max_{a \in \mathcal{A}} ~\tilde{Q}(s_{j+1}, a, \mathbf \xi^{\prime}; \mathbf \mu, \mathbf \sigma).

损失函数：

L(\mathbf \mu, \mathbf \sigma) = \frac{1}{2} \left[ \tilde{Q}(s_j, a_j, \mathbf \xi; \mathbf \mu, \mathbf \sigma)- \widehat{y_j} \right]^2,

其中的 $\mathbf \xi$ 也是随机生成的噪声，但是它与 $\mathbf \xi^{\prime}$ 不同。

梯度下降更新参数：

\begin{align} \mathbf \mu \leftarrow \mathbf\mu - \alpha_{\mathbf\mu} \cdot \nabla_{\mathbf\mu} L(\mathbf\mu, \mathbf\sigma)\\\\ \mathbf\sigma \leftarrow \mathbf\sigma - \alpha_{\mathbf\sigma} \cdot \nabla_{\mathbf \sigma} L(\mathbf\mu, \mathbf\sigma). \end{align}

做决策

噪声 DQN 做决策的时候不再需要噪声，因此可以把参数 $\mathbf\sigma$ 设置成全零，只保留参数 $\mathbf\mu$ 。此时，噪声 DQN 就变成标准的 DQN：

\underbrace{\tilde{Q}(s, a, \mathbf \xi^{\prime}; \mathbf \mu, \mathbf 0)}_{\text{噪声 DQN}} ~=~ \underbrace{Q(s, a; \mathbf \mu)}_{\text{标准 DQN}}.

噪声可以让 DQN 有更强的鲁棒性的原因：

当训练的过程中不加入噪声，学出的参数严格等于 $\mu$ 时，DQN 可以对最优动作价值做出较为准确的估计。但是对 $\mu$ 做较小的扰动，可能会让 DQN 的输出偏离很远。

噪声 DQN 训练的过程中，参数带有噪声： $\omega = \mu + \sigma \circ \xi$ 。训练迫使 DQN 在参数带噪声的情况下最小化 TD 误差，也就是迫使 DQN 容忍对参数的扰动。训练出的 DQN 具有鲁棒性：参数不严格等于 $\mu$ 也没关系，只要参数在 $\mu$ 的邻域内，DQN 做出的预测都应该比较合理。

策略学习

策略学习的 目标函数：

J(\mathbf{\theta}) = \mathbb{E}_{S} \bigg[ V_{\pi}(S) \bigg]

$J(\mathbf{\theta})$ 只依赖于 $\mathbf{\theta}$ ，不依赖于状态 $S$ 和动作 $A$ 。

策略学习可以表述为这样一个优化问题：

\max_{\theta} \bigg\{ J(\theta) \triangleq \mathbb{E}_S \bigg[ V_{\pi}(S) \bigg] \bigg\}

求解这个最大化问题最简单的算法就是梯度上升：

\theta \rightarrow \theta + \beta \cdot \nabla_{\theta} J(\theta).

【策略梯度定理】（不严谨的表述）

\frac{\partial J(\mathbf{\theta})}{\partial \mathbf{\theta}} = \mathbb{E}_{S} \left[ \mathbb{E}_{A \sim \pi(\cdot|S; \mathbf{\theta})} \left[ \frac{\partial \ln \pi(A|S; \mathbf{\theta})}{\partial \mathbf{\theta}} \cdot Q_{\pi}(S, A) \right] \right].

【策略梯度定理】（严谨的表述）

\frac{\partial J(\mathbf{\theta})}{\partial \mathbf{\theta}} = \left(1 + \gamma + \gamma^2 + \cdots + \gamma^{n-1}\right) \cdot \mathbb{E}_{S \sim d(\cdot)} \left[ \mathbb{E}_{A \sim \pi(\cdot|S; \mathbf{\theta})} \left[ \frac{\partial \ln \pi(A|S; \mathbf{\theta})}{\partial \mathbf{\theta}} \cdot Q_{\pi}(S, A) \right] \right].

使用蒙特卡洛近似。

把从环境中观测到的状态 $s$ ，作为随机变量 $S$ 的观测值。

再根据当前的策略网络（策略网络的参数必须是最新的）随机抽样得出一个动作： $a \sim \pi(\cdot \mid s; \mathbf{\theta}))$ 。

计算随机梯度：

\begin{align} \mathbf{g}(s, a; \mathbf{\theta}) & ~\triangleq~ Q_{\pi}(s, a) \cdot \nabla_{\mathbf{\theta}} \ln \pi(a \mid s; \mathbf{\theta}) \end{align}

显然随机梯度 $\mathbf{g}(s, a; \mathbf{\theta})$ 是策略梯度 $\nabla_{\theta} J(\theta)$ 的无偏估计：

\nabla_\theta J(\mathbf{\theta}) = \mathbb{E}_S \bigg[ \mathbb{E}_{A \sim \pi(\cdot \mid S; \mathbf{\theta})} \bigg[ g(S, A; \mathbf{\theta}) \bigg] \bigg]

策略学习方法

REINFORCE

$t$ 时刻的折扣回报 $U_t$

\begin{align} U_t = \sum_{k=t}^{n} \gamma^{k-t} \cdot R_k \end{align}

动作价值函数定义为 $U_t$ 的条件期望：

\begin{align} Q_{\pi}(s_t, a_t) = \mathbb{E}[U_t \mid S_t = s_t, A_t = a_t] \end{align}

REINFORCE 方法用蒙特卡洛近似动作价值函数 $Q_{\pi}(s, a)$ 。

从时刻 $t$ 开始，agent 完成一局游戏，观测到全部奖励 $r_t, \cdots, r_n$ ，然后可以计算 $u_t = \sum_{k=t}^{n} \gamma^{k-t} \cdot r_k$ 。
因为 $u_t$ 是随机变量 $U_t$ 的观测值，所以 $u_t$ 是 $U_t$ 的条件期望的蒙特卡洛近似。

那么随机梯度 $\mathbf g(s_t, a_t; \mathbf{\theta})$ 可近似成：

\begin{align} \mathbf {\tilde{g}}(s_t, a_t; \mathbf {\theta}) = u_t \cdot \nabla_{\theta} \ln \pi(a_t \mid s_t; \mathbf {\theta}) \end{align}

$\mathbf {\tilde{g}}$ 是 $\mathbf g$ 的无偏估计，所以也是策略梯度 $\nabla_{\theta} J(\theta)$ 的无偏估计； $\mathbf {\tilde{g}}$ 也是一种随机梯度。于是我们可以实际计算出随机梯度 $\mathbf {\tilde{g}}$ 的值。

反向传播计算出 $\ln \pi$ 关于 $\mathbf {\theta}$ 的梯度。
实际观测到 $u_t$

Actor-Critic

Actor-critic 方法用一个价值网络 $q(s,a; \mathbf w)$ 近似动作价值函数 $Q_{\pi}(s, a)$ 。

价值网络 $q(s,a; \mathbf w)$ 的输入是状态 $s$ ，输出是每个动作的价值。动作空间 $\mathcal A$ 中有多少种动作，那么价值网络的输出就是多少维的向量，向量每个元素对应一个动作。

策略网络 $\pi(a_t \mid s_t; \mathbf {\theta})$ 相当于 actor，它基于状态 $s$ 做出动作 $a$ 。
价值网络 $q(s,a; \mathbf w)$ 相当于 critic，它给演员的表现打分，评价在状态 $s$ 的情况下做出动作 $a$ 的好坏程度。

价值网络 $q(s,a; \mathbf w)$ 与 DQN 有相同的结构，但意义不同。

价值网络 $q(s,a; \mathbf w)$ 是对动作价值函数 $Q_{\pi}(s, a)$ 的近似。而 DQN 则是对最优动作价值函数 $Q_{*}(s, a)$ 的近似。
价值网络 $q(s,a; \mathbf w)$ 的训练使用 SARSA 算法，它属于同策略，不能用经验回放。DQN 训练使用的是 Q-learnin 算法，它属于异策略，可以用经验回放。

将动作价值函数 $Q_{\pi}(s, a)$ 替换成 价值网络 $q(s,a; \mathbf w)$ 得到近似策略梯度：

\begin{align} \mathbf {\hat{g}}(s_t, a_t; \mathbf {\theta}) = q(s_t,a_t; \mathbf w) \cdot \nabla_{\theta} \ln \pi(a_t \mid s_t; \mathbf {\theta}) \end{align}

带基线的策略梯度

带基线的策略梯度定理

设 $b$ 是任意的函数，但是 $b$ 不依赖于动作 $A$ 。把 $b$ 作为动作价值函数 $Q_{\pi}(S, A)$ 的基线（baseline），对策略梯度没有影响：

\nabla_{\theta} J(\theta) = \mathbb{E}_{S} \bigg[ \mathbb{E}_{A \sim \pi(\cdot|S; \theta)} \bigg[ \bigg( Q_{\pi}(S, A) - b \bigg) \cdot \nabla_{ \theta} \ln \pi(A|S; \theta) \bigg] \bigg].

使用状态价值 $V_\pi(s)$ 作基线（baseline），得到策略梯度的一个无偏估计：

\mathbf g(s, a; \mathbf{\theta}) = \bigg[ Q_\pi(s, a) - V_\pi(s) \bigg] \cdot \nabla_\theta \ln \pi(a \mid s; \mathbf{\theta}).

公式中的 $Q_\pi - V_\pi$ 被称为优势函数（advantage function）。

带基线的 REINFORCE 算法

使用实际观测的回报 $u$ 来代替动作价值 $Q_\pi(s, a)$ 。
使用神经网络 $v(s; \mathbf{w})$ 近似状态 价值函数 $V_\pi(s)$ 。

此时， $\mathbf g(s, a; \mathbf{\theta})$ 被近似为：

\tilde{\mathbf{g}}(s, a; \mathbf{\theta}) = \bigg[ u - v(s; \mathbf{w}) \bigg] \cdot \nabla_\theta \ln \pi(a \mid s; \mathbf{\theta}).

Advantage Actor-Critic (`A2C`)

\mathbf g(s, a; \mathbf{\theta}) = \bigg[\underbrace{ Q_\pi(s, a) - V_\pi(s)}_{\text{优势函数}} \bigg] \cdot \nabla_\theta \ln \pi(a \mid s; \mathbf{\theta}).

基于上面公式得到的 actor-critic 方法被称为 advantage actor-critic，缩写 A2C。

由 贝尔曼公式 ：

\begin{align} Q_{\pi}(s_t, a_t) ~&= \mathbb{E}_{S_{t+1} \sim p(\cdot \mid s_t, a_t)}\left[R_t + \gamma \cdot V_{\pi}(S_{t+1})\right] \end{align}

得到：

\begin{align} \mathbf g(s, a; \mathbf{\theta}) &= \bigg[ \textcolor{#A54F08}{Q_\pi(s, a)} - V_\pi(s) \bigg] \cdot \nabla_\theta \ln \pi(a \mid s; \mathbf{\theta})\\ &= \bigg[ \textcolor{#A54F08} {\mathbb{E}_{S_{t+1}}\bigg[R_t + \gamma \cdot V_{\pi}(S_{t+1})\bigg]} - V_{\pi}(s_t)\bigg] \cdot \nabla_{\theta} \ln \pi(a_t \mid s_t;\theta). \end{align}

当智能体执行动作 $a_t$ 之后，环境给出新的状态 $s_{t+1}$ 和奖励 $r_t$ ；利用 $s_{t+1}$ 和 $r_t$ 对上面的期望做蒙特卡洛近似，得到：

\mathbf g(s_t, a_t;\mathbf{\theta}) \approx \bigg[r_t + \gamma \cdot V_{\pi}(s_{t+1}) - V_{\pi}(s_t)\bigg] \cdot \nabla_{\mathbf{\theta}} \ln \pi(a_t \mid s_t; \mathbf{\theta}).

把状态值函数 $V_{\pi}(s)$ 替换成价值网络 $v(s; \mathbf{w})$ ，得到

\tilde{\mathbf{g}}(s_t, a_t;\mathbf{\theta}) \triangleq \bigg[ \underbrace{r_t + \gamma \cdot v(s_{t+1}; \boldsymbol{w})}_{\text{TD 目标} ~ \hat{y_t} } - v(s_t; \boldsymbol{w})\bigg] \cdot \nabla_{\mathbf{\theta}} \ln \pi(a_t \mid s_t; \mathbf{\theta}).

策略网络 $\pi(a \mid s; \mathbf{\theta})$ ，相当于 actor，用于控制智能体运动。
价值网络 $v(s; \mathbf{w})$ 相当于 critic，他的评分可以帮助策略网络（演员）改进技术。

两个神经网络的结构与 Actor-critic 中的完全相同，但训练方法不一样。

`TRPO`

TRPO 的优势：

TRPO 表现更稳定，收敛曲线不会剧烈波动，而且对学习率不敏感；
TRPO用更少的经验（即智能体收集到的状态、动作、奖励）就能达到与策略梯度方法相同的表现。

策略学习的 目标函数：

J(\mathbf{\theta}) = \mathbb{E}_{S} \bigg[ V_{\pi}(S) \bigg]

可以等价写成:

J(\mathbf{\theta}) = \mathbb{E}_{S} \left[ \mathbb{E}_{A \sim \pi(\cdot|s; \mathbf{\theta}_{ \text{now}})} \left[ \frac{\pi(A|s; \mathbf{\theta})}{\pi(A|s; \mathbf{\theta}_{ \text{now}})} \cdot Q_{\pi}(s, A) \right] \right].

TRPO 训练策略网络的流程：TRPO 需要重复做近似和最大化这两个步骤：

近似

对期望做蒙特卡洛近似，用策略网络 $\pi(A|S; \mathbf{\theta}_{\text{now}})$ 控制智能体跟环境交互，从头到尾玩完一局游戏，观测到一条轨迹：

s_1, a_1, r_1,~ s_2, a_2, r_2, ~ \cdots ~, s_n, a_n, r_n

其中的状态 $\{s_t\}_{t=1}^n$ 均为从环境中观测，其中的动作 $\{a_t\}_{t=1}^n$ 均为根据策略网络 $\pi(\cdot \mid s_t; \mathbf{\theta}_{ \text{now}})$ 抽取的样本。

所以 $\frac{\pi(a_t \mid s_t; \mathbf{\theta})}{\pi(a_t \mid s_t; \mathbf{\theta}_{ \text{now}})}\cdot Q_\pi(s_t, a_t)$ 是对期望 $J(\mathbf{\theta})$ 的无偏估计。

所以 $n$ 项的均值 $L$ 也是对期望 $J(\mathbf{\theta})$ 的无偏估计：

L( \mathbf{\theta} \mid \mathbf{\theta}_{ \text{now}}) = \frac{1}{n} \sum_{t=1}^n \frac{\pi(a_t \mid s_t; \mathbf{\theta})}{\pi(a_t \mid s_t; \mathbf{\theta}_{ \text{now}})} \cdot Q_\pi(s_t, a_t)

做 $2$ 次近似：

Q_\pi(s_t, a_t) \Rightarrow Q_{\pi_{\text{old}}}(s_t, a_t) \Rightarrow u_t

$Q_\pi$ 中的策略是 $\pi(a_t \mid s_t; \mathbf{\theta})$ 。
$Q_{\pi_{\text{old}}}$ 中的策略是旧策略 $\pi(a_t \mid s_t; \mathbf{\theta}_{ \text{now}})$ 。
用旧策略 $\pi(a_t \mid s_t; \mathbf{\theta}_{ \text{now}})$ 生成轨迹 $\{(s_j, a_j, r_j, s_{j+1})\}_{j=1}^n$ 。

折扣回报 $u_t = r_t + \gamma \cdot r_{t+1} + \gamma^2 \cdot r_{t+2} + \cdots + \gamma^{n-t} \cdot r_n$ 是对 $Q_{\pi_{ \text{old}}}$ 的近似。当 $\mathbf{\theta}$ 接近 $\mathbf{\theta}_{\text{now}}$ 时，即 $\mathbf{\theta}$ 在 $\mathbf{\theta}_{\text{now}}$ 的邻域中时（置信域）， $u_t$ 是 $Q_\pi$ 的有效近似。

用 $u_t$ 替代 $Q_\pi(s_t, a_t)$ 得到：

\tilde{L}( \mathbf{\theta} \mid \mathbf{\theta}_{ \text{now}}) = \frac{1}{n} \sum_{t=1}^{n} \frac{\pi(a_t \mid s_t; \mathbf{\theta})}{\pi(a_t \mid s_t; \mathbf{\theta}_{ \text{now}})} \cdot u_t.

最大化

把 $\tilde{L}(\mathbf{\theta} \mid \mathbf{\theta}_{ \text{now}})$ 作为目标函数 $J(\mathbf{\theta})$ 的近似，求解带约束的最大化问题：

$\max_{\mathbf{\theta}} \tilde{L}(\mathbf{\theta} \mid \mathbf{\theta}_{ \text{now}}); \quad \text{s.t.} \quad \mathbf{\theta} \in \mathcal{N}( \mathbf{\theta}_{ \text{now}})$

置信域 $\mathcal{N}( \mathbf{\theta}_{ \text{now}})$ 的选择：
- 以 $\mathbf{\theta}_{ \text{now}}$ 为球心、以 $\Delta$ 为半径的球：
  $\max_{\mathbf{\theta}} \tilde{L}(\mathbf{\theta} \mid \mathbf{\theta}_{ \text{now}}); \quad \text{s.t.} \quad \| \theta - \theta_{ \text{now}}\|_2 \leq \Delta$
- 使用 KL 散度衡量两个概率质量函数 $\pi(\cdot \mid s_i; \mathbf{\theta}_{\text{now}})$ 和 $\pi(\cdot \mid s_i; \mathbf{\theta})$ 的距离：
  $\max_{\mathbf{\theta}} \tilde{L}(\mathbf{\theta} \mid \mathbf{\theta}_{ \text{now}}) ; \quad \text{s.t.} \quad \frac{1}{t} \sum_{i=1}^{t} \text{KL} \bigg[ \pi(\cdot \mid s_i; \mathbf{\theta}_{\text{now}}) \| \pi(\cdot \mid s_i; \mathbf{\theta}) \bigg] \leq \Delta$

TRPO 中的超参数（ TRPO 对超参数的设置不敏感）：

置信域的半径 $\Delta$ (通常在算法的运行过程中要逐渐缩小)。
求解最大化问题的数值算法的学习率。

熵正则 (Entropy Regularization)

以用 熵 (Entropy) 来衡量概率分布的不确定性，熵小说明概率质量很集中，熵大说明随机性很大。

我们希望策略网络输出的概率分布的熵不要太小，因此把熵作为正则项，放到策略学习的目标函数中。

策略网络的输出是维度等于 $|\mathcal{A}|$ 的向量，它表示定义在动作空间上的离散概率分布。这个概率分布的熵定义为：

H(s; \mathbf{\theta}) \triangleq \mathrm{Entropy} \bigg[\pi(\cdot \mid s; \mathbf{\theta}) \bigg] = -\sum_{a \in \mathcal{A}} \pi(a \mid s; \mathbf{\theta}) \cdot \ln \pi(a \mid s; \mathbf{\theta})

熵 $H(s; \mathbf{\theta})$ 只依赖于状态 $s$ 与策略网络参数 $\mathbf{\theta}$ 。

使用熵正则的策略学习：

\max_{\mathbf{\theta}} J(\mathbf{\theta}) + \lambda \cdot \mathbb{E}_S \left[ H(S; \mathbf{\theta}) \right]

此处的 $\lambda$ 是个超参数。

带熵正则的策略梯度

g(\mathbf{\theta}) \triangleq \nabla_{\mathbf{\theta}} \bigg[ J(\mathbf{\theta}) + \lambda \cdot \mathbb{E}_S \big[ H(S; \mathbf{\theta}) \big] \bigg]

观测到状态 $s$ ，按照策略网络做随机抽样，得到动作 $a \sim \pi(\cdot | s; \mathbf{\theta})$ 。那么 $\tilde{g}(s, a; \mathbf{\theta})$ 是梯度 $g(\mathbf{\theta})$ 的无偏估计

\tilde{g}(s, a; \mathbf{\theta}) \triangleq \bigg[ Q_\pi(s, a) - \lambda \cdot \ln \pi(a | s; \mathbf{\theta}) - \lambda \bigg] \cdot \nabla_{\mathbf{\theta}} \ln \pi(a | s; \mathbf{ \theta})

\nabla_{\mathbf{\theta}} \bigg[ J(\mathbf{\theta}) + \lambda \cdot \mathbb{E}_S \big[ H(S; \mathbf{\theta}) \big] \bigg] = \mathbb{E}_S \bigg[ \mathbb{E}_{A \sim \pi(\cdot | s; \mathbf{\theta})} \big[ \tilde{g}(S, A; \mathbf{\theta}) \big] \bigg]

连续控制

确定策略梯度`DPG`

策略网络

对于确定的状态 $s$ ，策略网络 $\mathbf{\mu}(s; \mathbf{\theta})$ 输出的 动作 $\mathbf{a}$ 是确定的 $d$ 维向量， $d$ 为问题的自由度。动作 $\mathbf{a}$ 直接由 $\mathbf{\mu}$ 输出，而非随机抽样得到。它的第 $i$ 个元素记作 $\hat{\mu}_{i}=\left[\mathbf{\mu}(s; \mathbf{\theta})\right]_{i}$ 。

定义随机策略：

\pi(\mathbf{a} \mid s; \mathbf{\theta}, \sigma) = \prod_{i=1}^{d} \frac{1}{\sqrt{2 \pi} \sigma_{i}} \cdot \exp \bigg(-\frac{\big[ a_{i} - \hat{\mu}_{i}\big]^{2}}{2 \sigma_{i}^{2}}\bigg)

这个随机策略是均值为 $\mathbf{\mu}(s; \mathbf{\theta})$ 、协方差矩阵为 $\operatorname{diag}\left(\sigma_{1}, \cdots, \sigma_{d}\right)$ 的多元正态分布。本节的确定策略可以看做是上述随机策略在 $\sigma = \left[\sigma_{1}, \cdots, \sigma_{d}\right]$ 为全零向量时的特例。

价值网络

价值网络 $q(s,\mathbf a; \mathbf w)$ 是对动作价值函数 $Q_\pi(s, \mathbf a)$ 的近似。

输入是状态 $s$ 和动作 $\mathbf{a}$ ，输出的价值 $\hat{q} = q(s,\mathbf a; \mathbf w)$ 是个实数，可以反映动作的好坏；动作 $\mathbf{a}$ 越好，价值 $\hat{q}$ 越大。

DPG 属于 异策略（off-policy） 方法：

目标策略即确定策略网络 $\mathbf{\mu}(s; \mathbf{\theta}_{\text{now}})$ ，其中 $\mathbf{\theta}_{\text{now}}$ 是策略网络最新的参数。
行为策略可以是任意的，比如
$a = \mu(s; \mathbf{\theta}_{\text{old}}) + \epsilon$
行为策略可以用过时的策略网络参数，而且可以往动作中加入噪声 $\epsilon \in \mathbb{R}^d$ 。

策略网络的学习

\max_{\mathbf{\theta}} ~ J( \mathbf{\theta})=\max_{\mathbf{\theta}} ~ \mathbb{E}_S \bigg[ q(S, \mu(S; \mathbf{\theta}); \mathbf{w}) \bigg]

这里只训练策略网络，所以价值网络的参数 $\mathbf{w}$ 被固定住。

用梯度上升来增大 $J(\mathbf{\theta})$ 。每次用随机变量 $S$ 的一个观测值（记作 $s_j$ ）来计算梯度：

\begin{align} \mathbf{g}_j & ~\triangleq ~ \nabla_{ \mathbf{\theta}} q(s_j, \mathbf{\mu}(s_j; \mathbf{\theta}); \mathbf {w}) \\\\ & ~=~ \nabla_{\mathbf{\theta}} \mathbf{\mu}(s_j; \mathbf{\theta}) \cdot \nabla_{\mathbf{a}} q(s_j, \hat{\mathbf{a}}_j; \mathbf{w}), \quad \text{其中} \quad \hat{\mathbf{a}}_j = \mathbf{\mu}(s_j; \mathbf{\theta}). \end{align}

$\mathbf{g}_j$ 即 确定策略梯度（deterministic policy gradient, DPG） ，它是 $\nabla_{\mathbf{\theta}} J(\mathbf{\theta})$ 的无偏估计。

改进方法

TD 算法改进。
- 双延时确定策略梯度 (Twin Delayed Deep Deterministic Policy GradientTD3)。
- 截断双 Q-learning（Clipped double Q-learning）。
往动作中加噪声。
$\hat{\mathbf{a}}_{j+1}^{-} = \mathbf{\mu}(s_{j+1}; \mathbf{\theta^{-}})+ \mathbf{\xi}$
$\mathbf{\xi}$ 是个随机向量，表示噪声，它的每一个元素独立随机从截断正态分布（clipped normal distribution） $\mathcal{CN}(0, \sigma^2, -c, c)$ 中抽取。

$\mathcal{CN}(0, \sigma^2, -c, c)$ 表示均值为 $0$ ，标准差为 $\sigma$ 的正态分布，但是变量落在区间 $[-c, c]$ 之外的概率为零。

使用截断正态分布，是为了防止噪声 $\mathbf{\xi}$ 过大，保证噪声大小不会超过 $-c$ 和 $c$ 。
减小更新策略网络和目标网络的频率。

让策略网络 $\mathbf{\mu}$ 以及 $3$ 个目标网络的更新慢于价值网络 $q$ 。

每 $1$ 轮更新一次价值网络，但是每隔 $k$ 轮更新一次策略网络和 $3$ 个目标网络。 $k$ 是超参数。

双延时确定策略梯度 (Twin Delayed Deep Deterministic Policy GradientTD3)

TD3 使用目标网络 (Target Networks) 计算 TD 目标 $\widehat{y}_j$ ， $2$ 个目标网络：

q(s, \mathbf a; \mathbf{w}^{-}) ~, ~ \mathbf{\mu}(s; \mathbf{\theta^{-}})

TD 目标:

\widehat{y}_j = r_j + \gamma \cdot q(s_{j+1}, \hat{\mathbf a}_{j+1}; \mathbf w^{-}), \quad \text{其中} ~ \hat{\mathbf a}_{j+1} = \mathbf{\mu}(s_{j+1}; \mathbf{\theta}^{-})

截断双 Q-learning（Clipped double Q-learning）

使用 $2$ 个价值网络和 $1$ 个策略网络

q(s, \mathbf a; \mathbf{w}_{1}) ~, ~q(s, \mathbf a; \mathbf{w}_{2}) ~,~ \mathbf{\mu}(s; \mathbf{\theta)}

$3$ 个神经网络各对应 $1$ 个目标网络：

q(s, \mathbf a; \mathbf{w}_1^{-}) ~, q(s, \mathbf a; \mathbf{w}_2^{-})~,~ \mathbf{\mu}(s; \mathbf{\theta^{-}})

用目标策略网络计算动作：

\hat{\mathbf{a}}_{j+1}^{-} = \mu(s_{j+1}; \mathbf{\theta^{-}}).

用 $2$ 个目标价值网络计算：

\begin{align} \widehat{y}_{j,1} = r_j + \gamma \cdot q(s_{j+1}, \widehat{\mathbf{a}}_{j+1}; \mathbf{w}_1)\\\\ \widehat{y}_{j,2} = r_j + \gamma \cdot q(s_{j+1}, \widehat{\mathbf{a}}_{j+1}; \mathbf{w}_2) \end{align}

取两者较小者为 TD 目标：

\widehat{y}_j = \min \left\{\widehat{y}_{j,1}, \widehat{y}_{j,2}\right\}.

随机高斯策略网络

简单的情形：自由度等于 $1$ ，即动作 $a$ 是实数，动作空间 $\mathcal{A} \subset \mathbb{R}$ 。

用正态分布的概率密度函数作为策略函数:

\pi(a \mid s) = \frac{1}{\sqrt{2\pi \cdot \sigma(s)}} \cdot \exp \left( - \frac{[a - \mu(s)]^2}{2 \cdot \sigma^2(s)} \right).

如果函数 $\mu(s)$ 和 $\sigma(s)$ 的解析表达式已知，可以这样做控制：

观测到当前状态 $s$ ，预测均值 $\hat{\mu} = \mu(s)$ 和标准差 $\hat{\sigma} = \sigma(s)$ 。
从正态分布中做随机抽样： $a \sim \mathcal{N}(\hat{\mu}, \hat{\sigma}^2)$ ；智能体执行动作 $a$ 。

用神经网络来近似这两个函数，记作 $\mu(s; \mathbf{\theta})$ 和 $\sigma(s; \mathbf{\theta})$ 。

实践中通常使用近似方差对数 $\rho = \ln \sigma^2$ 替代标准差 $\sigma$ 。

自由度等于 $d$

定义两个神经网络： $\mathbf {\mu}(s; \mathbf{\theta)}$ 和 $\mathbf {\rho}(s;\mathbf { \theta})$ , 输出均为 $d$ 维向量。

标量 $a_i$ 表示动作向量 $\mathbf a$ 的第 $i$ 个元素。
函数 $\mu_i(s; \mathbf{\theta})$ 和 $\rho_i(s; \mathbf{\theta})$ 分别表示 $\mu(s; \mathbf{\theta})$ 和 $\rho(s; \mathbf{\theta})$ 的第 $i$ 个元素。

用多元正态分布的概率密度函数作为策略网络：

\pi(\mathbf a|s; \mathbf{\theta}) = \prod_{i=1}^{d} \frac{1}{\sqrt{2\pi \cdot \exp[\rho_i(s; \mathbf{\theta})]}} \cdot \exp \left( -\frac{[a_i - \mu_i(s; \mathbf{\theta})]^2}{2 \cdot \exp[\rho_i(s; \mathbf{\theta})]} \right).

定义辅助网络：

\begin{align} f(s, \mathbf{a}; \mathbf{\theta}) ~&=~ -\frac{1}{2} \sum_{i=1}^{d} \left( \rho_i(s; \mathbf{\theta}) + \frac{[a_i - \mu_i(s; \mathbf{\theta})]^2}{\exp[\rho_i(s; \mathbf{\theta})]} \right) \\\\ &=~\ln \pi(\mathbf a|s; \mathbf{\theta}) + \text{Constant} \end{align}

使用辅助网络替代策略网络。

策略梯度

\begin{align} \mathbf{g}(s, a; \mathbf{\theta}) & ~=~ Q_{\pi}(s, a) \cdot \nabla_{\mathbf{\theta}} \ln \pi(a \mid s; \mathbf{\theta}) \\\\ &~=~ Q_{\pi}(s, a) \cdot \nabla_{\mathbf{\theta}} f(s, \mathbf{a}; \mathbf{\theta}) \end{align}

Reference

github.com/wangshusen/…

DRL 基础

定义