Continuous control with deep reinforcement learning

近年来，将深度学习与强化学习相结合的方法取得了显著的进展，“深度Q网络”(Deep Q Network， DQN)算法能够在许多雅达利(Atari)视频游戏中使用未经处理的像素作为输入，就达到人类水平的性能，其中使用深度神经网络函数逼近器来估计动作值函数。
然而，DQN在解决高维观察空间问题的同时，只能处理离散的、低维的动作空间。许多有趣的任务，尤其是物理控制任务，都具有连续的(实值)和高维的动作空间。DQN不能直接应用于连续域，因为它依赖于找到最大化动作值函数的动作，而在连续值情况下，为找到这个动作，每一步都需要进行迭代优化。
将深度强化学习方法(如DQN)应用于连续域的一种显而易见的方法就是是对动作空间进行简单的离散化。然而，该方法也有许多限制，最明显的是维数灾难：动作的数量随着自由度的增加呈指数增长。例如，对于一个7自由度的机械臂，对其进行粗糙的离散化，假设每个关节仅有 $a_{i} \in\{-k， 0， k\}$ 三个可选动作，那么整个系统的动作空间维度为:3^7^=2187。如此大的动作空间很难有效地探索，因此在这种情况下成功地训练类似DQN的网络可能很困难。此外，这种主观的离散化势必会丢弃部分动作域的结构信息，而这些信息对求解很多问题都很重要，也就是说这种人为的离散化可能导致求解精度的降低。
所以是不是有更好的解决连续动作空间问题的方法呢？
今天就介绍一种使用深度强化学习进行连续控制的文章——《Continuous control with deep reinforcement learning》，这篇文章是由Google Deepmind于2015年发表的，文中提出了一种基于确定性策略梯度的演员-评论家无模型离策略算法，使用深度函数逼近学习高维、连续动作空间下的策略。演员-评论家可以用于解决连续动作空间问题，DQN则通过经验回放和目标网络实现稳定、鲁棒的学习值函数，该算法结合了演员-评论家方法和DQN，集众家之所长，可以在连续动作空间问题上具有很好的表现，实验结果也表明该算法可以非常鲁棒地解决20多种模拟物理任务。
下面将介绍一下该算法的原理和代码实现。

1.1 基础

通常环境是部分可观的，所以需要整个历史的观察-动作对 $s_{t}=\left(x_{1}， a_{1}， \dots， a_{t-1}， x_{t}\right)$ 来描述状态，这里假设环境满足马尔科夫属性 $s_{t}=x_{t}$ 。
策略Π为将状态映射为动作的概率分布： $\pi: \mathcal{S} \rightarrow \mathcal{P}(\mathcal{A})$ 。
从某一状态的回报为折扣未来奖励总和 $R_{t}=\sum_{i=t}^{T} \gamma^{(i-t)} r\left(s_{i}， a_{i}\right)$ 。注意，回报取决于所选择的动作，也就依赖于策略，因此可能也是随机的，强化学习的目标是学习一个策略以最大化从起始状态开始获取的期望回报 $\mathbb{E}_{\pi}\left[R_{1}\right]$ 。
在许多强化学习算法中都是用动作值函数，它描述了从状态 $\mathcal{S}_{t}$ 开始采取 $a_{t}$ 之后遵循策略 $\pi$ 所能获得的期望回报： $Q^{\pi}\left(s_{t}, a_{t}\right)=\mathbb{E}_{r_{i \geq t}, s_{i>t} \sim E, a_{i>t} \sim \pi}\left[R_{t} | s_{t}, a_{t}\right]\tag{1}$ 强化学习中的许多方法都是使用了贝尔曼等式进行迭代： $Q^{\pi}\left(s_{t}, a_{t}\right)=\mathbb{E}_{r_{t}, s_{t+1} \sim E}\left[r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{a_{t+1} \sim \pi}\left[Q^{\pi}\left(s_{t+1}, a_{t+1}\right)\right]\right]\tag{2}$ 如果目标策略是确定性的，可以将其描述为一个函数 $\mu: \mathcal{S} \leftarrow \mathcal{A}$ ，从而将内部的期望移掉： $Q^{\mu}\left(s_{t}, a_{t}\right)=\mathbb{E}_{r_{t}, s_{t+1} \sim E}\left[r\left(s_{t}, a_{t}\right)+\gamma Q^{\mu}\left(s_{t+1}, \mu\left(s_{t+1}\right)\right)\right]\tag{3}$ 注意到外层的期望仅仅依赖环境，这意味着可以通过来自另一个不同的策略的 $\beta$ 的转移来学习离策略 $Q^{\mu}$ 。考虑参数为 $\theta^{Q}$ 的函数逼近，通过最小化损失进行优化： $L\left(\theta^{Q}\right)=\mathbb{E}_{s_{t} \sim \rho^{\beta}, a_{t} \sim \beta, r_{t} \sim E}\left[\left(Q\left(s_{t}, a_{t} | \theta^{Q}\right)-y_{t}\right)^{2}\right]\tag{4}s$ 其中 $y_{t}=r\left(s_{t}， a_{t}\right)+\gamma Q\left(s_{t+1}， \mu\left(s_{t+1}\right) | \theta^{Q}\right)\tag{5}$

1.2 算法

前面已经提到，无法直接应用Q学习解决连续动作空间问题，因为在连续空间内寻找贪婪策略需要每一时间步进行 $a_{t}$ 的优化，对于大规模、无约束的函数逼近器和重要的动作空间，这种优化太过缓慢而不实用，相反，这里使用了基于DPG的演员-评论家算法。
确定性策略梯度DPG使用了一个参数化的演员函数 $\mu\left(s | \theta^{\mu}\right)$ ，该函数可以确定性地将状态映射为某一特定的动作。评论家 $Q(s， a)$ 使用如Q学习中的贝尔曼等式进行学习。演员通过在等式（3）上应用链式规则更新其参数：

第十四章 深度确定性策略梯度（Deep Deterministic Policy Gradient Algorithms，DDPG）-强化学习理论学习与代码实现

Continuous control with deep reinforcement learning

1.1 基础

1.2 算法

第十四章深度确定性策略梯度（Deep Deterministic Policy Gradient Algorithms，DDPG）-强化学习理论学习与代码实现