Actor-Critic

介绍

Actor-Critic即演员-评论家算法。分为两部分，Actor基于概率选动作（不用Epsilon-greedy了），Critic基于Actor的动作进行打分，Actor再根据Critic的得分修改选择动作的概率。

我们知道状态价值函数如下：

V_{\pi}(s,a)=\sum_a\pi(a|s)Q_{\pi}(s,a)

策略函数 $\pi$ 以及动作价值函数 $Q_{\pi}$ 可以分别用两个神经网络来表示，也是分别对应Actor与Critic。

对于Actor，用神经网络（即策略网络） $\pi(a|s;\theta)$ 来近似策略函数 $\pi(a|s)$ ， $\theta$ 是决定策略的参数。Actor的目标是选出最优的策略，使得状态价值函数最大。更新方法采用Policy-Gradient。然而在更新过程中 $Q_{\pi}$ 的值Actor是不知道的，所以需要Critic来更新这一值。

对于Critic，用神经网络（即价值网络） $q(s,a;\omega)$ 来近似价值函数 $Q_{\theta}(s,a)$ ， $\omega$ 是神经网络的参数。Critic的目标对Actor选出的动作打分，然后作为Actor的监督信号，指导Actor更新参数。更新方法采用时序差分（TD）方法。其实本质上就是在更新q-function。

如何训练？

我们来看看具体如何训练。实际上，这两个网络是同时训练的。步骤如下：

观察到初始状态 $s_t$
从策略函数 $\pi$ 随机采样动作 $a_t$ ，进入到下一状态 $s_{t+1}$ ，得到了环境的奖励 $r_t$
使用时序差分方法更新 $\omega$
使用策略梯度方法更新 $\theta$

在参数更新上，我们知道Actor在初始状态 $s_t$ 下，基于随机策略 $\theta$ 选择了一个动作 $a_t$ ，进入到了下一状态 $s_{t+1}$ ，得到了环境的奖励 $r_t$ 。在Q-function中，我们知道需要用 Q-估计减去 Q-当前来得到误差，但是 Q-估计的值并不知道下一状态 $s_{t+1}$ 选的动作 $a_{t+1}$ 具体是哪个，所以 $a_{t+1}$ 通过随机采样得到 $\hat{a}_{t+1}$ ，近似的 Q-估计为 $r_t+\gamma(q(s_{t+1},\hat{a}_{t+1};\omega))$ ，Critic的TD-error就可以表示为：

\delta_t =q(s_t,a_t;\omega)-(r_t+\gamma(q(s_{t+1},\hat{a}_{t+1};\omega)))

再利用梯度下降来更新参数 $\omega$ ， $\alpha$ 是学习率，如下：

loss=\dfrac{1}{2}[q(s_t,a_t;\omega)-(r_t+\gamma(q(s_{t+1},\hat{a}_{t+1};\omega)))]^2 \\ \begin{aligned} \omega_{t+1}=&\omega_t - \alpha\cdot\dfrac{\partial loss}{\partial \omega} |_{\omega=\omega_t} \\=&\omega_t - \alpha\cdot\delta_t \cdot\dfrac{\partial q(s_t,a_t;\omega)}{\partial \omega} |_{\omega=\omega_t} \end{aligned}

然后回到Actor的更新上，基于策略梯度，我们知道采用的是梯度上升来更新参数， $\beta$ 是学习率，如下：

\theta_{t+1}=\theta_t+ \beta\cdot\delta_t\cdot\dfrac{\partial \ln\pi(a|s;\theta)}{\partial \theta} |_{\theta=\theta_t}

至此，算法就完成一次更新。值得注意的是，在这样的一次算法更新中，只执行了一次动作即 $a_t$ ， $\hat{a}_{t+1}$ 只是采样用来估计Q值，并不执行。

小结

Actor的前身是策略梯度，它基于随机性策略输出一个动作，Critic作为评委，对这个动作进行打分，将得分作为监督信号返回给Actor，Actor借此更新策略。Critic的前身是Q-learning这样的时序差分方法，能进行单步更新。 Critic 通过学习环境和奖励之间的关系，能看到现在所处状态的潜在奖励，这样使得AC可以单步更新，更有效率。

但是，AC也有缺点，Actor-Critic 的两个神经网络，每次都是在连续状态中更新参数，每次参数更新前后都存在相关性，导致神经网络只能片面的看待问题，甚至可能学不到东西。为了解决这一问题，Google DeepMind提出了叫DDPG的算法，解决了这一问题。我们将在下一篇文章中详细介绍这一算法。

参考

强化学习入门7—Actor-Critic

Actor-Critic

介绍

如何训练？

小结