第六章函数逼近

在前面的章节中我们介绍的都是表格型强化学习，但是当问题的状态空间很大，表格型强化学习需要为每一个状态存储其每一个可选动作的估计值，势必需要很大的内存占用，例如西洋双陆棋的状态空间为 $10^{20}$ ，计算机围棋的状态空间为 $10^{170}$ ，甚至像直升机控制这样的问题其状态空间为无限大。那么该如何才能将之前讲的无模型预测和控制扩展到这种情况呢？这就是本部分要讲的函数近似或逼近。

6.1 学习目标

理解相较于查表法函数逼近的动机；
理解如何将函数逼近集成到现有的算法中；
代码实现线性函数逼近的Q学习。

6.2 值函数近似

之前的内容是通过查表法来表达值函数，一种方式就是记录每个状态的值V(s)，另一种就是状态-动作值函数Q(s,a)，但是面对大规模MDPs时，可能会有太多的状态或动作而无法内存存储，哪怕能存储，对于这么大的一张表格进行学习，速度也是很慢的。因此一种简单的方式就是建立参数近似函数来逼近真正的价值。 $\hat{v}(s, \mathbf{w}) \approx v_{\pi}(s)$ $\text { or } \hat{q}(s, a, \mathbf{w}) \approx q_{\pi}(s, a)$ 其中 $\mathbf{w}$ 表示权重，或者说是逼近器的参数，通过对特征基进行加权求和。通过这样的方式，只要给定状态或状态-动作对，就能给出相应的近似值，一方面减少了内存占用，更重要的是可以预测未知状态下的价值，从而大大增强泛化性。而 $\mathbf{w}$ 可以借助MC或TD学习进行更新。

值函数近似就像是一个黑盒子，只要给定输入就能得到输出，根据输入和输出的不同，可以分为三种类型，如图1所示。

输入状态，输出值函数；
输入状态和动作，输出状态-动作值函数；
输入状态，输出每个动作的状态-动作值函数。

图1 值函数近似的不同类型

应该选择什么样的函数逼近器呢？目前有很多方式可以实现，如下所示，但一般考虑选择可微分的函数逼近器，例如下面的线性特征组合和神经网络。除此之外，还需要一种适用于非平稳、非独立同分布数据的训练方法。

线性特征组合
神经网络
决策树
最近邻域
傅里叶/小波基
……

6.2 增量式方法

6.2.1 梯度下降

梯度下降

设 $J(\mathbf{w})$ 为参数向量 $\mathbf{w}$ 的可微函数， $J(\mathbf{w})$ 的梯度定义为对 $J(\mathbf{w})$ 在 $\mathbf{w}$ 的各个维度上分别进行偏微分，即

第六章 函数逼近-强化学习理论学习与代码实现（强化学习导论第二版）

第六章 函数逼近