第五章基于时序差分和Q学习的无模型预测与控制

在强化学习所有的思想中，时序差分（TD）无疑是最核心、最新颖的思想，时序差分结合了蒙特卡洛方法和动态规划法的思想，时序差分和蒙特卡洛方法一样，都是直接从与环境交互得到的经验中进行学习策略，而不需要构建环境动态性的完整模型，同时时序差分又和动态规划方法一样，不需要等到整个片段结束后再进行学习，而是通过自举法，基于已得到的其他状态的估计值来更新当前状态的值函数。

首先关注预测问题，即给定策略情况下，估计其价值函数，对于控制问题，DP、TD和蒙特卡洛法都使用了广义策略迭代的思想。

5.1 学习目标

理解用于预测的TD（0）法；
理解在策略控制的SARSA算法；
理解离策略控制的Q学习；
理解TD法相比较于MC和DP的优点；
理解n步TD法是如何将MC和TD法统一起来的；
理解TD（λ）前向和后向视角。

5.2 TD预测

TD和MC都是利用经验来求解预测问题。给定策略π的一些经验，两种方法都会更新这些经验中的非终止状态St对于vπ的估计V。大致来说，蒙特卡洛法需要等到一次访问的回报知道后，再使用该回报作为V(St)的目标。一个适应于非平稳环境的简单每次访问型蒙特卡洛方法可以表示为： $V\left( {{S_t}} \right) \leftarrow V\left( {{S_t}} \right) + \alpha \left[ {{G_t} - V\left( {{S_t}} \right)} \right]\tag{1}$

而TD方法只需要等待至下一时间步，在t+1时刻，TD立刻就能构造出目标，并使用观察到的奖励Rt+1和估计值V(St+1)进行一次有效的更新。最简单的TD方法在状态转移到St+1并收到Rt+1的奖励时立即做出如下更新： $V\left( {{S_t}} \right) \leftarrow V\left( {{S_t}} \right) + \alpha \left[ {{R_{t + 1}} + \gamma V\left( {{S_{t + 1}}} \right) - V\left( {{S_t}} \right)} \right]\tag{2}$

实际上，MC更新的目标是Gt，而TD更新的目标是Rt+1+γV(St+1)。这种TD方法称为TD(0)或单步TD。图1为TD(0)的完整算法。

在这里插入图片描述

图1 TD（0）

由于TD（0）的更新在某种程度上基于已有的更新，类似于DP，因此也可以将其称为一种自举法。从马尔科夫可知

第五章 基于时序差分和Q学习的无模型预测与控制-强化学习理论学习与代码实现（强化学习导论第二版）

第五章 基于时序差分和Q学习的无模型预测与控制

5.1 学习目标

5.2 TD预测

第五章基于时序差分和Q学习的无模型预测与控制-强化学习理论学习与代码实现（强化学习导论第二版）

第五章基于时序差分和Q学习的无模型预测与控制