概述

之前讲到，马尔可夫决策过程的直接解法时间复杂度极高，因此强化学习方法的解法采用迭代式解法，迭代方法中最基础方法是动态规划方法。

之前提到解决序列决策问题有两种手段——学习与规划。当有一个精确的环境模型时，才可以用动态规划去解。 Q learning等方法均由动态规划所推导而来。动态规划方法利用了贝尔曼期望方程和贝尔曼最优方程。

动态：针对序列问题
规划：优化，得到策略

能使用动态规划去解决的问题，需具有以下性质：

最优子结构：满足最优性原理，优的解可以被分解成子问题的最优解。
交叠式子问题：子问题的解能够被多次利用

恰好，MDP就满足这两个特性：

回顾贝尔曼期望方程，满足递归形式。【当前状态的值函数 = E(当前的奖励+后继状态×衰减系数) 】，可以把问题分解成子问题
值函数的解可以重复利用

使用动态规划解决强化学习问题时，要求知道 MDPs 的所有元素。这是因为强化学习问题中最重要的两个过程，策略评价和策略优化，需要满足：

对于评价的过程：
- 输入： MDP $⟨S; A; P; R; γ⟩$ 和策略 $π$
- 输出: 值函数 $v_π$
对于优化的过程
- 输入: MDP $⟨S; A; P; R; γ⟩$
- 输出：
  - 最优值函数 $v_*$
  - 最优策略 $\pi_*$

策略评价

问题描述

问题: 给定一个策略 π，求对应的值函数 $v_π(s)$ （或者 $q_π(s; a)$ ）。

对于动态规划问题，v 函数和 q 函数是可以相互推导的。

解决方法

直接解：
- 可以直接求得精确解（上一篇文章中）
- 时间复杂度太高 $O(n^3)$
迭代解（√）： $v_1$ -> $v_2$ -> · · · -> $v_π$
- 利用贝尔曼期望方程迭代求解
- 可以收敛到 $v_π$

利用贝尔曼方程进行迭代式策略评价

贝尔曼方程告诉我们，通过后继状态 $s'$ 的值函数，更新当前状态 $s$ 的值函数

$\pi$ 表示策略

因此可以得到，

注意：这里的 k 表示第 k 次迭代

从 $v_1$ 一直迭代求到最后（能够收敛），可以得到最终的 $v_\pi$

同步备份下的迭代式策略评价算法

关键词：

备份（backup）： $v_{k 1}(s)$ 需要用到 $v_k(s')$ 。用 $v_k(s')$ 更新当前状态状态s的值函数，称为备份状态s。
同步（synchronous）： 每一次更新，更新所有的状态。
策略评价
迭代式

同步备份下的迭代式策略评价算法

为加深理解，引入以下例子：

策略评价例子

假设 $\gamma = 1$
14个普通状态，2个终止状态
走出边界的动作会导致状态不变
在走到终止状态前，任何动作都会导致-1的奖励
给定一个随机策略 $\pi(a|s)=0.25, \forall s, a$

策略提升

如何改进策略？

策略提升就是为了改进策略，强化学习的目的就是为了获得最优的策略。

给定一个策略 $\pi$

评价策略：求策略对应的值函数
策略提升（改进策略）：求得值函数 $v_{\pi}$ 后，根据贪婪的动作改进策略

在每个状态下，都选择能使q函数最大的动作。

$v_{π′}(s) ≥ v_π(s), \forall{s}$ ，即新的策略优于之前的策略
使得更新后的策略不差于之前的策略的过程称为策略提升
贪婪动作只是策略提升一种方式

策略提升例子

（接上策略评价例子）

通过策略评价和贪婪动作，策略从随机策略变成了最优策略 $π_∗$
上述的策略比较幸运，策略提升一次就到达了最优
一般情况下，可能需要多次迭代（策略评价 + 策略提升）才能到达

策略提升定理

对于两个确定性策略 $π′$ 和 $π$ ，如果满足 $q_π(s, {\pi}'(s)) ≥ v_π(s)$ ，那么可以得到

$v_{{\pi}'}(s) ≥ v_π(s)$

其中， $q_π(s, {\pi}'(s))$ 表示在当前状态s下，通过策略 ${\pi}'$ 选择第一个动作，之后通过策略 $\pi$ 进行动作选择，得到的期望回报值。

策略迭代

什么是策略迭代？

通过不断交替进行

策略评价

和

策略提升

，使策略收敛到最优的过程，称为策略迭代。

策略评价: 求 $v_π$ 。使用方法：迭代式策略评价
策略提升: 提升策略 $π′ ≥ π$ 。使用方法: 贪婪策略提升

收敛证明

策略提升停止时，当前策略 $\pi'$ 达到最优策略 $\pi$ ：

此时，满足贝尔曼最优方程：

策略迭代算法

策略迭代分为两部分：策略评价和策略提升。当前的策略评价方法，选用的是迭代式策略评价方法，即通过不断进行迭代，计算出当前策略 $\pi'$ 的v函数。

利用迭代式策略评价的策略迭代算法为：

一般而言，策略评价需要一直进行迭代求解 $v_\pi$ 。但是策略评价不一定要收敛到 $v_\pi$ ，才能进行策略提升，可以引入提前停止的规则

例如：值函数更新的 ∆ 足够小则停止
例如：限定迭代式策略评价只迭代 k 次。（当 $k=1$ 时，是值迭代）

策略迭代的进一步思考

策略迭代分为两个步骤——策略评价和策略提升
一般策略评价需要迭代式求解。因此这里存在两个循环（策略迭代和策略评价的迭代）
策略评价一定要收敛到 $v_π$ ，才能进行策略提升吗？
我们是不是可以引入提前停止的规则？
- 例如: 值函数更新的 ∆ 足够小则停止
- 例如：限定迭代式策略评价只迭代 k 次
- 策略评价只迭代一次，就策略提升？（k=1）值迭代