《强化学习》入门C13 Policy Gradient Methods

·  阅读 686

1.引言

本章节线索:

REINFORCE算法 方差大

->将目标return G_t值改为Q_w(s,a)

->引入baseline 【可以在不改变期望的前提下降低方差(似然比的好处)】

->actor-critic算法【baseline的基础上引入boostrapping】 方差还是大

->引入 优势函数 扩展出非常多的不同的actor和critic算法

2.policy gradient的优缺点

优点:

david ppt:

1.Better convergence properties.

Value-Based方法最终肯定回收敛,但是在收敛过程中回震荡。

2.Effective in high-dimensional or continuous action spaces

3.Can learn stochastic policies {如剪刀石头布或者对于部分可测马尔科夫决策过程(环境不确定的情况下),我们不能使用确定性策略,而要使用随机策略}

2.5policy gradient 策略函数和度量函数的构建

\pi(s,a)有两种表达形式:

  1. 离散动作集:soft-max函数

2. 连续动作集: Guass 分布

对于soft-max函数

h是对每一个s,a的一个偏好函数

用soft-max函数的优点:

1.即使对于 deterministic policy(明确选择某个具体 action 的策略),参数化策略也能足够逼近(比如将某个 a 对应的 h设为无穷大即可)

而传统的 \epsilon -greedy 策略则不能做到,因为它必须对非最优策略分配 \epsilon 的概率。

2.Can learn stochastic policies,因为能够灵活的对动作分配概率

3.对于一些特定的问题,参数的 policy 是一个相对更易于近似的函数

J(\theta)的选取:

  1. start value--有完整episode时使用
  2. average reward-连续
  3. average reward per time step-连续 (用了平均回报r(\tau))

缺点:

1.Typically converge to a local rather than global optimum

2.Evaluating a policy is typically inefficient(收敛非常慢) and high variance

3.The Policy Gradient Theorem & REINFORCE 算法

REINFORCE算法由于是MC方法,所以方差大

故可以将return G_t值改为Q_w(s,a)

3.REINFORCE 算法 with Baseline

b(s)可以取v(s,w),好处:

①降低方差

②可以同时更新权重参数θ和w

4.Actor–Critic Methods

REINFORCE-with-baseline 算法同时学习了 policy 和 value function ,但并不认为它是 actor-critic 算法

因为这个 value function 仅仅是用作 baseline ,而没起到 critic 的用处,具体而言,即是它没有用来做 bootstrapping

bootstrapping的好处:

1.由于是有偏估计【估计值的期望不等于真实值】,虽然引入了bia,但是

①reduces variance and

②accelerates learning

③适用于on-line/连续型的问题 (如果 episodes 太长,或者是连续型任务,MC 方法将会有很严重的延迟问题,TD 方法能够解决这种问题。)

所以我们引入 bootstrapping ,将G_t-b(s)/Q(s,a)-b(s)换成TD-error 更新式为:

》Q(s,a)-V(s)称为** advantage function** (在sutton书中不算Actor–Critic Methods,但在David ppt 算是一种Q-Actor–Critic Methods)

Actor-Critic 的小总结

\phi(s)是啥?不是应该是梯度吗?如果是线性逼近的话,那就是特征向量×V值

Policy Gradient for Continuing Problems

连续型reward

在第十章中,对于没有 episode 界限的连续型问题,定义了平均回报率:

即第三种度量函数:

其中

return就可以改写为以下形式:

连续型Policy Gradient Theorem

[连续型问题下 Policy Gradient Theorem ] 可证明

Policy Parameterization for Continuous Actions

Policy-based methods 为较大 action 空间的问题提供了实用的处理方法,甚至对于连续型问题这种有着无穷种 action 的情况也没问题,

它并不去计算某个具体 action 的概率值,而是直接去学习概率分布

例如,假设 action 集合是一些实数,并且来自一个高斯分布,其概率分布便可写作

这样,便组成了完整的连续型问题下 Policy 参数化算法。

Policy Gradient Methods总结

分类:
阅读
标签:
分类:
阅读
标签: