1.引言
本章节线索:
REINFORCE算法 方差大
->将目标return 值改为
->引入baseline 【可以在不改变期望的前提下降低方差(似然比的好处)】
->actor-critic算法【baseline的基础上引入boostrapping】 方差还是大
->引入 优势函数 扩展出非常多的不同的actor和critic算法
2.policy gradient的优缺点
优点:
david ppt:
1.Better convergence properties.
Value-Based方法最终肯定回收敛,但是在收敛过程中回震荡。
2.Effective in high-dimensional or continuous action spaces
3.Can learn stochastic policies {如剪刀石头布或者对于部分可测马尔科夫决策过程(环境不确定的情况下),我们不能使用确定性策略,而要使用随机策略}
2.5policy gradient 策略函数和度量函数的构建
有两种表达形式:
- 离散动作集:soft-max函数
对于soft-max函数
h是对每一个s,a的一个偏好函数
用soft-max函数的优点:
1.即使对于 deterministic policy(明确选择某个具体 action 的策略),参数化策略也能足够逼近(比如将某个 a 对应的 h设为无穷大即可)
而传统的 -greedy 策略则不能做到,因为它必须对非最优策略分配
的概率。
2.Can learn stochastic policies,因为能够灵活的对动作分配概率
3.对于一些特定的问题,参数的 policy 是一个相对更易于近似的函数
- start value--有完整episode时使用
- average reward-连续
- average reward per time step-连续 (用了平均回报
)
缺点:
1.Typically converge to a local rather than global optimum
2.Evaluating a policy is typically inefficient(收敛非常慢) and high variance
3.The Policy Gradient Theorem & REINFORCE 算法
REINFORCE算法由于是MC方法,所以方差大
故可以将return 值改为
3.REINFORCE 算法 with Baseline
图
b(s)可以取v(s,w),好处:
①降低方差
②可以同时更新权重参数θ和w
4.Actor–Critic Methods
REINFORCE-with-baseline 算法同时学习了 policy 和 value function ,但并不认为它是 actor-critic 算法
因为这个 value function 仅仅是用作 baseline ,而没起到 critic 的用处,具体而言,即是它没有用来做 bootstrapping
bootstrapping的好处:
1.由于是有偏估计【估计值的期望不等于真实值】,虽然引入了bia,但是
①reduces variance and
②accelerates learning
③适用于on-line/连续型的问题 (如果 episodes 太长,或者是连续型任务,MC 方法将会有很严重的延迟问题,TD 方法能够解决这种问题。)
所以我们引入 bootstrapping ,将G_t-b(s)/Q(s,a)-b(s)换成TD-error 更新式为:
》Q(s,a)-V(s)称为** advantage function** (在sutton书中不算Actor–Critic Methods,但在David ppt 算是一种Q-Actor–Critic Methods)
Actor-Critic 的小总结
Policy Gradient for Continuing Problems
连续型reward
在第十章中,对于没有 episode 界限的连续型问题,定义了平均回报率:
即第三种度量函数:
其中
return就可以改写为以下形式:
连续型Policy Gradient Theorem
[连续型问题下 Policy Gradient Theorem ] 可证明
Policy Parameterization for Continuous Actions
Policy-based methods 为较大 action 空间的问题提供了实用的处理方法,甚至对于连续型问题这种有着无穷种 action 的情况也没问题,
它并不去计算某个具体 action 的概率值,而是直接去学习概率分布
例如,假设 action 集合是一些实数,并且来自一个高斯分布,其概率分布便可写作
这样,便组成了完整的连续型问题下 Policy 参数化算法。