本文首发于:行者AI
强化学习(Reinforcement Learning,RL),也叫增强学习,是指一类从(与环境)交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。 和深度学习类似,强化学习中的关键问题也是贡献度分配问题[1],每一个动作并不能直接得到监督信息,需要通过整个模型的最终监督信息(奖励)得到,并且有一定的延时性。
本文首先通过简介强化学习基于策略函数的学习方法引出策略梯度,接着通过一般化的公式推论得到策略梯度的最优表达式,最后在排序不等式的视角下解读策略梯度的最优表达式。主要概括为以下两个部分:
1. 策略梯度
智能体的策略(Policy)就是智能体如何根据环境状态 ? 来决定下一步的动作 ?,通常可以分为确定性策略(Deterministic Policy)和随机性策略(Stochastic Policy)两种:
-
确定性策略是从状态空间到动作空间的映射函数:
π:S→A
-
随机性策略表示在给定环境状态时,智能体选择某个动作的概率分布:
π(a∣s)≜p(a∣s)
∑a∈Aπ(a∣s)=1
通常情况下,强化学习一般使用随机性策略。随机性策略可以有很多优点:一是在学习时可以通过引入一定随机性更好地探索环境;二是随机性策略的动作具有多样性,这一点在多个智能体博弈时也非常重要。采用确定性策略的智能体总是对同样的环境做出相同的动作,会导致它的策略很容易被对手预测。
一般来讲,基于值函数的学习方法本质是一种确定性策略;而学习一个策略πθ(a∣s)来最大化期望回报的方法本质是一种随机性策略。这种方法也称为策略搜索(Policy Search)。策略搜索本质是一个优化问题,可以分为基于梯度优化和无梯度优化。策略搜索和基于值函数的方法相比,策略搜索可以不需要值函数,直接优化策略。参数化的策略能够处理连续状态和动作,可以直接学出随机性策略。
策略梯度(Policy Gradient)就是一种基于梯度优化的强化学习方法。假设πθ(a∣s)是一个关于θ的连续可微函数,我们可以用梯度上升的方法来优化参数θ使得目标函数J(θ)最大。
目标函数J(θ)关于策略参数θ的导数为:
∂θ∂J(θ)=∂θ∂∫pθ(τ)G(τ)dτ=∫(∂θ∂pθ(τ))G(τ)dτ=∫pθ(τ)(pθ(τ)1∂θ∂pθ(τ))G(τ)dτ=∫pθ(τ)(∂θ∂logpθ(τ))G(τ)dτ=Eτ∼pθ(τ)[∂θ∂logpθ(τ)G(τ)]
其中∂θ∂logpθ(τ)为函数logpθ(τ)关于θ的偏导数。从最终的式子中可以看出,参数θ优化的方向是使得总回报G(τ)越大的轨迹τ的概率pθ(τ)也越大。
其中,∂θ∂logpθ(τ)可以进一步分解为:
∂θ∂logpθ(τ)=∂θ∂log(p(s0)t=0∏T−1πθ(at∣st)p(st+1∣st,at))=∂θ∂(logp(s0)+t=0∑T−1logπθ(at∣st)+t=0∑T−1logp(st+1∣st,at))=t=0∑T−1∂θ∂logπθ(at∣st)
可以看出,∂θ∂logpθ(τ)和状态转移概率无关,只和策略函数相关。
因此,策略梯度∂θ∂∂(θ)可以简写为:
∂θ∂J(θ)=Eτ∼pθ(τ)[∇θlogπθ(at∣st)G(τ)]
其中,τ为策略序列,简单理解为状态和动作的上下文序列;τ满足参数θ下的状态转移概率;G(τ)是在策略τ下的总回报。
2. 排序不等式下的策略梯度
排序不等式是数学上的一种不等式。它可以推导出很多有名的不等式,例如:算术几何平均不等式(简称算几不等式)、柯西不等式、切比雪夫总和不等式。排序不等式(sequence inequality,又称排序原理)是高中数学竞赛大纲、新课标普通高中课程标准试验教科书(人民教育出版社)数学(选修4-5第三讲第三节)要求的基本不等式。[2]
排序不等式内容为:排序不等式表述如下,设有两组数a1,a2,…⋯⋅an和b1,b2,……bn,满足a1≤a2≤……≤an,b1≤b2≤……≤bn,c1≤c2≤……≤cn是b1,b2,……bn的乱序排列,则有(a1bn+a2bn−1+……+anb1≤a1c1+a2c2+……+ancn≤a1b1+a2b2+……+anbn,
当且仅当a1=a2=……=an或b1=b2=……=bn时等号成立。
一般为了便于记忆,常记为:反序积和 ≤ 乱序积和 ≤ 顺序积和。(证明过程见参考[2])
因此,对于策略梯度∂θ∂∂(θ):
∂θ∂J(θ)=Eτ∼pθ(τ)[∇θlogπθ(at∣st)G(τ)]=Eτ∼pθ(τ)[∂θ∂logpθ(τ)G(τ)]
函数logpθ(τ)关于θ的偏导数∂θ∂logpθ(τ)是长度为len(τ)(表示策略τ的长度)的序列,同时G(τ)也是同长度的序列。对于强化学习来讲,是要最大化策略梯度用以最大化回报。
那么对于∂θ∂logpθ(τ)和G(τ)这两个序列的加权积和,何时才是最大的呢?根据排序不等式可得:当∂θ∂logpθ(τ)和G(τ)同序时,策略梯度最大。 同序意味着:如果当前时刻策略网络πθ(at∣st)的最大概率输出动作为at,那么当前动作at同时能获得最大回报G(τ[t])。这符合我们对于策略网络的期望,即我们希望策略网络输出的action每时刻都能使我们设置的reward最大。
3. 参考
[1] 邱锡鹏《NNDL》
[2] 百度百科
PS:更多技术干货,快关注【公众号 | xingzhe_ai】,与行者一起讨论吧!