马尔可夫决策过程(Markov Decision Process,MDP)
马尔可夫决策是一种序贯决策的数学模型,用于在具有马尔可夫性的系统中模拟智能体的策略和回报。
如果想要解决一个决策问题,首先建立马尔可夫决策模型,然后可以使用强化学习的算法对其进行求解。最后的结果形式为一组贯序策略:π(θ)={π1,π2,⋯,πτ},对策略参数θ也即下式,即可得到最优策略。
θ=argθmaxJ(θ)
马尔可夫性
何为马尔可夫性?当状态的关系满足以下式子时就称该环境具有马尔可夫性。
Pss′=P(St+1∣St)
也就是,环境当前状态仅与上一时刻状态有关,而和之前的历史状态无关。
马尔可夫奖励
P= from ⎣⎡P11⋮Pn1 to …P1nPnn⎦⎤Rs=E[Rt+1∣St=s]
马尔可夫链
马尔可夫链是由状态和状态转移表示的一种随机过程,其满足马尔可夫性。
价值函数
状态价值
马尔可夫决策的目的是为了最大化整体回报值。
v(s)=E[Gt∣St=s]=E[Rt+1+γRt+2+γ2Rt+3+…∣St=s]=E[Rt+1+γ(Rt+2+γRt+3+…)∣St=s]=E[Rt+1+γGt+1∣St=s]=E[Rt+1+γv(St+1)∣St=s]
于是有:
v(s)=Rs+γs′∈S∑Pss′v(s′)
求解
v=R+γPv
⎣⎡v(1)⋮v(n)⎦⎤=⎣⎡R1⋮Rn⎦⎤+γ⎣⎡P11⋮P11……P1nPnn⎦⎤⎣⎡v(1)⋮v(n)⎦⎤v=R+γPv(I−γP)v=Rv=(I−γP)−1R
部分可观的马尔可夫决策过程(Partial observable markov decision process,POMDP)
在真实应用中,环境的状态通常对于智能体来说是不完全可观的,因此使用MDP模型不能够精确的描述问题,由此引入了POMDP模型。
在POMDP模型中,引入了状态观测器来使得智能体能够推断状态的概率分布。
置信度迭代公式:
b′(s′)=ηO(o∣s′,a)s∈S∑T(s′∣s,a)b(s)
其中η=1/Pr(o∣b,a),Pr可表示为Pr(o∣b,a)=s′∈S∑O(o∣s′,a)s∈S∑T(s′∣s,a)b(s)
状态价值为:
Vπ(b0)=t=0∑∞γtr(bt,at)=t=0∑∞γtE[R(st,at)∣b0,π]
最优化方程为:
π∗=πargmaxVπ(b0)
V∗(b)=maxa∈A[r(b,a)+γo∈Ω∑Pr(o∣b,a)V∗(τ(b,a,o))]
应用
待补充~