部分可观察马尔可夫决策过程(POMDP)
agent不直接观察环境的状态,而是接收到具有概率性质的一组观察
POMDP是一个七元组
是一组观察
是一组条件观察概率
在每个时间段,环境处于某种状态s. agent在A中采取动作a,这会导致转换到状态s'的环境概率为T。同时,代理接收观察o,它取决于环境的新状态,概率为O。最后,代理接收奖励等于R。然后重复该过程。目标是让代理人在每个时间步骤选择最大化其预期未来折扣奖励的行动:
本文逻辑
首先讨论离散化问题的起点是discouned问题,用finite-state MDP methods来解决。
然后我们将方法扩展到the average cost criterion,用multi-chain algorithms for finite-state MDP来解决。
可以得到optimal liminf average cost function的下限和optimal limsup average cost function的上限。
然后展示the cost approximation of the discretization scheme的渐进收敛性
具体逻辑:
在第2节中,我们考虑折现情况下的离散近似,并介绍一种新的近似方案。 我们证明了两种主要离散方案的渐近收敛性。 在第3节中,我们将离散近似推广到平均成本情况,并给出了误差范围和渐近收敛性的分析。最后,在第4节中,我们介绍了实验结果。