pdf阅读标记规定
- 黄色:重点
- 绿色:本节最重要的知识
- 红色:不理解
- 蓝色:可能难理解的坑点、重重点
红>绿色>蓝色>黄色
Perface
Chap2:Model Formulation
Chap1、3:Examples
Chap.4:finite-horizon models
Chap5:Infinite-Horizon Models: Foundations
Chap6:Discounted Markov Decision Problems
Chap7:The Expected Total-Reward Criterion
Chap8:Average Reward and Related Criteria
Chap. 11 continuous-time discrete-state models referred to as semi-Markov decision processes
本书推荐学习顺序: Chap. 1 ; Sees. 2. 1 and 2.2; Chap. 3; Chap. 4; Chap. 5; Sees. 6. 1 , 6.2. 1 -6.2.4, 6.3. 1-6.3.2, 6.4.1-6.4.2, 6.5.1-6.5.2, 6.6. 1-6.6.7, and 6.7; Sees. 8. 1 , 8.2.1 , 8.3, 8.4. 1 -8.4.3, 8.5 . 1 -8.5.3, 8.6, and 8.8; and Chap. 1 1 .
老师推荐学习顺序:前八章
这本书的主要重点infinite-horizon discrete-time models with discrete state spaces。 但是,有几个部分(用*表示)讨论了具有任意状态空间或其他高级主题的模型。(可先跳过)
Chap1 Introduction
全书围绕下面三个问题讨论:(与optimality criterion和the form of the basic model elements有关)
-
- When does an optimal policy exist?
-
- When does it have a particular form?
-
- How do we determine or compute an optimal policy efficiently?
puterman 4 / 刘克第二章 有限阶段模型
2.2有限阶段的策略迭代和最优方程
结论:引出了贝尔曼最优方程,它的解就是最优value function
2.3最优策略的存在性和算法
结论:介绍如何通过最优方程求得最优策略.
定理2.4:(这里的策略、值函数是用了历史信息h定义的)
- 条件:使用某一种policy pi*,可以使得value function就是optimal value function,对于每一时刻,每一状态
- 结论:这种policy pi*就是最优策略;最优策略下得到的value function就是optimal value function
定理2.6
- 条件:最优方程有解
- 结论:存在马尔可夫策略(与历史信息h无关)是ε最优的或者就是最优的
算法2.2:(有限阶段向后递归迭代算法)(值迭代算法?)
2.5 单调策略的最优性
结论:本节论述了最优策略是单调的,可以简化2.3中求最优策略的算法(值迭代算法?)(仅适合于状态空间S是非负整数的MDP问题)
各个条件的具体解释可见本节最后的“定价问题”例子介绍
puterman 5 Infinite-Horizon Models : Foundations
5.1 THE VALUE OF A POLICY
介绍了三种infinite-horizon准则来评价一个策略:期望、平均、折扣、
5.2 THE EXPECTED TOTAL REWARD CRITERION
介绍了期望折扣值函数的定义,说明了一个事实:expected total discounted model和服从几何分布的random horizon model等价
5.4 OPTIMALITY CRITERIA
一个policy拥有largest value function,那么这个policy就是optimal的,但是存在一个问题:对应一个optimality criteria可能有多个optimal policy,所以针对这个问题,我们在sec.5.4.2 and 5.4.3会提出一个修正的criteria(sec.5.4.2属于扩展内容*)。
5.4.1 Criteria Based on Policy Value Functions
5.5 MARKOV POLICIES
我们可以从一个HR的policy中导出一个和它效用相同的MR的policy,两个policy的decision rule相同(定理5.5.1),不同准则下(平均、总和、折扣)的value function也相同(5.5.3)
5.6 VECTOR NOTATION FOR MARKOV DECISION PROCESSES
本节提供了在本书其余部分中将使用的符号
puterman Chap6 Discounted Markov Decision Problems
推荐学习顺序:6.1, 6.2. 1 -6.2.4, 6.3.2, 6.4.2, 6.5.1, 6.6.2-6.6.3, 6. 7.2, 6.7.3, 6.9, and 6.11.1.
刘克 第三章无限阶段折扣模型
3.1最优准则
结论:在原先的finite horizon MDP模型引入了折扣因子和值函数的概念,并给出了折扣MDP下Optimal Value Function的定义,和最优策略的定义
3.2最优方程
结论:给出Expected bellman equation和Optimal bellman equation的定义,介绍了巴拿赫不动点定理,证明了两个迭代算法的收敛性(贝尔曼期望迭代、贝尔曼最优迭代)
3.3最优策略的存在性
结论:3.2证明了最优值函数存在,本节证明在此基础上存在最优策略;并且探讨最优平稳策略在最一般的策略类中仍然是最优的?
刘克 第四章无限阶段平均模型
4.1最优准则
结论:引入了average value function,给出了平均MDP下Optimal value function的定义,和最优策略的定义,还有ε最优策略的定义
4.2最优平稳策略的存在性
结论:当折扣因子充分接近于1的时候,存在一个与折扣因子无关的折扣最优平稳策略,这个平稳策略恰好就是平均准则的最优平稳策略(因为折扣接近于1)