《强化学习》入门C4 Dynamic Programming

253 阅读1分钟

大一下学期和小组完成了概率论的学习《概率论与数理统计:浙大第四版》

大一暑假开始看Sutton的《Reinforcement Learning : An Introduction》这本书开始入门强化学习。一个暑假看完了本书的第一部分 Tabular Solution Methods ,适用于state space 不是非常大的情况。零零散散的有一些笔记和不懂的点,整理一下发上来,并时不时的补充。


------------------------------------------------------------------------------------------------


Chapter 4 Dynamic Programming

对于最优性原理的理解:

最优性原理保证了你有一个关于某个状态的递归方程可以解,然后用缓存的方式来自底向上地解这个方程得到问题的解。

最优性原理:全局最优必定是局部最优,如果此全局最优解可以取到的话。

 最优性原理是指“多阶段决策过程的最优决策序列具有这样的性质:不论初始状态和初始决策如何,对于前面决策所造成的某一状态而言,其后各阶段的决策序列必须构成最优策略”


同步反向迭代(synchronous backups)

synchronous------同步,它的含义是每次更新都要更新完所有的状态