大一下学期和小组完成了概率论的学习《概率论与数理统计:浙大第四版》
大一暑假开始看Sutton的《Reinforcement Learning : An Introduction》这本书开始入门强化学习。一个暑假看完了本书的第一部分 Tabular Solution Methods ,适用于state space 不是非常大的情况。零零散散的有一些笔记和不懂的点,整理一下发上来,并时不时的补充。
------------------------------------------------------------------------------------------------
Chapter 4 Dynamic Programming
对于最优性原理的理解:
最优性原理保证了你有一个关于某个状态的递归方程可以解,然后用缓存的方式来自底向上地解这个方程得到问题的解。
最优性原理:全局最优必定是局部最优,如果此全局最优解可以取到的话。
最优性原理是指“多阶段决策过程的最优决策序列具有这样的性质:不论初始状态和初始决策如何,对于前面决策所造成的某一状态而言,其后各阶段的决策序列必须构成最优策略”
同步反向迭代(synchronous backups)
synchronous------同步,它的含义是每次更新都要更新完所有的状态