《强化学习》入门C4 Dynamic Programming大一暑假开始看Sutton的《Reinforcement L

大一下学期和小组完成了概率论的学习《概率论与数理统计:浙大第四版》

大一暑假开始看Sutton的《Reinforcement Learning : An Introduction》这本书开始入门强化学习。一个暑假看完了本书的第一部分 Tabular Solution Methods ，适用于state space 不是非常大的情况。零零散散的有一些笔记和不懂的点，整理一下发上来，并时不时的补充。

------------------------------------------------------------------------------------------------

Chapter 4 Dynamic Programming

对于最优性原理的理解:

最优性原理保证了你有一个关于某个状态的递归方程可以解，然后用缓存的方式来自底向上地解这个方程得到问题的解。

最优性原理：全局最优必定是局部最优，如果此全局最优解可以取到的话。

最优性原理是指“多阶段决策过程的最优决策序列具有这样的性质：不论初始状态和初始决策如何，对于前面决策所造成的某一状态而言，其后各阶段的决策序列必须构成最优策略”

同步反向迭代（synchronous backups）

synchronous------同步，它的含义是每次更新都要更新完所有的状态