白板推导系列～强化学习之马尔科夫决策过程&动态规划

2020-07-22 541 阅读1分钟

强化学习-MDP(1)-背景介绍

state space model其实就是一条马尔科夫链+观测

强化学习-MDP(2)-动态特性

MRP：市场经济

MDP：改革开放

强化学习-MDP(3)-价值函数

强化学习-MDP(4)-贝尔曼期望方程

强化学习-MDP(5)-贝尔曼最优方程

强化学习-DP-1-策略评估-解析解

强化学习-DP-2-策略评估-迭代解

强化学习-DP-3-策略改进定理

强化学习-DP-4-策略改进-贪心策略

强化学习-DP-5-价值迭代