白板推导系列~ 强化学习之马尔科夫决策过程&动态规划 赤西沽 2020-07-22 541 阅读1分钟 强化学习-MDP(1)-背景介绍 state space model其实就是一条马尔科夫链+观测 强化学习-MDP(2)-动态特性 MRP:市场经济 MDP:改革开放 强化学习-MDP(3)-价值函数 强化学习-MDP(4)-贝尔曼期望方程 强化学习-MDP(5)-贝尔曼最优方程 强化学习-DP-1-策略评估-解析解 强化学习-DP-2-策略评估-迭代解 强化学习-DP-3-策略改进定理 强化学习-DP-4-策略改进-贪心策略 强化学习-DP-5-价值迭代