ML-1-强化学习|马尔科夫过程如何判断一个问题是否是强化学习问题：决策放到环境里面执行以后，是否会改变这个环境例如

如何判断一个问题是否是强化学习问题：
- 决策放到环境里面执行以后，是否会改变这个环境
- 例如股票交易，当执行了买、卖或者观望之后，会影响用户的收益
MDP（Markov Decision Process）马尔科夫过程
- 系统状态随时间演化，但演化只取决于当前状态，不依赖于更早历史
- 马尔科夫的性质：P(st+1 | st, …, s0) = P(st+1 | st)
- 马尔科夫过程推导：st+1 = st P （矩阵乘法），st = s0 Pt （P 的 t 次方）

3. 马尔科夫决策过程里有一个四元组，即状态、动作、奖赏、转移。

马尔科夫决策过程的最优策略
- 第一种方法：首先评估给定一个策略以后，这个策略有多好，然后找一个方向来提高这个策略。
- 第二种方法：直接通过V值来更新V值，这一方法称为值迭代。

文章参考：

南京大学俞扬博士万字演讲全文：强化学习前沿（上）