- 如何判断一个问题是否是强化学习问题:
- 决策放到环境里面执行以后,是否会改变这个环境
- 例如股票交易,当执行了买、卖或者观望之后,会影响用户的收益
- MDP(Markov Decision Process)马尔科夫过程
- 系统状态随时间演化,但演化只取决于当前状态,不依赖于更早历史
- 马尔科夫的性质:P(st+1 | st, …, s0) = P(st+1 | st)
- 马尔科夫过程推导:st+1 = st P (矩阵乘法),st = s0 Pt (P 的 t 次方)
3. 马尔科夫决策过程里有一个四元组,即状态、动作、奖赏、转移。
- 马尔科夫决策过程的最优策略
- 第一种方法:首先评估给定一个策略以后,这个策略有多好,然后找一个方向来提高这个策略。
- 第二种方法:直接通过V值来更新V值,这一方法称为值迭代。
文章参考: