ML-1-强化学习|马尔科夫过程

46 阅读1分钟
  1. 如何判断一个问题是否是强化学习问题:
    • 决策放到环境里面执行以后,是否会改变这个环境
    • 例如股票交易,当执行了买、卖或者观望之后,会影响用户的收益
  2. MDP(Markov Decision Process)马尔科夫过程
    • 系统状态随时间演化,但演化只取决于当前状态,不依赖于更早历史
    • 马尔科夫的性质:P(st+1 | st, …, s0) = P(st+1 | st)
    • 马尔科夫过程推导:st+1 = st P (矩阵乘法),st = s0 Pt (P 的 t 次方)

image.png 3. 马尔科夫决策过程里有一个四元组,即状态、动作、奖赏、转移。

  1. 马尔科夫决策过程的最优策略
    • 第一种方法:首先评估给定一个策略以后,这个策略有多好,然后找一个方向来提高这个策略。
    • 第二种方法:直接通过V值来更新V值,这一方法称为值迭代。

文章参考:

  1. 南京大学俞扬博士万字演讲全文:强化学习前沿(上)