Reinforcement Learning 概述增强式学习

414 阅读1分钟

内容来自李宏毅的机器学习视频课程:ML 2021 Spring (ntu.edu.tw) 从概念上介绍了增强式学习的核心内容。

1. 三个步骤

  1. Function 即 Actor Function的输入:比如游戏画面 输出:比如操作几率
  2. Loss
  3. Optimization

image.png

2. 获取梯度的方法

image.png Version 0: A3=r3A_3 = r_3
Version 1: A3=r3+r4++rNA_3 = r_3 + r_4 + … +r_N
Version 2: A3=r3+λr4+λ2r5+A_3 = r_3 + \lambda r_4 + \lambda ^2r_5+…
Version 3: A3=r3+λr4+λ2r5+A_3 = r_3 + \lambda r_4 + \lambda ^2r_5+… (在Version 2的基础上 减掉 base bb)

3. Critic

Value function Vθ(s)V^\theta(s) :就是已知actor θ\thetass,预期它的rewardreward

Monte-Carlo(MC)based approach

也就是最直接的方法,使实际的reward 和Vθ(s)V^\theta(s)一致即可。

Temporal-difference(TD)approach

image.png Version 4:

image.png

训练 actor 和 critic 的部分参数是共享的 image.png

4. Reward Shaping

人为设定一些奖励,比如在射击游戏中掉血、活着、捡起血包等 都可以给予相应的奖励或者惩罚
在横版过关等游戏中,Curiosity(看到新的东西(有意义的新东西))也可以给予奖励。

5. 从示范中学习 Imitation Learning(模仿学习)

image.png

  • GAN:G 画图片,train D 给予真实图片高分,给 G 画的图片低分,train G 使其在 D 上获得高分。

  • IRL:Expert Actor 都做操作,train Reward Function 给予 Expert 高分,Actor 低分,train Actor 使其在 Reward Function 上获得高分。