内容来自李宏毅的机器学习视频课程:ML 2021 Spring (ntu.edu.tw) 从概念上介绍了增强式学习的核心内容。
1. 三个步骤
- Function 即 Actor Function的输入:比如游戏画面 输出:比如操作几率
- Loss
- Optimization
2. 获取梯度的方法
Version 0:
Version 1:
Version 2:
Version 3: (在Version 2的基础上 减掉 base )
3. Critic
Value function :就是已知actor 和,预期它的
Monte-Carlo(MC)based approach
也就是最直接的方法,使实际的reward 和一致即可。
Temporal-difference(TD)approach
Version 4:
训练 actor 和 critic 的部分参数是共享的
4. Reward Shaping
人为设定一些奖励,比如在射击游戏中掉血、活着、捡起血包等 都可以给予相应的奖励或者惩罚
在横版过关等游戏中,Curiosity(看到新的东西(有意义的新东西))也可以给予奖励。
5. 从示范中学习 Imitation Learning(模仿学习)
-
GAN:G 画图片,train D 给予真实图片高分,给 G 画的图片低分,train G 使其在 D 上获得高分。
-
IRL:Expert Actor 都做操作,train Reward Function 给予 Expert 高分,Actor 低分,train Actor 使其在 Reward Function 上获得高分。