Reinforcement Learning 概述增强式学习内容来自李宏毅的机器学习视频课程：ML 2021 Sprin

内容来自李宏毅的机器学习视频课程：ML 2021 Spring (ntu.edu.tw) 从概念上介绍了增强式学习的核心内容。

1. 三个步骤

Function 即 Actor Function的输入：比如游戏画面输出：比如操作几率
Loss
Optimization

2. 获取梯度的方法

Version 0: $A_3 = r_3$
Version 1: $A_3 = r_3 + r_4 + … +r_N$
Version 2: $A_3 = r_3 + \lambda r_4 + \lambda ^2r_5+…$
Version 3: $A_3 = r_3 + \lambda r_4 + \lambda ^2r_5+…$ (在Version 2的基础上减掉 base $b$ )

3. Critic

Value function $V^\theta(s)$ :就是已知actor $\theta$ 和 $s$ ，预期它的 $reward$

Monte-Carlo(MC)based approach

也就是最直接的方法，使实际的reward 和 $V^\theta(s)$ 一致即可。

Temporal-difference(TD)approach

Version 4:

训练 actor 和 critic 的部分参数是共享的

4. Reward Shaping

人为设定一些奖励，比如在射击游戏中掉血、活着、捡起血包等都可以给予相应的奖励或者惩罚
在横版过关等游戏中，Curiosity（看到新的东西（有意义的新东西））也可以给予奖励。

5. 从示范中学习 Imitation Learning（模仿学习）

GAN：G 画图片，train D 给予真实图片高分，给 G 画的图片低分，train G 使其在 D 上获得高分。
IRL：Expert Actor 都做操作，train Reward Function 给予 Expert 高分，Actor 低分，train Actor 使其在 Reward Function 上获得高分。