论文研读(DDPG)continuous control with deep reinforcement learning

1,557 阅读1分钟

Abstract & Conclusion

从DQN衍生出一种可以用在连续动作空间的DDPG算法

DDPG = actor critic + deterministic polici gradient + deep-learning

  1. 无理论证明非线性函数逼近的收敛性,但是鲁棒性很强!(robustly solves more than 20 simulated physics tasks,)

  2. 可以直接输入原始像素! (directly from raw pixel inputs.)

  3. 相比于DQN,需要的experiments非常少!说明同等时间下DDPG可以解决更复杂的问题

解决了cartpole swing-up, dexterous manipulation, legged locomotion and car driving 等经典问题

缺点:需要大量episode来训练(robustly solves more than 20 simulated physics tasks,)

Introduction

DQN的缺陷:

只能应用在离散化&低纬度的action spaces ,不可以直接应用在连续动作空间问题,而必须将其离散化-> 维度灾难 (curse of dimensionality)

action的数量会随着自由度的增加呈指数增加

导致两个问题

①. 巨大的连续action空间难以进行训练

②. 对连续action空间进行离散化会扔掉许多有用的信息

DQN非常stable和robust的原因:

​ ①relpay buffer

​ ②taget Q network

所以提出:**DDPG= DQN + DPG = actor-critic + model-free + off-policy + deep-learning

DDPG算法stable和robust的原因是使用了 batch nomalization