Abstract & Conclusion
从DQN衍生出一种可以用在连续动作空间的DDPG算法
DDPG = actor critic + deterministic polici gradient + deep-learning
-
无理论证明非线性函数逼近的收敛性,但是鲁棒性很强!(robustly solves more than 20 simulated physics tasks,)
-
可以直接输入原始像素! (directly from raw pixel inputs.)
-
相比于DQN,需要的experiments非常少!说明同等时间下DDPG可以解决更复杂的问题
解决了cartpole swing-up, dexterous manipulation, legged locomotion and car driving 等经典问题
缺点:需要大量episode来训练(robustly solves more than 20 simulated physics tasks,)
Introduction
DQN的缺陷:
只能应用在离散化&低纬度的action spaces ,不可以直接应用在连续动作空间问题,而必须将其离散化-> 维度灾难 (curse of dimensionality)
action的数量会随着自由度的增加呈指数增加
导致两个问题
①. 巨大的连续action空间难以进行训练
②. 对连续action空间进行离散化会扔掉许多有用的信息
DQN非常stable和robust的原因:
①relpay buffer
②taget Q network
所以提出:**DDPG= DQN + DPG = actor-critic + model-free + off-policy + deep-learning
DDPG算法stable和robust的原因是使用了 batch nomalization