【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

1,526 阅读3分钟
  • 论文题目:Deep Recurrent Q-Learning for Partially Observable MDPs

论文标题及作者信息截图

  这篇论文最开始是15年提出来的,但最新的修订版本是17年的,下文所有内容都以17年版本为主。

所解决的问题?

  如题目中所述,作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可观测信息这个问题。

POMDP 数学模型描述

  主要就是对DQN做一个改进,变成了Deep Recurrent Q-Network (DRQN)。中国有句古话叫前因后果,DQN中一般取4帧图像数据,对序贯状态的割裂程度比较厉害,往往很难考虑到很久之前的状态对现在的影响,而有些问题却又得考虑周全。

部分可观测游戏

所采用的方法?

  作者采用HochreiterSchmidhuber 1997年提出来的Long Short Term Memory (LSTM)结合DQN来解决这个部分可观测的问题。

  其网络结构如下所示:

DRQN 网络结构

  由于网络里面有LSTM,作者主要考虑了两种更新方式:Bootstrapped Sequential UpdatesBootstrapped Random Updates

  • Bootstrapped Sequential Updates:每次更新一个Episode,从头到尾,整个序列LSTM走完。
  • Bootstrapped Random Updates:从Episode中随机抽取一个片段出来更新。

  这两种更新方式的区别在于隐含状态是否清零。每个Episode更新的话能学到更多的东西,而随机的话更符合DQN中随机采样的思想。这两种方法的实验结果是非常相似的。作者文中采用的是随机采样的方式,期望它具有更强的泛化能力。

取得的效果?

  部分可观测环境:在每个timestep,游戏图像都会以0.5的概率模糊化。这里作者给出了两个结果,一个最好的和一个最差的。

DRQN 实验结果

  作者还提出了一个问题:直接在MDP框架下训练的强化学习算法,能否直接泛化到POMDP上面呢?实验结果如下所示:

MDP到POMDP泛化测试结果

  从上述结果可以看出,DRQN的泛化能力比DQN的鲁棒性要好很多。这也就说明用了LSTM不仅能处理POMDP并且性能、鲁棒性都较DQN会有所提升。

所出版信息?作者信息?

  这是一篇15年发表在national conference on artificial intelligence上的一篇文章。作者Matthew Hausknecht是得克萨斯大学奥斯汀分校(University of Texas at Austin)的博士,目前是微软的高级研究员。

Matthew Hausknecht

参考链接

  作者也不是这篇文章的思想创始人,早在文献12007Wierstra就有将LSTM用于解决部分可观测马尔可夫决策框架下的论文,但是是用在Policy Gradient的方法下,并且DRQN还结合了卷积神经网络一起训练,避免了手工提取特征。

  文献2:在2001年的时候,Bakkercartpole任务下实验了,LSTM解决POMDP是要比RNN要好的。

文献

  1. Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
  2. Bakker, B. 2001. Reinforcement learning with long shortterm memory. In NIPS, 1475–1482. MIT Press.

我的微信公众号名称:深度学习与先进智能决策 微信公众号ID:MultiAgent1024 公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!