0 文章信息
1 背景
通常的强化学习方法,在涉及巨大的状态空间和稀疏延时奖励反馈的大规模应用上遭受挑战。HRL尝试 在temporal abstraction的多个层次上学习动作选择策略来解决这个问题。可以考虑一个较小的但是有可能作为子目标的状态集合作为抽象,然后学习相应的策略来完成这些子目标。
在HRL中很多subgoal discovery的方法依赖于对环境的模型的分析,但是学习这样模型也带来自身的规模问题。一旦subgoal被确定了,可以通过intrinsic reward的方式来学习如何完成它。
在这篇文章中,提出了一种新的model-free的subgoal discovery方法,incremental unsupervised learning over a small memory of the most recent experiences (trajectories) of the agent。 和intrinsic motivation learning mechanism结合起来以后,这种方法可以基于环境的experience学习subgoals和相应的skills。它不需要获取环境模型,适合大规模应用。
通过在两个带有稀疏延时reward的RL问题上证明了方法的有效性。
2 内容介绍
hierarchical RL的核心目标是允许在不同级别的抽象上同时进行学习。作者认为要成功解决稀疏延时奖励问题,agent应该在时间和空间的多个层次上表示知识,进行学习。
本文将问题分解为三个subproblem
-
Learning a meta-policy to choose a subgoal
训练一个high-level的controller,来学习一个最优的meta-policy从一个子目标候选集合
中选择一个合适的子目标
,然后将
传递给lower-level的controller。
-
Exploring the state space while learning subtaks through intrinsic motivation
agent通过intrinsic reward的激励来学会如何完成子目标
。
-
Subgoal discovery
从agent的过去的experiences memory
中发现合适的候选子目标集合
。当学习刚开始的时候,子目标可能是任意的,但是一旦被分配到controller去执行,就可以通过intrinsic motivation learning来收集更多的experience。
2.1 meta-controller/controller framework && intrinsic motivation
Kulkarni et al. (2016)在meta-controller/controller framework中提出了一种temporal abstraction的直接计算方法,agent在两个层面上做decision。具体的框架细节参见H-DQN的介绍
- meta-controller:接收状态
,选择一个子目标
。
- controller:接收状态
,子目标
,选择一个动作action。重复此过程直至完成目标。
Intrinsic motivation learning是meta-controller和controller背后的核心思想。当面临sparse delayed feedback的任务时,RL往往不能对状态空间进行有效的探索,进而获得充足的rewarding experience来最大化reward。作为对比HRL框架中的intrinsic critic基于子目标给controller发送更周期性的的reward,比如是否完成子目标+-1。
Intrinsic motivation learning有至少两点好处
- 可以探索更大规模的状态空间
- 允许在不同环境中重用技能
2.2 Unsupervised Subgoal Discovery
显然meta-controller/controller framework的性能依赖于candidate subgoals的质量。 将subgoal定义为是趋向于于rewarding state的state。
本文通过unsupervised learning methods利用值函数学习过程中记录的recent transition experiences,来生成可能是高质量的subgoals的states集合。找出异常(anomalous)的transition experiences,基于相似度进行聚类,收集形成subgoals。使用的技术包括Anomaly Detection和K-Means Clustering。
2.2.1 Anomaly Detection
由于RL学习的终极目标是最大化accumulated (discounted) reward,因此在这篇文章中定义的a relevant anomalous experience
- one that includes a substantial positive reward in an environment in which reward is sparse,即拥有显著positive reward的state
- Large changes in state features,which produces a large distance between two consecutive states,比如游戏屏幕场景的突然切换。
2.2.2 K-Means Clustering
使用聚类算法的idea是根据internal representations of states对“spatial” state space的抽象和降维。如果有一个集合是满足异常条件的experience集合,与其考虑所有这些状态,不如选择其中更小的一组有代表性的作为子目标,比如集群的质心,加速学习过程。
2.2.3 Mathematical intuition
利用一个简单的场景来解释一下
图(b)代表着k-means中k=4的结果,其中各个颜色的点分别代表一类,而'x'代表这一类的中心点,其中黑色代表异常点。图(c),图(d)分别代表k=6和k=8的结果。进而完成subgoal discovery也就是带颜色的x。
2.3 A Unified Model-Free HRL Framework
将前面的内容temporal abstraction, intrinsic motivation, and unsupervised subgoal discovery整合起来形成一个model-free HRL framework。与H-DQN框架类似,但有所不同是,需要从D中获取数据进行subgoal discovery取代人工制定subgoal。
2.4 算法流程
具体的算法流程如下
2.5 Neural Correlates of Model-Free HRL
从神经学的角度解释Model-Free HRL的可行性。罗列了一些资料表明RL和大脑处理信息的共通之处。然后类比了人体大脑,对HRL和clustering of experience memory合理性做了解释。
有一些证据表明HRL也可以从人体大脑中的海马体的功能上进行一部分解释。
The fact that the hippocampus learns representations at multiple scales of abstrac- tion supports the idea that the hippocampus might be a major component of the subgoal discovery mechanism in the brain. For navigation in the 4-room task, we see that the cluster- ing algorithm divides the state space into a few big regions (ventral hippocampus), and the anomaly detection algorithm detects much smaller rewarding regions (dorsal hippocampus).
同时本文中的clustering of experience memory做法也可以从人体大脑中PFC的功能上进行一部分解释。
Preston and Eichenbaum (2013) illustrated how novel memories (like anomalous subgoals) could be reinforced into permanent storage. Additionally, their studies suggest how PFC may be important for finding new meaningful representations from memory replay of experiences.
3 小结
- 将temporal abstraction, intrinsic motivation, and unsupervised subgoal discovery整合起来形成一个model-free HRL framework。 discovery。可以同时学习subgoal和skill。更适用于大规模的应用。
- 文章的分层思想包括两方面:spatial hierarchies和temporal hierarchies。unsupervised subgoal discovery mechanism发现state space的结构,学习spatial hierarchies;meta-controller学习temporal hierarchies,找到一个合适的顺时序执行subgoal。
- intrinsic motivation learning确实能够生成有效探索状态空间的好策略,进而成功发现subgoal。
- internal representations of states, subgoal discovery, the nature and origin of “good” intrinsic reward functions仍然还是open problem。