(OMQ)基于半马尔可夫对策的多机器人分层强化学习
OMQ理论框架
OMQ (option-maxq), 该方法具备MAXQ利用先验知识进行任务分层和良好的在线学习能力,以及Option自动划分子任务的能力。
定义3-1 OMQ任务图
初始OMQ任务图与MAXQ任务图相同,不包含Option类子任务。Option是在学习过程中针对规模较大的子任务自动构造出来并作为子任务插入到任务图中的,从而,任务图在扩充过程中被进一步细化。
Option类子任务:对规模较大的子任务进 步分解后生成的规模较小的 子任务, 其分解是学习过程中自动完成的。
定义3-2出租车问题子任务:
每个子任务可以调用其下 层的子任务或6个基本动作。
定义3-3 OMQ子任务, 用一个5元组表示
定义3-4分层策略π 是每个子任务的策略
的集合
分层策略采用堆栈方式执行,过程如下:
OMQ学习算法
注:在学习过程中针对规模较大的子任务自动生成Option类子任务以构造更精细的OTG
一开始根据先验知识手工构造初始OTG
OMQ学习算法流程如下:
OMQ值函数更新算法:
OMQ与Option及MAXQ学习算法性能对比分析
在初始阶段,OMQ与MAXQ学习获得的累加奖赏相当,均高于Option,这是由于OMQ与MAXQ均利用先验知识进行了子任务的预先分解, 而Option方法则从完全盲目探索开始。此外,Option和OMQ的收敛速度要快于MAXQ,这是因为OMQ和Option均能对状态空间较大的行驶子任务进行进一步划分, 降低了子任务策略空间从而加速收敛。OMQ与Option收敛趋势的斜率相当, 但OMQ早于Option收敛到最优策略, 这是因为OMQ利用了先验知识从而“ 起点” 比Option高。