本文已参与「新人创作礼」活动,一起开启掘金创作之路。
对于基于模型的算法,第一个问题是,如果动力学未知,应该拟合哪一个:全局动力学模型还是局部动力学模型?在本文中,我们将介绍相关的算法以及这两种模型之间的比较。
尽管全局模型方法具有运行时计算量小等优点,但由于它们使用MPC(模型预测控制)迭代收集数据,并直接将其反向传播到策略中,因此在数值稳定性方面,尤其是在随机域中,往往会失败。人们已经做出了一些努力来克服这个缺点。GPS[点击下载论文]使用轨迹优化来指导策略学习,避免局部最优。Levine等人(点击下载)开发了GPS和CNN架构,以减少现实世界中的交互,减少训练样本的数量。Nagabandi等人(点击下载)借助特殊的深层神经网络动力学模型初始化了一个无模型学习器(要看这篇论文),该模型可以将基于模型的方法的样本效率与无模型方法的高任务特定性能结合起来。在MuJoCo运动任务上的实验结果表明,该算法具有良好的样本效率,并能加速高速基准任务的无模型学习。
1. GPS类算法学习
首先是GPS原始算法的学习。 可以参考这个博客。