线性系统互信息最优控制中的策略随机性研究
近年来,互信息最优控制被提出作为最大熵最优控制的扩展方法。这两种方法都通过引入正则化项使策略具有随机性,因此从理论上厘清温度参数(即正则化项的系数)与策略随机性之间的关系具有重要意义。与最大熵最优控制不同,这种关系在互信息最优控制中尚未得到充分探索。
本文针对离散时间线性系统的互信息最优控制问题(MIOCP)研究了这种关系。在扩展先前MIOCP研究成果的基础上,我们确立了MIOCP最优策略的存在性,进而推导出使最优策略呈现随机性和确定性的温度参数条件。此外,我们还推导了通过交替优化算法获得的策略呈现随机性和确定性的温度参数条件。数值实验验证了理论结果的有效性。
注释:全文共17页
研究领域:优化与控制(math.OC);机器学习(cs.LG);系统与控制(eess.SY)