均值场控制中的线性函数逼近学习
摘要
本文聚焦于具有有限状态和动作空间的均值场类型多智能体控制问题,其中动力学和成本结构具有对称性和同质性,并受到智能体分布的影响。这些问题的标准解决方法是将无限种群极限作为近似,并使用极限问题的对称解来实现近似最优性。在有限种群设置中,控制策略(特别是动力学)依赖于种群分布;在无限种群设置中,则依赖于代表智能体状态变量的边际分布。因此,这些控制问题的学习和规划通常需要估计系统对智能体所有可能状态分布的反应。为克服这一问题,我们考虑对控制问题采用线性函数逼近,并提供协调和独立的学习方法。我们严格建立了学习解性能的误差上界。性能差距源于:(i)用线性模型估计真实模型导致的失配,以及(ii)在有限种群问题中使用无限种群解作为近似控制。所提供的上界量化了这些误差源对整体性能的影响。