【MAAC，MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法【MAAC，MARL注

【MAAC，MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法 MAAC

Actor-Attention-Critic for Multi-Agent Reinforcement Learning

独立训练每个代理以最大化其个人奖励，同时将其他代理视为环境的一部分
- 这种方法违背了环境应该是平稳的、马尔可夫性的。由于其他智能体的策略变化，任何单个智能体的环境都是动态和非稳态的。
所有的智能体可以被集体建模为一个单一的智能体，它的动作空间是所有智能体的联合动作空间
- 此方法不可扩展，操作空间的大小随着智能体的数量呈指数增长。此外，还需要在执行期间进行密切的通信，因为中央策略必须收集来自各个智能体的观察结果并将操作分发给各个智能体
集中训练分散执行（critic使用全局信息学习，actor只能使用其相应的信息）
- 不能拓展到更多的agent情况（大规模agent）以及普遍适用于合作（共享全局reward），竞争性或混合性的环境和任务

在上述方法中拓展。提出的注意力评论家（attention critic）能够在训练过程中的每个时间点动态选择需要关注的智能体，而不是像集中学习的critic一样简单地考虑所有时间点的所有智能体
提出的方法具有相对于agent数量线性增长的输入空间，适用于合作、竞争和混合环境