【MAAC,MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法

669 阅读2分钟

【MAAC,MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法 MAAC

Actor-Attention-Critic for Multi-Agent Reinforcement Learning


  • 提出注意力机制的多智能体强化学习方法

方法分类

  • 独立训练每个代理以最大化其个人奖励,同时将其他代理视为环境的一部分
    • 这种方法违背了环境应该是平稳的、马尔可夫性的。由于其他智能体的策略变化,任何单个智能体的环境都是动态和非稳态的。
  • 所有的智能体可以被集体建模为一个单一的智能体,它的动作空间是所有智能体的联合动作空间
    • 此方法不可扩展,操作空间的大小随着智能体的数量呈指数增长。此外,还需要在执行期间进行密切的通信,因为中央策略必须收集来自各个智能体的观察结果并将操作分发给各个智能体
  • 集中训练分散执行(critic使用全局信息学习,actor只能使用其相应的信息)
    • 不能拓展到更多的agent情况(大规模agent)以及普遍适用于合作(共享全局reward),竞争性或混合性的环境和任务

本文特点

  • 在上述方法中拓展。提出的注意力评论家(attention critic)能够在训练过程中的每个时间点动态选择需要关注的智能体,而不是像集中学习的critic一样简单地考虑所有时间点的所有智能体
  • 提出的方法具有相对于agent数量线性增长的输入空间,适用于合作、竞争和混合环境

具体方法

  • Multi-Actor-Attention-Critic (MAAC)

    image-20230720104738075

    • Qiψ(o,a)Q^ψ_i(o,a)是智能体i的观察和行动以及其他智能体的贡献的函数,fif_i为多层感知器(MLP)的第二层,gig_i为第一层

      image-20230719182620480

      在实验中使用多个注意力头,每个头使用单独的(Wk,Wq,V)(W_k,W_q,V)参数,然后产生所有其他agent对agent i的贡献总和,最后将所有头得到的贡献和连接为单个向量

    • Attentive Critics学习

      由于参数共享,所有的critic被一起更新,最小联合损失计算为:ψθ\overline ψ、\overline θ分别是critic target和actor target网络的参数,αα是决定最大熵和奖励之间平衡的参数

      image-20230719202750252

      独立的policy梯度递增更新为:其中b(o,a/i)b(o, a_{/i})为基线

      image-20230719203259470

    • 优势函数

      通过eie_ixix_i就能得到多智能体的基线,通过输出agent i可采取的每个action的Qi(o(ai,a/i))Q_i(o,(a_i, a_{/i})),然后计算

      image-20230719205450817

      这样做,就必须从QiQ_i中移除aia_i,输出所有action的值:为每个agent添加一个观察值编码器ei=gio(oi)e_i=g^o_i(o_i)替代ei=gi(oi,ai)e_i=g_i(o_i,a_i),然后修改fif_i让他为每个可能的action输出一个值

算法

image-20230720112357440

image-20230720112559211


其他博文

【多智能体RL】Actor-Attention-Critic for Multi-Agent RL