【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度

468 阅读2分钟

【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度

Distributed Energy Trading and Scheduling Among Microgrids via Multiagent Reinforcement Learning


  • 带有注意力机制的多智能体强化学习(MARL)方法——S. Iqbal and F. Sha, “Actor-attention-critic for multi-agent reinforcement learning,” in Proc. Int. Conf. Mach. Learn., 2019, pp. 2961–2970.
  • 搭建模拟环境
  • 每个agent有单独的actor和critic网络,并不是参数共享

网络与算法

  • 具体问题涉及到混合竞争-合作连续值控制

  • 网络
    • 基础网络
      • 每个agent有自己的actor和critic网络

        image-20230718104927183

        image-20230718105702106

      actor网络的激活函数为Tanh函数,每个输出的范围为−1到1,然后将其转换为每个控制动作的实际范围。计算公式如下,x为Tanh输出的动作 ,控制动作的实际范围为image-20230718110053166

      image-20230718105947224

      critic网络:所有智能体的状态将被输入到一个全连接(FC)层。FC层的输出向量将集中所有参与者的控制动作,然后输入第二FC层。评论家网络的激活函数是一个线性函数,输出是一个实值。

    • 带注意力机制的网络

      image-20230718114503817

      • 状态动作嵌入(embedding)

        • 每个agent有独立的嵌入函数,其参数在学习时可训练,将agent i的嵌入函数记为Ψi\Psi_{i},则嵌入函数表示为xi=Ψi(si,ai)x_i=\Psi_i(s_i,a_i)

        • 嵌入函数的输出结果会被输入到critic网络和共享注意力网络中,嵌入可以避免将状态和动作的私有信息泄露给其他agent

      • 注意力网络

        • 输入为N个agent 嵌入函数的输出值x合并的N维向量(x1,x2,...,xN)(x_1,x_2,...,x_N),然后得到并输出一个N维向量(δ1,δ2,...,δN)(δ_1,δ_2,...,δ_N)
        • 注意力网络能够在复杂的多智能体交互中动态关注有价值的信息,从而提高性能。
      • actor

        • 同基础网络
      • critic

        • 输入为嵌入函数输出、注意力网络输出:Qi(s,a)=fi(xi,δi)Q_i(s,a)=f_i(x_i,δ_i)

        • 不直接依赖于其他agent的状态和动作

        • 损失为共享参数造成的联合损失,以联合损失来更新每个agent的critic网络

          image-20230718114200046

  • 训练算法

    image-20230718121547427


实验

  • 构造2种不同特性的agent:1)两个 agent:更多的电用于出售 2)两个agent:需要更多的电

  • 基准:1)单智能体-不合作方法 2)单智能体-合作-DDPG方法 3)MADDPG方法-基础网络方法

  • 评价指标:1)平均成本、收入和每个时间段的总体回报 2)通信成本:评价嵌入函数带来的影响 3)收敛性分析 4)性能分析——通过说明系统状态的特征和每个微电网的控制动作来分析性能