【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度【应用、注意力机制MARL】基于多智能体强化

【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度

Distributed Energy Trading and Scheduling Among Microgrids via Multiagent Reinforcement Learning

带有注意力机制的多智能体强化学习(MARL)方法——S. Iqbal and F. Sha, “Actor-attention-critic for multi-agent reinforcement learning,” in Proc. Int. Conf. Mach. Learn., 2019, pp. 2961–2970.
搭建模拟环境
每个agent有单独的actor和critic网络，并不是参数共享

网络与算法

具体问题涉及到混合竞争-合作，连续值控制
网络
- 基础网络
  - 每个agent有自己的actor和critic网络
  actor网络的激活函数为Tanh函数，每个输出的范围为−1到1，然后将其转换为每个控制动作的实际范围。计算公式如下，x为Tanh输出的动作，控制动作的实际范围为：
  
  critic网络：所有智能体的状态将被输入到一个全连接(FC)层。FC层的输出向量将集中所有参与者的控制动作，然后输入第二FC层。评论家网络的激活函数是一个线性函数，输出是一个实值。
- 带注意力机制的网络
  - 状态动作嵌入（embedding）
    - 每个agent有独立的嵌入函数，其参数在学习时可训练，将agent i的嵌入函数记为 $\Psi_{i}$ ，则嵌入函数表示为 $x_i=\Psi_i(s_i,a_i)$
    - 嵌入函数的输出结果会被输入到critic网络和共享注意力网络中，嵌入可以避免将状态和动作的私有信息泄露给其他agent
  - 注意力网络
    - 输入为N个agent 嵌入函数的输出值x合并的N维向量 $(x_1,x_2,...,x_N)$ ，然后得到并输出一个N维向量 $(δ_1,δ_2,...,δ_N)$
    - 注意力网络能够在复杂的多智能体交互中动态关注有价值的信息，从而提高性能。
  - actor
    - 同基础网络
  - critic
    - 输入为嵌入函数输出、注意力网络输出： $Q_i(s,a)=f_i(x_i,δ_i)$
    - 不直接依赖于其他agent的状态和动作
    - 损失为共享参数造成的联合损失，以联合损失来更新每个agent的critic网络
训练算法

实验

构造2种不同特性的agent：1）两个 agent：更多的电用于出售 2）两个agent：需要更多的电
基准：1）单智能体-不合作方法 2）单智能体-合作-DDPG方法 3）MADDPG方法-基础网络方法
评价指标：1）平均成本、收入和每个时间段的总体回报 2）通信成本：评价嵌入函数带来的影响 3）收敛性分析 4）性能分析——通过说明系统状态的特征和每个微电网的控制动作来分析性能

【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度

【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度

网络与算法

网络

基础网络

带注意力机制的网络

训练算法

实验