【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度
Distributed Energy Trading and Scheduling Among Microgrids via Multiagent Reinforcement Learning
- 带有注意力机制的多智能体强化学习(MARL)方法——S. Iqbal and F. Sha, “Actor-attention-critic for multi-agent reinforcement learning,” in Proc. Int. Conf. Mach. Learn., 2019, pp. 2961–2970.
- 搭建模拟环境
- 每个agent有单独的actor和critic网络,并不是参数共享
网络与算法
-
具体问题涉及到混合竞争-合作,连续值控制
-
网络
-
基础网络
-
每个agent有自己的actor和critic网络
actor网络的激活函数为Tanh函数,每个输出的范围为−1到1,然后将其转换为每个控制动作的实际范围。计算公式如下,x为Tanh输出的动作 ,控制动作的实际范围为
:
critic网络:所有智能体的状态将被输入到一个全连接(FC)层。FC层的输出向量将集中所有参与者的控制动作,然后输入第二FC层。评论家网络的激活函数是一个线性函数,输出是一个实值。
-
-
带注意力机制的网络
-
状态动作嵌入(embedding)
-
每个agent有独立的嵌入函数,其参数在学习时可训练,将agent i的嵌入函数记为,则嵌入函数表示为
-
嵌入函数的输出结果会被输入到critic网络和共享注意力网络中,嵌入可以避免将状态和动作的私有信息泄露给其他agent
-
-
注意力网络
- 输入为N个agent 嵌入函数的输出值x合并的N维向量,然后得到并输出一个N维向量
- 注意力网络能够在复杂的多智能体交互中动态关注有价值的信息,从而提高性能。
-
actor
- 同基础网络
-
critic
-
输入为嵌入函数输出、注意力网络输出:
-
不直接依赖于其他agent的状态和动作
-
损失为共享参数造成的联合损失,以联合损失来更新每个agent的critic网络
-
-
-
-
训练算法
实验
-
构造2种不同特性的agent:1)两个 agent:更多的电用于出售 2)两个agent:需要更多的电
-
基准:1)单智能体-不合作方法 2)单智能体-合作-DDPG方法 3)MADDPG方法-基础网络方法
-
评价指标:1)平均成本、收入和每个时间段的总体回报 2)通信成本:评价嵌入函数带来的影响 3)收敛性分析 4)性能分析——通过说明系统状态的特征和每个微电网的控制动作来分析性能