针对PV/ess的电动汽车充电站协同管理:一种多智能体深度强化学习方法
Cooperative Management for PV/ESS-Enabled Electric Vehicle Charging Stations: A Multiagent Deep Reinforcement Learning Approach
- 主要内容:动态数据下的实时调度
- 特别点:使用多智能体,基于CommNet,多个agent参数共享
主要思想
-
系统描述
-
N个充电站(EVCS),用向量表示,一个充电站属于一个公司(用向量表示),一个公司有多个充电站。充电站与储能设备(ESS)相连,属于一个公司的EVCS可以共享ESS的能量。用向量表示PV系统,将太阳能转化。向量表示ESS和EVCS的连接。向量表示充电站负荷。向量表示PV产生的能量。向量表示车辆用电需求。
-
**状态空间:**包括ESS状态、电价状态和负荷状态。用向量表示每个EVCS与ESS相连()的充电量。向量表示总的需求。最终状态用向量表示,;其中E限制在一个安全范围内,所以有最大和最小值;电力价格会随着时间变化,所以设定一个24小时内的平均价格供EVCS参考。
-
**动作空间:**用向量表示纯需求,。EVCS首先使用相连的ESS的电力,不足时使用共享电力,称之需求能量,用向量表示,。当W不为0时,则需购买或使用共享电力。ESS有剩余电力(可以提供给共享)表示为向量:
而对于不足的EVCS需要购买,购买的电力用表示,,会优先使用距离最近的ESS的电力。用向量表示EVCS被提供的共享能量,满足所有共享需求后仍有剩余的用向量表示,
共享都不足时,需要购买,购买电力 = max{不足能量 - 其他ESS可提供的能量,0}
动作分为充电动作和放电动作。能量操作最小单位为,动作向量,为充放电的最大量,在状态下的动作约束为:
直连ESS充电量在最小值和之间时进行充电操作,否则都可执行
用函数表示充入ESS系统的能量,表示充电或放电的数量。
-
奖励
-
分为三个:EVCS耗费的成本,充电效益,过充损失。
-
,如果售出的能量大于购买的能量,会得到奖励。否则,负奖励作为惩罚。
成本 = -(直冲的能量+购买的能量 )* 价格
-
充电量-最小电量 > 需求的话,充电效益=需求 *价格 *系数,超过需求的部分作为共享能量;否则 效益=(充电量-最小电量)* 价格
-
,表示使用共享能量而减少的购买成本
-
,表示充电量大于最大直冲量时的过充损失
过充损失 = -[(满足所有共享需求后仍有的剩余 + 充电量)- 最大直冲量] *价格
-
-
-
算法
-
基于CommNet
-
实验
-
在其他agent policy变化时,CommNet会通信(计算每个agent隐层的Mean作为agent输入的一部分)
平均推理时间为0.002714秒,可以用于实时系统中