【应用、扰动、实时调度】扰动下能量目标列车时刻表重调度问题的深度强化学习方法
A Deep Reinforcement Learning Approach for the Energy-Aimed Train Timetable Rescheduling Problem Under Disturbances
- 单智能体下的时刻调度
- 干扰情况下实时决策调度
区别
- 与DDPG相比具有更好的稳定性和学习效率,在测试过程中具有更好的节能效果。[DDPG论文:G. Yang, F. Zhang, C. Gong, and S. Zhang, “Application of a deep deterministic policy gradient algorithm for energy-aimed timetable rescheduling problem,” Energies, vol. 12, no. 18, p. 3461, Sep. 2019.]
- 与遗传算法、传统启发式算法比,扰动后在速度和时间上可实现实时调度
建模
-
时间模型
- 从每个站的出发时刻行驶时间停站时间,0车离开始发站时间为0,为车头距时间,m车离开时间则为
- 末班车到达终点站的时间:,其中表示i-1到i站之间的行驶时间,为站台驻停时的扰动时间
-
力学模型
-
加速阶段制动力 ,牵引力为
到达速度前加速度为固定值,为列车固定值
-
滑行阶段 其中为阻力,为运动方向重力分量
-
制动阶段,制动力为
速度大于时制动力与车速成反比,小于时,减速度为固定值
-
-
能量模型
加速列车消耗电能并将其转化为机械能,而制动列车可以利用机械能再生电能。
-
行驶时间与速度关系
速度曲线和时间轴t所包围的区域成为一个固定值,这是两个相邻地铁站之间的距离。因此,滑行速度和行驶时间形成了一对一的映射。通过控制滑行速度,可以控制行驶时间。
具体实现(DRLA)
-
使用单智能体,在某个车站上进行实现,agent产生的动作仅决定正在发车的列车运行策略,不改变其他列车的运行策略。
-
参数配置
-
状态集:对于正在离开的车辆选择其车次、最后的驻停时间作为state;对于其他车辆,选择速度、位置、当前驾驶状态(加速、滑行、制动)作为状态;因此对于M个列车的系统中,状态空间维数为3M-1
-
动作集:通过建模中的行驶时间与速度关系,选择滑行速度和驻停时间作为action,因此输出维度为2。当列车离开车站时,agent观察环境状态决定列车滑行速度和驻停时间(在模拟中,是有界值)
-
奖励函数:与在扰动情况下不产生动作的策略进行比较,如果能量小于基准,则奖励,否则惩罚。
-
actor网络:输入为状态,输出为滑行速度、驻停时间,神经元层次为 (3M-1)× 400 × 100 × 2
-
critic网络:输入为状态和actor网络的action ,输出是期望奖励,神经元层次为(3M +1) × 400 × 200 × 1。公式15为累计收益,公式16为累计优势
-
-
参数更新
-
更新actor网络参数时,需要先计算KL惩罚目标
当时β需要增大,反之降低,通过这种方式,可以解决学习率过高或过低的问题。
然后计算梯度,并根据策略梯度法的更新规则更新actor网络的参数θ:
-
更新critic网络参数,先计算误差平方损失
然后计算梯度,更新critic网络参数:
-
实验
-
三个实验:
-
实验一(消融实验)
- 训练过程中的随机扰动设置为固定的:特定的车在特定的站点,扰动的时间为[10,15]秒;实验模拟两个地铁车辆;
- 1)与遗传算法比(花费10432秒才能产生动作得到优化的驻停时间和速度)能用于实时调度
- 2)利用off-line的历史数据进行训练,然后再调整以适应实时
- 3)对比实验:与无action操作的进行对比
- 4)评价指标:能量消耗、奖励、数据产生快慢
-
实验二(与其他主流算法比较)
- DRLA与IGSA-LSTM和当前主流DRL算法DDPG的性能进行比较,其余同实验一
-
实验三(扩展性)
- 应用于更复杂的情况,实验一二为单线两车,实验三为双线五车;同时可能提前发车(扰动值为负)扰动时间为[10,15]和[-5,0],其余同实验一
-