反事实多智能体策略梯度
Counterfactual Multi-Agent Policy Gradients
反事实counterfactual是对已有结果进行假设,再推理,估计其中一项影响因素的发生概率。
- 提出了一种新的多智能体actor-critic方法:反事实多智能体(COMA)策略梯度。
做什么?
- 单智能体的强化学习方法在多智能体上表现不好,智能体的联合动作空间随着智能体的数量呈指数增长 -> 使用分散策略 ->用新的强化学习方法来学习分散策略
- 多智能体信用分配问题:多智能体的联合动作奖励分配存在挑战 -> 提出COMA来解决
- COMA:1、使用集中评论 2、使用反事实作为基线->差别奖励 3、使用评论家表示,可以有效地计算反事实基线->所有agent的Q值可以在单个前向传播的batch中计算出来
比他人特别的?
- 虽然大规模地减少了每个agent的视野,移除大量动作(macro-actions),但在信息缺失的情况下COMA可以与拥有完整信息的集中控制(centralised controllers)媲美
- 前人做的只是在集中训练过程中传递代理之间的梯度和共享参数,未解决多智能体信用分配问题,或者说只是手工操作(人工指定)
具体实现
-
Independent Actor-Critic:缺乏信息时很难学到协调策略,也难以评估单个agent action在整体中的奖励
-
在agent之间共享参数:只学习一个演员和一个评论家,它们被所有agent使用
-
每个agent评论家基于TD误差估计及对应的梯度,和下面一样
被替换为TD误差:,是的无偏估计;为优势函数;;为agent a的历史观察
-
-
每个agent评论家基于优势函数估计及对应的梯度,优势函数,其中
-
-
Counterfactual Multi-Agent Policy Gradients
-
主要思想:每个agent从一个变形奖励学习,将全局奖励与agent a的默认动作()执行时的奖励相比较。任何一个agent的改进会提高整体奖励,并且agent的动作不依赖于默认动作。
-
COMA学习集中评论家,它基于中心状态来估计联合动作的Q值;此外,计算每个agent的优势函数:将Q值与反事实基线()进行比较以此边缘化 ,当a的动作发生变化时直接从经验中学习
-