面向不确定世界的多智能体强化学习本文提出了一种鲁棒的多智能体强化学习框架，通过将环境不确定性视为对抗性智能体并定义鲁棒马

面向不确定世界的多智能体强化学习

借助新方法，智能体能够更好地应对模拟训练环境与现实世界部署之间的差异。

作者：Sahika Genc
2020年12月11日
阅读时长：4分钟

NeurIPS 2020

强化学习通常使用称为马尔可夫决策过程的序列决策过程来建模，该过程包含几个组成部分：状态空间、动作空间、转移动态和奖励函数。在每个时间步，智能体采取一个动作，并根据转移概率转移到新状态。每个动作会带来奖励或惩罚。通过尝试动作序列，智能体形成一套策略，以优化其累积奖励。

马尔可夫博弈将该模型推广到多智能体场景。在马尔可夫博弈中，状态转移是多个智能体采取多个动作的结果，并且每个智能体都有自己的奖励函数。

为了最大化累积奖励，给定智能体不仅要应对环境，还要应对其他智能体的动作。因此，除了学习自己的策略集，它还会尝试推断其他智能体的策略。

在许多现实应用中，完美信息是不可能的。如果多辆自动驾驶汽车共享道路，没有一辆能确切知道其他车辆在最大化什么奖励，或者联合转移模型是什么。在这种情况下，给定智能体采用的策略应该对MARL模型可能的不确定性具有鲁棒性。

在论文提出的框架中，每个玩家考虑一个无分布马尔可夫博弈——描述环境的概率分布未知的博弈。因此，玩家不寻求学习具体的奖励和状态值，而是学习一个可能值的范围，即不确定性集。使用不确定性集意味着玩家不需要用另一个概率分布来显式建模其不确定性。

将不确定性视为一个对抗性智能体——“自然”——其策略旨在为每个状态下的其他智能体生成最坏情况的模型数据。将不确定性视为另一个玩家，可以定义博弈的鲁棒马尔可夫完美纳什均衡：一组策略，使得在模型可能的不确定性下，没有玩家有动机单方面改变其策略。

为了证明这种对抗性方法的效用，首先提出使用基于Q学习的算法，该算法在特定条件下保证收敛到纳什均衡。Q学习是一种无模型RL算法，意味着它不需要学习显式的转移概率和奖励函数。相反，它尝试学习每个状态下每个动作集的预期累积奖励。

然而，如果可能的状态和动作空间足够大，学习所有状态下所有动作的累积奖励变得不切实际。替代方案是使用函数逼近来估计状态值和策略，但将函数逼近集成到Q学习中比较困难。

因此，论文中还开发了一种基于策略梯度/演员-评论家的鲁棒MARL算法。该算法不提供与Q学习相同的收敛保证，但它使函数逼近的使用更加容易。

这是实验中使用的MARL框架。在一系列标准MARL任务（协作导航、躲避游戏、物理欺骗以及捕食者-猎物环境）上，将提出的方法与两个现有系统进行了测试——其中一个专为对抗性环境设计，另一个则不是。在具有现实不确定性的场景中，提出的方法全面优于其他方法。

NeurIPS 2020

Sahika Genc
Sahika Genc 是某机构人工智能部门的首席应用科学家。她的团队致力于为某机构的机器学习平台开发强化学习算法。FINISHED