面向不确定世界的多智能体强化学习

2 阅读5分钟

面向不确定世界的多智能体强化学习

借助新方法,智能体能够更好地应对模拟训练环境与现实世界部署之间的差异。

作者:Sahika Genc
2020年12月11日
阅读时长:4分钟

会议

NeurIPS 2020

相关论文

鲁棒多智能体强化学习与模型不确定性


强化学习(RL)是人工智能领域的热门课题,其中智能体通过与环境的试错交互来学习最大化某种奖励。近年来,RL已在机器人、自动驾驶和游戏等应用中取得突破性进展。

通常,RL智能体在模拟环境中训练,然后才被释放到现实世界。但模拟很少是完美的,若智能体不知道如何显式建模其对世界的不确定性,往往会在训练环境之外表现不佳。

这种不确定性在单智能体RL中已得到良好处理。但在多智能体RL(MARL)中,多个智能体通过与环境以及彼此交互来优化各自的长期奖励,该问题尚未得到充分探索。

在模拟的协作导航任务中(三个紫色智能体协作占领三个黑色地标),新方法(中间)在高不确定性情况下始终优于先前系统。

在一篇提交给第34届神经信息处理系统大会的论文中,提出了一个对模型可能的不确定性具有鲁棒性的MARL框架。在以前沿系统为基准的实验中,该方法在高不确定性下获得了更高的累积奖励。例如,在三个智能体定位并占领三个不同地标的协作导航任务中,当不确定性较高时,鲁棒MARL智能体显著优于现有系统。在捕食者-猎物环境中(捕食者智能体试图“捕获”即触碰猎物智能体),无论角色是捕食者还是猎物,鲁棒MARL智能体均优于基线智能体。

马尔可夫博弈

强化学习通常使用称为马尔可夫决策过程的序列决策过程来建模,该过程包含几个组成部分:状态空间、动作空间、转移动态和奖励函数。在每个时间步,智能体采取一个动作,并根据转移概率转移到新状态。每个动作会带来奖励或惩罚。通过尝试动作序列,智能体形成一套策略,以优化其累积奖励。

马尔可夫博弈将该模型推广到多智能体场景。在马尔可夫博弈中,状态转移是多个智能体采取多个动作的结果,并且每个智能体都有自己的奖励函数。

为了最大化累积奖励,给定智能体不仅要应对环境,还要应对其他智能体的动作。因此,除了学习自己的策略集,它还会尝试推断其他智能体的策略。

将不确定性视为对抗方

在许多现实应用中,完美信息是不可能的。如果多辆自动驾驶汽车共享道路,没有一辆能确切知道其他车辆在最大化什么奖励,或者联合转移模型是什么。在这种情况下,给定智能体采用的策略应该对MARL模型可能的不确定性具有鲁棒性。

在论文提出的框架中,每个玩家考虑一个无分布马尔可夫博弈——描述环境的概率分布未知的博弈。因此,玩家不寻求学习具体的奖励和状态值,而是学习一个可能值的范围,即不确定性集。使用不确定性集意味着玩家不需要用另一个概率分布来显式建模其不确定性。

将不确定性视为一个对抗性智能体——“自然”——其策略旨在为每个状态下的其他智能体生成最坏情况的模型数据。将不确定性视为另一个玩家,可以定义博弈的鲁棒马尔可夫完美纳什均衡:一组策略,使得在模型可能的不确定性下,没有玩家有动机单方面改变其策略。

为了证明这种对抗性方法的效用,首先提出使用基于Q学习的算法,该算法在特定条件下保证收敛到纳什均衡。Q学习是一种无模型RL算法,意味着它不需要学习显式的转移概率和奖励函数。相反,它尝试学习每个状态下每个动作集的预期累积奖励。

然而,如果可能的状态和动作空间足够大,学习所有状态下所有动作的累积奖励变得不切实际。替代方案是使用函数逼近来估计状态值和策略,但将函数逼近集成到Q学习中比较困难。

因此,论文中还开发了一种基于策略梯度/演员-评论家的鲁棒MARL算法。该算法不提供与Q学习相同的收敛保证,但它使函数逼近的使用更加容易。

这是实验中使用的MARL框架。在一系列标准MARL任务(协作导航、躲避游戏、物理欺骗以及捕食者-猎物环境)上,将提出的方法与两个现有系统进行了测试——其中一个专为对抗性环境设计,另一个则不是。在具有现实不确定性的场景中,提出的方法全面优于其他方法。

研究领域

  • 机器学习

标签

  • 强化学习
  • NeurIPS

会议

NeurIPS 2020

相关论文

鲁棒多智能体强化学习与模型不确定性

关于作者

Sahika Genc
Sahika Genc 是某机构人工智能部门的首席应用科学家。她的团队致力于为某机构的机器学习平台开发强化学习算法。FINISHED