面向不确定世界的多智能体强化学习

4 阅读5分钟

在人工智能领域,强化学习是一个热门话题,智能体通过与环境进行试错探索来学习最大化某种奖励。近年来,它在机器人技术、自动驾驶和游戏等领域取得了突破性进展。

通常情况下,强化学习智能体在投入现实世界之前,会在模拟环境中进行训练。然而,模拟环境很难做到完美。如果一个智能体不知道如何明确地建模其对世界的不确定性,它往往会在训练环境之外的应用中表现不佳。

在单智能体强化学习的情况下,这种不确定性已经得到了很好的处理。但在多智能体强化学习中,多个智能体通过与环境以及彼此互动来优化各自的长期奖励,这一问题尚未得到同样深入的探索。

在提交至第34届神经信息处理系统会议的一篇论文中,我们提出了一种能够应对模型潜在不确定性的鲁棒多智能体强化学习框架。在使用最先进系统作为基准的实验中,我们的方法在更高不确定性下积累了更高的奖励。

例如,在合作导航任务中,三个智能体需要定位并占据三个不同的地标,当不确定性很高时,我们的鲁棒多智能体强化学习智能体表现明显优于最先进的系统。在捕食者-猎物环境中,捕食者智能体试图“捕捉”(触碰)猎物智能体,无论我们的鲁棒多智能体强化学习智能体扮演捕食者还是猎物角色,其表现都超越了基线智能体。

马尔可夫博弈

强化学习通常使用一种称为马尔可夫决策过程的序列决策过程来建模,该过程包含几个组成部分:状态空间、动作空间、转移动态和奖励函数。在每个时间步,智能体执行一个动作,并根据转移概率转移到新状态。每个动作都会带来奖励或惩罚。通过尝试不同的动作序列,智能体发展出一套能优化其累积奖励的策略

马尔可夫博弈将此模型推广到多智能体环境。在马尔可夫博弈中,状态转移是多个智能体采取多个动作的结果,并且每个智能体都有自己的奖励函数。

为了最大化其累积奖励,一个给定的智能体不仅要应对环境,还要应对同伴智能体的行为。因此,除了学习自己的一套策略外,它还会尝试推断其他智能体的策略。

将不确定性视为智能体

然而,在许多现实世界的应用中,完美的信息是不可能的。如果多辆自动驾驶汽车共享道路,没有一辆车能确切知道其他车正在最大化什么奖励,或者联合转移模型是什么。在这种情况下,给定智能体采取的策略应该对多智能体强化学习模型的潜在不确定性具有鲁棒性。

在我们论文提出的框架中,每个参与者考虑一个无分布马尔可夫博弈——一个描述环境的概率分布是未知的博弈。因此,参与者不寻求学习具体的奖励和状态值,而是学习一系列可能的值,称为不确定集。使用不确定集意味着参与者不需要用另一个概率分布来明确地建模其不确定性。

我们将不确定性视为一个对抗性的智能体——大自然——其策略旨在为每个状态下的其他智能体生成最差的模型数据。将不确定性视为另一个参与者,使我们能够为博弈定义一个鲁棒的马尔可夫完美纳什均衡:一组策略,考虑到模型的潜在不确定性,没有参与者有动机单方面改变其策略。

为了证明这种对抗性方法的实用性,我们首先提出使用一种基于Q-learning的算法,该算法在特定条件下保证收敛到纳什均衡。Q-learning是一种无模型强化学习算法,意味着它不需要学习明确的转移概率和奖励函数。相反,它试图学习在每个状态下执行每组动作的期望累积奖励。

然而,如果可能的状态和动作空间变得足够大,学习所有状态下所有动作的累积奖励就变得不切实际。另一种方法是使用函数逼近来估计状态值和策略,但将函数逼近整合到Q-learning中是很困难的。

因此,在我们的论文中,我们还开发了一种基于策略梯度/行动器-评判器的鲁棒多智能体强化学习算法。该算法不能提供与Q-learning相同的收敛保证,但它使得使用函数逼近更加容易。

这就是我们在实验中使用的多智能体强化学习框架。我们在一系列标准多智能体强化学习任务(合作导航、保持距离、物理欺骗和捕食者- prey环境)上,将我们的方法针对两种最先进的系统进行了测试,其中一种是为对抗性环境设计的,另一种则不是。

在具有实际程度不确定性的环境中,我们的方法全面优于其他方法。FINISHED