多智能体强化学习应对模型不确定性

37 阅读4分钟

多智能体强化学习应对不确定世界

通过新方法,智能体能够更好地应对模拟训练环境与现实部署环境之间的差异。

强化学习的挑战

强化学习(RL)是人工智能领域的热门话题,智能体通过试错探索环境来学习最大化奖励。近年来,它在机器人技术、自动驾驶和游戏玩法等领域取得了突破性进展。

通常,RL智能体在进入现实世界之前会在模拟环境中进行训练。但模拟环境很少是完美的,如果智能体不知道如何明确建模其对世界的不确定性,在训练环境之外往往会表现不佳。

在单智能体RL中,这种不确定性已经得到了很好的处理。但在多智能体RL(MARL)中,这个问题尚未得到充分探索。在MARL中,多个智能体通过与环境及其他智能体互动来优化各自的长期奖励。

新方法的核心思想

在论文中,我们提出了一个对模型可能不确定性具有鲁棒性的MARL框架。在使用最先进系统作为基准的实验中,我们的方法在较高不确定性下积累了更多奖励。

我们将不确定性视为一个对抗性智能体——自然,其策略旨在为其他智能体在每个状态下产生最坏情况的模型数据。将不确定性视为另一个玩家使我们能够为游戏定义鲁棒的马尔可夫完美纳什均衡:一组策略使得在模型可能不确定的情况下,没有玩家有动机单方面改变其策略。

技术实现

为了证明这种对抗方法的效用,我们首先提出了基于Q学习的算法,该算法在某些条件下保证收敛到纳什均衡。Q学习是一种无模型RL算法,意味着它不需要学习显式的转移概率和奖励函数,而是尝试学习每个状态下每组动作的预期累积奖励。

然而,当可能状态和动作的空间变得足够大时,学习所有状态下所有动作的累积奖励变得不切实际。替代方案是使用函数逼近来估计状态值和策略,但将函数逼近集成到Q学习中很困难。

因此,在论文中,我们还开发了基于策略梯度/行动者-评论家的鲁棒MARL算法。该算法不提供与Q学习相同的收敛保证,但使得使用函数逼近更加容易。

实验验证

我们在各种标准MARL任务上测试了我们的方法:合作导航、保持距离、物理欺骗和捕食者-猎物环境。在具有现实不确定性程度的设置中,我们的方法在所有任务中都优于其他系统。

在合作导航任务中,三个智能体定位并占据三个不同的地标,当不确定性较高时,我们的鲁棒MARL智能体表现显著优于最先进的系统。在捕食者-猎物环境中,无论智能体是捕食者还是猎物,我们的鲁棒MARL智能体都优于基线智能体。

马尔可夫博弈基础

强化学习通常使用称为马尔可夫决策过程的顺序决策过程建模,该过程包含几个组件:状态空间、动作空间、转移动态和奖励函数。

马尔可夫博弈将这一模型推广到多智能体设置。在马尔可夫博弈中,状态转移是多个智能体采取多个动作的结果,每个智能体都有自己的奖励函数。

为了最大化其累积奖励,给定智能体必须不仅导航环境,还要导航其同伴智能体的动作。因此,除了学习自己的一组策略外,它还试图推断其他智能体的策略。

然而,在许多实际应用中,完美信息是不可能的。在这种情况下,给定智能体采用的策略应该对MARL模型可能的不确定性具有鲁棒性。

在我们论文提出的框架中,每个玩家考虑一个无分布马尔可夫博弈——描述环境的概率分布未知的游戏。因此,玩家不寻求学习特定的奖励和状态值,而是学习一系列可能的值,称为不确定性集。使用不确定性集意味着玩家不需要用另一个概率分布明确建模其不确定性。