DeepMind 重磅论文：通过奖励模型，让 AI 按照人类意图行事【新智元导读】如何让 AI 依照人类的意图行事？这是

【新智元导读】 如何让 AI 依照人类的意图行事？这是将 AI 应用于现实世界复杂问题的最大障碍之一。DeepMind 将这个问题定义为 “智能体对齐问题”，并提出了新的解决方案。

如何让 AI 符合人类的意图？

这个问题是将 AI 系统部署到真实世界、帮助人类解决复杂问题的最大障碍之一。

DeepMind 将这个问题定义为 “智能体对齐问题”（agent alignment problem） ，并提出依赖于奖励建模，正面解决 agent alignment 问题的研究方向。

这篇文章基于 DeepMind 的新论文 Scalable agent alignment via reward modeling: a research direction，概述了解决 agent alignment 问题的研究方向。所提出的方法依赖于奖励建模的递归应用，以符合用户意图的方式解决复杂的现实世界问题。

近年来，强化学习在许多复杂游戏环境中取得了令人瞩目的成绩，从 Atari 游戏、围棋、象棋到 Dota 2 和星际争霸 II，AI 智能体在越来越复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想平台。它们提出了需要多种认知能力才能完成的具有挑战性的任务，反映出解决现实世界问题所需的技能。机器学习研究人员可以在云上并行运行数千个模拟实验，生成系统学习所需的训练数据。

至关重要的是，游戏通常都有一个明确的目标，以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号，使我们能够得到关于哪些算法和架构选择最有效的快速反馈。

智能体对齐问题

AI 发展的终极目标是让人类受益，让我们能够应对现实世界中日益复杂的挑战。但现实世界并没有内置的奖励机制。这就带来了挑战，因为现实世界任务的表现不容易定义。我们需要一种好的方式来提供反馈，并使 AI 能够可靠地理解我们想要什么，以帮助我们实现目的。

换句话说，我们想用人类反馈的方式训练 AI 系统，使 AI 的行为与我们的意图一致。为了达到这个目的，我们将智能体对齐问题（agent alignment problem） 定义如下:

如何创建符合用户意图的智能体？

对齐问题可以在强化学习框架中构建，不同之处是，智能体可以通过交互协议与用户交互，而不是接收数字奖励信号。这个交互协议允许用户向智能体传达他们的意图。协议可以采用多种形式：例如，用户可以提供演示、偏好、最佳操作或传达奖励函数。Agent alignment 问题的解决方案之一是根据用户的意图行事的策略。

DeepMind 的新论文概述了正面解决 agent alignment 问题的研究方向。基于我们之前对 AI 安全问题分类的研究，以及对众多 AI 安全问题的论述，我们描绘了这些领域的进展如何能够产生一个解决 agent alignment 问题的方案。这将为构建能够更好地理解如何与用户交互、如何从用户的反馈中学习、以及如何预测用户偏好的系统打开大门。

通过奖励模型进行对齐

我们研究方向的要点是基于奖励建模（reward modeling） ：训练一个奖励模型，其中包含来自用户的反馈，从而捕捉他们的意图。与此同时，我们通过强化学习训练一个策略，使奖励模型的奖励最大化。换句话说，我们把学习做什么 (奖励模型) 和学习怎么做 (策略) 区分开来。

奖励建模的示意图：根据用户的反馈训练奖励模型，以获取用户的意图；这个奖励模型为经过强化学习训练的智能体提供奖励。

例如，在以前的工作中，我们教智能体根据用户偏好做一个后空翻，根据目标状态示例将对象排列成特定形状，以及根据用户偏好和专家演示玩 Atari 游戏。未来，我们希望设计能够学习适应用户提供反馈的方式 (例如使用自然语言) 的算法。

扩大奖励模型的规模

从长远来看，我们希望将奖励模型的规模扩大到人类无法直接评估的过于复杂的领域。要做到这一点，我们需要提高用户评估结果的能力。我们将讨论如何递归地应用奖励建模：可以使用奖励建建模来训练 agent，让 agent 帮助用户进行评估过程。如果评估比行为更容易，就可以从简单的任务过渡到更加普遍、更加复杂的任务。这可以看作是一个迭代扩增（iterated amplification） 的实例。

递归奖励建模的示意图：使用递归奖励建模训练的 agent(右边的小圆圈) 帮助用户评估当前正在训练的 agent(大圆圈) 产生的结果。

例如，假设我们想训练一个 agent 来设计计算机芯片。为了评估某个提议的芯片设计，我们使用奖励建模训练其他的 “helper” 智能体，以对芯片的模拟性能进行基准测试、计算散热、估计芯片的寿命、查找安全漏洞，等等。总的来说，这些 helper agents 的输出使用户能够通过协助评估所提议的芯片设计来训练芯片设计 agent。虽然 helper agent 必须解决一系列非常困难的任务，但这些任务总比直接设计一个芯片更容易执行：要设计一个计算机芯片，你必须理解每一项评估任务，但反过来则不然。从这个意义上说，递归奖励建模可以让我们“支持”agent 来解决越来越难的任务，同时保持与用户意图一致。

研究挑战

为了对这些复杂的问题进行奖励建模，需要解决几个挑战性问题。下面列出了其中的五项挑战，论文中对这些挑战及其解决办法进行了更深入的描述。

我们希望扩大奖励建模时遇到的挑战 (左) 和有前景的解决方法(右)。

那么就来到了 agent alignment 的最后一个重要组成部分：在现实世界中部署 AI 智能体时，我们需要向用户提供证据，证明我们的智能体确实已经充分对齐了。

本文讨论了五种不同的研究途径，可以帮助增加对 agent 的信任：设计选择、测试、可解释性、形式验证和理论保证。

我们的一个雄心勃勃的目标是制作安全证书（safety certificates）：可以用来证明负责任的技术开发工作，并让用户对依赖训练好的智能体有信心。

未来研究方向

虽然我们相信递归奖励建模是训练对齐智能体的一个非常有前景的方向，但目前还不知道它可以如何扩展（需要更多的研究）。幸运的是，追求 agent alignment 还有其他一些研究方向：

模仿学习
短视强化学习（Myopic reinforcement learning）
逆强化学习（Inverse reinforcement learning）
合作逆强化学习
迭代扩增
Debate
Agent foundations

本文进一步探讨它们的异同。

正如对计算机视觉系统相对对抗性输入的鲁棒性的积极研究对于当今的 ML 应用程序是至关重要的一样，对齐研究对于在复杂的现实世界中部署 ML 系统也是至关重要的。我们有理由保持乐观：虽然我们希望在扩大奖励模型时面对挑战，但这些挑战是我们可以取得进展的具体技术研究问题。从这个意义上说，我们的研究方向已经准备就绪，可以对深度强化学习智能体进行实证研究。

博客：

medium.com/@deepmindsa…

论文：

arxiv.org/pdf/1811.07…