为了在未来安全地部署强大的、通用的人工智能,我们需要确保机器学习模型的行动与人类的意图一致。这一挑战已被称为对齐问题。
对齐问题的可扩展解决方案需要在模型输出对人类来说难以评估或耗时的任务上发挥作用。为了测试可扩展的对齐技术,我们训练了一个模型来总结整本书,如以下样本所示。[1]我们的模型的工作方式是首先对一本书的小部分进行总结,然后将这些总结归纳为更高层次的总结,如此循环。
我们最好的模型从GPT-3中进行了微调,并生成了合理的整本书的摘要,有时甚至与人类撰写的摘要的平均质量相匹配:它在5%的时间里从阅读过该书的人类那里获得了6/7的评价(类似于人类撰写的平均摘要),15%的时间里获得了5/7的评价。我们的模型在BookSum数据集上也取得了最先进的图书长篇总结的结果。一个零散的问题回答模型可以使用我们模型的总结,在NarrativeQA数据集上获得最先进的图书长篇问题回答。
我们的方法。结合人类反馈的强化学习和递归任务分解
考虑到总结一段文字的任务。大型的预训练模型在总结方面并不是很好。过去我们发现,用人类反馈的强化学习来训练模型,有助于使模型的总结与人类对短文和文章的偏好一致。但是直接判断整本书的摘要需要花费很多精力,因为人类需要阅读整本书,这需要很多小时。
为了解决这个问题,我们另外利用了递归任务分解:我们按程序将一个困难的任务分解成更容易的任务。在这种情况下,我们将总结一个长的文本分解为总结几个短的文本。与端到端训练程序相比,递归任务分解有以下优点。
- 分解允许人类通过使用较小部分的总结而不是阅读源文本来更快地评估模型的总结。
- 更容易追踪总结的编写过程。例如,你可以追踪找到摘要中某些事件在原文中的发生位置。在我们的摘要探索器上,你可以亲眼看到
- 我们的方法可以用来总结长度不受限制的书籍,不受我们使用的转化器模型的上下文长度的限制。
我们为什么要做这项工作
这项工作是我们正在进行的调整高级人工智能系统的研究的一部分,这是我们任务的关键。随着我们训练我们的模型来完成越来越复杂的任务,对模型的输出做出明智的评价对人类来说将变得越来越困难。这使得我们更难发现模型输出中的细微问题,这些问题在部署这些模型时可能会导致负面的后果。因此,我们希望随着模型能力的提高,我们评估模型的能力也能提高。
我们目前解决这个问题的方法是授权人类利用其他模型的协助来评估机器学习模型的输出。在这种情况下,为了评估书籍摘要,我们用我们的模型编写的各个章节的摘要来授权给人类,这样就节省了他们评估这些摘要的时间,而不是阅读源文本。我们在书籍摘要方面的进展是第一个大规模的关于缩放对齐技术的实证工作。
展望未来,我们正在研究更好的方法来协助人类评估模型的行为,目的是找到可以扩展到人工通用智能对齐的技术。
我们一直在寻找更多有才华的人加入我们;因此,如果你对这项工作感兴趣,请申请加入我们的团队!
鸣谢
我们要感谢我们的论文合著者。欧阳龙,Daniel Ziegler,Nisan Stiennon,以及Paul Christiano。
感谢以下人员对本版的反馈。Steve Dowling, Hannah Wong, Miles Brundage, Gretchen Krueger, Ilya Sutskever, and Sam Altman.
设计
贾斯汀-王杰
书籍封面艺术作品
脚注