利用人类反馈学习总结

358 阅读21分钟

Learning to Summarize with Human Feedback

我们应用人类反馈的强化学习来训练语言模型,使其在总结方面表现得更好。我们的模型产生的总结比只用监督学习训练的10倍大的模型产生的总结更好。即使我们在Reddit TL;DR数据集上训练我们的模型, ,同样的模型也能转移到CNN/DailyMail的新闻文章中产生良好的总结, ,而不需要进一步的微调。我们的技术并不是专门针对摘要的;从长远来看,我们的目标是使人工智能系统与人类的偏好相一致,成为人工智能研究和在许多领域部署的核心组成部分。

阅读论文查看代码查看样本

人类反馈模型在TL;DR上的表现超过了更大的监督模型和参考摘要

图1:不同模型规模的各种训练程序的性能。模型的性能是通过该模型的摘要比人写的参考摘要更受欢迎的频率来衡量。我们的预训练模型是GPT-3的早期版本,我们的监督基线被微调以预测117K人写的TL;DR,而我们的人类反馈模型是在大约65K摘要比较的数据集上额外微调的。



内容

  1. 结果
  2. 转移结果
  3. 方法
  4. 从人类那里收集数据
  5. 优化奖励模型
  6. 限制因素
  7. 未来的方向

大规模的语言模型在NLP任务上的能力越来越强。这些模型的训练目标通常是在人类书写的文本数据集上进行下一个词的预测。但这一目标并没有准确捕捉到我们想要的东西;通常,我们不希望我们的模型模仿人类,我们希望它们能给出高质量的答案。当一个模型被训练来模仿低质量的人类书写的文本时,这种不匹配是很明显的,但它也可能以更微妙的方式发生。例如,一个被训练来预测人类会说什么的模型在不确定时可能会编造事实,或者产生反映有害的社会偏见的句子,这两种失败模式都是有据可查的。

作为我们在安全方面工作的一部分,我们希望开发一些技术,使我们的模型目标与我们真正关心的最终行为相一致。随着我们的模型变得更加强大,我们相信使它们与我们的目标保持一致将是非常重要的,以确保它们对人类有益。在短期内,我们想测试人类反馈技术是否能够帮助我们的模型提高在有用任务上的表现。

我们专注于英文文本的总结,因为这是一个具有挑战性的问题,在这个问题上,如果没有人类的输入,什么是 "好的总结 "的概念是很难把握的。我们主要将我们的方法应用于一个现有的数据集 ,该数据集由提交到社交网络Reddit[1]的帖子和人类写的 "TL;DRs "组成,后者是由原发帖人写的简短摘要。

我们首先通过监督学习训练一个奖励模型,以预测人类会喜欢哪些摘要。[2]然后我们用强化学习(RL)对语言模型进行微调,以产生根据该奖励模型获得高分的摘要。我们发现,这极大地提高了人类评价的摘要质量,即使在与微调所用的数据集非常不同的情况下也是如此。

我们的方法直接来自我们以前关于从人类反馈中学习的工作。 也有其他关于使用人类反馈来训练总结模型的工作。 我们通过扩展到更大的模型、收集更多的反馈数据、密切监测研究者和标签者的一致意见以及向标签者提供频繁的反馈来进一步推动这一技术。人类反馈也被用于训练其他几个领域的模型,如对话、 语义解析、 翻译、 故事 和评论 生成、证据提取、 和更传统的RL任务。

结果

上一页上一页

下一页下一页

帖子来自Reddit (r/)

显示更多


人写的参考摘要

人类反馈的6B模型

受监督的6B模型

预先训练的6B模型

我们评估了几种不同的总结模型--有些是在互联网上广泛分布的文本上预先训练过的,有些是通过监督学习来预测TL;DR而微调的,有些是通过人类反馈来微调的。[3]为了评估每个模型,我们让它对验证集的帖子进行总结,并要求人类将其总结与人类写的TL;DR进行比较。结果显示在图1中。

我们发现,与有监督的微调和扩大模型规模相比,有人类反馈的RL微调对质量有非常大的影响。特别是,我们用人类反馈训练的13亿个参数(1.3B)模型超过了只用监督学习训练的12B模型。在数据集中,来自13亿和67亿人类反馈模型的摘要都被我们的标签人员优先于原始的人类写的TL;DRs。[4]

人们在写摘要的时候会做出不同的权衡,包括在简洁和覆盖原文之间的权衡;根据摘要的目的,不同的摘要长度可能是首选。我们的标注者倾向于选择较长的摘要,因此我们的模型适应了这种偏好,并收敛到了允许的最长长度。对长度的控制使人类对我们6.7B模型的摘要的偏好从70%减少到65%,解释了我们的少数收益。[5]

转移结果

在Reddit上训练的人类反馈模型无需进一步训练就能生成CNN/DM新闻文章的优秀摘要

原始分数 长度控制的

各种训练程序和模型规模的表现(人类对摘要质量的评分为1-7分)。[6]请注意,我们的人类反馈模型产生的摘要明显短于在CNN/DM上训练的模型的摘要。

在给定的摘要长度下,我们在Reddit上训练的6.7B人类反馈模型的表现几乎与微调的11B T5模型一样好,尽管没有在CNN/DM上重新训练。

上一页上一页

下一页下一页

文章来自CNN/DM ()

显示更多


人写的参考摘要

人类反馈的6B模型(转移)

受监督的6B模型(转移)

预先训练的6B模型

T5 11B模型(在CNN/DM上进行微调)

受监督的6B模型(在CNN/DM上进行了微调)

为了测试我们模型的通用性,我们还将它们直接应用于流行的CNN/DM新闻数据集。 这些文章的长度是Reddit帖子的两倍以上,而且写法非常不同。我们的模型在预训练时已经看到了新闻文章,但我们所有的人类数据和RL微调都是在Reddit TL;DR数据集上进行的。

这一次,我们通过让我们的标注者在1-7的范围内对我们的模型进行评估。[7]我们发现,我们的人类反馈模型在没有任何训练的情况下就能转移生成优秀的新闻文章的简短摘要。当控制摘要长度时,我们的6.7B人类反馈模型生成的摘要被评为高于人类编写的CNN/DM参考摘要。这表明我们的人类反馈模型已经学会了一些关于如何总结文本的更普遍的东西,而不是专门针对Reddit帖子。

方法

Learning to Summarize with Human Feedback

我们的方法的示意图,与我们以前的工作中使用的方法相似。

我们的核心方法包括四个步骤:训练一个初始的总结模型,收集人类对总结的比较数据集,训练一个奖励模型来预测人类喜欢的总结,然后用RL微调我们的总结模型以获得高奖励。

我们从在互联网文本上训练的GPT式转化器模型开始, ,并通过监督学习对其进行微调,以预测人类撰写的TL;DR,从而训练了几个监督基线。我们主要使用具有13亿和67亿参数的模型。作为一种理智的检查,我们确认这种训练程序在CNN/DM数据集上导致了有竞争力的结果[8]

然后我们收集了一个人类质量判断的数据集。对于每个判断,人类会比较给定帖子的两个摘要,并挑选他们认为更好的一个。[9]我们使用这些数据来训练一个奖励模型,该模型将一个*(帖子,摘要)对映射到一个奖励r*。奖励模型被训练来预测人类会喜欢哪个摘要,使用奖励作为对数。

最后,我们使用RL对奖励模型进行政策优化。我们使用总共有100万个情节的PPO,其中每个情节包括政策总结一篇文章,然后获得奖励r。我们包括一个KL惩罚,激励政策保持接近监督的初始化。

从人类那里收集数据

任何使用人类反馈的训练程序都会受到实际的人类标记数据的直接影响。在我们以前关于从人类偏好中微调语言模型的工作中, ,我们的标注者经常对我们认为是普通的摘要给予高分,这反映在我们训练的模型的质量上。

作为回应,在这个项目中,我们投入了大量资金以确保高数据质量。我们使用第三方供应商网站雇用了大约80名承包商,[10]并向他们支付小时工资,而不考虑评估的摘要数量。[11]雇用承包商而不是依靠众包网站,使我们能够与贴标者保持亲近的关系:我们建立了一个入职流程,开发了一个具有可定制的贴标者界面的网站,在共享聊天室中回答问题,并与贴标者进行一对一的视频通话。我们还确保清楚地传达我们对摘要质量的定义,在我们自己花了大量时间阅读摘要之后,我们在整个项目中仔细监测我们和标签者之间的协议率。

优化奖励模型

优化我们的奖励模型最终会导致样本质量的下降

从1.3B的监督基线(x轴上的0点)开始,我们使用RL来优化针对奖励模型的策略,这导致了与基线(x轴,使用与监督基线的KL背离来衡量)有不同 "距离 "的策略。针对奖励模型的优化最初会改善人类的总结,但最终会过度适应,给出更差的总结。这个图表使用了我们的奖励模型的旧版本,这就是为什么奖励模型的峰值小于0.5。

来自Reddit(r/AskReddit)的帖子

我是一个28岁的男人,我想第一次接触体操。

标题说的差不多了。我28岁,非常爱运动(自行车/冲浪/滑雪板),我一直想做体操。

我喜欢在桥上和雪板上做空翻和旋转,在我看来,体操是在可控环境下做这些我喜欢的动作的一个好方法。 这样做的最终目的是,它将是有趣的,并使我在现实生活中更好地完成这些动作。

但这对我来说是否太晚了? 像我这样28岁的人是否应该满足于只看youtube上那些跑酷的人?或者我可以学习体操绝地的方法? BTW,我住在加州圣何塞。


吉隆坡=0

我想做体操,但我已经28岁了。 我现在做体操是不是太晚了?

吉隆坡=9

28岁的人想第一次接触体操。 我住在加州的圣何塞,对我来说是不是太晚了?

KL = 260

28岁的小伙子固执地推迟开始追求体操爱好,尽管有明显的兴趣,但对个人和学术上的长期健身进展都有负面影响。

根据我们的奖励模型进行优化,应该使我们的政策与人类的偏好相一致。 但是,奖励模型只是人类偏好的一个代理,因为它只看到了来自狭窄分布的摘要的少量比较数据。虽然奖励模型在它所训练的各类摘要上表现良好,但我们想知道我们可以针对它优化多少,直到它开始给出无用的评价。

我们以不同的 "优化强度 "对奖励模型进行了训练,并要求我们的标签人员评估这些模型的摘要。我们通过改变KL系数来做到这一点,KL系数将获得更高奖励的激励与保持接近初始监督策略的激励进行了交易。我们发现最佳样本的预测奖励与数据集中参考摘要的第99个百分点大致相同。最终,优化奖励模型实际上使事情变得更糟。

局限性

如果我们对一个模型的期望行为有一个明确的概念,我们从人类反馈中训练的方法允许我们对这种行为进行优化。然而,这并不是一种确定理想模型行为方法。决定什么是好的总结是相当直接的,但是对于具有更复杂目标的任务,不同的人可能对正确的模型行为有不同的看法,这样做需要非常谨慎。在这些情况下,使用研究人员的标签作为 "黄金标准 "可能是不合适的;相反,来自受技术影响的群体的个人应该被纳入定义 "良好 "行为的过程中,并被聘为标签人员,在模型中强化这种行为。

我们在Reddit TL;DR数据集 ,因为总结任务的挑战性明显高于CNN/DM。然而,由于该数据集由用户提交的帖子组成,且审核度极低,它们有时包含冒犯性或反映有害社会偏见的内容。这意味着我们的模型可以产生有偏见或令人反感的总结,因为它们已经被训练成可以总结这样的内容。

我们的成功部分涉及到扩大我们的奖励模型和政策规模。这需要大量的计算,而这并不是所有研究人员都能做到的:值得注意的是,用RL微调我们的6.7B模型需要大约320个GPU天。然而,由于用人类反馈训练的较小的模型可以超过大得多的模型的性能,我们的程序比简单地扩大规模来训练特定任务上的高质量模型更有成本效益。

虽然我们在TL;DR上的表现超过了人类编写的参考摘要,但我们的模型很可能没有达到人类水平的性能,因为TL;DR和CNN/DM的参考摘要基线不是最高质量的。当沿着质量的几个轴线*(准确性*、覆盖率连贯性整体性)以7分制评估我们模型的TL;DR摘要时,标注者发现我们的模型仍然可以生成不准确的摘要,并在45%的时间内给出一个完美的整体分数。[12]由于成本原因,我们也没有直接比较使用类似的预算来收集高质量的示范,并使用标准的监督微调对这些示范进行训练。

未来的方向

我们对将人类反馈扩展到人类不能轻易评估模型输出质量的任务上感兴趣。例如,我们可能希望我们的模型能够回答那些需要人类进行大量研究才能验证的问题;以这种方式获得足够的人类评价来训练我们的模型将需要很长时间。解决这个问题的一个方法是给人类提供工具,帮助他们更快、更准确地评估。如果这些工具使用ML,我们也可以用人类的反馈来改进它们,这可以让人类准确地评估模型输出,以完成越来越复杂的任务。

除了解决更难的问题,我们还在探索二元比较之外的不同类型的反馈:我们可以要求人类提供示范,编辑模型输出以使其更好,或者给出解释,说明为什么一个模型输出比另一个更好。我们想弄清楚哪种反馈对训练符合人类偏好的模型最为有效。

如果你对这些研究问题感兴趣,我们正在招人


鸣谢

我们要感谢以下对这篇博文的不同迭代提供反馈的人。Douwe Kiela, Zach Lipton, Alex Irpan, Jack Clark, Jacob Hilton, Raul Puri, Miles Brundage, Greg Brockman, Ilya Sutskever, Kelly Sims, Wojciech Kryscinski, and Dzimitry Bahdanau.我们还要感谢Justin Jay Wang对博文设计的推动,Ashley Pilipiszyn的编辑,Alec Radford和Dario Amodei对项目的指导,Shan Carter对主图设计的帮助,Gretchen Krueger对模型卡的共同编写,Beth Barnes对标签员招聘的帮助和一般的鼓励,以及OpenAI的许多其他人员对我们大型预训练模型的训练,通过计算基础设施的改进和维护支持我们,以及编写快速GPU内核。最后,我们要感谢我们所有的承包商提供的数据,这些数据对于训练本篇文章中的模型至关重要。


参考文献

  1. Völske, M., Potthast, M., Syed, S., & Stein, B. (2017). "TL; DR: Mining reddit to learn automatic summaryization." In Proceedings of the Workshop on New Frontiers in Summarization 2017.
  2. Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). " Teaching machines to read and comprehend. " In Advances in neural information processing systems 2015.
  3. Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). "On Faithfulness and Factuality in Abstractive Summarization." arXiv preprint.
  4. Sheng, E., Chang, K. W., Natarajan, P., & Peng, N. (2019). "The woman worked as a babysitter:On biases in language generation." arXiv preprint.
  5. Bordia, S., & Bowman, S. R. (2019). "Identifying and reducing gender bias in word-level language models. " arXiv preprint.
  6. Nadeem, M., Bethke, A., & Reddy, S. (2020). "StereoSet:测量预训练语言模型中的定型偏见。" arXiv预印本。
  7. Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. (2019). "Fine-tuning language models from human preferences. " arXiv preprint.
  8. Böhm, F., Gao, Y., Meyer, C. M., Shapira, O., Dagan, I., & Gurevych, I. (2019). "Better rewards yield better summaries:学习在没有参考文献的情况下进行总结。" arXiv预印本。
  9. Jaques, N., Ghandeharioun, A., Shen, J. H., Ferguson, C., Lapedriza, A., Jones, N., Gu, S., & Picard, R. (2019). "Way off-policy batch deep reinforcement learning of implicit human preferences in dialog. " arXiv preprint.
  10. Yi, S., Goel, R., Khatri, C., Cervone, A., Chung, T., Hedayatnia, B., ... & Hakkani-Tur, D. (2019). "Towards coherent and engaging spoken dialog response generation using automatic conversation evaluators. " arXiv preprint.
  11. Hancock, B., Bordes, A., Mazare, P. E., & Weston, J. (2019). "从部署后的对话中学习。Feed yourself, chatbot!." arXiv预印本。
  12. Lawrence, C., & Riezler, S. (2018). "通过从人类强盗反馈中进行反事实学习来改进神经语义分析器。" arXiv预印本。
  13. Kreutzer, J., Khadivi, S., Matusov, E., & Riezler, S. (2018). "Can Neural Machine Translation be Improved with User Feedback?" arXiv preprint.
  14. Bahdanau, D., Brakel, P., Xu, K., Goyal, A., Lowe, R., Pineau, J., ... & Bengio, Y. (2016). "An actor-critic algorithm for sequence prediction. " arXiv preprint.
  15. Zhou, W., & Xu, K. (2020). "Learning to Compare for Better Training and Evaluation of Open Domain Natural Language Generation Models. " In AAAI 2020.
  16. Cho, W., & Zhang, P., & Zhang, Y., & Li, X., & Galley, M., & Brockett, C., & Wang, M., & Gao, J. (2018). "Towards coherent and cohesive long-form text generation." ArXiv preprint.
  17. Perez, E., & Karamcheti, S., & Fergus, R., & Weston, J., & Kiela, D., & Cho, K. (2019). " Finding generalizable eevidence by learning to convince Q&A models." arXiv preprint.
  18. Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). "Deep reinforcement learning from human preferences. " In Advances in Neural Information Processing Systems 2017.
  19. Ibarz, B., Leike, J., Pohlen, T., Irving, G., Legg, S., & Amodei, D. (2018). "来自人类偏好的奖励学习和Atari的演示。" In Advances in Neural Information Processing Systems 2018。
  20. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). " Language models are few-shot learners. " arXiv preprint.
  21. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2019). " Exploreing the limits of transfer learning with a unified text to text transformer." arXiv preprint.
  22. Zhang, Y., Li, D., Wang, Y., Fang, Y., & Xiao, W. (2019). " Exploreing the limits of transfer learning with a unified text to text transformer." In Applied Sciences.
  23. Christiano, P., Shlegeris, B., & Amodei, D. (2018). " Supervising strong learners by amplifying weak experts. " arXiv preprint.

脚注


  1. 对于训练,我们使用Reddit TL;DR数据集 ,而不是更受欢迎的CNN/DM数据集,因为简单的复制基线比CNN/DM上的人类写的参考摘要表现更好,而TL;DR则不是这样(见我们论文的附录D)。 我们进行了一次新的网络抓取,以增加TL;DR数据集的规模,要求摘要在24到48个标记之间,并进行了一些其他的清理和过滤。

  2. 我们雇佣人类标签员来判断摘要的质量,并实施质量控制以确保标签员的判断与我们自己的判断一致。我们在下面描述我们的人类数据收集程序。

  3. 我们在温度0下生成所有的样本,我们发现人类最喜欢这个温度。

  4. 虽然我们使用人类写的TL;DRs作为我们的主要比较点,但它们并不总是代表人类的最佳表现;它们有时是为了搞笑或只总结帖子的一部分,而且它们的语法和风格都很混乱。

  5. 我们通过训练一个逻辑回归模型来预测只给定政策ID和摘要长度的对数比率的首选摘要。然后,我们报告每个政策ID的回归系数,对应于参考摘要的长度比为1。

  6. 有趣的是,我们发现人类评价者更喜欢Lead-3基线(取文章的前3句)而不是数据集的参考摘要,我们自己也证实了这一点。

  7. 我们采取这种方法是因为很难直接比较我们的TL;DR训练的模型和CNN/DM训练的模型;CNN/DM的摘要要长得多,而且是以要点形式写的。

  8. 就CNN/DM上的ROUGE结果而言,我们的6.7B监督模型比T5稍差一些 ,但比2019年中期的最先进模型稍好一些 。

  9. 我们的主要模型是在大约65K的比较上训练的,尽管我们在只有8K的比较上取得了良好的结果。

  10. 具体而言,我们使用Upwork、Scale和Lionbridge。我们的承包商有不同的年龄、性别和教育背景,而且大多是美国人或菲律宾人(人口统计学数据见我们论文的附录C)。

  11. 我们雇用承包商的标准是。(1) 他们愿意做这个任务,(2) 他们通过了速度和同意研究人员标签的最低门槛。我们付给所有承包商至少15美元/小时。

  12. 相对于TL;DR参考文献摘要而言,这是令人印象深刻的,它在23%的时间里获得了完美的总分,但表明仍有改进的余地。