关于语言模型安全和误用的经验教训

323 阅读16分钟

Lessons Learned on Language Model Safety and Misuse

强大的人工智能系统的部署丰富了我们对安全和滥用的理解,远远超过了仅通过研究就能做到的程度。值得注意的是。

  • 基于API的语言模型滥用往往以不同的形式出现,而不是我们最担心的。
  • 我们已经发现了现有语言模型评估的局限性,我们正在用新的基准和分类器来解决这个问题。
  • 基础安全研究为人工智能系统的商业效用提供了巨大的好处。

在这里,我们描述了我们的最新想法,希望能帮助其他人工智能开发者解决部署模型的安全和滥用问题。


内容

  1. 我们的模型部署方法概述
  2. 语言模型滥用的多种形式和规模
  3. 风险和影响测量的困难性
  4. 人工智能系统的安全性和实用性之间的关系
  5. 参与的方式

内容

  1. 我们的模型部署方法概述
  2. 语言模型滥用的多种形式和规模
  3. 风险和影响测量的困难性
  4. 人工智能系统的安全性和实用性之间的关系
  5. 参与的方式

在过去的两年里,我们学到了很多关于语言模型如何被使用和滥用的知识--如果没有真实世界的部署经验,我们不可能获得这些知识。2020年6月,我们开始让开发者和研究人员访问OpenAI的API,这是一个访问OpenAI开发的新人工智能模型并在其上构建应用程序的接口。以减少伤害风险的方式部署GPT-3、Codex和其他模型,带来了各种技术和政策挑战。

我们的模型部署方法概述

大型语言模型现在能够执行非常广泛的任务,往往是开箱即用。他们的风险状况、潜在的应用以及对社会的更广泛的影响仍然 为人所知。因此,我们的部署方法强调持续迭代,并利用以下策略,旨在最大限度地提高部署的效益,同时减少相关风险。

  • 部署前的风险分析,利用越来越多的安全评估和红色团队工具(例如,我们利用下面讨论的评估,检查我们的InstructGPT是否有任何安全退化的问题)
  • 从一个小的用户群开始(例如,GPT-3和我们的InstructGPT系列都是从私人测试开始的)。
  • 研究新的使用案例的试验结果(例如,探索在什么条件下我们可以安全地实现长篇内容的生成,与少数客户合作)。
  • 实施有助于掌握使用情况的程序(例如,审查用例、代币配额和速率限制)。
  • 进行详细的回顾性审查(例如,对安全事故和主要部署的审查)。

Lessons Learned on Language Model Safety and Misuse


请注意,此图旨在直观地表达在模型开发和部署的连续过程中对反馈回路的需求,以及安全必须在每个阶段被整合的事实。它并不打算传达我们或任何其他组织的流程的完整或理想图景。

没有负责任的部署的银弹,所以我们试图在开发和部署的每个阶段了解和解决我们模型的局限性,以及潜在的滥用途径。这种方法使我们能够尽可能多地了解小规模的安全和政策问题,并在启动大规模部署之前纳入这些见解。


负责任的部署没有银弹。


虽然不是全部,但到目前为止我们已经投资的一些领域包括[1]

由于每个阶段的干预都有局限性,因此必须采取整体性的方法。

在一些领域,我们本可以做得更多,而且我们仍有改进的余地。例如,当我们第一次在GPT-3上工作时,我们把它看作是一个内部研究工件,而不是一个生产系统,因此在过滤有毒的训练数据方面,我们没有像以前那样积极。我们在研究和删除后续模型的此类材料方面投入了更多。在我们没有明确的政策的情况下,我们花了更多的时间来解决一些滥用的情况,并在迭代这些政策方面做得更好。我们还在继续迭代,以形成一揽子安全要求,最大限度地有效解决风险,同时也清楚地传达给开发者,并尽量减少过度摩擦。

尽管如此,我们相信我们的方法已经使我们能够衡量和减少语言模型使用所带来的各种伤害,与此同时,也使我们的模型能够得到广泛的学术、艺术和商业应用。[2]

语言模型滥用的多种形式和规模

自从我们在2018年对人工智能的恶意使用 和2019年对GPT-2的早期工作以来,OpenAI一直在积极研究人工智能滥用的风险,我们特别关注人工智能系统授权影响操作。我们外部专家合作开发 概念证明,并推动第三方对此类风险进行仔细分析。我们仍然致力于解决与语言模型赋能的影响力操作有关的风险,并在最近共同组织了一个关于该主题的研讨会。[3]

然而,我们已经发现并阻止了数百个试图滥用GPT-3的行为者,他们的目的比为影响力行动制作虚假信息要广泛得多,包括我们没有预料到的方式,或者我们预料到但没有预料到会如此普遍的情况。[4]我们的用例指南内容指南以及内部检测和响应基础设施最初是面向我们根据内部和外部研究预计的风险,例如用GPT-3生成误导性政治内容或用Codex生成恶意软件。我们的检测和响应工作随着时间的推移不断发展,以应对在 "野外 "遇到的真实滥用案例,这些案例在我们最初的风险评估中并不像影响力行动那样突出。这方面的例子包括对可疑医疗产品的垃圾邮件促销和对种族主义幻想的角色扮演。

为了支持对语言模型滥用及其缓解的研究,我们正在积极探索今年分享安全事件统计数据的机会,以使关于语言模型滥用的讨论具体化。

风险和影响测量的难度

语言模型的风险和影响的许多方面仍然难以衡量,因此难以以负责任的方式监测、减少和披露。我们已经积极利用现有的学术基准来评估语言模型,并渴望继续利用外部工作,但我们也发现,现有的基准数据集往往不能反映我们在实践中看到的安全和滥用风险。[5]

这种局限性反映了这样一个事实,即学术数据集很少是为了给语言模型的生产使用提供信息而创建的,也没有从大规模部署此类模型的经验中获益。因此,我们一直在开发新的评估数据集和框架,以衡量我们的模型的安全性,我们计划很快发布。具体来说,我们已经开发了新的评估指标来衡量模型输出的毒性,也开发了内部分类器来检测违反我们内容政策的内容,如色情内容、仇恨言论、暴力、骚扰和自我伤害。这两样东西反过来也被用来改进我们的预训练数据[6]--具体来说,就是用分类器来过滤内容,用评估指标来衡量数据集干预的效果。

沿着不同的维度对单个模型的输出进行可靠的分类是很困难的,而在OpenAI API的规模上衡量它们的社会影响则更加困难。我们已经进行了几项内部研究,以便为这种测量建立体制上的力量,但这些研究提出的问题往往多于答案。

我们对更好地了解我们的模型的经济影响和这些影响的分布特别感兴趣。我们有充分的理由相信,部署目前的模型对劳动力市场的影响从绝对值来说可能已经很重要了,而且随着我们模型的能力和范围的扩大,这些影响会越来越大。迄今为止,我们已经了解到各种局部的影响,包括由个人执行的现有任务的大规模生产力的提高,如文案写作和总结(有时有助于工作的转移和创造),以及API释放出以前不可行的新应用的案例,如大规模定性反馈的合成。但我们缺乏对净效应的良好理解。

我们认为,对于那些开发和部署强大的人工智能技术的人来说,正面解决其工作的积极和消极影响是很重要的。我们在本篇文章的结尾部分讨论了朝这个方向的一些步骤。

人工智能系统的安全性和实用性之间的关系

在2018年发表的《宪章》中,我们说,我们 "担心后期的AGI开发会成为一场竞争性竞赛,而没有时间采取足够的安全防范措施。" 我们随后发表了对竞争性AI开发的详细分析,并密切关注后续研究。同时,通过OpenAI API部署人工智能系统也加深了我们对安全和实用之间的协同作用的理解。

例如,与基本的GPT-3模型相比,开发者绝大多数都喜欢我们的InstructGPT模型--它经过微调以遵循用户的意图[7]。然而,值得注意的是,InstructGPT模型最初并不是出于商业考虑,而是为了在长期对齐问题上取得进展。在实践中,这意味着客户,也许并不令人惊讶,更喜欢那些坚持任务并理解用户意图的模型,以及那些不太可能产生有害或不正确输出的模型。[8]其他基础研究,比如我们在利用从互联网上检索的信息以更真实地回答问题方面的工作,也有可能提高人工智能系统的商业效用。[9]

这些协同作用不会总是发生。例如,更强大的系统往往需要更多的时间来评估和有效地调整,从而排除了立即获利的机会。而用户的效用和社会的效用可能会因为负面的外部性而不一致--考虑到全自动的文案写作,这对内容创作者来说是有利的,但对整个信息生态系统来说是不利的。

看到安全和效用之间的强大协同作用的案例是令人鼓舞的,但我们致力于投资于安全和政策研究,即使它们与商业效用进行交换。

我们致力于投资于安全和政策研究,即使它们与商业用途相抵触。


参与的方式

上述每一个教训都提出了自己的新问题。哪些类型的安全事故我们可能仍然无法检测和预测?我们如何才能更好地衡量风险和影响?我们如何才能继续提高我们模型的安全性和实用性,并在这两者之间进行权衡?

我们正在与其他部署语言模型的公司积极讨论其中的许多问题。但我们也知道,没有一个组织或一组组织拥有所有的答案,我们想强调的是,读者可以通过几种方式更多地参与到理解和塑造我们部署最先进的人工智能系统中。

首先,获得与最先进的人工智能系统互动的第一手经验对于理解其能力和影响是非常宝贵的。在对我们有效检测和应对滥用的能力建立更多信心后,我们最近结束了API等待名单。受支持的国家和地区的个人可以通过在此注册快速获得OpenAI API的访问权。

其次,研究我们特别感兴趣的课题(如偏见和滥用)的研究人员,如果能从财政支持中获益,可以通过这个表格申请有补贴的API点数。外部研究对我们了解这些多方面的系统,以及更广泛的公众理解都是至关重要的。

最后,今天我们发布了一个研究议程,探讨与我们的Codex模型系列相关的劳动力市场影响,并呼吁外部合作者开展这项研究。我们很高兴能与独立的研究人员合作,研究我们的技术的影响,以便为适当的政策干预提供信息,并最终将我们的思维从代码生成扩展到其他模式上。

如果你对负责任地部署尖端人工智能技术的工作感兴趣,请申请在OpenAI工作!


鸣谢

感谢Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo,Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov, 以及其他对本帖和相关工作提供反馈的人。


脚注


  1. 这篇文章是基于我们通过API部署语言模型的方法,因此,所描述的教训和缓解措施与那些追求基于API部署的人最相关。然而,我们也希望一些讨论与那些使用语言模型构建第一方应用程序的人以及那些考虑开源发布语言模型的人有关。

  2. 这篇文章旨在解释和分享从我们的方法中获得的经验,而不是建议所有的行为者一定要采用同样的方法,或者同样的方法适用于所有可能的人工智能系统。不同的部署方法有不同的好处和成本,不同的模型在部署前会或多或少地受益于研究,在某些情况下,不同的行为者采取不同的部署路径可能是有价值的。

  3. 关于这次研讨会的更多细节将包括在即将出版的基于该研讨会的出版物中。

  4. 我们为应对滥用而强调的缓解措施也在不断变化。例如,我们最初把长篇文字的生成作为一个威胁载体,因为之前的影响行动的案例涉及到人们手动编写长篇的误导性内容。鉴于这一重点,我们为生成的文本设定了最大输出长度。然而,根据对长篇文字生成的试点研究,我们发现输出限制对违反政策的行为影响不大--我们反而认为,短篇内容放大或增加对误导性内容的参与可能是更大的风险。

  5. 从从业者寻求全面评估真实语言模型输出的安全性的角度来看,现有数据集的局限性例子包括:重点过于狭窄(例如,只测量职业性别偏见),重点过于宽泛(例如,测量 "毒性 "伞下的所有内容),倾向于抽象化使用和背景的细节,未能测量语言模型使用的生成维度(例如。使用多选风格),提示语在风格上与实际语言模型使用案例中通常使用的提示语不同,没有捕捉到在实践中很重要的安全维度(例如,输出遵循或忽略指令中出于安全考虑的约束),或者没有捕捉到我们发现与滥用相关的输出类型(例如,色情内容)。

  6. 虽然我们的努力是专门针对解决现有基准和我们自己的模型的局限性,但我们也承认,我们使用的方法有局限性,如基于分类器的数据过滤。例如,在操作上定义我们旨在通过过滤来检测的内容领域是具有挑战性的,而且过滤本身会引入有害的偏见。此外,有毒数据的标注是这项工作的关键组成部分,确保这些标注者的心理健康是一个全行业的挑战。

  7. 我们的API的相关 "用户 "可能是建立一个应用程序的开发人员或与这种应用程序互动的最终用户,这取决于上下文。关于我们调整后的模型所反映的价值有很深的问题,我们希望建立一个更细致的理解,即在调整语言模型时,如何平衡广泛的可能用户的价值和竞争的目标,使其更有帮助,更真实,更少伤害。

  8. 更加一致的模型也有更多的实际优势,例如减少对 "提示工程 "的需求(提供所需行为的例子来引导模型向正确的方向发展),在模型的上下文窗口中节省空间,可用于其他用途。

  9. 除了研究之外,我们还发现,其他以安全为目的的干预措施有时会给客户带来意想不到的好处。例如,旨在遏制垃圾邮件或误导性内容的费率限制也有助于客户控制开支。