2024年8月2日 责任与安全
生成式AI滥用图谱
新的研究分析了当今多模态生成式AI的滥用情况,旨在帮助构建更安全、更负责任的技术。
能够生成图像、文本、音频、视频等的生成式人工智能(AI)模型,正开启一个创造力和商业机遇的新时代。然而,随着这些能力的增强,其被滥用的可能性也随之增加,包括操纵、欺诈、霸凌或骚扰。
作为开发并负责任地使用AI承诺的一部分,我们发布了一篇新论文,该论文与某机构和某机构合作,分析了当前生成式AI技术是如何被滥用的。包括某中心在内的多个团队正利用这项及其他研究,为其生成式AI技术开发更好的防护措施,以及其他安全举措。
我们共同收集并分析了近200篇媒体报道,这些报道记录了2023年1月至2024年3月间公开的滥用事件。从这些报告中,我们定义并分类了滥用生成式AI的常见策略,并发现了这些技术被利用或攻击的新模式。
通过阐明当前针对不同类型生成式AI输出的威胁和策略,我们的工作有助于塑造AI治理,并指导像某中心这样构建AI技术的公司,开发更全面的安全评估和缓解策略。
突出滥用的主要类别
虽然生成式AI工具代表了增强创造力的独特且引人注目的方式,但其生成定制化、逼真内容的能力也有可能被恶意行为者以不恰当的方式利用。
通过分析媒体报道,我们确定了生成式AI滥用策略的两大主要类别:对生成式AI能力的利用 和 对生成式AI系统的攻击。利用技术的例子包括创建逼真的数字人形象以冒充公众人物;而攻击系统的例子则包括“越狱”以移除模型防护措施,以及使用对抗性输入导致系统故障。
数据集中生成式AI滥用策略的相对频率。媒体报道的任何滥用案例都可能涉及一种或多种策略。
能力利用案例——涉及恶意行为者利用易于获取的、消费级的生成式AI工具,且通常不需要高级技术技能——在我们的数据集中最为普遍。例如,我们研究了一个2024年2月的高调案例:一家国际公司的一名员工在一次在线会议中被骗进行财务转账,据报道损失了2亿港元(约合2600万美元)。在这个案例中,会议中的每一个“人”,包括公司的首席财务官,实际上都是令人信服的、由计算机生成的冒名顶替者。
我们观察到的一些最突出的策略,如冒充、诈骗和合成人设,在生成式AI发明之前就已存在,并长期以来一直被用于影响信息生态系统和操纵他人。但生成式AI工具的广泛使用可能会改变信息操纵背后的成本和动机,赋予这些古老策略新的效力和潜力,特别是对于那些以前缺乏技术能力来应用这些策略的人来说。
识别滥用策略与组合
伪造证据和操纵数字人像是现实世界滥用案例中最普遍策略的基础。在我们分析的时期内,大多数生成式AI滥用案例被用于影响公众舆论、实施诈骗或欺诈活动,或牟利。
通过观察不良行为者如何组合其生成式AI滥用策略以实现不同目标,我们识别出特定的滥用组合,并将这些组合标记为策略。
不良行为者的目标(左)如何映射到其滥用策略(右)的示意图。
一些并非明显恶意的生成式AI滥用新形式,仍然引发了伦理担忧。例如,新型政治外联活动正在模糊真实性与欺骗性的界限,如政府官员突然使用多种对选民友好的语言发言,却不透明地披露其正在使用生成式AI;以及活动人士使用AI生成的已故受害者声音呼吁枪支改革。
虽然这项研究为新兴的滥用形式提供了新颖的见解,但值得注意的是,该数据集仅是媒体报道的一个有限样本。媒体报道可能优先报道耸人听闻的事件,这反过来可能使数据集偏向于特定类型的滥用。由于生成式AI系统非常新颖,检测或报告滥用案例对于相关人员来说也可能更具挑战性。该数据集也未能直接将生成式AI系统的滥用与传统内容创作和操纵策略(如图像编辑或建立“内容农场”以创建大量文本、视频、动图、图像等)进行比较。到目前为止,有证据表明传统内容操纵策略仍然更为普遍。
领先于潜在的滥用行为
我们的论文强调了设计保护公众举措的机会,例如推进广泛的生成式AI素养教育运动,开发更好的干预措施以保护公众免受不良行为者侵害,或者预先警告人们并使他们具备识别和驳斥生成式AI滥用中使用的操纵策略的能力。
这项研究通过为我们安全举措的开发提供信息,帮助我们的团队更好地保护我们的产品。在某个视频平台上,我们现在要求创作者在作品被实质性修改或合成生成,且看起来逼真时进行披露。同样,我们更新了选举广告政策,要求广告商在其选举广告包含数字修改或生成的内容时进行披露。
随着我们不断加深对生成式AI恶意使用的理解并取得进一步的技术进步,我们深知确保我们的工作不是孤立进行的比以往任何时候都重要。我们最近加入了某个溯源与真实性联盟作为指导委员会成员,以帮助制定技术标准并推动内容凭证的采用,内容凭证是一种防篡改的元数据,可以显示内容的制作和随时间编辑的过程。
与此同时,我们还在进行研究,以推进现有的红队测试工作,包括改进测试大型语言模型安全性的最佳实践,并开发开创性工具,使AI生成的内容更易于识别,例如某款水印工具,它正被集成到越来越多的产品中。
近年来,某机构与虚假信息创作者进行了研究,以了解他们使用的工具和策略,制作了预先辟谣视频以预先警告人们操纵企图,并表明大规模预先辟谣活动可以提高人们对错误信息的抵御能力。这项工作构成了该机构更广泛的信息干预组合的一部分,旨在帮助人们在线保护自己。
通过主动应对潜在的滥用行为,我们可以促进负责任和合乎道德地使用生成式AI,同时将其风险降至最低。我们希望这些关于最常见滥用策略和方法的见解,将有助于研究人员、政策制定者、行业信任与安全团队构建更安全、更负责任的技术,并制定更好的措施来打击滥用行为。
致谢
这项研究是 Nahema Marchal, Rachel Xu, Rasmi Elasmar, Iason Gabriel, Beth Goldberg, 和 William Isaac 的集体努力,并得到了 Mikel Rodriguez, Vijay Bolina, Alexios Mantzarlis, Seliem El-Sayed, Mevan Babakar, Matt Botvinick, Canfer Akbulut, Harry Law, Sébastien Krier, Ziad Reslan, Boxi Wu, Frankie Garcia 和 Jennie Brennan 的反馈和建议贡献。
FINISHED