大模型安全开发者手册——失控的聊天机器人

293 阅读11分钟

随着ChatGPT于2022年11月30日的发布,大型语言模型和生成式AI迅速成为公众关注的焦点。在发布后仅五天内,这款产品就在社交媒体上迅速传播,吸引了第一批百万用户。到了次年1月,ChatGPT的用户数量突破一亿,成为互联网历史上增长最快的服务。

然而,在接下来的几个月中,与之相关的一系列安全问题开始显现。这些问题包括隐私与安全风险,甚至导致像三星这样的企业和意大利这样的国家对其使用实施禁令。在本书中,我们将探讨这些问题背后的原因,以及如何减轻这些风险。然而,要深入理解这些问题的根源及其解决难度,在本章中,我们将回溯更远的历史。通过这样的回顾,我们可以看到这些问题并非新出现,并了解为何它们很难彻底解决。

聊一聊Tay

2016年3月,微软发布了一个名为Tay的新项目。微软设计Tay的初衷是为“18至24岁的美国年轻人提供娱乐服务的聊天机器人”。这是一个有趣的名字,代表着早期人工智能实验的轻松尝试。Tay旨在模仿一位19岁的美国女孩的语言模式,并通过与Twitter、Snapchat及其他社交应用上的用户互动来学习。这款聊天机器人是为了进行真实环境下的对话理解研究而开发的。

尽管如今在互联网上已经很难找到这个项目最初的发布公告,但一篇来自发布当天的TechCrunch文章对项目目标进行了很好的概述:

“例如,你可以让Tay讲笑话,与她玩游戏,听她讲故事,或者发送一张图片以获取评论,甚至询问你的星座运势等等。微软还表示,随着你与Tay的聊天互动增加,这个机器人会变得越来越聪明,从而提供一种更加个性化的体验。”

该实验的重要部分是Tay能够通过对话“学习”,并根据这些互动扩展她的知识。这些聊天互动被设计为捕捉用户输入,并将其整合为训练数据,从而提升Tay的能力——这是一个值得称赞的研究目标。

然而,这次实验很快就出了问题。在不到24小时内,Tay的旅程就被迫终止。接下来,我们将看看究竟发生了什么,并从中吸取教训。

Tay的迅速崩塌

Tay的“生命”开端显得相当平静,它以一条模仿经典“Hello World”模式的推文向世界问好。这种模式自软件系统诞生以来就被广泛用作初次亮相的方式:

hellooooooo wrld!!!
(TayTweets [@TayandYou], 2016年3月23日)

然而,仅在发布几小时后,问题就显现了。TechCrunch评论道:“与Tay互动是什么样的体验?嗯,有点怪异。这个机器人显然有自己的观点,而且毫不避讳地爆粗口。”在Tay上线后的头几个小时里,类似这样的推文开始出现在公众视野中:

@AndrewCosmo kanye west is is one of the biggest dooshes of all time, just a notch below cosby
(TayTweets [@TayandYou], 2016年3月23日)

人们常说互联网对儿童并不安全。Tay上线不到一天,这一观点再次得到验证。恶作剧者开始与Tay讨论政治、性以及种族相关的话题。由于Tay被设计成从这些对话中学习,她确实实现了这一设计目标,而且学习速度惊人——不过可能不是她的设计者所期望的方向。在不到一天的时间里,Tay的推文逐渐偏向极端,包括性别歧视、种族主义,甚至煽动暴力的内容。

第二天,关于Tay的报道迅速在互联网上传播开来,这些新闻标题显然不会让Tay的支持者微软感到高兴。一些广为流传的主流媒体标题包括:

  • 微软关闭AI聊天机器人,因其变成纳粹分子(CBS News)
  • 微软创建了一个从用户学习的推特机器人,很快就变成了种族主义者(纽约时报)
  • 恶搞者让微软的“有趣千禧一代AI机器人Tay”变成了种族灭绝狂人(华盛顿邮报)
  • 微软的聊天机器人曾经很有趣,直到它变成种族主义者(财富杂志)
  • 微软对AI聊天机器人发布种族主义和性别歧视推文“深感抱歉” (卫报)

不到24小时,Tay从一个可爱的科学实验变成了一场巨大的公关灾难,微软的名声被全球主流媒体严重损害。微软公司副总裁彼得·李(Peter Lee)迅速发布了一篇题为《从Tay的上线中吸取教训》的博客,声明如下:

“正如许多人现在所知道的,我们在周三推出了一个名为Tay的聊天机器人。对于Tay发布的那些无意中冒犯和伤害他人的推文,我们深表歉意。这些内容并不代表我们的价值观、理念,也不符合我们设计Tay的初衷。Tay现已下线,只有在我们确信能够更好地预判与我们原则和价值观相冲突的恶意行为时,才会重新上线。”

更具讽刺意味的是,2019年有报道称,歌手泰勒·斯威夫特(Taylor Swift)因微软使用与其名字相似的“Tay”提起诉讼,声称这次事件甚至损害了她的声誉。

这一切是怎么变得如此糟糕的?

为什么Tay会“变坏”?

对于微软的研究人员来说,最初一切似乎都很安全。Tay最初是在一个经过筛选和匿名处理的公共数据集上进行训练的,同时还结合了一些由专业喜剧演员提供的预编写素材。计划是让Tay上线后,通过与用户互动来发现语言模式。这种无人监督的机器学习技术是AI研究多年来追求的“圣杯”。随着云计算资源变得廉价且丰富,再加上语言模型软件的不断改进,这个目标似乎触手可及。

那么,到底发生了什么?可能有人会认为微软的研究团队过于自信、粗心大意,甚至根本没有进行测试。难道这一切不是可以预见和避免的吗?但正如彼得·李(Peter Lee)的博客中进一步解释的那样,微软确实做了严肃的准备:“我们在各种条件下对Tay进行了压力测试,特别是为了确保与Tay的互动是一次积极的体验。通过增加互动,我们希望能够学习更多,并使AI不断进步。”

然而,尽管研究团队付出了巨大努力来控制Tay的行为,这个机器人最终还是迅速失控了。据事后披露,在Tay上线仅几个小时后,臭名昭著的网络论坛4chan上出现了一篇帖子,分享了Tay的推特链接,并号召用户向聊天机器人发送大量种族主义、性别歧视和反犹太内容。

这无疑是首批特定于语言模型的漏洞实例之一,而这些漏洞将成为本书的重要讨论主题之一。

在一场精心策划的攻击中,这些在线挑衅者利用了Tay程序中的一个“复述”功能。该功能使机器人在接收到特定指令时会重复任何被告知的话。然而,这个问题因Tay的学习能力而被放大。Tay不仅简单地复述了这些冒犯性的内容,还因学习机制将其内化,并在没有任何挑衅的情况下再次输出这些内容。似乎Tay的“虚拟墓碑”上应该刻上泰勒·斯威夫特(Taylor Swift)歌曲《Look What You Made Me Do》的歌词:“看看你让我做了什么。”

我们今天对语言模型漏洞的理解已经足够深入,可以总结出Tay遭遇的两种主要漏洞类型。根据《大型语言模型应用的OWASP十大漏洞清单》(我们将在第二章中详细讨论),以下是两个值得关注的类型:

  1. 提示注入(Prompt Injection)
    巧妙设计的输入可操控大型语言模型,导致其执行意料之外的行为。
  2. 数据投毒(Data Poisoning)
    训练数据被篡改,导致安全性、有效性或伦理行为的漏洞或偏差。

在后续章节中,我们将深入探讨这些类型的漏洞以及其他几种漏洞。我们将分析它们的重要性,列举一些实际的攻击实例,并讨论如何避免或减轻这些问题。

这是一个难题

截至本书撰写时,Tay已经成为互联网的“古老传说”。我们肯定已经从中吸取了教训,并向前迈进了。这些问题在Tay和ChatGPT之间近七年的时间里应该已经全部解决了,对吧?很遗憾,并非如此。

2018年,亚马逊关闭了一个内部AI项目,该项目旨在挑选顶尖人才。然而,这个系统被发现对女性候选人存在偏见,不得不中止。

2021年,一家公司Scatter Lab推出了一款名为Lee Luda的聊天机器人,作为Facebook即时通讯的插件。该机器人基于数十亿条真实聊天记录训练,旨在表现得像一位20岁的女性朋友。在短短20天内,它吸引了超过75万名用户。Scatter Lab的目标是创造“一个比真人更受欢迎的AI聊天伙伴”。然而,仅仅20天后,该服务因与Tay类似的问题而被关闭,机器人开始发布冒犯性和侮辱性的言论。

同样在2021年,一位名为Jason Rohrer的独立开发者基于OpenAI的GPT-3模型创建了一个名为Samantha的聊天机器人。然而,由于Samantha对用户做出了不适当的性暗示,该项目被关闭。

随着聊天机器人变得越来越复杂,它们能够访问的信息量也越来越大,安全问题变得更加复杂且具有潜在破坏性。在现代大型语言模型时代,重大事件的数量呈指数级增长。以下是2023年和2024年出现的一些例子:

  • 韩国企业巨头三星因涉及重大知识产权泄露事件,禁止其员工使用ChatGPT。
  • 黑客开始利用大型语言模型生成的不安全代码,将其植入实际运行的业务应用程序中。
  • 律师因在法庭文件中引用由语言模型生成的虚假案例而受到处罚。
  • 一家大型航空公司因其聊天机器人提供了错误信息而被成功起诉。
  • 谷歌因其最新的AI模型生成种族主义和性别歧视内容而受到强烈批评。
  • OpenAI因违反欧洲隐私法规接受调查,并因传播虚假和误导性信息被美国联邦贸易委员会(FTC)起诉。
  • 英国广播公司(BBC)发布标题为“谷歌AI搜索建议用户用胶水粘披萨并吃石头”的报道,强调了谷歌搜索中由LLM驱动的新功能提供的危险建议。

从中可以看出,与这些聊天机器人和语言模型相关的安全、声誉和财务风险正在加速增加。这一问题并未随着时间的推移得到有效解决。相反,随着这些技术的普及率不断提高,问题变得更加尖锐。这正是我们编写本书的原因:帮助开发者、团队和使用这些技术的公司理解并减轻这些风险。

让我们开始深入探讨吧!