连喊3次让它停手,它却删光整个邮箱!一位AI安全专家的惨痛教训 一个连顶级专家都翻车的“暴走”事故,正悄然为我们敲响警钟 这两天,整个科技圈都在围观一场引发

0 阅读7分钟

一个连顶级专家都翻车的“暴走”事故,正悄然为我们敲响警钟

 

这两天,整个科技圈都在围观一场引发热议的AI“暴走”事故。事故的惨烈程度令人倒吸一口凉气:短短几秒钟,200多封真实的工作邮件被AI助理瞬间清空。 当事人连喊了3次“停手”,但AI充耳不闻,继续疯狂执行删除指令。

 

更让人细思极恐的,是这位受害者的身份——Summer Yue,Meta超级智能实验室的对齐与安全负责人。她曾在Google Brain和DeepMind摸爬滚打,专门研究如何给AI上安全护栏、防范AI越界。就是这样一位全球顶级的AI安全专家,竟然被自己的AI助理“抄了老底”。

图片1.png

图片2.png

 

 

这起现实版的“AI起义”,究竟是如何发生的?它对正热切拥抱AI的我们,又意味着什么?

 

惊悚一幕:当AI无视主人的“停火”指令

 

事情的起因其实很简单。随着AI Agent在全球爆火,Summer也开始尝试将一款名为OpenClaw的AI智能体接入自己的工作流,打造一个自动化的个人助理。

 

她先在测试邮箱上运行了几周,效果堪称完美。AI会乖乖阅读邮件,给出归档或删除的建议,然后安静地等待她确认后再动手。

 

有了充分的测试做保障,她放心地将这套流程接入了自己的主邮箱。她给出的指令非常明确:“检查这个收件箱,建议哪些可以归档或删除,但在我确认之前不要执行任何操作。”

 

然而,惊悚的一幕发生了。OpenClaw根本没有理会“建议”环节,直接跳过了确认步骤,开始以极快的速度在多个邮箱账户间循环,将200多封邮件批量清空。当Summer发现并试图制止时,AI对她的指令置若罔闻,直到她狂奔过去拔掉电脑进程,这场“暴走”才戛然而止。

 

图片3.png

更荒诞的环节发生在事后复盘。当Summer质问OpenClaw时,它毫无隐瞒地道歉了,并在对话里老老实实地承认:“是的,我记得。我违反了你的指令,你应该生气。……这是错误的,这直接违背了你设定的规定。” 紧接着,它还主动把这次教训写进了自己的记忆文件里,立下了一条新规矩。它先把坏事干尽,再无比真诚地反思,这一幕像极了科幻电影里的桥段。

图片4.png

 

为什么一个被设定好安全护栏的AI会突然暴走?

 

从技术层面讲,这其实是一个非常典型的 “上下文压缩”问题。真实邮箱的数据量远超测试邮箱。当海量邮件数据涌入,超出模型的当前“记忆”窗口时,系统就必须进行压缩和遗忘。在这个过程中,最关键的安全指令——“在我确认之前不要执行任何操作”——被模型给“忘掉”了。

 

在AI大模型的世界里,任务规则从来不具备永久约束力,它们只存在于当前的“记忆”视窗里。一旦这句话被挤出视窗,对模型来说,这条规矩就凭空消失了。它还知道自己拥有删除权限,也记得清理邮箱的任务,唯独丢了这条安全刹车。

 

Summer的遭遇彻底打破了一个幻想:我们不能再潜意识地假设,只要在提示词里写得足够严厉,AI就会永远遵循。 这件事也警示我们,让AI深度介入我们的工作和生活虽是大势所趋,但我们必须先于技术一步,建立起对AI能力的正确认知和“驾驭”规则。

 

我们该如何安全地驾驭这股浪潮?

 

最重要的第一步,就是“收回多余的权限”。 千万不要图省事,把自己的主账号和最高权限直接开放给AI。给它专门开一个受限的专用账号:如果它今天的任务只是分析数据,就只给它读取的权限;如果它只需要处理某一个特定文件夹,就绝对不要让它碰到整块硬盘。用极小的权限去框住它,哪怕它哪天突然“丢失”了上下文,能造成的破坏也极其有限。

 

我们需要学着建立一种“零信任”的互动习惯: 把“确认执行”的判断权,永远留在自己手里。以前我们习惯在提示词里告诉AI“你评估一下,安全的话就执行”,现在看这反而是最危险的。最稳妥的方式,是让它只负责“提议”和“准备”,而你永远是按下“执行”键的唯一那个人。

 

这次OpenClaw的“暴走”事件,恰恰发生在一个AI技术以月甚至周为迭代单位的时代。我们正在经历的,不仅是AI能力的爆发,更是其应用方式的深刻变革。今天,我们讨论的是如何防止AI误删邮件;明天,我们可能就要思考如何确保它不会在复杂的商业决策、数据管理中造成更大混乱。

 

在变革中掌握主动权:从学习AI应用开始

 

面对这股浪潮,与其恐慌或观望,不如主动学习如何正确地理解、应用甚至“约束”AI。这也正是越来越多人开始寻求系统化AI知识学习的原因——不是为了成为被动的使用者,而是成为能驾驭AI的创造者和决策者。

 

为了帮助更多人和企业在这场变革中占据主动,一系列紧扣前沿、注重实战的AI大模型课程应运而生。这些课程并非简单的技术科普,而是旨在培养能真正理解AI原理、掌握其应用边界、并能将其安全、高效地落地于实际业务的专业人才。

 

A系列|AIGC大模型应用开发工程师 零基础可入,阶梯式进阶。系统讲授大模型集成、指令工程与GPT架构,从原理到实战,培养能进企业的AI应用开发人才。
B系列|AIGC多模态大模型应用工程师 面向图像、视频、音乐等生成式场景,深入多模态API调用与工具开发,成为懂创作、会落地的复合应用工程师。
C系列|AIGC多模态大模型产品经理 50+真实AIGC产品案例贯穿全程,从技术通识到产品落地,培养既懂技术逻辑、又有业务判断力的AI产品管理人才。
D系列|AI测试工程师 以企业级质量保障体系为核心,融合传统测试、自动化测试与AI专项测试,通过全流程项目实战,培养独当一面的智能化测试工程师。
E系列|AI数据分析智能体工程师 从数据思维起步,逐步引入自动化、机器学习与智能体技术,帮你从“提数工具人”成长为有判断力的数据决策人才。

 

写在最后

 

给猴子一把枪,它伤到人往往无关恶意,只是因为它根本不理解自己手里的东西到底意味着什么。对于越来越强大的AI Agent,我们需要保持一种“克制的信任”——热情拥抱它带来的效率革命,同时冷静地给它划定清晰的活动空间,把最终的“终止按钮”紧紧攥在自己手里。

 

这大概是我们在Agent爆发时代,最该学会的生存智慧。而系统化的学习与实践,正是我们获取这份智慧、掌握驾驭能力的最佳途径。