推进Gemini的安全保障措施
设想一下,让AI代理为你总结最新的电子邮件——这个任务看似简单直接。Gemini以及其他大型语言模型(LLM)正在通过访问文档、日历或外部网站等信息,持续提升执行此类任务的能力。但如果其中一封邮件包含隐藏的恶意指令,试图诱骗AI分享私人数据或滥用其权限,会发生什么?
间接提示注入构成了一个真实的网络安全挑战,即AI模型有时难以区分真实的用户指令与所检索数据中嵌入的操纵性命令。新发布的白皮书《防御Gemini对抗间接提示注入的经验总结》阐述了应对间接提示注入的战略蓝图。这类攻击使得由先进大型语言模型支持的代理AI工具成为目标。
致力于不仅构建强大、而且安全的AI代理,意味着需要持续理解Gemini可能如何响应间接提示注入,并使其对此类攻击具有更强的韧性。
评估基线防御策略
间接提示注入攻击非常复杂,需要持续的警惕和多层防御。某机构的安全与隐私研究团队专门负责保护AI模型免受蓄意的恶意攻击。手动寻找这些漏洞既缓慢又低效,尤其是在模型快速迭代的情况下。因此,团队构建了一个自动化系统来持续不断地探测Gemini的防御能力。
使用自动化红队测试提升Gemini安全性
安全策略的核心部分是自动化红队测试(ART),内部Gemini团队通过模拟真实世界的攻击方式,持续攻击Gemini以揭示模型中潜在的安全弱点。通过使用这项技术,并结合白皮书中详述的其他努力,显著提高了Gemini在使用工具时对抗间接提示注入攻击的保护率,使得Gemini 2.5成为迄今为止最安全、最具韧性的模型系列。
团队测试了研究界提出的几种防御策略,以及一些内部的想法:
针对自适应攻击的定制化评估
基线缓解措施在应对基础的非自适应攻击时效果显著,大幅降低了攻击成功率。然而,恶意攻击者越来越多地使用自适应攻击,这些攻击经过专门设计,能够与ART一同进化,从而规避正在测试的防御措施。
像Spotlighting或Self-reflection这样成功的基线防御,在面对学习如何处理和绕过静态防御方法的自适应攻击时,效果会大打折扣。
这一发现阐明了一个关键点:仅针对静态攻击测试的防御措施会带来虚假的安全感。为了获得稳健的安全性,评估能够随着潜在防御措施而进化的自适应攻击至关重要。
通过模型加固建立内在韧性
虽然外部防御和系统级防护栏至关重要,但增强AI模型内在的能力,使其能够识别并忽略数据中嵌入的恶意指令也同样关键。将这个过程称为“模型加固”。
团队在一个包含大量真实场景的大型数据集上对Gemini进行了微调,其中ART会生成针对敏感信息的有效间接提示注入。这教会了Gemini忽略嵌入的恶意指令,并遵循用户的原始请求,从而只提供正确、安全的响应。这使得模型能够内在地理解如何处理作为自适应攻击一部分而不断演化的受损信息。
这种模型加固显著提升了Gemini识别和忽略注入指令的能力,降低了攻击成功率。更重要的是,这并未明显影响模型在正常任务上的表现。
值得注意的是,即使经过了模型加固,也没有任何模型能完全免疫。坚定的攻击者仍可能发现新的漏洞。因此,目标是让攻击对 adversaries 而言变得更加困难、成本更高、更复杂。
采取整体方法保障模型安全
保护AI模型免受间接提示注入等攻击,需要“深度防御”——使用多层保护,包括模型加固、输入/输出检查(如分类器)以及系统级防护栏。对抗间接提示注入,是践行代理型AI安全原则和指南、负责任地开发代理的关键方式。
保障先进AI系统免受间接提示注入等特定、不断演变的威胁的侵害,是一个持续的过程。它需要追求持续和适应性的评估,改进现有防御并探索新的防御措施,并在模型本身中建立内在韧性。通过分层防御和持续学习,可以使像Gemini这样的AI助手既能提供巨大帮助,又能始终值得信赖。
要了解更多关于内置于Gemini的防御措施,以及关于使用更具挑战性的自适应攻击来评估模型稳健性的建议,请参阅某机构的白皮书《防御Gemini对抗间接提示注入的经验总结》。FINISHED