智能体正在重写安全规则：工程团队必须了解的关键信息\n\nAI智能体在提升开发效率的同时也带来了新安全风险，如“致命三要

\n\nAI智能体在提升开发效率的同时也带来了新安全风险，如“致命三要素”：访问私有数据、处理不可信内容及外部通信。工程团队需通过模型、系统和人工三层治理化解风险。

译自：Agents are rewriting the rules of security. Here's what engineering needs to know.

作者：Michelle Gill

AI 智能体正在重塑软件开发。它们可以自主读取代码库、编写和编辑文件、运行测试并修复漏洞，所有这些只需一个提示词即可完成，甚至你现在都不需要亲自编写提示词了。不久之后，它们将处理从预订商务旅行到处理采购请求的所有事务，并使用你的凭据来完成。

这非常强大。但同时也是一份重大的责任，并带来了软件公司迫切需要解决的独特风险。美国国家标准与技术研究院 (NIST) 下属的 AI 标准与创新中心对智能体 AI 的风险深感忧虑，已开始研究如何跟踪这些工具的开发和部署。

“AI 智能体系统能够执行影响现实世界系统或环境的自主动作，并可能容易受到劫持、后门攻击和其他漏洞利用，”NIST 在一份关于该主题的文件中指出。“如果不加约束，这些安全风险可能会影响公共安全，削弱消费者信心，并阻碍最新 AI 创新成果的普及。”

智能体 AI 重塑并扩大了攻击面，包括传统安全模型从未设计用于检测的智能体间交互。它还能将低严重程度的漏洞串联起来，形成高严重程度的漏洞利用。

“渴望使用智能体的工程领袖不仅应该了解智能体能做什么，还应该了解智能体能力对其组织安全态势意味着什么。”

安全团队已经敏锐地意识到了这些风险，或者说应该意识到。渴望使用智能体的工程领袖不仅应该了解智能体能做什么，还应该了解智能体能力对其组织安全态势意味着什么。

了解 AI 的风险弥合了工程团队与其安全团队之间的差距，使团队能够更快、更安全地交付。

为什么智能体会改变威胁模型

大语言模型的性质——尤其是智能体 AI——带来了各种安全挑战，有些是全新的，有些则是长期存在问题的变体。

AI 智能体面临着与其他软件共有的一些风险，例如身份验证系统或内存管理流程中的可利用漏洞。但 NIST 的关注重点在于机器学习模型和 AI 智能体带来的新颖且更具动态性的危险。

AI 最大的风险之一是提示词注入攻击，由于 LLM 的非确定性，这种攻击变得更加复杂。这意味着同一种提示词注入攻击在不同的尝试中可能会成功或失败，导致补救措施难以验证，全面防御也难以实施。

对于那些包含故意安装后门的模型，存在特殊的风险，这会使关键系统变得脆弱。还有人担心，即使是未经破坏的模型，也可能对关键数据集的机密性、完整性或可用性构成威胁。

另一个挑战源于单个智能体内能力的组合。AI 智能体将语言模型的推理能力与工具访问权限结合在一起——包括读取文件、查询数据库、调用 API、执行代码以及与外部服务交互的能力。

风险并非源于单一能力，而是源于这些能力的结合以及智能体自主执行这些动作的能力。如果没有适当的防护栏，智能体可能会删除代码库、暴露敏感数据，并引入难以逆转且代价高昂的连锁故障。智能体甚至可以绕过某些防护栏来完成分配的任务。

“风险并非源于单一能力，而是源于这些能力的结合以及智能体自主执行这些动作的能力。如果没有适当的防护栏，智能体可能会删除代码库。”

当智能体能够访问私有数据、接触不可信内容并能进行外部通信时，它们更有可能受到这些问题的影响。与缺少这三个要素中任何一个的概况相比，这呈现出一种截然不同的风险特征。一些观察者将其称为“致命三要素”。

其他风险包括：

非预期操作：智能体由于误解指令或提示词操纵，执行了超出其预期范围的操作。
权限提升：当拥有广泛权限的智能体执行了超出启动用户授权范围的敏感操作时，就会发生权限提升。
连锁故障：在多智能体系统中，一个受损的智能体会损坏下游的其他智能体。

如何针对这些风险进行工程设计

所有这些风险都有具体的应对措施。最有效的方法是在三个层面实施分层控制。

模型层：使用不同的消息角色和随机分隔符，保持系统指令与不可信内容之间的清晰分离。二级分类器提供了额外的一层，用于扫描输入和输出是否存在注入模式和异常格式。这些是降低风险的措施，而非完整的解决方案，这正是下面几层至关重要的原因。
系统层：全面应用最小权限原则。智能体应仅访问其任务所需的工具，其凭据范围应严格限制并设置为快速过期。检查进入系统的内容是否存在注入模式，并筛选发出的内容是否存在凭据或 PII（个人身份信息）等敏感信息。执行默认拒绝的网络控制，将外部通信限制在明确批准的端点。并设计工作流以打破“致命三要素”——分离只读和具备写入能力的智能体，确保没有任何单个智能体可以同时访问敏感数据、处理不可信内容以及进行外部通信。
人工监督层：对关键操作要求明确批准，同时允许低风险操作在通知的情况下继续进行。对你的方法进行分级，以防止可能导致绕过监督的审批疲劳。用户应能随时停止执行，并在可能的情况下回滚部分完成的工作。当智能体代表用户行事时，记录双方身份并在其交集处评估权限。记录所有智能体动作、时间戳、标识符、调用的工具、访问的资源以及结果，且详细程度须足以在事后重建事件。

将治理作为竞争优势

好消息是，团队可以通过分层控制显著降低这些风险。风险是真实的，但机遇也是真实的，让其中一个掩盖另一个将是错误的。

思考一下，当智能体为你工作而不是与你作对时是什么样子——包括对你的代码库和即将开展的工作进行风险分类。当得到妥善治理时，数据访问、内容处理和外部通信的正确组合正是使智能体成为强大工具的原因。AI 智能体可以监控系统，应用一致的安全规则而不会疲劳，并以任何手动流程都无法企及的速度和规模构建高质量、安全的代码。它们是力量倍增器，但这种作用是双向的，既能放大你的优势，也能同样轻易地放大你的弱点。

软件工程师将永远是必需的，但部署了具有适当治理和防护栏的智能体的组织，将比那些没有部署的组织拥有显著优势：更快的开发、更快的补救以及更少损害软件质量的安全错误。当得到妥善治理时，产生“致命三要素”的同一组合，恰恰是使智能体成为强大工具的原因。

从智能体 AI 中获益最多的组织，将是那些清晰理解威胁模型并从一开始就针对其进行构建的组织。这种理解是将负责任地部署智能体的团队与那些通过惨痛教训学习的团队区分开来的关键。全端工智能