SAFE-MCP:社区共筑AI智能体安全框架

51 阅读9分钟

SAFE-MCP是Linux基金会和OpenID基金会采纳的AI安全框架,为AI代理提供通用安全基线和战术,促进社区协作,防御AI风险。

译自:SAFE-MCP, a Community-Built Framework for AI Agent Security

作者:Arjun Subedi

在网络安全领域,单打独斗鲜有成功。从历史上看,像 CVEsATT&CK软件物料清单 (SBOMs) 这样的框架已经表明,共享的风险语言能将零散的努力转化为协同的胜利。如今,随着人工智能以前所未有的速度发展,并逐渐拥有自己的“肌肉和工具”,类似的转变也已刻不容缓。

AI 代理可以在几毫秒内获取数据、采取行动并做出决策。模型上下文协议 (MCP) 规范了它们连接工具和 API 的方式,这功能强大——但如果配置不当则危险。一个权限过高的工具或恶意提示就能将便利变成漏洞利用。

这就是 SAFE-MCP 应运而生的原因:它是一个框架和开放社区,为 AI 生态系统提供了一个通用的安全基线。现在,它已达到一个重要的里程碑:最近,它被 Linux 基金会和 OpenID 基金会正式采纳,这两个基金会是世界上最受信任的安全标准管理者。这立即将 SAFE‑MCP 从一个有前景的草案转变为一个由基金会支持、社区治理且中立的项目。

这个时机很重要。随着美国国家标准与技术研究院 (NIST)、欧盟人工智能法案 以及其他监管机构要求对高影响力的 AI 提供可审计的保障措施,很明显,任何一个团队都无法独自确保这些系统的安全。网络安全和基础设施安全局 (CISA) 和欧盟网络安全局 (ENISA) 在其 2025 年指导意见和威胁态势报告中都强调了 AI 系统中日益增长的安全风险。像 OpenAI 和 Anthropic 这样的主要实验室也公开将使用工具的 AI 代理视为一个关键的安全挑战。协作现在是一项安全要求,而 SAFE-MCP 便是实现这一目标的框架。

其重要性——MCP 作为 AI 的结缔组织

我们首先来弄清楚 MCP 到底是什么。将 MCP 想象成现代 AI 的神经系统:它在大脑(LLM)和身体(工具、API 和数据)之间发送信号,协调请求的发出和操作的执行。如果没有像 MCP 这样的东西,集成往往是单次性的、重复的,并且难以管理或治理。有了 MCP,信号便能流畅地传输:请求发出,正确的工具响应,代理获取所需数据。

MCP 的美妙之处在于其标准化。它为 AI 代理定义了一个客户端-服务器架构,将代理请求与工具执行和响应分离,并允许不同团队使用不同技术构建的系统无缝通信。但关键在于:能力越大,责任越大。MCP 建立的每个连接都会扩大攻击面。大多数故障都悄无声息地开始:一个被遗忘的权限、一个错误路由的调用,或者一个 AI 决定对其访问权限进行过于“创意”的使用。

这正是 SAFE-MCP 发挥作用的地方。虽然 MCP 定义了 AI 代理如何连接,但 SAFE-MCP 确保这些连接不会成为攻击者的游乐场。

SAFE‑MCP 到底是什么(以及不是什么)

SAFE-MCP 不是一份尘封的 PDF 文档或一份模糊的白皮书。它是一个针对 MCP 的安全分析框架:一个活生生的战术、技术和程序 (TTP) 目录。它拥有十多个战术类别和 80 多种已记录的技术,提供了一种分析 AI 代理系统中攻击者目标、促成条件和缓解措施的一致方法。

本着与 MITRE ATT&CK 相同的精神,SAFE-MCP 为团队提供了一种共享语言,用于描述基于 MCP 的系统如何被攻击和防御,而不是作为控制系统本身。把它想象成一本针对 AI 代理的安全手册、一本食谱和一本生存指南的结合。它会告诉你:“这是可能出现的问题,攻击者可能如何实现,以及你如何阻止它。”

SAFE-MCP 的构建方式和构建者使其独一无二。Frederick Kautz、Arjun Subedi 和 Bishnu Bista,一个融合了开源安全经验、深度技术社区组织和全球开发者领导力的团队,共同指导该框架。他们将 SAFE‑MCP 塑造成一个罕见的、社区驱动的生态系统。每周黑客松、双周会议和开放协作会议将想法转化为可操作的防御措施,其演进速度与技术本身一样快。

该框架为 MCP 代理-工具编排适配了 MITRE ATT&CK,使其成为首批专门关注这一层的开放框架之一。如今,它涵盖了诸如提示操纵 (SAFE-T1102)、工具投毒 (SAFE-T1001)、OAuth 同意滥用 (SAFE-T1007) 和代理命令行武器化 (SAFE-T1111) 等威胁,每种威胁都配有实用的缓解措施,并在可能的情况下,映射回现有的 ATT&CK 技术。

获得 Linux 基金会和 OpenID 基金会的采纳,使 SAFE‑MCP 处于中立、由基金会支持的治理之下,同时保留了其亲力亲为、社区驱动的文化。

来自 Meta、eBay、Okta、Red Hat、Intel、美国运通和独立研究社区的贡献者通过跨越美国、南亚和非洲时区的拉取请求进行协作,贡献代码、检测规则和策略模板。

通过在加利福尼亚州帕洛阿尔托的 Venture Dock 和 VC Nest 举办的线下黑客松,以及 Luma 主办的全球活动,超过 2,000 人参与了 SAFE-MCP,为 AI 创建了一个全球性的邻里守望模式:系统上的多双眼睛、共同的责任和共同的防御。

SAFE‑MCP 如何制衡 AI 代理

那么,一个安全的 AI 代理到底是什么样子?把它想象成机场安检——一系列协同工作的层级,在防止混乱的同时保持事情顺利运行。SAFE‑MCP 不会为你运行这些检查点,但它定义了安全的 MCP 部署应具备的模式和控制措施。

这些模式基于常见的 MCP 故障模式,即身份、意图和执行分散在客户端、服务器和工具之间,而不是在一个地方强制执行。

  • 身份识别和意图 — 每次工具调用都应首先验证谁或什么在发出请求——以及为什么。SAFE‑MCP 推荐使用 OpenID Connect 支持的身份、作用域令牌和最小权限访问,作为确保未经授权的代理无法通过的基本方式。
  • 筛选 — 一旦身份确认,每次交互都应进行安全扫描。SAFE‑MCP 不依赖模糊的内部代码,而是编目了检测基于提示的操纵、可疑工具行为以及被投毒或篡改响应迹象的技术和缓解措施——这就像 X 射线扫描仪在造成损害前捕获隐藏风险的数字等效物。
  • 策略强制执行 — 即使某个东西看起来合法,也并不意味着它应该发生。SAFE‑MCP 组织了上下文感知授权的指导,因此真实世界的系统可以近乎实时地评估每个请求并强制执行规则和时机,确保操作仅在有意义的时间和地点发生。
  • 可观测性和响应 — 最后,每个好的系统都需要眼睛和反应能力。SAFE‑MCP 强调了对仪表化、审计追踪和隔离模式的需求,为防御者提供了一个共享的剧本,用于早期检测和遏制滥用,以便在问题恶化之前得到解决。

这些层共同描述了一个符合 SAFE‑MCP 的架构应该是什么样子:AI 代理可以快速智能地行动,同时,受 SAFE‑MCP 启发的控制措施使其行动可见、可验证且安全。

更广泛的影响——开放安全如何扩展

SAFE-MCP 为生态系统的每个部分都提供了价值:

  • 企业获得清晰、可测试的审计和治理控制措施,有助于提供证据和保证。
  • 开发者获得可复用的缓解措施和安全模式,易于转化为清单或测试用例。
  • 研究人员获得一个公共沙盒来测试攻击和分享防御措施。它实现了可复现的验证。
  • 政策制定者获得了连接“AI 安全”与实际实施的、符合标准的桥梁。它支持可强制执行的期望。

采纳正在加速。来自主要科技公司的贡献者、公共 GitHub 复刻以及企业讨论都表明其势头正劲。SAFE-MCP 帮助将分散的 AI 代理风险转化为实用、可审计的保障措施。

让 SAFE-MCP 发挥作用的不仅仅是它的代码或文档——更是参与其中的人。它之所以能扩展,是因为它开放、模块化且真正协作。每个新的贡献者都会增强其他所有人的安全体系。

前进的道路——协作才是真正的防火墙

SAFE-MCP 的核心在于证明了一个简单的道理:开放协作胜过保密。每一行代码、每一次测试、每一次辩论都将抽象的“AI 风险”转化为真实的防御措施。

最重要的是:

  • SAFE-MCP 是一个由基金会支持的开放标准,将 AI 安全、身份和企业治理整合在一个框架下。
  • 它由人而非政治驱动。每周的黑客松和双周的 Linux 基金会电话会议使其保持实用性、时效性,并在现实世界中得到测试,而不仅仅停留在幻灯片或白皮书上。
  • 协作是其竞争优势;共享的知识始终领先于攻击者。

那么,现在该怎么办?

去看看吧!在 GitHub 上探索 SAFE-MCP 框架。参加黑客松。参与 Linux 基金会的电话会议。提交一个拉取请求、一个测试用例,甚至一个可能奏效的奇思妙想的缓解措施。

因为归根结底,AI 安全关乎信任。信任不是靠高墙建立的;而是靠人们的参与、共同努力,并为他人点亮光明而建立的。SAFE-MCP 证明,当社区成为防火墙时,每个人都能睡得更安稳一些。