Agent可观测性:AI Agent安全的第一性原理

5 阅读14分钟

当我们谈论AI Agent安全时,真正应该问的问题不是"如何阻止攻击",而是"我们能看到什么"。


引言:一场正在发生的范式转移

2026年初,OpenClaw的全球爆火让AI Agent从极客玩具走向了大众视野。与此同时,一系列安全事件——从ClawHub上超过10%的恶意技能插件,到258个已知漏洞、85%的实例暴露在公网——也让整个行业第一次正视一个问题:我们正在以对待传统软件的方式去保护一种本质上不同的系统。

传统的网络安全建立在确定性之上:已知的输入产生已知的输出,偏离即为异常。但AI Agent的行为由LLM驱动,天生具有不确定性。正如Arize AI在其2026年Agent可观测性工具报告中所指出的:Agent系统的失败方式"看起来像是成功"——输出格式正确但语义错误、工具调用语法合法但逻辑不当、动作权限范围内但意图被篡改。

这意味着传统的签名匹配、规则引擎和静态策略,在Agent安全领域的有效性正在急剧下降。我们需要一个新的安全基础设施层——而这个基础设施的起点,是可观测性。

本文试图论证一个核心观点:Agent可观测性不仅仅是运维工具,它是构建AI Agent安全方案的第一性原理。


一、为什么可观测性是Agent安全的前提

1.1 "You cannot secure what you cannot see"

Obsidian Security在其2026年AI Agent安全态势报告中开篇即提出这一判断。报告数据显示,在企业环境中,平均只有47.1%的AI Agent处于主动监控状态,而82%的高管自信地认为现有策略足以保护他们免受Agent越权行为的侵害。感知和现实之间的巨大鸿沟,正是安全事件频发的根源。

这种"治理-控制缺口"(governance-containment gap)在Agent场景下被放大了:传统应用的行为是代码决定的,而Agent的行为是prompt、上下文和模型推理共同决定的。没有运行时的深度可见性,任何安全策略都只能是"盲人摸象"。

1.2 从"监控输出"到"追踪推理链"

传统APM(应用性能管理)关注的是请求延迟、错误率、吞吐量——这些都是结果指标。而Agent安全需要看到的是决策过程:模型收到了什么上下文?为什么选择了这个工具而不是另一个?工具调用的参数是如何被构造的?返回的数据如何被处理?

Braintrust在其2026年AI可观测性指南中对此做了精辟的区分:"传统应用监控能告诉你一个请求是否成功。AI可观测性能告诉你答案是否正确、Agent如何得出这个答案、以及这个过程是否可以改进。"

这种从"结果可见"到"过程可见"的转变,是Agent安全之所以需要可观测性作为基础的根本原因。

1.3 可观测性作为控制面(Control Plane)

一个更具野心的判断来自行业分析:到2026年,可观测性将不再仅仅是"被动的数据收集",而是成为AI运营的控制面(control plane),承担三层功能——

  • 运维控制:当Agent行为偏离预期模式时,遥测数据触发自动化操作(限流、回滚、隔离、升级)
  • 安全控制:运行时信号检测异常Agent行为、未授权访问和API滥用
  • 治理控制:可观测性数据为合规审计、可追溯性和策略执行提供证据

这三层控制中,安全控制天然嵌入在可观测性基础设施之中——而非作为一个独立的、需要额外部署的安全产品。


二、技术支撑:标准、协议与实现路径

2.1 OpenTelemetry GenAI Semantic Conventions:行业正在趋同

Agent可观测性能够成为安全基础设施,一个关键前提是采集标准的统一。如果每个Agent框架都有自己的遥测格式,安全分析就无法跨框架复用。

好消息是,OpenTelemetry正在快速推进GenAI语义规范(Semantic Conventions)。目前已定义的规范涵盖:

  • 模型调用(Model Spans):记录每次LLM推理请求的输入、输出、token用量、延迟
  • Agent调用(Agent Spans):定义invoke_agentcreate_agent等操作的标准化追踪
  • 工具执行(Tool Spans):追踪Agent调用工具(包括MCP工具)的完整生命周期
  • 事件(Events):捕获GenAI的输入输出详情、评估结果等结构化数据

OpenTelemetry社区在2025年8月提出了针对Agentic Systems的更完整语义规范提案(Issue #2664),涵盖任务(Tasks)、行动(Actions)、Agent、团队(Teams)、制品(Artifacts)和记忆(Memory)等维度的属性定义。这些规范旨在跨复杂AI工作流标准化遥测数据,改善可追溯性、可复现性和分析能力。

Datadog已经率先支持了OTel GenAI Semantic Conventions v1.37,将GenAI traces与现有的APM traces、日志、指标和运行时数据进行跨层关联。Splunk在2026年Q1正式GA了AI Agent Monitoring,Splunk将行为数据与RUM和APM的可观测性信号统一,使产品、用户体验和工程团队能够定位问题。

这意味着:Agent可观测性的数据采集正在走向标准化,安全分析可以建立在一个通用的、开放的数据格式之上。

2.2 MCP Gateway/Proxy:Agent工具调用的安全观测点

MCP(Model Context Protocol)已经成为AI Agent调用外部工具的事实标准协议,被Anthropic、OpenAI、Google、Microsoft等主流厂商采纳。这使得MCP层成为一个天然的、高价值的安全观测点。

MCP Gateway/Proxy的核心思路是在Agent(MCP Client)和工具(MCP Server)之间插入一个中间层。由于MCP是基于JSON-RPC的协议,通用的HTTP代理不足以处理——MCP Proxy必须解析和理解MCP载荷,才能确定正在调用哪个操作,并基于上下文应用控制。

这一层可以提供的安全可观测性数据包括:

  • 工具调用审计:哪个Agent调用了哪个工具、传入什么参数、返回什么数据
  • 异常模式检测:Agent突然调用之前从未使用的MCP Server,或调用频率异常飙升
  • 数据流向追踪:敏感信息是否通过工具调用被外发
  • 策略执行:基于ACL(访问控制列表)限制特定Agent对特定工具的访问权限

Gravitee 4.10引入了专门的MCP Proxy类型,支持在MCP操作级别(而非连接级别)应用网关能力,包括MCP分析、访问控制策略和请求/响应转换。MintMCP的LLM Proxy则实现了对每一次工具调用、bash命令和文件操作的监控。

从安全可观测性的角度看,MCP Gateway不仅是一个API网关,更是Agent行为审计的核心数据源

2.3 eBPF:内核级运行时安全的基础

如果说OpenTelemetry和MCP Proxy覆盖的是Agent的"应用层"行为,那么eBPF(extended Berkeley Packet Filter)则提供了"系统层"的深度可见性。

eBPF允许在Linux内核中运行经过验证的沙箱化程序,实时拦截和分析系统调用、网络流量和进程行为,且性能开销极低。Palo Alto Networks在其AI安全博客中指出:eBPF程序在内核中以接近原生性能运行,因为它们避免了传统安全工具所需的用户空间-内核空间上下文切换的开销。通过提供对系统的深度、实时可见性,eBPF使安全工具能够在Agent行为发生时进行监控。

对于AI Agent安全场景,eBPF的独特价值在于:

  • 对Agent无侵入:不需要修改Agent代码,就能监控其所有系统调用(文件读写、网络连接、进程创建)
  • Agent框架无关:无论上层跑的是OpenClaw、Manus还是其他Agent框架,系统调用层面的行为是一致的
  • 从观测到执行:不仅能"看到"异常行为,还能通过BPF LSM(Linux Security Modules)实时阻断

Datadog Workload Protection团队在其eBPF工程实践文章中分享了五年来大规模运行eBPF安全Agent的经验。他们特别强调了eBPF的核心优势:它通过单一统一机制提供对进程、文件系统和网络活动的全面可见性。相比需要组合使用inotify、fanotify或Netlink等技术,eBPF的综合视角极其强大。

在Agent安全场景中,eBPF就是Skill运行沙箱和系统访问隔离层的底层技术基础。


三、架构构想:基于可观测性的Agent安全方案

综合以上技术方向,一个完整的"可观测性驱动的Agent安全方案"可以这样构建:

3.1 数据采集层:三层探针

探针位置覆盖维度核心技术采集内容
LLM/Agent调用层推理与决策OTel GenAI SemConvPrompt、Completion、Token用量、推理延迟、Agent状态转换
MCP/工具调用层外部交互MCP Proxy/Gateway工具调用参数与返回值、调用频率、数据流向、认证信息
操作系统层系统行为eBPF系统调用(文件/网络/进程)、权限变更、异常资源访问

三层探针的关键设计原则是Agent框架无关。 OTel SemConv提供标准化的应用层遥测格式,MCP Proxy利用协议标准化实现工具层透明采集,eBPF在内核层面完全绕过了Agent框架的差异。这意味着当市场上出现下一个"OpenClaw"级别的Agent框架时,安全方案只需要适配OTel的新instrumentation library,而不需要重新设计整套系统。

3.2 分析层:从异常检测到攻击链关联

原始的可观测性数据本身并不是安全能力——将数据转化为安全洞察才是核心价值。分析层需要处理几类安全问题:

行为基线与漂移检测——Agent的"正常行为"是什么?这比传统应用复杂得多,因为Agent行为由LLM驱动,具有内在不确定性。一种可行的思路是建立"任务类型→行为模式"的映射:比如"邮件处理任务"正常情况下应该访问邮箱API和文件系统中的附件目录,而不应该发起SSH连接或修改系统配置文件。

Prompt注入检测——通过关联LLM层(OTel数据)和工具层(MCP数据)的信息,检测Agent的行为是否与用户意图一致。例如,用户请求"整理邮箱",但Agent开始调用文件删除工具——这种"意图-行为偏离"是prompt注入攻击的典型特征。

供应链安全分析——利用MCP Proxy层的数据,追踪Skill/Plugin的实际运行行为:它请求了哪些系统权限?访问了哪些网络端点?是否存在"安装时声明的权限"与"运行时实际行为"不一致的情况?

攻击链关联——将三层数据进行时间序列关联,把多个低置信度的单点异常串联为高置信度的攻击判定。例如:一个新安装的Skill(MCP层异常)→ 触发了非预期的系统调用(eBPF层异常)→ 随后Agent开始向外部端点发送敏感数据(网络层异常),三点关联即可高置信度判定为恶意Skill攻击。

3.3 响应层:从告警到自动化阻断

可观测性驱动的安全方案不应止步于"发现问题"。通过三层探针的执行能力,可以实现:

  • MCP Proxy层阻断:拒绝异常的工具调用请求
  • eBPF层阻断:通过BPF LSM实时阻止可疑的系统调用
  • Agent层干预:向Agent注入安全约束指令或强制终止会话

从被动告警到主动防御的转变,正是"可观测性成为控制面"这一趋势在安全领域的具体体现。


四、与微软Defender的对照:工业界的验证

值得关注的是,微软在2026年1月发表了一篇重要的技术博客:"From Runtime Risk to Real-Time Defense: Securing AI Agents",详细介绍了Defender如何通过webhook机制对Copilot Studio的Agent进行运行时安全检查。

其核心思路与本文论述的方向高度一致:将每一次工具调用视为高价值、高风险事件,并进行实时监控。 在任何工具、Topic或知识源操作被执行之前,编排器都会向Defender发起webhook调用,传输该操作的完整上下文(包括参数、前序编排链的输出、用户上下文和其他元数据)。Defender实时分析这些信息,评估每个操作的意图和目标,并做出放行或阻止的决定。

微软的方案本质上是一个闭源的、绑定Copilot Studio生态的"MCP安全代理"。它验证了我们的核心论点:运行时可观测性是Agent安全的必要基础设施。但它也暴露了封闭方案的局限性——只适用于微软自己的Agent框架。

开放生态需要的是一个框架无关的、基于开放标准的可观测性安全层。这正是本文所论述的方向的差异化价值。


五、商业思考:为什么"安全可观测性平台"比"安全产品"更有前景

最后聊一下这个方向的商业逻辑。

做一个OpenClaw漏洞扫描器,或者一个Skill恶意检测工具——这些都是有价值的安全产品,但它们的天花板低,容易被Agent框架自身的安全更新所替代。

而"Agent安全可观测性平台"的商业逻辑完全不同:

  • 网络效应:接入的Agent种类和数量越多,行为基线越完善,安全检测越精准
  • 数据飞轮:积累的运行时行为数据是核心壁垒,新进入者无法快速复制
  • 扩展路径:从安全监测→安全防护→合规审计→治理平台,每一步都是自然的产品延伸
  • 框架无关:不赌某一个Agent框架的成败,赌的是"Agent作为一种计算范式"的长期趋势

简单地说:安全产品卖的是"检测能力",可观测性平台卖的是"安全视角"。前者是消耗品,后者是基础设施。


结语

Agent安全的本质挑战不在于缺少防御手段,而在于缺少对Agent运行时行为的结构化理解。当你能够完整地看到一个Agent在做什么、为什么这样做、通过什么路径做、产生了什么系统级影响,安全策略才有据可依,安全响应才有的放矢。

可观测性不是Agent安全的全部,但它是Agent安全的第一性原理——没有它,一切安全能力都是空中楼阁。

行业标准(OpenTelemetry GenAI SemConv)、协议基础(MCP)和底层技术(eBPF)的成熟,正在让"通用Agent安全可观测性层"从构想变为现实。在Agent框架快速迭代的混沌期,占住框架之下、操作系统之上的这个安全观测位,可能是未来几年最有结构性价值的技术投资。


参考资料

  1. OpenTelemetry, "AI Agent Observability - Evolving Standards and Best Practices", opentelemetry.io, 2025
  2. OpenTelemetry, "Semantic Conventions for GenAI Agent and Framework Spans", opentelemetry.io
  3. OpenTelemetry Semantic Conventions, Issue #2664: "Semantic Conventions for Generative AI Agentic Systems", GitHub, 2025
  4. Datadog, "LLM Observability natively supports OpenTelemetry GenAI Semantic Conventions", datadoghq.com, 2025
  5. Splunk, "Observability Update Q1 2026: AI Agent Monitoring and Digital Experience Innovations", splunk.com, 2026
  6. Arize AI, "Best AI Observability Tools for Autonomous Agents in 2026", arize.com, 2026
  7. Braintrust, "AI observability tools: A buyer's guide to monitoring AI agents in production", braintrust.dev, 2026
  8. EfficientlyConnected, "2026 Prediction: Observability Becomes the Control Plane for AI", 2025
  9. Obsidian Security, "The 2025 AI Agent Security Landscape: Players, Trends, and Risks", obsidiansecurity.com, 2026
  10. Gravitee, "State of AI Agent Security 2026 Report", gravitee.io, 2026
  11. Gravitee, "MCP Proxy: Unified Governance for Agents Tools", gravitee.io, 2026
  12. Microsoft Security Blog, "From Runtime Risk to Real-Time Defense: Securing AI Agents", microsoft.com, 2026
  13. Palo Alto Networks, "Beginner's Guide to AI Security with eBPF", paloaltonetworks.com, 2025
  14. Datadog, "Hardening eBPF for Runtime Security: Lessons from Workload Protection", datadoghq.com, 2026
  15. AccuKnox, "Top 10 AI Security Platforms in 2026", accuknox.com, 2026
  16. Clustox, "AI Agent Security: What CTOs Must Know for Secure AI Deployment in 2026", clustox.com, 2026
  17. MintMCP, "AI Agent Security: The Complete Enterprise Guide for 2026", mintmcp.com, 2026
  18. Composio, "MCP Gateways: A Developer's Guide to AI Agent Architecture in 2026", composio.dev