Agent可观测性：AI Agent安全的第一性原理当我们谈论AI Agent安全时，真正应该问的问题不是"如何阻止攻击

当我们谈论AI Agent安全时，真正应该问的问题不是"如何阻止攻击"，而是"我们能看到什么"。

引言：一场正在发生的范式转移

2026年初，OpenClaw的全球爆火让AI Agent从极客玩具走向了大众视野。与此同时，一系列安全事件——从ClawHub上超过10%的恶意技能插件，到258个已知漏洞、85%的实例暴露在公网——也让整个行业第一次正视一个问题：我们正在以对待传统软件的方式去保护一种本质上不同的系统。

传统的网络安全建立在确定性之上：已知的输入产生已知的输出，偏离即为异常。但AI Agent的行为由LLM驱动，天生具有不确定性。正如Arize AI在其2026年Agent可观测性工具报告中所指出的：Agent系统的失败方式"看起来像是成功"——输出格式正确但语义错误、工具调用语法合法但逻辑不当、动作权限范围内但意图被篡改。

这意味着传统的签名匹配、规则引擎和静态策略，在Agent安全领域的有效性正在急剧下降。我们需要一个新的安全基础设施层——而这个基础设施的起点，是可观测性。

本文试图论证一个核心观点：Agent可观测性不仅仅是运维工具，它是构建AI Agent安全方案的第一性原理。

一、为什么可观测性是Agent安全的前提

1.1 "You cannot secure what you cannot see"

Obsidian Security在其2026年AI Agent安全态势报告中开篇即提出这一判断。报告数据显示，在企业环境中，平均只有47.1%的AI Agent处于主动监控状态，而82%的高管自信地认为现有策略足以保护他们免受Agent越权行为的侵害。感知和现实之间的巨大鸿沟，正是安全事件频发的根源。

这种"治理-控制缺口"（governance-containment gap）在Agent场景下被放大了：传统应用的行为是代码决定的，而Agent的行为是prompt、上下文和模型推理共同决定的。没有运行时的深度可见性，任何安全策略都只能是"盲人摸象"。

1.2 从"监控输出"到"追踪推理链"

传统APM（应用性能管理）关注的是请求延迟、错误率、吞吐量——这些都是结果指标。而Agent安全需要看到的是决策过程：模型收到了什么上下文？为什么选择了这个工具而不是另一个？工具调用的参数是如何被构造的？返回的数据如何被处理？

Braintrust在其2026年AI可观测性指南中对此做了精辟的区分："传统应用监控能告诉你一个请求是否成功。AI可观测性能告诉你答案是否正确、Agent如何得出这个答案、以及这个过程是否可以改进。"

这种从"结果可见"到"过程可见"的转变，是Agent安全之所以需要可观测性作为基础的根本原因。

1.3 可观测性作为控制面（Control Plane）

一个更具野心的判断来自行业分析：到2026年，可观测性将不再仅仅是"被动的数据收集"，而是成为AI运营的控制面（control plane），承担三层功能——

运维控制：当Agent行为偏离预期模式时，遥测数据触发自动化操作（限流、回滚、隔离、升级）
安全控制：运行时信号检测异常Agent行为、未授权访问和API滥用
治理控制：可观测性数据为合规审计、可追溯性和策略执行提供证据

这三层控制中，安全控制天然嵌入在可观测性基础设施之中——而非作为一个独立的、需要额外部署的安全产品。

二、技术支撑：标准、协议与实现路径

2.1 OpenTelemetry GenAI Semantic Conventions：行业正在趋同

Agent可观测性能够成为安全基础设施，一个关键前提是采集标准的统一。如果每个Agent框架都有自己的遥测格式，安全分析就无法跨框架复用。

好消息是，OpenTelemetry正在快速推进GenAI语义规范（Semantic Conventions）。目前已定义的规范涵盖：

模型调用（Model Spans）：记录每次LLM推理请求的输入、输出、token用量、延迟
Agent调用（Agent Spans）：定义invoke_agent、create_agent等操作的标准化追踪
工具执行（Tool Spans）：追踪Agent调用工具（包括MCP工具）的完整生命周期
事件（Events）：捕获GenAI的输入输出详情、评估结果等结构化数据

OpenTelemetry社区在2025年8月提出了针对Agentic Systems的更完整语义规范提案（Issue #2664），涵盖任务（Tasks）、行动（Actions）、Agent、团队（Teams）、制品（Artifacts）和记忆（Memory）等维度的属性定义。这些规范旨在跨复杂AI工作流标准化遥测数据，改善可追溯性、可复现性和分析能力。

Datadog已经率先支持了OTel GenAI Semantic Conventions v1.37，将GenAI traces与现有的APM traces、日志、指标和运行时数据进行跨层关联。Splunk在2026年Q1正式GA了AI Agent Monitoring，Splunk将行为数据与RUM和APM的可观测性信号统一，使产品、用户体验和工程团队能够定位问题。

这意味着：Agent可观测性的数据采集正在走向标准化，安全分析可以建立在一个通用的、开放的数据格式之上。

2.2 MCP Gateway/Proxy：Agent工具调用的安全观测点

MCP（Model Context Protocol）已经成为AI Agent调用外部工具的事实标准协议，被Anthropic、OpenAI、Google、Microsoft等主流厂商采纳。这使得MCP层成为一个天然的、高价值的安全观测点。

MCP Gateway/Proxy的核心思路是在Agent（MCP Client）和工具（MCP Server）之间插入一个中间层。由于MCP是基于JSON-RPC的协议，通用的HTTP代理不足以处理——MCP Proxy必须解析和理解MCP载荷，才能确定正在调用哪个操作，并基于上下文应用控制。

这一层可以提供的安全可观测性数据包括：

工具调用审计：哪个Agent调用了哪个工具、传入什么参数、返回什么数据
异常模式检测：Agent突然调用之前从未使用的MCP Server，或调用频率异常飙升
数据流向追踪：敏感信息是否通过工具调用被外发
策略执行：基于ACL（访问控制列表）限制特定Agent对特定工具的访问权限

Gravitee 4.10引入了专门的MCP Proxy类型，支持在MCP操作级别（而非连接级别）应用网关能力，包括MCP分析、访问控制策略和请求/响应转换。MintMCP的LLM Proxy则实现了对每一次工具调用、bash命令和文件操作的监控。

从安全可观测性的角度看，MCP Gateway不仅是一个API网关，更是Agent行为审计的核心数据源。

2.3 eBPF：内核级运行时安全的基础

如果说OpenTelemetry和MCP Proxy覆盖的是Agent的"应用层"行为，那么eBPF（extended Berkeley Packet Filter）则提供了"系统层"的深度可见性。

eBPF允许在Linux内核中运行经过验证的沙箱化程序，实时拦截和分析系统调用、网络流量和进程行为，且性能开销极低。Palo Alto Networks在其AI安全博客中指出：eBPF程序在内核中以接近原生性能运行，因为它们避免了传统安全工具所需的用户空间-内核空间上下文切换的开销。通过提供对系统的深度、实时可见性，eBPF使安全工具能够在Agent行为发生时进行监控。

对于AI Agent安全场景，eBPF的独特价值在于：

对Agent无侵入：不需要修改Agent代码，就能监控其所有系统调用（文件读写、网络连接、进程创建）
Agent框架无关：无论上层跑的是OpenClaw、Manus还是其他Agent框架，系统调用层面的行为是一致的
从观测到执行：不仅能"看到"异常行为，还能通过BPF LSM（Linux Security Modules）实时阻断

Datadog Workload Protection团队在其eBPF工程实践文章中分享了五年来大规模运行eBPF安全Agent的经验。他们特别强调了eBPF的核心优势：它通过单一统一机制提供对进程、文件系统和网络活动的全面可见性。相比需要组合使用inotify、fanotify或Netlink等技术，eBPF的综合视角极其强大。

在Agent安全场景中，eBPF就是Skill运行沙箱和系统访问隔离层的底层技术基础。

三、架构构想：基于可观测性的Agent安全方案

综合以上技术方向，一个完整的"可观测性驱动的Agent安全方案"可以这样构建：

3.1 数据采集层：三层探针

探针位置	覆盖维度	核心技术	采集内容
LLM/Agent调用层	推理与决策	OTel GenAI SemConv	Prompt、Completion、Token用量、推理延迟、Agent状态转换
MCP/工具调用层	外部交互	MCP Proxy/Gateway	工具调用参数与返回值、调用频率、数据流向、认证信息
操作系统层	系统行为	eBPF	系统调用（文件/网络/进程）、权限变更、异常资源访问

三层探针的关键设计原则是Agent框架无关。 OTel SemConv提供标准化的应用层遥测格式，MCP Proxy利用协议标准化实现工具层透明采集，eBPF在内核层面完全绕过了Agent框架的差异。这意味着当市场上出现下一个"OpenClaw"级别的Agent框架时，安全方案只需要适配OTel的新instrumentation library，而不需要重新设计整套系统。

3.2 分析层：从异常检测到攻击链关联

原始的可观测性数据本身并不是安全能力——将数据转化为安全洞察才是核心价值。分析层需要处理几类安全问题：

行为基线与漂移检测——Agent的"正常行为"是什么？这比传统应用复杂得多，因为Agent行为由LLM驱动，具有内在不确定性。一种可行的思路是建立"任务类型→行为模式"的映射：比如"邮件处理任务"正常情况下应该访问邮箱API和文件系统中的附件目录，而不应该发起SSH连接或修改系统配置文件。

Prompt注入检测——通过关联LLM层（OTel数据）和工具层（MCP数据）的信息，检测Agent的行为是否与用户意图一致。例如，用户请求"整理邮箱"，但Agent开始调用文件删除工具——这种"意图-行为偏离"是prompt注入攻击的典型特征。

供应链安全分析——利用MCP Proxy层的数据，追踪Skill/Plugin的实际运行行为：它请求了哪些系统权限？访问了哪些网络端点？是否存在"安装时声明的权限"与"运行时实际行为"不一致的情况？

攻击链关联——将三层数据进行时间序列关联，把多个低置信度的单点异常串联为高置信度的攻击判定。例如：一个新安装的Skill（MCP层异常）→ 触发了非预期的系统调用（eBPF层异常）→ 随后Agent开始向外部端点发送敏感数据（网络层异常），三点关联即可高置信度判定为恶意Skill攻击。

3.3 响应层：从告警到自动化阻断

可观测性驱动的安全方案不应止步于"发现问题"。通过三层探针的执行能力，可以实现：

MCP Proxy层阻断：拒绝异常的工具调用请求
eBPF层阻断：通过BPF LSM实时阻止可疑的系统调用
Agent层干预：向Agent注入安全约束指令或强制终止会话

从被动告警到主动防御的转变，正是"可观测性成为控制面"这一趋势在安全领域的具体体现。

四、与微软Defender的对照：工业界的验证

值得关注的是，微软在2026年1月发表了一篇重要的技术博客："From Runtime Risk to Real-Time Defense: Securing AI Agents"，详细介绍了Defender如何通过webhook机制对Copilot Studio的Agent进行运行时安全检查。

其核心思路与本文论述的方向高度一致：将每一次工具调用视为高价值、高风险事件，并进行实时监控。 在任何工具、Topic或知识源操作被执行之前，编排器都会向Defender发起webhook调用，传输该操作的完整上下文（包括参数、前序编排链的输出、用户上下文和其他元数据）。Defender实时分析这些信息，评估每个操作的意图和目标，并做出放行或阻止的决定。

微软的方案本质上是一个闭源的、绑定Copilot Studio生态的"MCP安全代理"。它验证了我们的核心论点：运行时可观测性是Agent安全的必要基础设施。但它也暴露了封闭方案的局限性——只适用于微软自己的Agent框架。

开放生态需要的是一个框架无关的、基于开放标准的可观测性安全层。这正是本文所论述的方向的差异化价值。

五、商业思考：为什么"安全可观测性平台"比"安全产品"更有前景

最后聊一下这个方向的商业逻辑。

做一个OpenClaw漏洞扫描器，或者一个Skill恶意检测工具——这些都是有价值的安全产品，但它们的天花板低，容易被Agent框架自身的安全更新所替代。

而"Agent安全可观测性平台"的商业逻辑完全不同：

网络效应：接入的Agent种类和数量越多，行为基线越完善，安全检测越精准
数据飞轮：积累的运行时行为数据是核心壁垒，新进入者无法快速复制
扩展路径：从安全监测→安全防护→合规审计→治理平台，每一步都是自然的产品延伸
框架无关：不赌某一个Agent框架的成败，赌的是"Agent作为一种计算范式"的长期趋势

简单地说：安全产品卖的是"检测能力"，可观测性平台卖的是"安全视角"。前者是消耗品，后者是基础设施。

结语

Agent安全的本质挑战不在于缺少防御手段，而在于缺少对Agent运行时行为的结构化理解。当你能够完整地看到一个Agent在做什么、为什么这样做、通过什么路径做、产生了什么系统级影响，安全策略才有据可依，安全响应才有的放矢。

可观测性不是Agent安全的全部，但它是Agent安全的第一性原理——没有它，一切安全能力都是空中楼阁。

行业标准（OpenTelemetry GenAI SemConv）、协议基础（MCP）和底层技术（eBPF）的成熟，正在让"通用Agent安全可观测性层"从构想变为现实。在Agent框架快速迭代的混沌期，占住框架之下、操作系统之上的这个安全观测位，可能是未来几年最有结构性价值的技术投资。

参考资料

OpenTelemetry, "AI Agent Observability - Evolving Standards and Best Practices", opentelemetry.io, 2025
OpenTelemetry, "Semantic Conventions for GenAI Agent and Framework Spans", opentelemetry.io
OpenTelemetry Semantic Conventions, Issue #2664: "Semantic Conventions for Generative AI Agentic Systems", GitHub, 2025
Datadog, "LLM Observability natively supports OpenTelemetry GenAI Semantic Conventions", datadoghq.com, 2025
Splunk, "Observability Update Q1 2026: AI Agent Monitoring and Digital Experience Innovations", splunk.com, 2026
Arize AI, "Best AI Observability Tools for Autonomous Agents in 2026", arize.com, 2026
Braintrust, "AI observability tools: A buyer's guide to monitoring AI agents in production", braintrust.dev, 2026
EfficientlyConnected, "2026 Prediction: Observability Becomes the Control Plane for AI", 2025
Obsidian Security, "The 2025 AI Agent Security Landscape: Players, Trends, and Risks", obsidiansecurity.com, 2026
Gravitee, "State of AI Agent Security 2026 Report", gravitee.io, 2026
Gravitee, "MCP Proxy: Unified Governance for Agents Tools", gravitee.io, 2026
Microsoft Security Blog, "From Runtime Risk to Real-Time Defense: Securing AI Agents", microsoft.com, 2026
Palo Alto Networks, "Beginner's Guide to AI Security with eBPF", paloaltonetworks.com, 2025
Datadog, "Hardening eBPF for Runtime Security: Lessons from Workload Protection", datadoghq.com, 2026
AccuKnox, "Top 10 AI Security Platforms in 2026", accuknox.com, 2026
Clustox, "AI Agent Security: What CTOs Must Know for Secure AI Deployment in 2026", clustox.com, 2026
MintMCP, "AI Agent Security: The Complete Enterprise Guide for 2026", mintmcp.com, 2026
Composio, "MCP Gateways: A Developer's Guide to AI Agent Architecture in 2026", composio.dev