AI代理零信任安全架构对比

0 阅读3分钟

在RSAC 2026大会上,多家机构(原微软、思科等)的高管一致指出,零信任原则必须扩展到AI领域。当前企业默认的AI代理模式是单体容器:模型推理、工具调用、代码执行和凭证存储全部运行在同一进程中,每个组件互相信任。提示注入攻击可导致攻击者获取全部权限,包括OAuth令牌、API密钥等,爆炸半径覆盖整个容器及所有连接的服务。

Anthropic的托管代理(2026年4月8日公测)将每个代理拆分为三个互不信任的组件:

  • 大脑:Claude模型及路由决策的框架
  • 双手:执行代码的一次性Linux容器
  • 会话:独立于大脑和双手之外的仅追加事件日志

凭证从不进入沙箱。Anthropic将OAuth令牌存储在外置保险库中。代理需要调用MCP工具时,会将会话绑定令牌发送给专用代理,由代理从保险库获取真实凭证并完成外部调用,代理本身永远看不到实际令牌。这带来一个安全增益:被攻破的沙箱无法提供攻击者可重用的任何信息。同时,该设计也带来了性能提升——中位首令牌时间下降约60%。定价为每活动会话小时0.08美元(空闲时间不计费)。

Nvidia的NemoClaw(2026年3月16日预览版)采取相反思路:不分离代理与执行环境,而是在整个代理外围堆叠四层安全机制并监控每一步行动:

  • 沙箱执行:内核级使用Landlock、seccomp和网络命名空间隔离
  • 默认拒绝出站网络:所有外部连接需通过基于YAML策略的显式操作员批准
  • 最小权限运行
  • 隐私路由:敏感查询定向到本地运行的Nemotron模型
  • 意图验证:OpenShell的策略引擎在执行前拦截每个代理动作

最强的是可观测性:实时终端UI记录每一个动作、每一次网络请求、每一个被阻止的连接。但成本是操作员负载随代理活动线性增长。代理状态作为文件保存在沙箱内部,沙箱失效则状态丢失,无外部会话恢复机制。

核心差距在于凭证与执行环境的距离

  • Anthropic将凭证完全移出爆炸半径。攻击者通过提示注入攻破沙箱后,获得的只是一个没有令牌、没有持久状态的一次性容器。凭证外泄需要两跳攻击,单跳外泄在结构上被消除。
  • NemoClaw约束爆炸半径并监控内部每个动作,但代理与生成的代码共享同一沙箱。消息和集成令牌(Telegram、Slack等)作为运行时环境变量注入沙箱。凭证受策略门控,而非结构上移除。

对于间接提示注入(对手将指令嵌入代理正常查询的内容中),Anthropic架构下注入内容可影响推理但无法触及凭证保险库;NemoClaw架构下注入上下文与推理、执行共享同一沙箱。

企业审计清单

  1. 审计每个已部署代理是否为单体模式,标记在执行环境中持有OAuth令牌的代理
  2. 在代理部署RFP中要求凭证隔离,明确厂商是通过结构移除还是策略门控实现
  3. 在生产前测试会话恢复能力:杀死任务中沙箱,验证状态是否幸存
  4. 为可观测性模型配备人员
  5. 追踪厂商对间接提示注入的路线图承诺FINISHED