AI代理零信任安全架构对比本文深入分析了AI代理安全领域的两大新兴架构：Anthropic的托管代理通过将大脑与执行环境

在RSAC 2026大会上，多家机构（原微软、思科等）的高管一致指出，零信任原则必须扩展到AI领域。当前企业默认的AI代理模式是单体容器：模型推理、工具调用、代码执行和凭证存储全部运行在同一进程中，每个组件互相信任。提示注入攻击可导致攻击者获取全部权限，包括OAuth令牌、API密钥等，爆炸半径覆盖整个容器及所有连接的服务。

Anthropic的托管代理（2026年4月8日公测）将每个代理拆分为三个互不信任的组件：

大脑：Claude模型及路由决策的框架
双手：执行代码的一次性Linux容器
会话：独立于大脑和双手之外的仅追加事件日志

凭证从不进入沙箱。Anthropic将OAuth令牌存储在外置保险库中。代理需要调用MCP工具时，会将会话绑定令牌发送给专用代理，由代理从保险库获取真实凭证并完成外部调用，代理本身永远看不到实际令牌。这带来一个安全增益：被攻破的沙箱无法提供攻击者可重用的任何信息。同时，该设计也带来了性能提升——中位首令牌时间下降约60%。定价为每活动会话小时0.08美元（空闲时间不计费）。

Nvidia的NemoClaw（2026年3月16日预览版）采取相反思路：不分离代理与执行环境，而是在整个代理外围堆叠四层安全机制并监控每一步行动：

沙箱执行：内核级使用Landlock、seccomp和网络命名空间隔离
默认拒绝出站网络：所有外部连接需通过基于YAML策略的显式操作员批准
最小权限运行
隐私路由：敏感查询定向到本地运行的Nemotron模型
意图验证：OpenShell的策略引擎在执行前拦截每个代理动作

最强的是可观测性：实时终端UI记录每一个动作、每一次网络请求、每一个被阻止的连接。但成本是操作员负载随代理活动线性增长。代理状态作为文件保存在沙箱内部，沙箱失效则状态丢失，无外部会话恢复机制。

核心差距在于凭证与执行环境的距离：

Anthropic将凭证完全移出爆炸半径。攻击者通过提示注入攻破沙箱后，获得的只是一个没有令牌、没有持久状态的一次性容器。凭证外泄需要两跳攻击，单跳外泄在结构上被消除。
NemoClaw约束爆炸半径并监控内部每个动作，但代理与生成的代码共享同一沙箱。消息和集成令牌（Telegram、Slack等）作为运行时环境变量注入沙箱。凭证受策略门控，而非结构上移除。

对于间接提示注入（对手将指令嵌入代理正常查询的内容中），Anthropic架构下注入内容可影响推理但无法触及凭证保险库；NemoClaw架构下注入上下文与推理、执行共享同一沙箱。

企业审计清单：

审计每个已部署代理是否为单体模式，标记在执行环境中持有OAuth令牌的代理
在代理部署RFP中要求凭证隔离，明确厂商是通过结构移除还是策略门控实现
在生产前测试会话恢复能力：杀死任务中沙箱，验证状态是否幸存
为可观测性模型配备人员
追踪厂商对间接提示注入的路线图承诺FINISHED