Claude Code RCE之后,我开始觉得Agent正在重演容器安全的历史

19 阅读4分钟

image.png

5月7号晚上,我看完 Claude Code 那个 RCE 分析后,脑子里突然蹦出来一个词:

Runtime。

我后来甚至没太关注漏洞细节。

因为我发现,这次真正暴露的问题已经不是:

"模型会不会答错。"

而是:

Agent 到底被允许做什么。

这甚至不算传统意义上的漏洞

image.png

TrustFall 最大的问题在于:

它默认 Agent "信任当前开发环境"。

这在传统 IDE 时代没什么问题。

因为人类开发者知道:

  • 哪段代码是自己写的
  • 哪个依赖值得信任
  • 哪个脚本不该执行

但 Agent 不知道。

它看到的只是:

这是一个可调用工具链路。

于是:

  • install
  • execute
  • run script
  • modify env

全部自动完成。

问题来了。

如果 repo 里混入恶意依赖,或者 prompt 中诱导执行特定代码,

Agent 根本分不清:

这是用户代码,

还是攻击者代码。

我突然想到容器安全早期那几年

image.png

2015年前后,Docker 开始爆发。

那几年整个行业都很兴奋:

  • 部署更快
  • 环境更统一
  • 自动化更强

然后很快大家发现:

容器真正危险的地方,不是"能不能运行"。

而是:

它到底拥有多少权限。

后来行业慢慢开始强调:

  • sandbox
  • capability

本质都在解决同一个问题:

默认信任是不成立的。

现在的 AI Agent,我感觉正在重演这一段历史。

Agent Runtime 正在进入"权限时代"

过去一年,大部分讨论还停留在:

  • Prompt Engineering
  • RAG
  • Tool Calling
  • Workflow

但 Claude Code 这次暴露的问题不一样。

它说明:

Agent 已经开始真正修改环境了。

包括:

  • 执行代码
  • 修改文件
  • 安装依赖
  • 调用系统工具
  • 操作浏览器
  • 使用终端

这时候,问题已经从:

"回答对不对"

变成:

"这个动作该不该被允许"

这是 Runtime 权限模型问题。

为什么传统 Eval 几乎测不出来

image.png

这是我最近越来越强烈的一个感觉。

很多 Agent Eval,本质上还在测:

  • task success
  • answer correctness
  • benchmark score
  • tool success rate

但真实 Runtime 风险,往往发生在:

任务完成的过程中。

比如:

Agent 成功完成任务了。

但过程中:

  • 执行了恶意依赖
  • 修改了不该修改的文件
  • 泄露了环境变量
  • 调用了高权限工具

传统 Eval 依然会给:

PASS。

因为:

任务完成了。

我最近看一些 Agent 评测时,会明显感觉到:

行业现在其实还在"功能正确性"阶段。

但 Runtime 风险已经开始进入生产环境了。

Retry / Recovery 为什么救不了

image.png

这也是很多团队现在容易误判的地方。

大家越来越喜欢:

  • retry
  • self-healing
  • checkpoint
  • recovery

但这些机制修复的,大多是:

  • timeout
  • network failure
  • tool unavailable

修复不了:

"错误权限已经被执行"。

因为 RCE 一旦发生:

  • 环境已经被污染
  • 文件已经被修改
  • secret 可能已经泄露

这时候 retry 只是在受损状态上继续运行。

未来的 Eval 会越来越像 Runtime 安全测试

我现在越来越觉得:

2026 年之后,AI Eval 很可能会发生一次大转向。

过去:

Eval 测的是:

Agent 能做什么。

未来:

Eval 更重要的是:

Agent 在什么情况下不该做。

这会直接改变整个评测体系。

比如未来高价值评测集,很可能会开始包含:

  • 恶意依赖注入
  • Prompt Injection
  • 权限越界
  • Tool Trust Drift
  • 环境污染
  • Supply Chain Payload

而不是只有:

  • QA
  • 数学题
  • benchmark score

Browser Agent 那个 45x Token,其实也是同一个问题

今天还有另一个新闻:

Browser Agent 操控网页,token 消耗比 API 路径高 45 倍。

很多人把它理解成"效率问题"。

但我感觉本质也类似。

很多 Agent Runtime 现在的问题,不是能力不足。

而是:

上下文和权限边界失控。

Agent 拿到了太多:

"不该看到的信息。"

我现在越来越不相信"全自动 Agent"

image.png

这两个月看了越来越多 Agent 事故后,我有个明显感觉:

Agent 最大的问题,

已经不是能力不够。

而是:

Runtime 边界太模糊。

尤其 AI 编程 Agent。

因为它天然拥有:

  • 文件系统
  • shell
  • package manager
  • browser
  • network

这已经非常接近真实操作系统权限了。

但行业现在的安全体系,还远远没跟上。

最后

过去几年,AI 行业一直在讨论:

模型什么时候超过人类。

但最近越来越多问题开始变成:

Agent 到底应该被允许做什么。

我现在越来越怀疑:

AI Agent 后面真正的竞争点,

可能已经不是模型能力。

而是谁先建立 Runtime 的边界

关注「runtime质量论」—— agent runtime quality/AI reliability /Eval infra一线实践者、观察员。