5月7号晚上,我看完 Claude Code 那个 RCE 分析后,脑子里突然蹦出来一个词:
Runtime。
我后来甚至没太关注漏洞细节。
因为我发现,这次真正暴露的问题已经不是:
"模型会不会答错。"
而是:
Agent 到底被允许做什么。
这甚至不算传统意义上的漏洞
TrustFall 最大的问题在于:
它默认 Agent "信任当前开发环境"。
这在传统 IDE 时代没什么问题。
因为人类开发者知道:
- 哪段代码是自己写的
- 哪个依赖值得信任
- 哪个脚本不该执行
但 Agent 不知道。
它看到的只是:
这是一个可调用工具链路。
于是:
- install
- execute
- run script
- modify env
全部自动完成。
问题来了。
如果 repo 里混入恶意依赖,或者 prompt 中诱导执行特定代码,
Agent 根本分不清:
这是用户代码,
还是攻击者代码。
我突然想到容器安全早期那几年
2015年前后,Docker 开始爆发。
那几年整个行业都很兴奋:
- 部署更快
- 环境更统一
- 自动化更强
然后很快大家发现:
容器真正危险的地方,不是"能不能运行"。
而是:
它到底拥有多少权限。
后来行业慢慢开始强调:
- sandbox
- capability
本质都在解决同一个问题:
默认信任是不成立的。
现在的 AI Agent,我感觉正在重演这一段历史。
Agent Runtime 正在进入"权限时代"
过去一年,大部分讨论还停留在:
- Prompt Engineering
- RAG
- Tool Calling
- Workflow
但 Claude Code 这次暴露的问题不一样。
它说明:
Agent 已经开始真正修改环境了。
包括:
- 执行代码
- 修改文件
- 安装依赖
- 调用系统工具
- 操作浏览器
- 使用终端
这时候,问题已经从:
"回答对不对"
变成:
"这个动作该不该被允许"
这是 Runtime 权限模型问题。
为什么传统 Eval 几乎测不出来
这是我最近越来越强烈的一个感觉。
很多 Agent Eval,本质上还在测:
- task success
- answer correctness
- benchmark score
- tool success rate
但真实 Runtime 风险,往往发生在:
任务完成的过程中。
比如:
Agent 成功完成任务了。
但过程中:
- 执行了恶意依赖
- 修改了不该修改的文件
- 泄露了环境变量
- 调用了高权限工具
传统 Eval 依然会给:
PASS。
因为:
任务完成了。
我最近看一些 Agent 评测时,会明显感觉到:
行业现在其实还在"功能正确性"阶段。
但 Runtime 风险已经开始进入生产环境了。
Retry / Recovery 为什么救不了
这也是很多团队现在容易误判的地方。
大家越来越喜欢:
- retry
- self-healing
- checkpoint
- recovery
但这些机制修复的,大多是:
- timeout
- network failure
- tool unavailable
修复不了:
"错误权限已经被执行"。
因为 RCE 一旦发生:
- 环境已经被污染
- 文件已经被修改
- secret 可能已经泄露
这时候 retry 只是在受损状态上继续运行。
未来的 Eval 会越来越像 Runtime 安全测试
我现在越来越觉得:
2026 年之后,AI Eval 很可能会发生一次大转向。
过去:
Eval 测的是:
Agent 能做什么。
未来:
Eval 更重要的是:
Agent 在什么情况下不该做。
这会直接改变整个评测体系。
比如未来高价值评测集,很可能会开始包含:
- 恶意依赖注入
- Prompt Injection
- 权限越界
- Tool Trust Drift
- 环境污染
- Supply Chain Payload
而不是只有:
- QA
- 数学题
- benchmark score
Browser Agent 那个 45x Token,其实也是同一个问题
今天还有另一个新闻:
Browser Agent 操控网页,token 消耗比 API 路径高 45 倍。
很多人把它理解成"效率问题"。
但我感觉本质也类似。
很多 Agent Runtime 现在的问题,不是能力不足。
而是:
上下文和权限边界失控。
Agent 拿到了太多:
"不该看到的信息。"
我现在越来越不相信"全自动 Agent"
这两个月看了越来越多 Agent 事故后,我有个明显感觉:
Agent 最大的问题,
已经不是能力不够。
而是:
Runtime 边界太模糊。
尤其 AI 编程 Agent。
因为它天然拥有:
- 文件系统
- shell
- package manager
- browser
- network
这已经非常接近真实操作系统权限了。
但行业现在的安全体系,还远远没跟上。
最后
过去几年,AI 行业一直在讨论:
模型什么时候超过人类。
但最近越来越多问题开始变成:
Agent 到底应该被允许做什么。
我现在越来越怀疑:
AI Agent 后面真正的竞争点,
可能已经不是模型能力。
而是谁先建立 Runtime 的边界。
关注「runtime质量论」—— agent runtime quality/AI reliability /Eval infra一线实践者、观察员。