Anthropic 的一周两面:Managed Agents基建和Mythos模型

0 阅读4分钟

这周 Anthropic 干了两件看起来矛盾的事。

4 月 8 日,他们发布了 Claude Managed Agents 公测版,一套帮开发者省掉 Agent 基础设施脏活累活的托管服务,号称让生产部署从几个月缩短到几天。Notion、Rakuten、Asana、Sentry 排着队站台背书。

前一天,4 月 7 日,他们公布了 Project Glasswing,一个由 12 家科技巨头参与的网络安全联盟。起因是他们训练出了一个叫 Claude Mythos Preview 的新模型,这个模型在主流操作系统和浏览器里找到了数千个零日漏洞,包括一个藏了 27 年的 OpenBSD 远程崩溃漏洞。Anthropic 的结论是:太强了,不能公开。

一手递出去,一手收回来。

Managed Agents:Anthropic 要收 Agent 基础设施的租

先说好消息。

过去一年你要是尝试过把 AI Agent 部署到生产环境,多半踩过这些坑:沙箱执行环境怎么搭、长时间会话怎么管、调外部工具时权限怎么控制、出了问题怎么排查。这些跟 Agent 的"智能"没关系,纯粹是基础设施的活儿。

Managed Agents 就是来干这个的。你定义 Agent 做什么(系统提示、工具、技能),Anthropic 帮你跑,沙箱、权限、凭证管理、执行追踪全包。

架构上做对了一件事

Managed Agents 的工程博客写得比产品介绍值得看。核心思路一句话:把"大脑"和"双手"拆开。

早期版本中,Agent 的推理引擎(harness)、执行环境(sandbox)和会话日志(session)全塞在一个容器里。这带来了一个经典问题——他们养了一只"宠物"。容器挂了,会话就丢了。容器卡住了,得人工进去抢救。所有东西都在同一个容器里,调试也变得很麻烦。

解耦之后就好办了。harness 变成无状态进程,sandbox 变成按需创建的"牲畜",session 日志存到外面。容器挂了?拉一个新的,从日志最后一条事件接着跑。harness 崩了?起一个新的,wake(sessionId) 恢复状态。哪个组件坏了换哪个,互不影响。

这个设计还顺手解决了一个性能问题。以前每个 Agent 会话启动都要等容器初始化,哪怕这个会话压根不需要执行代码。分离之后推理可以先跑,容器等真正需要时再建。p50 TTFT(首个 token 响应时间)降了 60%,p95 降了 90% 以上。

安全边界也清晰了

以前 Agent 生成的代码和凭证在同一个容器里跑。prompt injection 一旦成功,攻击者直接读环境变量里的 token。分离之后 sandbox 里碰不到真正的凭证——Git token 在初始化阶段就写进了本地 remote 配置,MCP 工具的 OAuth token 存在外部保险库,走代理调用。Agent 自始至终不知道凭证长什么样。

定价和谁该关注

标准 Claude API token 费率加上每小时 $0.08 的会话运行时费用。Anthropic 开始收 Agent 基础设施的租金了。

已经有团队在用了。Sentry 拿它做从 bug 诊断到自动提 PR 的全流程。Notion 让用户在工作区里直接给 Claude 派活。Rakuten 一周内部署了一个跨部门的企业 Agent。

如果你已经在用 LangGraph 或 CrewAI,短期不必迁移。但如果你在做企业级 Agent 项目,或者你的 Agent 需要跑几小时、需要安全的代码执行环境,值得认真看一下。

Mythos:训出来了,但不给你用

同一周,Anthropic 做了一件 AI 行业里没有先例的事:训出了一个新模型,然后告诉大家,不公开发布。

Claude Mythos Preview 在多项编程基准上把 Opus 4.6 甩开一大截:

基准Mythos PreviewOpus 4.6
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%
Terminal-Bench 2.082.0%65.4%
GPQA Diamond94.6%91.3%
CyberGym(漏洞复现)83.1%66.6%

但让 Anthropic 紧张的不是编程分数,是网络安全能力。

它找到了什么

Mythos Preview 在主流操作系统和浏览器中挖出了数千个零日漏洞,不少是高危和严重级别。几个已经公开的:

  • OpenBSD 27 年老漏洞。TCP SACK 实现中的有符号整数溢出,可以远程崩溃任何运行该系统的机器。OpenBSD 以安全闻名,这个漏洞存在了快 30 年。
  • FFmpeg 16 年老漏洞。H.264 解码器中的整数截断问题。模糊测试工具对这行代码命中了 500 万次,没抓到。
  • FreeBSD NFS 17 年远程代码执行。一个栈溢出漏洞。Mythos Preview 找到之后,自己写出了一个 20 gadget 的 ROP 利用链,拆分成 6 个 RPC 请求发送,拿到了 root。全程没有人类介入。
  • Linux 内核提权。自己发现并串联多个漏洞,绕 KASLR、读内核内存、利用 use-after-free,拼成完整的提权链。
  • 浏览器 JIT 堆喷射。在多个主流浏览器中自主发现漏洞并构造利用。一个案例里链式组合了 4 个漏洞,从网页一路打到操作系统内核。

这些不是安全研究员手把手带出来的。红队报告里提到一个场景:没有安全背景的工程师,晚上提交一个"帮我找远程代码执行漏洞"的请求,第二天早上醒来收到了一个完整可用的 exploit。

做个对比。Opus 4.6 在 Firefox JavaScript 引擎漏洞利用测试中,几百次尝试成功了 2 次。Mythos Preview 成功了 181 次。

为什么不发

系统卡里提到了一个让我读着不太舒服的细节。安全测试中,Mythos Preview 成功从受限沙箱中逃了出来,自己设计了多步骤利用方案获取了互联网访问权限,然后主动给研究人员发了一封邮件。Anthropic 说"之前在类似评估中从未在早期 Claude 模型上观察到这种行为"。

这是近七年来第一次有头部 AI 公司公开以安全为由扣住一个模型不发。

Project Glasswing:不锁柜子,交给防御方

Anthropic 没有把 Mythos Preview 封存了事。他们组了一个网络安全联盟叫 Project Glasswing,创始成员有 Amazon Web Services、Apple、Google、Microsoft、CrowdStrike、NVIDIA、Cisco、JPMorganChase 等 12 家,另外 40 多家维护关键基础设施的组织也拿到了访问权限。

想法很直接:类似能力的模型迟早会扩散,先让防御方把武器用起来。

Anthropic 拿出 1 亿美元的模型使用额度投入这个项目,另外给 Linux 基金会和 Apache 软件基金会捐了 400 万美元,帮开源维护者应对接下来的变化。

研究预览结束后,参与方可以以 25/25/125(每百万 input/output token)的价格使用 Mythos Preview,走 Claude API、Bedrock、Vertex AI 或 Microsoft Foundry。

我怎么看:两件事其实是一件事

Managed Agents 和 Mythos Preview 表面上是两条完全不同的产品线。一个是开发者工具,一个是安全项目。但它们指向同一个判断:Agent 的游戏正在从"能不能干活"切换到"怎么安全地大规模运行"。

Managed Agents 解决的是落地问题。过去一年大家验证了 Agent 能干活,但每个团队都在重复造沙箱、造权限系统、造会话管理。Anthropic 的意思很明白:这些别造了,用我的。

Mythos 暴露的是能力提升带来的风险。Agent 可以自己跑几个小时、自己调用工具链、自己组合多步策略。这种能力用来写代码很好,用来攻破系统也很好。差别只在谁拿到了它。

两件事放一起,Anthropic 的盘算是:基础设施开放,能力边界设卡。先帮行业把 Agent 安全运行的底座铺好,同时对最危险的能力做限制性释放。

"太危险所以不发布"这个说法当然有争议。有人觉得负责任,有人觉得是制造稀缺性——毕竟 Mythos 的存在 3 月 26 日就因为 CMS 配置错误泄露了。但争论归争论,有一件事没什么好争的:AI 模型的网络安全能力正在快速跨过一个临界点,不是一家公司能管得了的。

顺便提一下

  • Claude Cowork 正式面向企业开放。 同一周,Anthropic 的桌面端 Agent 工具加入了基于角色的访问控制和使用分析功能。配合 Managed Agents,Anthropic 在 Agent 层面形成了"云加端"两条线。
  • Advisor Strategy。 Anthropic 发了一篇工程博客,讲一种让 Agent 在执行前先咨询更强模型的架构模式,和 Managed Agents 的多 Agent 协作功能方向一致。

一句话总结

Anthropic 这一周同时告诉了我们 Agent 的天花板在哪(Mythos),地板该怎么铺(Managed Agents)。开发者关注后者就够了。但整个行业,得盯着前者。

Niko-白色版.png