Anthropic 官方 Harness 发布:全面解读 Managed Agents

0 阅读8分钟

Anthropic 官方 Harness 发布:全面解读 Managed Agents

写在前面

Anthropic 发布 Claude Managed Agents 的同时,配套发了一篇工程博客,标题叫「Scaling Managed Agents: Decoupling the brain from the hands」。

产品博客讲的是"你能用它做什么",工程博客讲的是"为什么要这样设计"。两篇放在一起,才能看清楚这次发布真正在做的事。

表面上是一个 Agent 托管平台,本质上是 Anthropic 产品形态的一次质变:它不再只是卖模型的,开始卖跑 Agent 的基础设施了。从「模型提供商」到「Agent 基础设施提供商」,这个转变值得细说。


企业自己搭 Agent,这条路有多难走

在 Managed Agents 之前,如果一家企业想基于 Claude 做一个能真正在生产环境里用的 Agent,它需要自己解决一堆问题:

沙箱怎么隔离、容器怎么管、状态存在哪、上下文超了怎么办、Agent 中途崩了怎么恢复、多个工具并发调用怎么协调、权限怎么收敛……

这些基础设施工作,有时候比 Agent 本身的业务逻辑还要重。很多团队被卡在这里,从 demo 到真正上线,中间那段路上倒下的项目不计其数——不是模型不够好,是基础设施太难搭。

Managed Agents 要填的就是这个空。


技术架构:把大脑和手分开

这是这次发布中最值得细读的部分。

Anthropic 工程博客的核心观点可以用一句话概括:

Harness 编码的是模型做不到什么的假设,这些假设会过时。

具体什么意思?举个例子:Sonnet 4.5 在接近上下文限制时会提前收工,Anthropic 在 Harness 里加了上下文重置来应对,这个行为他们叫「context anxiety」。但换到 Opus 4.5 之后,这个焦虑消失了,之前加的重置逻辑反而变成了多余的负担。

这说明一个问题:如果 Harness 的实现跟某个模型的特定行为深度绑定,每次模型升级就得跟着改 Harness。所以他们的设计目标是:为「尚未想到的程序」设计系统,就像操作系统通过虚拟化硬件来支持还不存在的程序一样——接口比实现活得久。

三层虚拟化

Managed Agents 把 Agent 的运行拆成三个解耦的接口:

  • • Session(会话):所有事件的追加写入日志,持久存储在 Harness 之外

  • • Harness(编排循环):调用 Claude、把 Claude 的工具调用路由到对应基础设施的循环

  • • Sandbox(执行环境):Claude 可以在里面跑代码和编辑文件的容器

三者互相独立,任何一个出故障或需要替换,都不影响其他两个。

从宠物到牲畜

最早的设计把所有组件放在一个容器里,文件操作是直接系统调用,没有服务边界,看起来很省事。但坏处是:容器变成了一只「宠物」——宠物坏了你得救它,不能直接换。

耦合 vs 解耦:从宠物到牲畜

解耦之后,容器变成了「牲畜」。Harness 通过统一接口 execute(name, input) → string 调用容器,就像调用其他工具一样。容器挂了,Harness 捕获错误传给 Claude,Claude 决定是否重试,重试起一个新容器就行。

Harness 本身也变成了牲畜。Session 日志存在 Harness 之外,Harness 崩溃什么都不丢。新的 Harness 实例通过 wake(sessionId) 启动,从上次停下的地方继续。

安全边界也因此变干净了。之前耦合设计里,Claude 生成的不可信代码跟凭证在同一个容器里。解耦后,凭证永远不进沙箱——Git 令牌在初始化时写入本地 remote,Agent 不经手;OAuth 令牌存在安全保管库,通过代理调用。

Session 不是上下文窗口

长任务经常超出模型的上下文窗口,常规的做法是压缩、裁剪、总结——但这些都是不可逆操作,可能把后面用得上的信息丢掉。

Session 与上下文窗口的关系

Managed Agents 的解法是:Session 作为一个独立的、持久化的上下文对象存在于上下文窗口之外。Harness 通过 getEvents() 按需取回事件流的切片,可以回到特定时刻之前重读上下文,不需要一次性全塞进去。

解耦带来的性能提升

解耦之前,Harness 在容器里,每个 Agent 会话都要等容器起好才能开始推理。解耦之后,推理可以在容器启动之前就开始。

结果是:p50 首 token 时延(TTFT)下降约 60%,p95 下降超过 90%。

多大脑多双手

因为「手」(工具调用)不绑定特定「大脑」,大脑之间可以互相传递手,多个 Agent 可以共享同一批工具接口。Anthropic 把这套架构叫 meta-harness:不对具体的 Harness 实现做假设,只对 Claude 需要的接口形状做假设。


谁在用,用出了什么结果

  • • Rakuten:五个部门接入,Agent 通过 Slack 和 Teams 接活,每个专项 Agent 一周内部署完成

  • • Sentry:原有调试 Agent(Seer)负责分析根因,现在接上了后半段——Claude 写补丁、开 PR,整个集成从零到上线只用了几周,而非原预估的几个月

  • • Notion:数十个任务并行,工程师用它写代码,知识工作者用它生成网页和 PPT

  • • Asana:构建了 AI Teammates,在项目管理流程里跟人类并肩接任务

  • • Atlassian:把 Agent 接进了 Jira 工作流,用户可以在 Jira 中直接把任务分配给 Agent

Notion 产品经理 Eric Liu 的说法:

「我们希望 Notion 成为团队与 Agent 协作、把事情做完的最佳场所。Claude Managed Agents 能处理长时间运行的 Session、管理记忆、持续输出高质量结果。」


Managed Agents 是什么,怎么用,怎么收费

Claude Managed Agents 是一套可组合的 API,用于在云上构建和部署长时间运行的 AI Agent。它的核心不是模型本身,而是围绕模型的那套执行层——沙箱、状态管理、权限控制、错误恢复全部托管,你只需要定义 Agent 要干什么。

能力清单:

  • • 生产级沙箱:云容器预装 Python、Node.js、Go,支持网络访问规则配置和文件挂载

  • • 长时间 Session:Agent 自主运行几小时,断连自动恢复,进度持久化

  • • 内置 Harness:自动处理工具调用决策、上下文管理、错误恢复,内置 prompt caching 和 compaction 优化

  • • 治理工具:作用域权限、身份管理、执行追踪,Claude Console 内置 Session 分析,每一个工具调用和决策点都可查

研究预览阶段(需单独申请):

  • • outcomes:定义成功标准,让 Agent 自我评估迭代。内部测试中结构化文件生成任务成功率比标准 prompting 提高最多 10 个百分点,在难题上提升最明显

  • • multiagent:一个 Agent 启动其他 Agent,分配子任务并行处理

  • • memory:跨 Session 的持久记忆

定价:

  • • 标准 Claude Platform token 费率

  • • 活跃 Session 运行时 $0.08/小时(按毫秒计量,等待用户输入或工具返回的空闲时间不计费)

  • • Web 搜索 $10/千次

接入时带上 beta header `managed-agents-2026-04-01`,官方 SDK 自动处理。同期上线的 `ant` CLI 提供命令行接入方式,支持 YAML 管理 API 资源版本。

不过对国内开发者来说,官方渠道需要海外信用卡,网络环境也要折腾。
如果想省事,可以看看 Code80,真实订阅帐号转 API,换个 endpoint 就能用,体验跟官方一样。
详情:code.ai80.vip

几个值得关注的信号

这次发布放在更大的时间线里看会更清晰。

4 月 4 日,Anthropic 收紧了第三方 Agent 的访问通道;4 月 7 日发布 Mythos,展示最强模型能力;4 月 8 日发布 Managed Agents。三天三个动作,商业闭环形成。

更根本的变化是收入模式。Token 收入跟模型使用量挂钩,session-hour 收入跟 Agent 运行时长挂钩——后者是一个更稳定、更可预测的收入流。$0.08/session-hour 意味着 Anthropic 开始在 token 之外赚钱了。


常见问题

Q:Managed Agents 和自己用 Messages API 搭 Agent 有什么本质区别?

A:Messages API 给你原始模型调用能力,基础设施完全自建;Managed Agents 是把执行层托管了——沙箱、Session 持久化、错误恢复、权限管理全由 Anthropic 的云处理。适合需要跑几十分钟甚至几小时的长时异步任务。

Q:Harness 是什么,跟普通的 Agent 循环有什么不同?

A:Harness 是 Anthropic 调优过的编排循环,自动处理工具调用决策、上下文管理和错误恢复,并随模型能力升级自动演进。普通 Agent 循环是你自己写的,Harness 升级带来的性能改善你直接受益,不用改代码。

Q:Session 和上下文窗口是同一个东西吗?

A:不是。上下文窗口是模型单次推理能看到的内容;Session 是存在上下文窗口之外的持久化事件日志。Harness 通过 getEvents() 按需从 Session 里取切片,解决了长任务超出上下文窗口的问题。

Q:p50 TTFT 下降 60%、p95 下降 90% 是怎么来的?

A:来自解耦架构的优化。之前 Harness 在容器里,必须等容器起好才能开始推理;解耦之后,推理在容器启动之前就可以开始,所以首 token 时延大幅降低,尤其在长尾(p95)上效果更明显。

Q:国内开发者怎么接入 Claude API?

A:官方渠道需要海外信用卡和稳定网络。国内用户可以通过 Code80 更方便地使用。