Harness：Anthropic给AI编程套上的“马具”最近，Anthropic发布Harness后，各种媒体不断散

最近，Anthropic发布Harness后， 各种媒体不断散播焦虑情绪，有人说一批创业公司要消失了，焦虑的情绪在蔓延，也成功吸引我关注，我很好奇，决定了解一下，下面把我的了解和分析总结给大家分享。

Harness到底是什么？它解决了什么问题？和Claude Code是什么关系？

一、Harness是什么？

先给一个最直白的定义：Harness是Claude Code的一个底层功能模块。

它原本不是独立产品，也不是新模型。它是让Claude Code能够“长时间稳定运行”的那套基础设施。

“Harness”这个英文单词，原意是“马具”——套在马身上用来拉车的那套装备。做个类比：一匹马，力气很大，能跑很快。但如果没有马具，它就是一匹野马，很难让它帮你拉车、耕地。Harness就是类似Claude Code上面的一个“马具”，而马就是背后的大模型。

马具的作用，就是把马的力量“驯化”成有用的劳动力。

Anthropic给他们的框架取名Harness，就是这个意思。Claude很强，但直接让它干“连续工作几个小时”的活，会出问题。Harness就是那套“马具”，把它的能力“驯化”成可以长时间稳定工作的劳动力。

简单说：Harness解决的是“怎么让AI长时间稳定干活”的工程问题。

根据Anthropic官方公布的设计，Harness采用的是三代理架构，三个角色各自独立：

代理角色	职责	本质
规划代理（Planner）	把一句话需求扩展成详细的技术规格，拆解任务	独立的Agent
生成代理（Generator）	干活的人——写代码、做设计、执行操作	独立的Agent
评估代理（Evaluator）	挑刺的人——检查质量、打分、提意见	独立的Agent

三个代理各司其职，通过结构化的交接文件串联起来，形成一个完整的协作流程，就像人与人之间的工作交接文件一样。

从机制上看，Harness的核心是一个多智能体协同框架——它不只有一个AI在工作，而是多个AI各司其职、协同配合。

2026年4月3日，Anthropic公开了Harness的完整设计。

五天后4月8日，他们把它做成了云服务——Claude Managed Agents，面向全球开发者使用，相当于把原本Claude Code的一个功能独立出来做成了一个新的产品（参见下图），为什么独立出来？后面有分析。

为了更好的理解Harness机制，我把它解决的两个主要问题说出来就清楚了。

二、Harness解决了什么问题？

要理解Harness的价值，得先理解AI的两个“毛病”。

毛病一：“失忆症”

我们之前说过，AI大模型没有“记忆”，智能体设计了“记忆”机制，让智能体+大模型的AI有了“记忆”。但是仍然会有一个问题，就是大模型上下文对话窗口的容量是有限的，虽然现在主流大模型已经支持超过100万Token（词元），但是对于复杂任务，仍然会超出，超出以后怎么办？只能新开一个对话窗口。由于大模型没有“记忆”，新的对话窗口会“失忆”，无法继续完成之前的任务，或者产生幻觉，变成一本正经地胡说八道。

比如，让AI做一个需要4小时的任务。前2小时它干得很好，但到了第3个小时，它的“记忆”（上下文窗口）快满了。这时候它会变得焦虑，开始匆忙收尾，质量直线下降。

Harness做什么来解决这个问题呢？就是：上下文重置。

不让一个AI连续干4小时，而是让多个AI“轮班”。第一个AI干到窗口快满时，把当前状态写成一份结构化的交接文件（功能清单、进度日志、git历史等），然后清空窗口。第二个AI读取这份文件，接着干。第三个AI继续……

每个AI上岗时都有“干净的脑子”，没有“我好累”的心理负担。交接文件是JSON格式的，模型对它的操作比自然语言更稳定，不容易误删或篡改。

毛病二：“自恋”

AI有一个更隐蔽的问题：它会高估自己的成果。

让它评价自己刚写的代码？它大概率会觉得“写得真棒”。Anthropic的工程师发现：“当被要求评估自己生成的工作时，Agent倾向于自信地赞扬这项工作——但是我们人一看，就觉得质量有点平庸。”

Harness的解决方案是三代理架构：规划-生成-评估分离。引入一个独立的评估Agent。这个代理不负责干活，只负责挑刺。它拿着明确的评分标准（设计质量、功能性、原创性等），去检查“干活的人”（规划和生成Agent）的成果，然后给出详细的修改意见。

规划-生成-评估三个Agent底层调用同一个Claude模型，但通过提示词把评估Agent调成“挑剔”的人格，并用少样本示例校准它的判断标准。干活代理负责“大胆创造”，评估Agent负责“严格把关”。每个角色互相制衡，产出的质量就上来了。

三、一个比喻：开公司

如果你想更直观地理解Harness，可以想象你开了一家软件公司。

公司角色	Harness 对应
程序员	生成代理（干活的人）
技术经理	规划代理（拆解任务、分配工作）
QA测试员	评估代理（检查质量、提意见）
轮班制度	上下文重置（不让一个人连续干太久）
交接文档	结构化交接（进度报告、功能清单）

没有Harness的AI，就像一个公司只有一个程序员——他既当程序员，又当技术经理，又当QA。他干到半夜，脑子糊了，还觉得自己写得挺好的。

有了Harness的AI，就像一个有完整流程的公司——有人拆解任务、有人写代码、有人质检、有人轮班。每个人只干自己擅长的事，而且有明确的交接流程。

这就是为什么Harness能让AI“长时间稳定干活”的原因。

四、Harness与Codex：两条不同的路线

理解了Harness是什么，就能看懂Anthropic和OpenAI在AI编程赛道上的路线之争。

OpenAI的Codex走的是“模型能力进化”路线——相信未来模型自己就能搞定一切，外部脚手架只是过渡品。

Anthropic的Claude Code走的是“工程化补课”路线——在当前模型能力还不够的情况下，用Harness这类工程框架来约束和增强AI，保证输出质量。

两条路线，谁能走得更远，现在还不好说，咱们拭目以待吧，也可能会互相融合，取长补短。

2026年4月8日，Anthropic把Harness做成了云服务：Claude Managed Agents。

目前很多AI创业公司正在与Harness类似的功能（我朋友圈都有朋友在招聘）。这意味着，原来需要自己搭建的Agent基础设施（上下文重置、状态管理、权限控制、错误恢复），现在调用API就能用，确实对AI创业公司有不小的冲击，毕竟，对于创业公司，谁有把握做得比Anthropic更好呢？

五、Anthropic什么要公开Harness设计并推出Claude Managed Agents？

小编认为原因可能有五个：

1. Claude Code的源码泄露。

业界过早知道Claude Code以及Harness的运行机制。Harness和Managed Agents是Anthropic早就规划好的路线，但代码泄露让这套机制提前暴露了，所以干脆顺势正式发布。

2. 与OpenAI在AI编码上的竞争。

我们在第一篇文章（解密Claude Code 与Codex ：智能体编程的工作机制（第一篇）入门与对比 (qq.com)）中就讲过，在架构上，OpenAI的Codex采用的是云优先，任务在隔离沙箱中执行。而Claude Code是本地优先，运行在你的电脑终端中，缺少云服务。AI编程是一个巨大的市场，而且开发者愿意为云服务付费。

3. 战略原因：把“中间层”平台化，挤压竞争对手

在Managed Agents出现之前，市面上有一大批创业公司，专门帮开发者搭建Agent基础设施——比如任务编排、状态管理、权限控制、错误恢复。

Anthropic的做法是：把这些“中间层”功能全部内置，做成标准化的云服务。这样，开发者不用自己搭了，调用API就能用，成本更低、上线更快；Anthropic锁定了开发者，让他们留在自己的生态里；中间层创业公司：失去了存在的价值。回顾过去几年：

时间	大厂动作	被挤压的玩家
2023年	OpenAI发布GPT-4	一批文本生成创业公司
2024年	OpenAI发布GPTs	一批轻量级Agent平台
2025年	OpenAI发布Operator	一批浏览器自动化公司
2026年	Anthropic发布Managed Agents	一批Agent运行层公司

每次大厂把 “中间层”平台化，都会有一批靠“技术胶水”活着的公司死掉。 很残酷的世界。

4. 商业模式考量：从“卖模型”到“卖解决方案”

Anthropic的ARR（平均回报率）在四个月内突破了300亿美元，但单纯卖API的市场空间是有天花板的。

Managed Agents代表了一个新的商业模式：不是卖模型调用次数，而是卖“模型+运行环境+工具链”的完整解决方案。 这对Anthropic有几个好处：

客单价更高：企业愿意为“能直接用的解决方案”付更多钱
客户粘性更强：一旦企业的Agent跑在Anthropic的云上，迁移成本很高
数据飞轮：更多企业使用 → 更多真实场景数据 → 模型优化 → 更多企业使用

5. 技术生态考量：建立事实标准

谁掌握了开发者入口，谁就掌握了生态话语权。

Anthropic的逻辑是：让开发者用我的云服务来构建Agent，用我的标准来定义Agent。

一旦这个标准被广泛接受，其他厂商（包括开源模型）要想兼容，就得向Anthropic的标准靠拢。这是生态壁垒。

综合以上，我的判断是：

Managed Agents不是Anthropic的一个普通产品发布，而是一次战略升级——从“模型提供商”向“AI应用平台”转型。

对于创业公司来说：这是一个清晰的信号——别再在底层造轮子了，要不去占领业务技术高地，要不寻找差异化。

对于行业来说：AI编程赛道的“两强争霸”格局已经形成。Anthropic和OpenAI的竞争，从模型能力延伸到产品形态、商业模式、生态建设。这场战争才刚刚开始。

六、写在最后

Harness没那么神秘。它就是一套“马具”——让AI这匹野马，能更好地帮我们干活。

它解决的是“AI长时间稳定运行”的工程问题，不是“AI变得更聪明”的模型问题。

理解了这一点，就能看清：那些只做“技术胶水”的公司，确实会焦虑。

本文内容基于作者的开发经验和对官方文档的理解，仅供参考。技术工具、模型参数、定价等信息可能随时间变化，请以官方最新发布为准。如有不同见解，欢迎在评论区理性交流。

本文为原创内容，首发于微信公众号[林说AI]。未经本人书面授权，禁止任何形式的摘编、复制或用于商业用途，转载须注明出处。