Harness:Anthropic给AI编程套上的“马具”

0 阅读10分钟

最近,Anthropic发布Harness后, 各种媒体不断散播焦虑情绪,有人说一批创业公司要消失了,焦虑的情绪在蔓延,也成功吸引我关注,我很好奇,决定了解一下,下面把我的了解和分析总结给大家分享。

Harness到底是什么?它解决了什么问题?和Claude Code是什么关系?

一、Harness是什么?

先给一个最直白的定义:Harness是Claude Code的一个底层功能模块

它原本不是独立产品,也不是新模型。它是让Claude Code能够“长时间稳定运行”的那套基础设施。

“Harness”这个英文单词,原意是“马具”——套在马身上用来拉车的那套装备。做个类比:一匹马,力气很大,能跑很快。但如果没有马具,它就是一匹野马,很难让它帮你拉车、耕地。Harness就是类似Claude Code上面的一个“马具”,而马就是背后的大模型。

马具的作用,就是把马的力量“驯化”成有用的劳动力。

Anthropic给他们的框架取名Harness,就是这个意思。Claude很强,但直接让它干“连续工作几个小时”的活,会出问题。Harness就是那套“马具”,把它的能力“驯化”成可以长时间稳定工作的劳动力。

简单说:Harness解决的是“怎么让AI长时间稳定干活”的工程问题。

根据Anthropic官方公布的设计,Harness采用的是三代理架构,三个角色各自独立:

代理角色职责本质
规划代理(Planner)把一句话需求扩展成详细的技术规格,拆解任务独立的Agent
生成代理(Generator)干活的人——写代码、做设计、执行操作独立的Agent
评估代理(Evaluator)挑刺的人——检查质量、打分、提意见独立的Agent

三个代理各司其职,通过结构化的交接文件串联起来,形成一个完整的协作流程,就像人与人之间的工作交接文件一样。

从机制上看,Harness的核心是一个多智能体协同框架——它不只有一个AI在工作,而是多个AI各司其职、协同配合。

2026年4月3日,Anthropic公开了Harness的完整设计。

五天后4月8日,他们把它做成了云服务——Claude Managed Agents,面向全球开发者使用,相当于把原本Claude Code的一个功能独立出来做成了一个新的产品(参见下图),为什么独立出来?后面有分析。

图片

为了更好的理解Harness机制,我把它解决的两个主要问题说出来就清楚了。

二、Harness解决了什么问题?

要理解Harness的价值,得先理解AI的两个“毛病”。

毛病一:“失忆症”

我们之前说过,AI大模型没有“记忆”,智能体设计了“记忆”机制,让智能体+大模型的AI有了“记忆”。但是仍然会有一个问题,就是大模型上下文对话窗口的容量是有限的,虽然现在主流大模型已经支持超过100万Token(词元),但是对于复杂任务,仍然会超出,超出以后怎么办?只能新开一个对话窗口。由于大模型没有“记忆”,新的对话窗口会“失忆”,无法继续完成之前的任务,或者产生幻觉,变成一本正经地胡说八道。

比如,让AI做一个需要4小时的任务。前2小时它干得很好,但到了第3个小时,它的“记忆”(上下文窗口)快满了。这时候它会变得焦虑,开始匆忙收尾,质量直线下降。

Harness做什么来解决这个问题呢?就是:上下文重置

不让一个AI连续干4小时,而是让多个AI“轮班”。第一个AI干到窗口快满时,把当前状态写成一份结构化的交接文件(功能清单、进度日志、git历史等),然后清空窗口。第二个AI读取这份文件,接着干。第三个AI继续……

每个AI上岗时都有“干净的脑子”,没有“我好累”的心理负担。交接文件是JSON格式的,模型对它的操作比自然语言更稳定,不容易误删或篡改。

毛病二:“自恋”

AI有一个更隐蔽的问题:它会高估自己的成果。

让它评价自己刚写的代码?它大概率会觉得“写得真棒”。Anthropic的工程师发现:“当被要求评估自己生成的工作时,Agent倾向于自信地赞扬这项工作——但是我们人一看,就觉得质量有点平庸。”

Harness的解决方案是三代理架构:规划-生成-评估分离。引入一个独立的评估Agent。这个代理不负责干活,只负责挑刺。它拿着明确的评分标准(设计质量、功能性、原创性等),去检查“干活的人”(规划和生成Agent)的成果,然后给出详细的修改意见。

规划-生成-评估三个Agent底层调用同一个Claude模型,但通过提示词把评估Agent调成“挑剔”的人格,并用少样本示例校准它的判断标准。干活代理负责“大胆创造”,评估Agent负责“严格把关”。每个角色互相制衡,产出的质量就上来了。

三、一个比喻:开公司

如果你想更直观地理解Harness,可以想象你开了一家软件公司。

公司角色Harness 对应
程序员生成代理(干活的人)
技术经理规划代理(拆解任务、分配工作)
QA测试员评估代理(检查质量、提意见)
轮班制度上下文重置(不让一个人连续干太久)
交接文档结构化交接(进度报告、功能清单)

没有Harness的AI,就像一个公司只有一个程序员——他既当程序员,又当技术经理,又当QA。他干到半夜,脑子糊了,还觉得自己写得挺好的。

有了Harness的AI,就像一个有完整流程的公司——有人拆解任务、有人写代码、有人质检、有人轮班。每个人只干自己擅长的事,而且有明确的交接流程。

这就是为什么Harness能让AI“长时间稳定干活”的原因。

四、Harness与Codex:两条不同的路线

理解了Harness是什么,就能看懂Anthropic和OpenAI在AI编程赛道上的路线之争

OpenAI的Codex走的是“模型能力进化”路线——相信未来模型自己就能搞定一切,外部脚手架只是过渡品。

Anthropic的Claude Code走的是“工程化补课”路线——在当前模型能力还不够的情况下,用Harness这类工程框架来约束和增强AI,保证输出质量。

两条路线,谁能走得更远,现在还不好说,咱们拭目以待吧,也可能会互相融合,取长补短。

2026年4月8日,Anthropic把Harness做成了云服务:Claude Managed Agents。

目前很多AI创业公司正在与Harness类似的功能(我朋友圈都有朋友在招聘)。这意味着,原来需要自己搭建的Agent基础设施(上下文重置、状态管理、权限控制、错误恢复),现在调用API就能用,确实对AI创业公司有不小的冲击,毕竟,对于创业公司,谁有把握做得比Anthropic更好呢?

五、Anthropic什么要公开Harness设计并推出Claude Managed Agents?

小编认为原因可能有五个:

1. Claude Code的源码泄露。

业界过早知道Claude Code以及Harness的运行机制。Harness和Managed Agents是Anthropic早就规划好的路线,但代码泄露让这套机制提前暴露了,所以干脆顺势正式发布。

2. 与OpenAI在AI编码上的竞争。

我们在第一篇文章(解密Claude Code与Codex:智能体编程的工作机制(第一篇)入门与对比 (qq.com))中就讲过,在架构上,OpenAI的Codex采用的是云优先,任务在隔离沙箱中执行。而Claude Code是本地优先,运行在你的电脑终端中,缺少云服务。AI编程是一个巨大的市场,而且开发者愿意为云服务付费。

3. 战略原因:把“中间层”平台化,挤压竞争对手

在Managed Agents出现之前,市面上有一大批创业公司,专门帮开发者搭建Agent基础设施——比如任务编排、状态管理、权限控制、错误恢复。

Anthropic的做法是:把这些“中间层”功能全部内置,做成标准化的云服务。这样,开发者不用自己搭了,调用API就能用,成本更低、上线更快;Anthropic锁定了开发者,让他们留在自己的生态里;中间层创业公司:失去了存在的价值。回顾过去几年:

时间大厂动作被挤压的玩家
2023年OpenAI发布GPT-4一批文本生成创业公司
2024年OpenAI发布GPTs一批轻量级Agent平台
2025年OpenAI发布Operator一批浏览器自动化公司
2026年Anthropic发布Managed   Agents一批Agent运行层公司

每次大厂把 “中间层”平台化,都会有一批靠“技术胶水”活着的公司死掉。 很残酷的世界。

4. 商业模式考量:从“卖模型”到“卖解决方案”

Anthropic的ARR(平均回报率)在四个月内突破了300亿美元,但单纯卖API的市场空间是有天花板的。

Managed Agents代表了一个新的商业模式:不是卖模型调用次数,而是卖“模型+运行环境+工具链”的完整解决方案。 这对Anthropic有几个好处:

  • 客单价更高:企业愿意为“能直接用的解决方案”付更多钱
  • 客户粘性更强:一旦企业的Agent跑在Anthropic的云上,迁移成本很高
  • 数据飞轮:更多企业使用 → 更多真实场景数据 → 模型优化 → 更多企业使用

5. 技术生态考量:建立事实标准

谁掌握了开发者入口,谁就掌握了生态话语权。

Anthropic的逻辑是:让开发者用我的云服务来构建Agent,用我的标准来定义Agent。

一旦这个标准被广泛接受,其他厂商(包括开源模型)要想兼容,就得向Anthropic的标准靠拢。这是生态壁垒。

综合以上,我的判断是:

Managed Agents不是Anthropic的一个普通产品发布,而是一次战略升级——从“模型提供商”向“AI应用平台”转型。

对于创业公司来说:这是一个清晰的信号——别再在底层造轮子了,要不去占领业务技术高地,要不寻找差异化。

对于行业来说:AI编程赛道的“两强争霸”格局已经形成。Anthropic和OpenAI的竞争,从模型能力延伸到产品形态、商业模式、生态建设。这场战争才刚刚开始。

六、写在最后

Harness没那么神秘。它就是一套“马具”——让AI这匹野马,能更好地帮我们干活。

它解决的是“AI长时间稳定运行”的工程问题,不是“AI变得更聪明”的模型问题。

理解了这一点,就能看清:那些只做“技术胶水”的公司,确实会焦虑。

本文内容基于作者的开发经验和对官方文档的理解,仅供参考。技术工具、模型参数、定价等信息可能随时间变化,请以官方最新发布为准。如有不同见解,欢迎在评论区理性交流。

本文为原创内容,首发于微信公众号[林说AI]。未经本人书面授权,禁止任何形式的摘编、复制或用于商业用途,转载须注明出处。