这大概是 2026 年 AI 工程里最被低估的一件事,现在它有了正式名字——Harness Engineering

0 阅读2分钟

image.png 同一个 AI 模型,同一个基准测试,跑了两次。

第一次 42%,第二次直接 78%。

什么都没改——prompt 没动,温度没调,模型版本也没换。

唯一变的,是裹在模型外面的那层「harness」:规则、工具、技能文件,还有反馈循环。

目前已知的五个主要杠杆:

  • 系统提示文件(CLAUDE.md / AGENTS.md)

严格控制在 60 行以内,只写死规则。ETH Zurich 的人测了 138 个 agent 配置,发现 AI 自己生成的提示反而把性能拉低,还多吃了 20% token。

  • Skills(渐进式知识披露)

不把所有知识一次塞进上下文,而是让 agent 需要的时候再加载对应模块。避免上下文窗口被垃圾信息占满。

  • MCP 服务器(外部工具扩展)

可以接外部能力,但别超过 3 个。多了 agent 就会“tool thrash”,一直在纠结该用哪个工具,而不是去干活。

  • Sub-agents(子代理)

不是什么前后端分工,而是做上下文防火墙。长任务扔给子 agent 独立跑,主线程保持干净。Chroma 的研究显示,模型在超长上下文里表现会明显变差。

  • Hooks(自动检查点)

在关键节点插确定性校验。LangChain 之前加了个 PreCompletionChecklistMiddleware,结果成了他们整个 harness 里提升最明显的一个改动。

LangChain 靠这套 harness 把 coding agent 从 Terminal Bench 2.0 排行榜 30 名开外,直接干进了前 5。

OpenAI Codex 团队用类似思路,搭了一套生产系统,累计写了超过 100 万行代码,几乎没怎么让人手动改过。

行动起来吧!

以后 agent 出错了,别改完就完事。问自己一句——“怎么才能让它永远不再犯这个错?”然后把答案写进 harness。

每周五花 5 分钟,复盘一下本周所有失败,把它们变成规则。

你的 agent 就会每周都变强,不是因为模型又升级了,而是因为你的系统升级了