这大概是 2026 年 AI 工程里最被低估的一件事，现在它有了正式名字——Harness Engineering

同一个 AI 模型，同一个基准测试，跑了两次。

第一次 42%，第二次直接 78%。

什么都没改——prompt 没动，温度没调，模型版本也没换。

唯一变的，是裹在模型外面的那层「harness」：规则、工具、技能文件，还有反馈循环。

目前已知的五个主要杠杆：

严格控制在 60 行以内，只写死规则。ETH Zurich 的人测了 138 个 agent 配置，发现 AI 自己生成的提示反而把性能拉低，还多吃了 20% token。

不把所有知识一次塞进上下文，而是让 agent 需要的时候再加载对应模块。避免上下文窗口被垃圾信息占满。

可以接外部能力，但别超过 3 个。多了 agent 就会“tool thrash”，一直在纠结该用哪个工具，而不是去干活。

不是什么前后端分工，而是做上下文防火墙。长任务扔给子 agent 独立跑，主线程保持干净。Chroma 的研究显示，模型在超长上下文里表现会明显变差。

在关键节点插确定性校验。LangChain 之前加了个 PreCompletionChecklistMiddleware，结果成了他们整个 harness 里提升最明显的一个改动。

LangChain 靠这套 harness 把 coding agent 从 Terminal Bench 2.0 排行榜 30 名开外，直接干进了前 5。

OpenAI Codex 团队用类似思路，搭了一套生产系统，累计写了超过 100 万行代码，几乎没怎么让人手动改过。

行动起来吧！

以后 agent 出错了，别改完就完事。问自己一句——“怎么才能让它永远不再犯这个错？”然后把答案写进 harness。

每周五花 5 分钟，复盘一下本周所有失败，把它们变成规则。

你的 agent 就会每周都变强，不是因为模型又升级了，而是因为你的系统升级了