同一个 AI 模型,同一个基准测试,跑了两次。
第一次 42%,第二次直接 78%。
什么都没改——prompt 没动,温度没调,模型版本也没换。
唯一变的,是裹在模型外面的那层「harness」:规则、工具、技能文件,还有反馈循环。
目前已知的五个主要杠杆:
- 系统提示文件(CLAUDE.md / AGENTS.md)
严格控制在 60 行以内,只写死规则。ETH Zurich 的人测了 138 个 agent 配置,发现 AI 自己生成的提示反而把性能拉低,还多吃了 20% token。
- Skills(渐进式知识披露)
不把所有知识一次塞进上下文,而是让 agent 需要的时候再加载对应模块。避免上下文窗口被垃圾信息占满。
- MCP 服务器(外部工具扩展)
可以接外部能力,但别超过 3 个。多了 agent 就会“tool thrash”,一直在纠结该用哪个工具,而不是去干活。
- Sub-agents(子代理)
不是什么前后端分工,而是做上下文防火墙。长任务扔给子 agent 独立跑,主线程保持干净。Chroma 的研究显示,模型在超长上下文里表现会明显变差。
- Hooks(自动检查点)
在关键节点插确定性校验。LangChain 之前加了个 PreCompletionChecklistMiddleware,结果成了他们整个 harness 里提升最明显的一个改动。
LangChain 靠这套 harness 把 coding agent 从 Terminal Bench 2.0 排行榜 30 名开外,直接干进了前 5。
OpenAI Codex 团队用类似思路,搭了一套生产系统,累计写了超过 100 万行代码,几乎没怎么让人手动改过。
行动起来吧!
以后 agent 出错了,别改完就完事。问自己一句——“怎么才能让它永远不再犯这个错?”然后把答案写进 harness。
每周五花 5 分钟,复盘一下本周所有失败,把它们变成规则。
你的 agent 就会每周都变强,不是因为模型又升级了,而是因为你的系统升级了