一文搞懂 Harness Engineering:AI 写代码的时代,程序员到底在干什么?

11 阅读5分钟

最近技术圈频繁出现一个词——Harness。什么是 Harness?什么是 Coding Harness?为什么大家都在聊它?这篇文章用最通俗的方式帮你理清来龙去脉。

先从一个比喻说起

想象你有一匹马,力大无穷、跑得飞快——但它不认路。

你不能指望靠喊"往左!往右!"来让它精准到达目的地。你需要的是:缰绳、马鞍、围栏、路标,甚至偶尔在路边放个水槽让它补充体力。

这套"装备",就是 Harness(字面意思就是"马具")。

而那匹马,就是今天的 AI 编程助手——比如 OpenAI 的 Codex、Anthropic 的 Claude Code、Google 的 Gemini CLI。它们能写代码,甚至能写得很好,但如果没人给它们规划环境、设定边界、提供反馈,它们一样会跑偏。

Harness 到底是什么?

Harness = 约束 + 工具 + 文档 + 反馈循环,是围绕 AI 编程 Agent 搭建的整套"运行环境"。

这个概念在 2026 年 2 月由 HashiCorp 联合创始人 Mitchell Hashimoto 在博客中正式提出。他的定义很朴素:每当 AI Agent 犯一个错误,你就花时间做一个改进,确保它永远不会再犯同样的错。 这个持续改进环境的过程,就是 Harness Engineering(Harness 工程)。

几天后,OpenAI 发表了一篇重磅文章《Harness engineering: leveraging Codex in an agent-first world》,详细描述了他们的实践:3 个工程师,5 个月,用 AI 生成了 100 万行代码,人类没有手写一行。产品已在内部使用,有真实用户。

关键是——这并不是因为 AI 模型变聪明了,而是因为他们把 Harness 做好了。

那 Coding Harness 又是什么?

如果 Harness 是通用概念,Coding Harness 就是在"写代码"这个场景下的具体实现。

你可以把 Coding Harness 理解为:一套让 AI 编程 Agent 稳定、高效、可控地写代码的基础设施。它通常包括以下几个部分:

1. 上下文管理——让 AI 看到该看的东西

AI 只能理解它"看到"的内容。写在 Slack 群聊里、存在某人脑子里的架构决策,AI 根本不知道。所以需要把知识整理成结构化文档(比如 AGENTS.md),放进代码仓库,让 AI 随时查阅。OpenAI 的团队最终维护了 88 个 AGENTS.md 文件,每个子系统一个。

2. 架构约束——画一条线,AI 不许越界

比如规定代码依赖只能按固定方向流动(类型 → 配置 → 服务 → 运行时 → 界面),然后用自动化工具强制检查。AI 写出违规代码?直接被拦住。

3. 反馈循环——让 AI 自己知道对不对

给 AI 配上测试套件、Lint 检查、截图对比等工具,让它写完代码后能自己验证结果。验证不通过?自动重试。这比人盯着看高效得多。

4. "垃圾回收" ——对抗熵增

AI 写的代码量大、速度快,但也容易产生技术债务。OpenAI 的做法是让后台 Agent 定期扫描文档是否过期、架构是否偏移,然后自动提交修复。

一个让概念更直观的类比

概念类比
Prompt Engineering(提示工程)对马说"往右转"
Context Engineering(上下文工程)给马看地图、路标和地形
Harness Engineering(Harness 工程)设计缰绳、围栏、道路本身,让 10 匹马同时安全奔跑

Harness 不是替代 Prompt 或 Context,而是在更高维度上设计 AI 工作的整个环境。

现在大家在做什么?

这个领域正在快速成型,几个值得关注的方向:

OpenAI 的 Codex Harness 已经从内部实验走向了平台化。他们最近开源了 Codex App Server,把 Harness 的核心(Agent 循环、会话管理、工具执行、扩展系统)封装成标准协议,供 IDE、桌面应用和第三方集成使用。JetBrains、Xcode 等已经在对接。

开源社区也在跟进。 比如 Mario Zechner 的 @mariozechner/pi-coding-agent(仓库名 pi-mono),定位是一个终端 Coding Agent + SDK 工具包。它提供了会话管理、扩展系统、技能(Skills)、模板、会话树等 Harness 核心能力。它的设计哲学很有意思——核心只提供最小可用功能(读、写、编辑、执行命令),其余能力(子 Agent、计划模式、权限控制)全部通过扩展和包来实现。它还暴露了 RPC 和 SDK 接口,允许开发者把这套 Harness 嵌入自己的产品。OpenClaw 就是基于它构建的一个实际案例。

LangChain 的实验 也很有说服力——同一个模型,只换 Harness,在 Terminal Bench 2.0 基准测试上从第 30 名跳到了第 5 名。这直接证明了:模型是商品,Harness 才是护城河。

对普通人意味着什么?

如果你不写代码,你需要知道的核心信息就一句话:程序员的工作正在从"写代码"变成"设计让 AI 写代码的环境"。

这不是失业的故事,而是角色转变的故事。就像工业革命没有消灭工人,而是让工人从操作机器变成了设计产线。Harness Engineering 正在定义新一代软件工程师的核心能力——不是打字快,而是能设计出让 AI 高效、可靠工作的系统。

这个转变才刚刚开始。


参考资料:

  • Mitchell Hashimoto, "My AI Adoption Journey", 2026.02
  • OpenAI, "Harness engineering: leveraging Codex in an agent-first world", 2026.02
  • OpenAI, "Unlocking the Codex harness: how we built the App Server", 2026.03
  • Mario Zechner, pi-coding-agent (github.com/badlogic/pi-mono)
  • Martin Fowler / Birgitta Böckeler, Harness Engineering commentary