Harness Engineering 崛起:超越 Prompt,重塑 AI Agent 架构的新基建

2 阅读8分钟

在 2026 年上半年的 AI 工程圈,一个全新的概念正以惊人的速度升温,并迅速成为头部科技公司(如 Anthropic, OpenAI, Google DeepMind)的战略共识——Harness Engineering(马具工程/驾驭工程)

如果你和你的团队目前还停留在“如何写出一条更好的 Prompt”来构建 Agent,那么你可能正在错失 AI 工程化演进的最重要一环。

AI 系统的开发范式正在经历一场深刻的跃迁:从 2022 年的 Prompt Engineering(解决“问什么”),到 2025 年的 Context Engineering(解决“让模型看什么”),如今正式迈入了 Harness Engineering(解决“让模型在什么系统里干活”)的时代。

本文将深度剖析 Harness Engineering 的核心逻辑、头部大厂的实战经验,以及它将如何重塑未来 AI Agent 的开发与运维。


核心观点 1:范式跃迁——从“教模型说话”到“为模型建构系统”

要理解 Harness Engineering,首先要理解“Harness”这个词的隐喻。

Harness 的原意是马具(缰绳、马鞍、嚼子等控制马匹的装备)。在这个隐喻中,AI 模型是一匹强壮、快速但不知该往哪跑的骏马;人类工程师是提供方向的骑手;而 Harness,就是那套将马的原始力量转化为有用功的“运行系统”。

为什么 Harness Engineering 会在当下爆发?这并非偶然,而是由大模型能力演进和工程痛点共同催生的必然结果:

  1. 长任务暴露了裸模型的系统性缺陷: 即使是最顶级的模型(如 Claude Opus 4.5),在跨越多个上下文窗口执行长周期任务时,如果仅依赖高层级指令(如“帮我建一个全栈应用”),依然会面临上下文耗尽、提前宣布完成而不去验证等问题。
  2. 级联失败率(Cascading Failure)的数学诅咒: 这是一个极其残酷的工程现实。假设一个多步 Agent 流水线中,每一步的成功率高达 95%。听起来很完美?但如果任务需要串联 20 步,端到端的最终成功率将暴跌至 36% (0.95200.95^{20})。这意味着,单纯依靠提升模型智力来解决复杂任务是不可持续的,必须依靠系统层面的验证、重试和状态恢复机制。
  3. 模型能力趋于商品化: 当 GPT、Claude、Gemini 在核心推理能力上的差距不断缩小,模型本身不再是绝对的差异化壁垒。旧护城河是模型质量,新护城河则是 Harness 质量。

深度延展: Harness Engineering 的本质,是将 AI 开发从“概率性的文本生成”拉回到“确定性的系统工程”。它不再关注模型怎么回答,而是关注任务如何拆解、状态如何流转、权限如何管控、失败如何回滚。


核心观点 2:巨头实战启示录——生成与评估解耦,以及“少即是多”

头部 AI 公司在构建生产级 Agent 时,已经摸索出了一套行之有效的 Harness 设计模式。通过对比 Anthropic、Google DeepMind 和 Vercel 的实战,我们发现了几个高度一致的行业共识。

1. 走向“生成-评估分离”的三 Agent 架构

Anthropic 和 Google DeepMind 在独立演进中,不约而同地走向了高度相似的架构设计。

  • Anthropic 演化出了 Planner(扩展需求) -> Generator(实现代码) -> Evaluator(交互验证)的架构。
  • Google DeepMind 的 Aletheia 系统则采用了 Generator(提出解法) -> Verifier(检查逻辑) -> Reviser(修正错误)的架构。

为什么必须分离? 因为大模型存在严重的“自评估缺陷”。当模型评估自己的工作时,往往会盲目自信地给出好评。工程化的解法是:必须构建一个独立的、严格的评估器 Agent,甚至引入传统的确定性测试工具(如 Playwright),这比教导生成器 Agent “自我反思”要有效得多。

2. 约束即提升:“少即是多”的反直觉原则

Vercel 在其实践中发现了一个反直觉的现象:最初他们给 Agent 配备了极其全面的工具库(搜索、代码、文件、API 等),结果 Agent 陷入了选择困难症,频繁进行冗余调用。 当他们大刀阔斧地移除了 80% 的工具后,Agent 的表现反而大幅提升——步骤更少、Token 消耗更低、响应更快、成功率更高。

深度延展: 约束 Agent 的解决空间,反而能提升其表现。这与传统软件工程中“给工程师更多自由度”的理念相反。在 Harness 设计中,清晰的边界、极简的工具集和强制的架构规范,是保证系统可靠性的关键。


核心观点 3:构筑护城河——成熟 Harness 系统的六大核心模块

一个真正成熟的、能够支撑生产级 Agent 运行的 Harness 系统,绝不是几段 Python 脚本的拼接,它通常包含以下六大核心模块:

  1. 上下文工程与知识管理: 这是最基础的一层。包括动态上下文注入(从日志、指标中获取实时信息)、上下文隔离(用子 Agent 作为防火墙,避免信息污染),以及上下文压缩(自动丢弃无关信息)。
  2. 工具编排与权限设计: 不再是简单地把所有 API 扔给模型,而是精心策划工具集。包括集成 MCP(Model Context Protocol)协议、文件系统访问管理以及严格的沙箱隔离。
  3. 验证机制与硬约束(核心差异): 这是 Harness 区别于简单脚手架的标志。引入确定性约束(如自定义 Linter、结构测试、Pre-commit hooks),这些硬性规则不依赖 LLM 的概率判断,构成了系统的底线防御。
  4. 状态管理与记忆持久化: 大语言模型本身是无状态的。Harness 必须通过外部化记忆(如进度追踪文件、结构化 TODO 列表、增量 Git 提交)来维持跨 Session 的状态,确保长任务不会因为上下文重置而失忆。
  5. 可观测性与反馈闭环: 包括执行追踪、质量分级和异常检测。更重要的是建立反馈归因机制——当 Agent 在生产中失败时,能够追溯到 Harness 的具体缺陷,并驱动系统持续改进(例如:遇到困难不是让 Agent “再试一次”,而是反问“系统缺少了什么能力/工具”并进行补充)。
  6. 人类接管与生命周期管理: 在关键决策点(如删除数据库、扣费、发送客户邮件)设置硬性拦截,必须由人类确认。同时提供完整的升级路径、失败重试和生命周期钩子(Hooks)。

核心观点 4:警惕“新瓶装旧酒”与过度工程化陷阱

任何新概念的爆发都会伴随泡沫。Harness Engineering 也不例外。

一方面,我们需要承认它带有“新瓶装旧酒”的成分。测试脚手架、CI/CD 管道、沙箱隔离、可观测性……这些在传统 DevOps 和 SRE 领域已经是几十年的成熟实践。Harness Engineering 的本质,是将传统软件工程的严谨性,重新适配到以概率性推理为核心的 AI 系统中

另一方面,开发者必须极度警惕过度工程化(Over-Engineering)。 Anthropic 曾分享过一个血的教训:在 Claude 3.5 时代,由于模型存在“上下文焦虑”,他们设计了复杂的“上下文重置机制”。但当模型升级到 Opus 4.5 后,模型自身已经克服了这个问题,原先复杂的 Harness 反而成了累赘。

专业建议: Harness 必须是“可撕裂的(Tearable)”和高度模块化的。随着底层模型能力的快速提升,Harness 的设计必须与模型当前的边界能力相匹配。模型变强了,某些 Harness 模块反而应该被果断废弃。


写在最后:Agent 不难,Harness 才难

Harness Engineering 的崛起标志着 AI 应用开发正式进入了“深水区”。正如 DevOps 重组了传统软件的开发与运维,Harness Engineering 正在重组 Agent 系统的构建与生命周期管理。

对于正在进行 Agent 开发的团队,这里有三条切实可行的行动建议:

  1. 立即行动(低成本高收益): 在项目根目录建立一个 AGENTS.md(或类似指令文件)。每次 Agent 犯下重复性错误,不要去改 Prompt,而是将约束规则写入该文件,作为全局的系统级指导。
  2. 中期建设(引入确定性): 构建确定性的验证层。不要完全依赖 LLM 去检查代码,引入传统的 Linter、结构测试和 Pre-commit hooks,加上基本的执行追踪。
  3. 长期规划(模块化演进): 设计可替换的 Harness 架构。确保当下一代更强大的模型发布时,你的系统能够平滑迁移,而不是被深度绑定的复杂逻辑拖垮。

最后,借用 OpenAI Codex 团队工程师 Ryan Lopopolo 的一句话作为结语: “Agent 不难;Harness 才难。”

未来的 AI 竞争,不再是谁能调出更聪明的模型,而是谁能打造出最稳固、最能激发模型潜力的那套“马具”。