Harness Engineering 简介与主流实践

7 阅读4分钟

Harness Engineering 简介与主流实践


一、什么是 Harness Engineering

Harness Engineering 是近两年 AI Coding 领域的新概念。

核心目标

让 AI 从「代码生成工具」升级为「可管理的软件工程执行系统」。

传统 AI 编码

人 -> Prompt -> AI -> 代码

Harness Engineering

人
-> Spec(规范)
-> Plan(计划)
-> Agent 执行
-> Review(审查)
-> Verify(验证)
-> 交付

一句话

不再只是「让 AI 写代码」,而是「让 AI 按工程流程完成开发」。


二、为什么 Harness Engineering 会流行

传统 Prompt Engineering 在团队场景里常见问题:

  • 不可复现
  • 不可追踪
  • 不可审计
  • 难以团队协作
  • AI 输出不稳定

因此行业越来越多地在谈 Spec-Driven Development(SDD)——用规范驱动 AI 开发。

核心思想

Spec 是真相
Code 是 Spec 的实现

三、当前主流工作流

目前大多数 Harness 框架采用相近流程:

1. Brainstorm(需求澄清)

AI 先调研、提问、澄清需求,而不是直接写代码

2. Design(设计)

生成并沉淀:

  • design.md
  • architecture.md
  • api.md

把「聊天内容」变成正式设计文档。

3. Plan(任务拆解)

将需求拆成 AI 可执行任务,例如:

1. 创建接口
2. 编写数据库迁移
3. 编写测试
4. 更新文档

4. Execute(执行)

由 AI Agent 自动:写代码、改代码、执行命令、调用工具、编写测试。

5. Verify(验证)

验证:

  • 是否符合 Spec
  • 是否通过测试
  • 是否满足业务要求

这是当前最难的一步(见第六章)。


四、当前主流 Harness 框架

1. OpenSpec

定位Spec-Driven Development 标准化框架
GitHubFission-AI/OpenSpec
站点openspec.dev

特点

  • 强调 Spec-first
  • proposal / design / tasks 三段式
  • 企业化、可协作程度高

适合:长期项目、团队协作、企业研发


2. Superpowers

定位Skill 驱动的 Agent 工作流框架
GitHubobra/superpowers

特点

  • 强调 Skill 组合
  • 子 Agent 能力强
  • TDD、分阶段计划等 Skill 较完整

适合:自动化程度较高的项目、多 Agent 协作


3. gStack

定位虚拟 AI 软件团队(扩展 Claude Code)
GitHubgarrytan/gstack

特点

  • CEO / PM / QA 等角色化 Agent
  • 自动规划(Autoplan)
  • 流程感强,含浏览器 QA 等能力

适合:大型 Agent Workflow、AI 团队模拟


4. Compound Engineering(CE)

定位AI-native 工程循环框架
GitHubEveryInc/compound-engineering-plugin

特点

  • 强调持续迭代与复利式知识沉淀
  • 深度规划能力强
  • 长期演化、体系化建设

适合:长生命周期项目、AI 工程体系建设


5. Everything Claude Code(ECC)

定位Claude Code 工程增强体系
GitHubaffaan-m/everything-claude-code

特点

  • Playwright 自动验证
  • E2E 测试
  • Research 工作流
  • 社区讨论与迭代活跃

适合:Claude Code 深度使用、Web 自动化验证


五、行业当前共识

目前行业逐渐形成的一条讨论方向是:未来竞争力更多来自

Workflow
+ Spec
+ Verification
+ Agent Runtime

而不只是

Prompt 技巧

这不等于 Prompt 无用,而是团队场景下 流程与验证 权重上升。


六、当前最大问题:自动化验证(Verify)

例如:

  • AI 写代码
  • AI 写测试
  • AI 自己验证通过

那么:

谁来保证 AI 没有「自欺欺人」?

这是行业目前仍未完全解决的问题。一种常见讨论是 Builder Agent ≠ Verifier Agent,由不同角色或模型做交叉验证。


七、为什么 Playwright 很重要

当前很多框架在谈自动验证时会提到 Playwright

浏览器是相对统一的运行环境。

因此 Claude Code、ECC、OpenHands、gStack 等路径上,常见 Playwright + E2E 作为功能验证的补充手段(不能替代人工验收业务语义)。


八、当前成熟度

能力成熟度
需求澄清
Design 持久化
Plan 拆解
多 Agent 协作
Lint / Unit Test
功能自动验证

「自动功能验证」仍是整个行业最薄弱的环节。


九、未来发展方向

未来 Harness Engineering 可能继续演化的方向(观察,非定论):

1. Agent Runtime OS

  • Agent 操作系统
  • AI 工程运行时

2. 独立验证 Agent

Builder Agent
!=
Verifier Agent

通过不同模型或不同上下文交叉验证。

3. 长期 Agent Memory

  • 项目记忆
  • 设计记忆
  • 任务记忆

支持长期维护同一代码库。


十、推荐关注项目

项目特点GitHub
OpenSpec标准 SDDFission-AI/OpenSpec
ECCClaude Code 工程增强affaan-m/everything-claude-code
gStack多角色 Agentgarrytan/gstack
SuperpowersSkill 工作流obra/superpowers
Compound Engineering工程循环插件EveryInc/compound-engineering-plugin
OpenHandsAgent Runtime 强OpenHands/OpenHands
Claude CodeAgent IDE(官方)anthropics/claude-code
Roo CodeVS Code AgentRooCodeInc/Roo-Code
Aider轻量结对编程Aider-AI/aider
Playwright浏览器 E2Emicrosoft/playwright

十一、总结

Harness Engineering 本质上是 AI 软件工程体系

它正在把:

Human Coding

逐渐演化为:

Human Specification
+
AI Execution
+
AI Verification

这是 AI Coding 从「工具」走向「工程系统」的重要阶段。