引言:一个让人秒懂的类比
有没有想过,你管理 AI 的方式,其实和你管理员工的方式,是同一件事?
不是比喻,是结构上的同构。
这几年 AI 工程领域先后冒出三个概念:Prompt Engineering、Context Engineering、Harness Engineering。每次一个新词出现,就有人问:这到底是什么?跟上一个有什么区别?我需要学吗?
这篇文章不打算用技术术语解释技术术语。
我要用一条每个人都经历过、或者至少观察过的故事线来解释这一切——一家公司从 3 个人到 500 个人的成长史。
先立框架:员工 = 大模型
在展开故事之前,先建立这个类比的基础。
大模型(LLM)本质上是一个任务执行的大脑:给它足够清晰的输入,它能产出高质量的输出;给它模糊的输入,它只能靠猜。
这不就是每一个聪明员工的写照吗?
员工的能力已经在那里了。问题从来不是"他够不够聪明",而是"你有没有给他足够好的管理环境"。
这个类比成立的前提,恰好也是 2023 年以来 AI 工程领域最重要的认知转变:模型能力已经不是瓶颈了——GPT-4、Claude 3、Gemini Ultra,这些模型处理日常工作任务已经绰绰有余。真正的瓶颈,是我们如何组织、引导、约束它们的工作方式。
换句话说:AI 工程的核心问题,正在从"怎么做一个更聪明的模型"变成"怎么构建一个更好的管理体系"。
[图1:两条平行进化路径]
第一阶段:Prompt Engineering — 创业团队,老板直接下场
公司里的样子
想象一家刚刚创立的三人初创公司。
CEO、CTO、设计师,三个人挤在一个共享办公室里。要启动一个新功能?CEO 直接走到 CTO 旁边说:"哥们,我需要一个用户登录页,支持手机号和微信,今天能搞定吗?"
这个阶段,事情能不能做好,完全取决于两件事:CEO 说得清不清楚,CTO 理解得准不准。
CEO 如果语焉不详,说"做个好看点的登录页",CTO 可能做出来的东西和预期差了十万八千里。但如果 CEO 能把需求描述得足够精确、给足够多的参考、甚至画个草图——哪怕没有任何文档、没有任何流程,一个聪明的 CTO 也能做出来很好的东西。
成功的关键:老板说话的艺术。
AI 里的样子
这就是 Prompt Engineering 的本质。
2023 年 ChatGPT 爆红之后,人们发现了一件神奇的事:同样的问题,换一种问法,答案的质量天差地别。
于是一门学问诞生了——如何构造高质量的提示词:
✅ 角色设定:"你是一位有 20 年经验的资深架构师..."
✅ 思维链:"请一步步思考,先分析问题,再给出方案..."
✅ Few-shot:"这里有三个例子,请按同样格式输出..."
✅ 结构化输出:"请用 JSON 格式返回,包含 name、score、reason 三个字段"
Prompt Engineer 研究的,就是"如何跟 AI 说话"——用什么措辞、给什么结构、设定什么角色。
就像那个能精确描述需求的 CEO,一个好的 Prompt Engineer 能从同一个模型里榨出普通人榨不出来的结果。
局限在哪里
但三人团队的管理方式,无法撑起一家 50 人的公司。
每次任务都需要 CEO 亲自下场精心描述需求,这不可持续。更根本的问题是:当任务变得复杂——需要多轮推理、需要跨任务的记忆、需要访问外部数据——光靠说话的技巧,已经不够了。
提示词工程的本质是一次性的、手工的、脆弱的。你精心调教的 Prompt,换个模型就可能失效。更关键的是:它解决不了"AI 不知道背景信息"这个根本问题。
第二阶段:Context Engineering — 成长期公司,开始建文档体系
公司里的样子
公司融了 A 轮,从 3 个人长到了 50 个人。
这时候出现了一个经典问题:新来的工程师上手太慢。每次 onboarding,CEO 或老员工都要花大量时间口头解释:这个项目的背景是什么、技术栈是什么、这块代码为什么这么写、哪些接口不能随便改……
于是公司开始建文档体系:技术 Wiki、产品文档、架构设计文档、新人 onboarding 手册……
这个阶段的核心变化是:不再依赖"口头说清楚",而是把背景信息系统化地沉淀下来。
新来的工程师在开始工作之前,先看完 onboarding 文档、读完技术规范——他获得了完整的上下文,然后才能开始高效地执行任务。
成功的关键:给员工提供多少有效的背景信息。
AI 里的样子
这就是 Context Engineering 的本质。
随着大模型的上下文窗口从 4K 扩展到 128K 再到百万 token,人们意识到:模型的能力上限,不再是"能不能理解",而是"给了它什么信息"。
2025 年,Andrej Karpathy 直接发推说:
"Prompt Engineering 这个词有些过时了,更准确的说法是 Context Engineering——为 LLM 精心设计和管理整个上下文窗口的艺术。"
Context Engineering 要解决的问题是:什么信息应该放进上下文?以什么顺序放?怎么结构化?放多少?
典型实践包括:
✅ RAG(检索增强):不把所有知识塞进 Prompt,而是动态检索最相关的片段
✅ Memory 管理:决定哪些历史对话值得保留,哪些可以压缩丢弃
✅ System Prompt 设计:CLAUDE.md 就是典型的 Context Engineering
✅ 信息分层:重要信息放在上下文的开头和结尾(LLM 对首尾更敏感)
✅ 结构化注入:用 XML 标签、JSON 结构让 AI 更容易定位信息
你用过 Claude Code 吗?当你在项目里放一个 CLAUDE.md 文件,写上"这个项目的技术栈是 Next.js 14,禁止修改 package.json,代码风格遵循 XX 规范"——这就是 Context Engineering。
你不是在教 Claude"怎么说话",而是在给它看项目的 onboarding 手册,让它在开始工作之前就拥有完整的背景信息。
局限在哪里
50 人的公司,有了文档体系,就够了吗?
还不够。
文档告诉员工"背景是什么",但没有告诉他"这件事应该怎么做"。当员工开始接触真实的、有风险的操作时——修改核心代码、访问生产数据库、发送对外通知——光靠"给他看背景材料"是远远不够的。
你需要的,是流程和制度。
第三阶段:Harness Engineering — 成熟企业,制度代替沟通
公司里的样子
公司继续发展,到了 500 人规模。
这时候,一个新工程师改了一行代码,如果没有流程约束,可能直接上线就把生产环境搞崩了。一个销售代表如果没有审批流程,可能随手给客户开了一个根本不该给的折扣。
成熟企业的解决方案不是"把话说得更清楚",也不是"给员工更多背景材料"——而是建立制度:
- 权限系统:不同角色能做什么,不能做什么,在系统层面物理隔离
- 审批流程:高风险操作必须经过多人确认才能执行
- SOP(标准作业程序):约定一件事"应该怎么做"的标准流程
- 监控与审计:所有操作都有日志,出了问题能追溯
这个阶段的核心洞察是:不靠人的自觉,靠系统的约束。
你不需要每次都提醒工程师"上线前要做代码审查"——CI/CD 流水线会强制检查,没有通过审查就无法部署。
成功的关键:把控制逻辑从"人的意识"移到"组织系统"里。
AI 里的样子
这就是 Harness Engineering 的本质。
"Harness"这个词来自英语,有三层含义,每层都精准对应了这个概念的一个维度:
- 马具(Horse Harness):让烈马的力量被精确引导,而不是失控乱跑
- 安全绳(Safety Harness):让高空作业工人可以大胆工作,即使失手也不会坠落
- 测试框架(Test Harness):为被测组件提供受控的、可重复的、可观测的运行环境
AI Agent 在真实世界里执行任务,就像员工在成熟企业里工作——需要的不是更好的"沟通",而是更好的"系统"。
Claude Code 的 Hooks 功能是一个绝佳的例子:
{
"hooks": {
"PreToolUse": [{
"matcher": "Bash",
"hooks": [{
"type": "command",
"command": "security-check.sh"
}]
}],
"PostToolUse": [{
"matcher": "Write",
"hooks": [{
"type": "command",
"command": "git add -A && git status"
}]
}]
}
}
这段配置的含义:
- 每次 AI 想执行 Bash 命令之前,自动运行安全检查
- 每次 AI 写完文件之后,自动暂存 git 变更
注意:这些逻辑不在 Prompt 里,不在上下文里——它在 Harness 里。AI 自己甚至不知道这些检查在发生,但它的每次行为都被这套系统静默地管控着。
Harness Engineer 构建的核心要素:
✅ 权限矩阵:读文件(自由)/ 修改配置(需审批)/ 推送代码(禁止)
✅ 工具设计:职责单一、边界清晰、有路径校验和超时保护的工具集
✅ Hooks 系统:在 AI 行为的关键节点插入检查、审批、记录逻辑
✅ 多 Agent 编排:多个专业化 Agent 协作的流水线架构
✅ 可观测性:每次工具调用的完整日志,出了问题能追溯
[图2:三者嵌套包含关系]
深层规律:为什么两条路径高度吻合?
这种对应不是巧合。
企业管理的每次演进,都是被同一组力量驱动的:规模、风险、可预期性。
当团队是 3 个人时,沟通成本低,口头协调就够了;当团队是 500 个人时,必须用制度替代沟通,否则系统会在复杂性中崩溃。
AI 系统的演进路径完全相同:
| 驱动力 | 企业管理 | AI 范式 |
|---|---|---|
| 规模 | 3人靠沟通,500人靠制度 | 单个简单任务靠 Prompt,复杂多步 Agent 靠 Harness |
| 风险 | 能力越强的员工,犯错代价越大 | AI 能访问真实系统后,一个错误可能删掉生产数据库 |
| 可预期性 | 企业要的是稳定可预期的输出,不是"看今天发挥" | AI 系统要的是可测试、可调试、可观测,不是"看 AI 心情" |
这背后有一个更深的洞察:
能力边界在哪里,工程的重心就在哪里。
早期模型能力弱,瓶颈是"能不能理解",所以研究 Prompt。模型变强后,信息管理成瓶颈,所以出现 Context Engineering。现在模型足够聪明、信息也能管理好,系统可靠性成了瓶颈——所以 Harness Engineering 登场了。
反向洞察:小心过度 Harness 的"AI 大公司病"
这里有一个很多人没想到的反面。
现实中的大公司病是什么样的?流程套流程、审批套审批,一个本来两小时能做完的事,光是走审批就要两周。最终,制度从"保护组织"变成了"阻碍组织"。
AI 系统也会得同样的病。
Harness 设计得太死、权限管控太严、每一步都要人工审批——这样的 AI 系统不是可靠,而是失去了 AI 的核心价值:自主执行。
[图3:平衡区间 — 完全自由 vs 过度制度化]
甜蜜区间的标准是:
- 低风险操作:读文件、跑测试、查询只读接口 → 完全自主,不需要人介入
- 中风险操作:修改文件、调用外部 API → 有日志记录,事后可审计
- 高风险操作:修改生产配置、发送对外通知、删除数据 → 必须人工确认
Harness 的设计哲学不是"把 AI 关进笼子",而是**"让 AI 在安全边界内尽可能自由地飞"**。
下一步:两个预测方向
[图4:Harness 之后的两个预测方向]
回到企业管理的故事线。
一家 500 人的成熟企业,拥有完善的制度和流程之后,下一步往哪里走?
历史上有两条路:一条往外扩——生态化;一条往内深——文化驱动。
预测 A:Ecosystem Engineering — 从管一家公司到设计生态
苹果不只是制造手机,它建了一个 App Store 生态;阿里不只是卖货,它建了一个电商生态平台。
当单一企业的边界触达上限,下一步不是把这家公司做得更大,而是构建一个让更多参与者协作创造价值的生态系统。
AI 系统的演进同样如此。
单个 AI Agent 有能力边界。当任务复杂到需要多个专业化 Agent 协作时,Harness Engineering 的视角就不够了——你需要的是 Ecosystem Engineering:
- Agent 专业化分工:研究 Agent、代码 Agent、测试 Agent,各司其职,像一个高效团队
- Agent 间通信协议:MCP(Model Context Protocol)就是这个方向的早期尝试——标准化 AI Agent 之间的"工作接口"
- Agent 市场化:就像 App Store 里有各种应用,未来会有各种专业化 Agent 可以按需组合调用
- 涌现行为管理:多个 Agent 协作时,整体行为会超出任何单个 Agent 的预期,这是新的工程挑战
这条路的现实依据已经出现:MCP 协议正在快速推广、Multi-agent 框架(LangGraph、CrewAI)被广泛采用、各大厂商开始构建 Agent 市场。
预测 B:Alignment Engineering — 从制度约束到价值观内化
还有另一条路:企业发展到一定阶段,最优秀的公司不再主要靠制度约束员工的行为,而是靠文化。
Netflix 的著名文化手册里说:我们的目标是招聘足够好的人,让他们不需要查规则手册,天然就知道什么是对的事情。
这是更高阶的管理形态:把价值观内化到员工的判断力中,使他们在任何规则没有覆盖到的新情况下,也能做出符合组织期望的决策。
AI 系统的类比方向是 Alignment Engineering:
与其在 AI 的行为外面套一层层 Harness,不如在训练阶段就把价值观和行为准则注入模型本身——让 AI 不是"被外部约束不去做坏事",而是"从内部就不想去做坏事"。
这对应 AI 领域正在发生的:
- Constitutional AI(Anthropic):给模型一套"宪法",让它在训练时自我批评和修正
- RLHF(基于人类反馈的强化学习):通过人类偏好信号,让模型习得"什么是好的"
- 价值对齐研究:这是 AI 安全领域的核心课题
但这条路离今天的工程实践更远。它更像是一个长期愿景:我们不再需要那么多外挂的 Harness,因为 AI 本身就已经"三观正确"了。
总结:我们和 AI 的关系,正在经历一次管理哲学的跃迁
回顾这条进化链条:
| 阶段 | 核心问题 | 企业类比 | 关键词 |
|---|---|---|---|
| Prompt Engineering | 怎么说? | CEO 直接发需求 | 措辞、结构、角色 |
| Context Engineering | 给什么信息? | 公司开始建 Wiki | RAG、Memory、System Prompt |
| Harness Engineering | 搭什么系统? | 成熟企业建制度 | Hooks、权限、工具设计 |
| Ecosystem Engineering(预测) | 组什么生态? | 平台化、生态化 | Multi-agent、MCP、协议 |
| Alignment Engineering(预测) | 内化什么价值观? | 文化驱动型组织 | Constitutional AI、对齐 |
这条路的本质,是我们和 AI 之间关系的深刻变化:
- Prompt Engineer:把 AI 当工具,研究怎么把这个工具用好
- Context Engineer:把 AI 当专业人员,研究怎么给他完整的信息和授权
- Harness Engineer:把 AI 当组织成员,研究怎么建立让 AI 安全高效工作的制度体系
- Ecosystem Engineer(未来):把 AI 当生态参与者,研究怎么让 AI 网络协同创造价值
当你开始思考"我要搭什么系统让 AI 来工作",而不再只是"我要怎么跟 AI 说话"——你就已经踏上了这条进化路径。
不需要一步到位。了解自己所处的阶段,知道下一步往哪里走,就已经比大多数人领先了。