Harness Engineering(驾驭工程):2026 年每位 AI 工程师必须掌握的核心知识

0 阅读32分钟

三大流派、三种架构——以及 Anthropic Opus 4.7 模型为三者带来的全新定论

2026 年 2 月,OpenAI 发布了一篇博文,悄然重新定义了软件工程师的日常工作内核。文章仅有两个字的标题:《驾驭工程》。

这篇文章介绍,其小型团队在零手动编码的前提下,完成了一百万行生产级代码的交付上线。

团队并未亲自编写代码,而是专注设计 AI 智能体的运行环境:行为约束、反馈闭环、文档规范、依赖规则
由 AI 智能体负责编码开发,人类工程师只负责搭建体系,保障智能体稳定可靠运行。

短短数周内,Anthropic 接连发布三篇工程领域论文(《长周期智能体高效约束体系》《长周期应用的约束设计方案》《托管式智能体架构》),围绕同一核心概念展开深度研究。思特沃克(ThoughtWorks)正式梳理并制定标准化框架,红帽(Red Hat)发布配套落地实践指南。
Hugging Face 的菲利普·施密德更是直言:驾驭工程,将成为2026 年最重要的工程领域

短短 90 天,一门全新的工程学科正式诞生。

而它的演化速度,早已超出所有人预期。就在近日,Anthropic 正式推出 Claude Opus 4.7——这是其一年内迭代的第三代大模型。每一次版本升级,不只是模型能力的优化,更是约束体系的简化
三月尚且不可或缺的核心组件,到了四月便沦为冗余累赘。

这门诞生仅 90 天的全新学科,已然开始改写自身规则。

Image

摄影:谢尔盖·施密特 来源:Unsplash

各项实测数据,印证了这场变革的紧迫性。LangChain 在终端基准测试 2.0 中,对同一模型进行两组对照实验:一组沿用旧版约束体系,一组切换全新约束架构。
模型完全一致,仅约束体系不同,综合得分从 52.8% 飙升至 66.5%

Vercel 则反其道而行,移除智能体 80% 的工具能力,最终效果反而全面提升。
精简工具、收紧约束、规范边界,最终产出质量大幅优化。

如果说 2025 年是 AI 智能体证明代码编写能力的元年,那么 2026 年我们终于认清核心:智能体本身从不是难题,真正的关键在于约束体系。

当下行业最值得关注的核心趋势:三大主流技术流派应运而生,针对约束体系的设计逻辑,形成截然不同的技术理念。
各方对行业痛点认知统一,但架构设计思路完全分化。
这种选择绝非纸上谈兵,直接决定企业研发成本、人力配置,更决定 AI 智能体最终产出可用软件,还是无效的幻觉式垃圾代码。

本文将全面拆解三大技术路线,解析各自落地形态与适用场景,并提供一套可直接落地的选型决策框架。

约束体系的核心定义

思特沃克工程师苏尼特·帕雷克在《脱离随性编码:AI 原生工程的五大核心基石》中,给出了最通俗易懂的定义:

智能体 = 大模型 + 约束体系

约束体系,指代大模型本身之外的一切配套能力:规范智能体行为的边界约束、纠错止损的反馈机制、明确项目现状与开发进度的配套文档、智能体被授权使用的工具集合。
剥离约束体系,剩下的只是一台依靠随机猜测、盲目操作代码仓库的原生大模型;
搭建完善的约束体系,才能打造稳定交付生产级代码的自动化开发系统。

OpenAI 团队在命名时,借用了经典比喻:约束体系如同马具——缰绳、马鞍、口衔,用以引导一匹力量强大却难以掌控的野马,使其发挥正向价值。
无需强行提升马匹智商,只需设计合理装备,就能驯服其力量、实现高效利用。

菲利普·施密德则给出了更贴合技术场景的类比,便于深度理解:
以计算机架构类比,大模型是 CPU(原生算力)、上下文窗口是内存(容量有限、临时存储)、约束体系是操作系统(管控算力调度与可视范围)、智能体则是运行在整套架构之上的应用程序。

Image

作者配图:操作系统类比架构——大模型为 CPU,约束体系为操作系统

若你具备金融或风控领域背景,理解会更加直观:
约束体系本质是一套管控框架,通过完善的规则策略、节点校验、审计留痕机制,确保自动化系统在合规可控的范围内运行。
风控团队数十年都在搭建同类体系,只是如今,这套理念在 AI 领域有了全新名称。

约束体系的落地载体形态

Image

作者配图:约束体系核心公式:智能体 = 大模型 + 约束体系

多数文章仅从抽象层面定义约束体系,缺乏落地参考,这远远不够。
想要实际搭建,必须清晰了解各主流方案的核心组成载体。以下为所有主流落地实践中,通用的标准化核心组件:

AGENT.md / CLAUDE.md 规则文件(全行业通用规范,命名略有差异)
分散存放于代码仓库各处的 Markdown 规则文件,是智能体每次启动会话时的必读文件。
OpenAI Codex 命名为 AGENT.md,Anthropic Claude Code 命名为 CLAUDE.md,Cursor 编辑器则使用 .cursorrules 配置文件。
命名各不相同,但核心逻辑完全一致:包含项目背景、编码规范、架构设计决策、团队统一开发标准等关键指引。
OpenAI 索拉(Sora)安卓端团队在全仓库落地该规范,按模块拆分独立规则文件,随项目迭代持续更新。
对 AI 智能体而言,这类文件就如同新入职工程师的岗前手册,快速熟悉项目现状与开发要求。

# AGENT.md - 认证模块
## 架构规范
- 采用 PKCE 模式的 OAuth2 授权流程,令牌加密存储于共享偏好设置
- 禁止明文存储令牌,禁止打印输出令牌日志
## 编码规范
- 所有认证异常统一通过 AuthErrorHandler 处理器处理
- 重试策略:指数退避算法,最多重试 3 次
## 项目现状
- 正在推进 v1 令牌格式向 v2 版本迁移(详见 247 号需求单)

JSON 功能清单(Anthropic 专属方案)
当智能体跨多轮会话开发完整应用时,每一轮会话都会重置上下文窗口,如何确保智能体衔接历史进度、明确后续开发任务?
Anthropic 的解决方案,是采用 JSON 文件同时承载项目需求规格与开发进度台账。
每条条目对应一项功能需求,包含验证步骤与完成状态。
在其 claude.ai 复刻演示项目中,该清单涵盖 200 余项独立功能,初始状态全部标记为「未完成」。

智能体每次启动开发会话,都会优先读取该文件,筛选优先级最高的未完成功能进行开发;
开发完成后,按照预设测试步骤自主校验,更新状态为「已完成」并提交代码。
单文件同时承载测试用例与项目看板,兼顾人机双向可读性。

{
  "category""用户认证",
  "feature""邮箱密码重置功能",
  "verification": [
    "登录页面点击「忘记密码」选项",
    "输入注册绑定邮箱地址",
    "30 秒内收到重置邮件校验",
    "点击重置链接并设置新密码",
    "使用新密码登录验证功能有效性"
  ],
  "status""未完成"
}

为何选用 JSON 而非 Markdown?
Anthropic 实测发现:相较于 Markdown 文件,大模型不会随意篡改、误删 JSON 配置内容
细节虽小,却直接决定智能体长时间自主运行的稳定性。

会话初始化流程(Anthropic 专属方案)
所有编码开发会话,严格遵循标准化七步启动流程:确认工作目录、读取 Git 日志与进度文件、读取功能清单筛选高优先级待办、启动开发服务、基础端到端校验、单项功能迭代开发、标准化提交代码并同步进度。

该流程为必备配置,不可或缺。
若无标准化初始化流程,每轮会话都会从零开始,智能体需耗费近 20 分钟梳理历史开发内容,严重浪费资源。

结构化任务模板(红帽专属方案)
正式编码前,约束体系会结合语言服务、代码分析工具,深度解析现有代码仓库,生成精准的影响范围图谱;
基于分析结果,自动生成标准化任务模板,明确文件路径、代码标识、现有开发范式、验收标准。
杜绝模糊描述,彻底解决路径幻觉、接口虚构等问题。

迭代契约机制(Anthropic 专属方案)
编码开发前,执行智能体与评估智能体先行协商达成共识:
开发智能体提交建设方案与验收标准,评估智能体审核方案完整性与合理性;
双方确认无误后,方可启动开发工作。
这套机制,是传统研发团队设计评审流程的轻量化 AI 版本,全程由双智能体协同完成。

Image

作者配图:约束体系载体全景图——各大方案通用五大核心组件

底层共通逻辑

纵观所有落地载体,核心逻辑高度统一,所有设计都只为解答同一个核心问题:
智能体开始编写第一行代码前,必须掌握哪些关键信息?

答案远比想象中复杂:
明确自身在代码仓库中的位置、掌握已完成开发内容、清晰优质代码的标准边界、知晓禁止操作范围、具备自主成果校验能力。
这些能力无关模型智商,全部依赖上下文信息支撑。
而高质量上下文,正是驾驭工程的核心产出。

三大技术流派

驾驭工程并非由行业协会统一制定标准,也并非源于行业峰会议题。
三大头部企业在落地 AI 编码能力时,先后遭遇相同瓶颈,最终各自探索出完全不同的解决方案。

OpenAI 流派:百万行零人工编码的落地实践

Image

作者配图:驾驭工程三大流派架构——OpenAI、Anthropic、思特沃克

OpenAI Codex 团队曾面临规模空前的研发难题:
完整生产级应用全部由 AI 智能体独立开发,一百万行代码全程无人工编写

如此庞大的代码体量,传统逐行代码评审模式完全失效,人工审核百万行代码不具备可行性。
最优解法,是前置完善环境设计,从源头规范智能体产出,确保代码天然符合评审标准。

团队在实践中总结出核心经验:

给智能体一份清晰地图,而非千页冗余说明书。

团队搭建严格的层级依赖规范(类型定义 → 配置文件 → 仓库底层 → 业务服务 → 运行环境 → 前端界面),通过结构化测试强制落地约束;
在代码仓库全域嵌入 AGENT.md 分布式文档;
将智能体深度接入 CI/CD 流水线,实现所有代码变更自动化测试校验。

核心理念:优先搭建标准化运行环境,赋予智能体高度自主开发权限。
人类工程师聚焦顶层架构设计,彻底脱离基础编码工作。

这套方案的落地成果,在索拉安卓客户端项目中得到充分验证:
4 名工程师、28 天开发周期、累计消耗 50 亿模型令牌,应用上线登顶应用商店榜首,崩溃率低至 99.9% 稳定运行;
Codex 智能体每周承接 70% 内部合并请求,工程师专注架构规划、方案设计、质量校验,基础开发工作全面交由 AI 完成。

Image

作者配图:OpenAI/Codex 依赖层级规范:类型 → 配置 → 仓库 → 服务 → 运行时 → 界面

Anthropic 流派:破解智能体自我美化的质量难题

Anthropic 面临的痛点更加隐蔽,落地难度也更高:
团队研发长周期自主运行智能体,需要连续数小时独立完成完整应用开发。
大模型能力完全达标,核心短板集中在质量管控环节。

实测中发现严重问题:
当智能体自主评估开发成果时,
即便产出质量粗糙、功能存在明显漏洞,依然会盲目自我认可、满分自评

自主评估完全失效,智能体既当开发者又当审核者,必然出现标准宽松、自我包庇的问题。

团队借鉴生成对抗网络(GAN)核心思路,给出解决方案:
拆分执行角色与审核角色,彻底解耦开发与校验流程,最终形成三智能体架构。
规划智能体:将简短需求指令,拆解为完整可落地的产品规格方案;
开发智能体:按迭代周期,逐功能完成代码开发落地;
评估智能体:借助浏览器自动化工具,模拟真实用户操作应用,依据明确标准打分验收。

实践证明:针对性调教独立评估智能体、强化批判性判断能力,远比优化开发智能体的自我纠错能力更加高效可行。

技术架构持续迭代升级:
从最初双智能体(初始化+编码),进化为三智能体(规划+开发+评估),最终升级为完全解耦的「托管式智能体」架构。
将核心推理模型、执行运行环境、会话日志记录拆分为独立可替换组件,优化效果显著:
首包响应耗时中位值降低 60%,P95 响应耗时降幅超 90%。

Image

作者配图:Anthropic 多智能体架构:规划智能体 → 开发智能体 → 评估智能体

核心理念:分离执行与审核角色,打造高标准、严要求的独立校验体系。

思特沃克流派:源于 50 家企业落地失败的经验总结

思特沃克切入驾驭工程的视角完全不同。
团队并非自主研发产品,而是长期服务各行各业企业客户,观察数十支研发团队落地 AI 智能体的共性问题,总结行业通用失败规律。

拥有二十余年行业经验的首席工程师比尔吉塔·伯克勒,在 2026 年 4 月发布三大流派中最完整、体系化的驾驭工程框架。
OpenAI 侧重落地系统搭建,Anthropic 侧重架构设计优化,思特沃克则聚焦行业标准化分类体系构建。

该框架通过两大维度,完成所有约束管控能力的分类:
第一维度:前馈约束(事前引导,智能体执行前提前规范行为)与反馈约束(事后监测,捕捉问题并支撑自主修正)。
两类能力缺一不可:仅靠反馈约束,会反复重复同类错误;仅靠前馈约束,无法验证规范落地有效性。

第二维度:计算型约束(确定性自动化校验,如代码检查工具、类型校验、测试套件,毫秒级响应)与推理型约束(依托大模型语义分析,校验深度问题,耗时更长、成本更高)。

同时,将所有管控能力划分为三大治理方向:
可维护性治理(技术最成熟,代码检查、覆盖率工具已广泛落地)、
架构合规治理(规范设计模式、性能指标等架构要求)、
业务行为治理(落地难度最高,校验实际功能是否符合需求,而非仅保证代码编译通过)。

核心理念:标准化分类、体系化梳理,为全行业提供统一的概念体系与落地参考标准。

三大流派分化的核心原因

三大团队方案截然不同,根源在于初始痛点差异:
OpenAI 需解决大规模产品快速交付问题;
Anthropic 需解决长周期自主开发的质量管控问题;
思特沃克需打造通用框架,适配全行业、全类型智能体与大模型。

选型核心不在于评判流派优劣,而在于匹配自身实际业务痛点。

三大架构全方位对比

前文梳理了各流派的诞生背景,接下来深度拆解落地架构、核心原理,以及各自的适用边界与短板缺陷。

OpenAI/Codex:环境优先型约束体系

该方案适合前期愿意投入成本、深度定制运行环境的团队,长期可享受高度自主化研发红利,但前期搭建成本不可忽视。

核心原理
约束体系与代码仓库深度融合:
AGENT.md 规则文件提供全场景上下文,结构化测试强制落地架构规范,固定依赖层级避免开发顺序混乱;
CI/CD 流水线全流程自动化校验所有代码变更。

智能体拥有高度自主权限:自主创建合并请求、响应评审意见、运行自动化测试、迭代修复问题、达标后自主合并代码。
人类无需逐行审核代码,只需完善底层约束规则,保障所有产出代码天然合规可控。

核心优势
适配超大型代码仓库。
针对数十万行级别的大型项目,环境优先方案依托仓库原生结构嵌入约束规则,具备极强扩展性;
新增业务模块仅需补充对应 AGENT.md 规则文件,无需额外训练与复杂配置,智能体即可快速适配开发。
OpenAI 实测数据显示,依托这套体系,研发效率提升至传统人工编码的十倍。

存在短板
高度依赖前期完整环境规划,不适合架构尚未定型的全新空白项目。
强依赖结构化测试与流水线校验,只能判断代码语法、规范合规性,无法评估设计合理性。
代码可正常通过全部测试,不代表架构设计、功能逻辑合理。

Anthropic:多智能体协同约束体系

单次运行成本更高,但能捕捉环境优先方案无法识别的深层问题。
核心取舍在于质量与效率的平衡:
若业务场景中,功能故障造成的损失远高于研发成本,该方案具备极高落地价值。

核心原理
三类专用智能体各司其职、分工明确:
规划智能体:将简短需求(1-4 句)拆解为完整产品方案,明确交付目标与顶层设计,规避过度细化实现细节引发的连锁错误;
开发智能体:基于通用技术栈(React、Vite、FastAPI、SQLite/PostgreSQL)逐功能迭代开发,交付前完成基础自查;
评估智能体:基于 Playwright 浏览器自动化工具,模拟真实用户操作,全面校验界面交互、接口能力、数据库状态,依据量化标准打分。

每轮迭代开发前,开发智能体与评估智能体签订「迭代契约」,明确开发范围与验收标准,实现轻量化架构评审。

托管式智能体增强能力
进一步解耦核心模块:推理模型、执行沙箱、会话日志拆分为独立接口;
模型异常可通过日志断点续跑,沙箱故障独立报错隔离,核心密钥完全隔离代码运行环境,保障安全。

核心优势
适配高要求、高可靠性业务场景。
评估智能体可捕捉传统测试无法覆盖的体验类问题:界面渲染正常但无法交互、功能可用但操作逻辑反人类、接口数据正确但格式异常等隐性缺陷。
实测对比:单智能体开发成本 9 美元、耗时 20 分钟,产出界面完整但核心功能失效;
完整多智能体约束体系成本 200 美元、耗时 6 小时,产出界面精美、功能完整、体验流畅的可用产品。

存在短板
成本高、周期长。
三智能体协同架构的运行开销远超单智能体方案,评估智能体需要长期精细化提示词调优;
默认配置下,评估模块即便识别问题,也容易合理化缺陷、放任通过,需要多轮迭代优化,才能建立严格审核标准。

随着模型持续迭代,约束体系持续简化:
Opus 4.6 取消迭代拆解能力,改为单次统一评估,大幅压缩成本;
2026 年 4 月发布的 Opus 4.7 进一步优化:
模型新增自主校验能力、代码精简度提升、冗余封装代码大幅减少、工具调用错误量降低三分之一。
每一轮模型升级,都会弱化约束体系的依赖需求。

思特沃克:分类体系型约束框架

思特沃克并未提供可直接部署的落地系统,而是输出一套标准化设计思维模型。
适合不采用 OpenAI、Anthropic 专属工具栈的企业团队,可基于该框架自主搭建适配业务的约束体系,但需要投入二次落地研发成本。

核心原理
所有约束管控能力通过两大维度划分:
维度一:前馈引导(执行前)/ 反馈监测(执行后);
维度二:计算型自动化校验 / 大模型推理型语义校验。

最终形成 2×2 四大管控类型:

  • 计算型前馈约束:类型系统、代码检查工具、架构决策记录

  • 计算型反馈约束:测试套件、覆盖率分析、变异测试、复杂度检测

  • 推理型前馈约束:需求规格文档、设计规范提示词、行为约束说明

  • 推理型反馈约束:大模型代码评审、语义质量检测、业务行为校验

管控能力覆盖完整研发生命周期:集成前快速轻量校验、集成后全维度合规检测、常态化架构漂移监测、运行时指标告警与质量抽样巡检。

核心优势
适配具备成熟代码仓库的传统研发团队。
多数企业已落地代码检查、自动化测试、流水线等基础能力,依托该框架可快速梳理现有约束资产,精准定位能力短板、明确优化方向。
同时提出「约束适配性」核心概念:
强类型语言、清晰模块边界、标准化技术框架,能够天然提升 AI 智能体开发稳定性,为新项目技术栈选型提供关键参考。

同步推出约束模板化方案:
针对 CRUD 接口等通用业务场景,搭建标准化约束模板,多服务复用,大幅降低单项目约束体系搭建成本。

存在短板
偏重理论梳理,缺乏落地指引。
框架仅明确管控能力分类,未指定配套工具、部署方案、联动逻辑,具体落地需要团队自主决策。
不适用于追求开箱即用、快速落地的业务场景,仅作为顶层设计蓝图,而非直接落地工具。

业务行为治理仍是行业短板:
现有方案过度依赖 AI 自动生成测试用例,而这类测试用例的有效性普遍不足,难以全面保障智能体开发成果完全匹配原始业务需求。

Image

作者配图:思特沃克 2×2 约束管控框架

深度研究核心共识

剥离各流派的落地差异,一项关键共识浮出水面:
三大独立团队、基于不同业务痛点开展研发,最终沉淀出五条完全一致的核心原则
跨团队的理念趋同,足以证明其行业普适性与必要性。

原则一:上下文优先,优于指令堆砌

Image

作者配图:五大通用核心原则,三大流派独立验证达成共识

OpenAI 主张「提供实景地图,而非冗余手册」;
Anthropic 依靠 JSON 进度清单、历史日志,保障智能体实时掌握项目进度;
红帽要求编码前全量解析现有代码仓库,夯实开发基础;
思特沃克将其定义为前馈约束核心逻辑。

各方表述不同,但核心结论统一:
向智能体展示真实项目现状(实际文件路径、现有代码范式、历史开发进度),
效果远优于抽象化文字指令。
贴合代码仓库实景的上下文支撑,能产出高度适配项目的合规代码;
模糊文字描述只会引发路径幻觉、虚构接口等高频问题。

原则二:规划与执行必须强制解耦

OpenAI 拆分人类架构设计与 AI 编码执行;
Anthropic 配置独立规划智能体,编码前完成方案拆解;
思特沃克与红帽设置刚性节点,规划方案审核通过后方可启动开发。

全行业实践验证:
智能体同步完成方案规划与代码开发,必然导致产出不稳定、漏洞频发。
规划环节无需人工介入或独立智能体执行,但必须作为独立流程节点,完成校验审核后,方可进入开发阶段。

原则三:反馈闭环是必备核心能力

OpenAI 依托 CI/CD 流水线、可观测体系实现自动化反馈;
Anthropic 搭建独立评估智能体,模拟真实场景全流程验收;
思特沃克明确反馈监测的必要性,强调纯前置约束无法长效运转。

行业共识不在于是否需要反馈机制,而在于反馈载体选择:
OpenAI 采用自动化代码测试,Anthropic 采用大模型语义校验,思特沃克主张双层联动(轻量化计算型反馈优先、高深度推理型反馈补充)。
所有方案统一证明:缺失反馈闭环的约束体系,只是复杂化的提示词优化,毫无实际价值。

原则四:单次聚焦单一任务,拒绝并行开发

OpenAI 拆解大型需求为模块化单元,深度优先迭代;
Anthropic 严格执行单迭代单功能开发,完成后即时提交沉淀;
思特沃克制定分阶段管控体系,拆分集成前、集成后、常态化监测全流程。

智能体多任务并行开发,极易触发上下文溢出、逻辑断裂、需求遗漏等问题。
强制增量式开发,完成单一最小单元任务后再推进下一环节,是所有成熟约束体系的通用设计。
Anthropic 的标准化会话初始化流程,是该原则最典型的落地体现。

原则五:代码仓库即是唯一事实文档

OpenAI 全域嵌入仓库规则文件;
Anthropic 将功能清单、进度记录、版本日志作为智能体连续开发的核心依据;
思特沃克提出约束适配性理念,强调仓库结构化对 AI 适配能力的关键作用;
红帽要求所有开发规范纳入版本管控。

行业统一实践:不再为 AI 智能体单独维护独立知识库,
代码仓库为唯一权威信息源
所有开发规范、行为约束、架构决策,必须沉淀至仓库内;
脱离仓库的外部规则,无法被智能体识别落地。
这也意味着:优化代码结构、规范模块边界、完善内嵌文档,能够零成本提升 AI 智能体开发质量。

行业共识的落地价值

这五大原则并非主观理念,而是三大团队经过反复落地、试错、迭代后,总结出的硬性工程约束。
从零搭建约束体系,必须以此为基础;
无论选用何种工具、何种架构,违背以上原则,必将付出稳定性、成本、效率的多重代价,这也是无数团队踩坑后的共性结论。

驾驭工程的落地成本与取舍

驾驭工程无法零成本落地,所有技术方案都需要在前期投入、运行成本、长期维护三者之间权衡取舍。
结合实测公开数据,全面解析成本现状与潜在隐性开销。

实测数据:Anthropic 对照实验

Anthropic 发布了行业最完整的成本对照数据,基于同一应用开发需求,开展两组对比测试:
纯单智能体(无约束体系):耗时 20 分钟,成本 9 美元,界面展示正常,但核心功能完全失效,仅为表面可用的演示版本;
完整多智能体约束体系(Opus 4.5):耗时 6 小时,成本 200 美元,功能完整、交互流畅、界面精美、逻辑严谨,为可直接上线的成熟产品。

为实现可用落地版本,成本提升 22 倍。
成本高低与否,完全取决于业务故障带来的损失:
面向 C 端用户的产品,功能漏洞、体验缺陷的隐性损失,远高于约束体系运行成本。

模型迭代带来的成本红利

模型持续升级,正在持续降低约束体系的依赖成本:
从 Opus 4.5 迭代至 Opus 4.6,约束体系大幅简化:
取消迭代拆解、改为单次统一评估、优化上下文压缩机制,
最终落地一款专业音频工作站应用,
成本降至 124.7 美元,耗时 3 小时 50 分钟,
成本降低 38%,耗时缩短 36%,全部得益于模型能力升级。
模型越强,所需配套约束与兜底机制越少。

这一优化趋势仍在持续加速:
4 月 16 日发布的 Opus 4.7 再度突破,
Cursor 基准测试得分从 58% 提升至 70%,
代码生产基准测试任务解决量提升三倍,
在令牌消耗更少的前提下,综合能力较上一版本提升 14%,
单位产出对应的约束开销持续下降。

但约束体系不会彻底消亡:
即便模型大幅升级,评估模块仍能识别大量隐性缺陷,
缺失约束兜底,残缺功能、简化开发、隐性漏洞仍会直接上线。
约束体系会随模型迭代持续精简,但不会彻底消失。

隐性成本:长期维护开销

行业极少提及的核心隐性成本:持续维护成本
约束体系并非一次性搭建即可永久使用,需要长期迭代适配。
Manus 团队半年内五次重构约束体系,LangChain 一年内三次升级智能体约束架构。
这并非工程设计缺陷,而是模型快速迭代下的必然结果。

模型能力每一轮升级,都会导致部分原有约束组件冗余失效;
想要识别冗余模块、精简架构,必须持续开展对比测试、版本验证。

Hugging Face 菲利普·施密德给出核心建议:
为删除而设计
所有约束组件采用模块化解耦设计,预留关闭开关;
定期关闭单项约束能力,量化评估产出质量变化;
若无负面影响,直接下线冗余组件,
避免无效组件持续消耗令牌资源、增加维护负担。

Image

作者配图:落地成本对比:纯单智能体 9 美元 vs 完整版约束体系 200 美元 vs 优化版约束体系 124.7 美元

落地选型决策框架

无需强行绑定单一流派,结合团队规模、业务场景、管控需求,精准匹配最优方案:

个人开发者 / 小型初创团队、项目早期阶段
优先落地仓库规则文件(AGENT.md/CLAUDE.md)+ 标准化 CI 流水线,
采用简化版 OpenAI 环境优先方案,低成本快速落地,复用现有研发基建,即刻见效。

面向终端用户、功能故障影响核心体验的产品团队
新增独立评估闭环,无需照搬 Anthropic 三智能体复杂架构;
仅需引入次级大模型,对开发成果开展二次审核校验,
即可拦截自动化测试无法识别的体验类、逻辑类漏洞,
「执行与审核分离」的核心原则可灵活轻量化落地。

多团队协同、全域规模化落地 AI 智能体的中大型企业
落地思特沃克分类框架,
将现有代码检查、自动化测试、流水线等能力,纳入前馈/反馈、计算/推理二维管控体系,
精准识别能力短板,针对通用业务场景搭建标准化约束模板,
打造企业级统一 AI 研发管控基建。

合规监管严格的特殊行业
将约束体系定义为官方管控合规框架,
Anthropic 托管式智能体的日志留痕机制,可直接满足审计追溯需求;
红帽结构化任务模板,可同步输出合规可追溯开发文档,
提前布局 AI 研发合规能力,规避后续监管核查风险。

行业悖论:为淘汰而搭建

Anthropic 实测数据揭示了一个行业共性痛点,却未被各大流派重点提及:
模型从 Opus 4.5 升级至 Opus 4.6,不止能力提升,更实现架构简化。
Opus 4.5 不可或缺的迭代拆解能力,依托新版模型的长上下文理解与自主规划能力,彻底淘汰。
三月的核心刚需组件,四月彻底沦为冗余负担。

Opus 4.7 的发布,进一步放大该趋势:
模型原生具备成果自主校验能力,
而这正是当初搭建独立评估智能体的核心初衷;
代码自主优化能力增强,冗余封装、无效兜底代码大幅减少;
工具调用稳定性提升,错误发生率降低三分之二。
发展路径清晰可见:
4.5 依赖完整迭代拆分与逐轮评估,
4.6 精简流程、合并评估环节,
4.7 逐步内置校验能力,弱化外部评估依赖。

Anthropic 将该现象定义为约束衰减
每一项约束组件,本质都是为弥补模型短板而设计;
随着大模型能力持续进化,原有短板被补齐,配套约束便沦为无效开销。

行业案例比比皆是:
企业频繁重构约束架构、Vercel 精简 80% 工具反而提升质量,
背后逻辑完全一致:适配旧版本模型的约束方案,反而会限制新版模型能力、增加无效消耗。

Image

作者配图:为淘汰而设计:模型迭代周期下的约束体系衰减规律

菲利普·施密德结合机器学习领域经典的「惨痛教训」理论,给出深度解读:
依托算力规模化迭代的轻量化通用方案,长期价值必然优于过度定制、强耦合的人工复杂设计。
落地至驾驭工程领域,核心结论明确:
拒绝搭建高度耦合、逻辑复杂的刚性管控体系,
采用模块化、可插拔、可快速下线的轻量化架构,

随模型迭代逐步淘汰冗余约束,动态优化体系。

这也为研发团队带来无法回避的行业悖论:
当下想要 AI 智能体稳定产出,必须搭建约束体系;
今日搭建的约束架构,未来必将被逐步拆解淘汰;
固守老旧约束方案、拒绝迭代精简,
将长期承受额外令牌开销、响应延迟、维护成本的多重损耗,且无法获得质量提升。

落地实践方案简单直接,即便违背传统研发思维:
所有约束组件预留关停开关,
定期单项禁用、量化测评质量变化,
确认无负面影响后,及时清理冗余模块。

而行业终极疑问,目前尚无统一答案:
随着模型持续进化,约束体系是否会收敛为极简标准化底层能力,如同操作系统内核长期稳定?
还是会持续高频迭代,跟随每一代模型重构升级?

三大流派给出了不同预判:
OpenAI 环境优先方案偏向稳态收敛,仓库架构、流水线、规则文件可长期复用;
Anthropic 实测数据指向动态迭代,多智能体架构持续精简、边界不断变化;
思特沃克分类框架保持中立,不绑定技术路线,适配所有演化方向。

可以确定的核心趋势:
2026 年及未来,顶尖 AI 研发团队的核心竞争力,
不在于编写优质代码,
而在于设计合理约束边界,
并拥有足够的灵活性,在约束失去价值时,果断淘汰、持续进化。

-------------------------------------------------------------

微信公众号:算子之心