从 Prompt 到 Loop:2026 年 AI 工程师必须掌握的 Loop Engineering 实战指南

60 阅读8分钟

一、引言:正在发生的范式迁移

2026 年 6 月,AI 编程社区被一个新词点燃了——Loop Engineering(循环工程)

故事从两个关键人物开始。

Anthropic Claude Code 负责人 Boris Cherny 在回顾 Claude Code 一周年时抛出一句话:「我不再 prompt Claude 了。我写 loop 让它们运行,loop 去 prompt Claude 并决定下一步做什么。我的工作是写 loop。」

紧接着,Google 工程师 Addy Osmani 系统性地整理了这个概念,用一篇深度文章定义了 Loop Engineering 的技术边界。

你可能会问:这又是一个被炒作的术语吗?

数据不会说谎。Anthropic 在 2026 年 6 月发布的《When AI builds itself》报告中披露:

指标数据
Claude 写的代码占合并总量>80%(2026年5月)
工程师日均代码合并量比 2024 年增长 8x
开放式任务成功率76%(2026年5月,半年前仅 26%)
Claude 自主优化训练代码加速从 3x(2025年5月)到 52x(2026年4月)

这些数据揭示了一个事实:当 Agent 可以在 loop 中自主运行时,人的产出不取决于写代码的速度,而取决于设计 loop 的质量。


二、什么是 Loop Engineering?

核心定义

Loop Engineering 是 构建驱动 AI Agent 的系统,而不是构建单个 prompt

传统模式(人→Agent): 人 → 写 prompt → Agent 输出 → 人读结果 → 人写新 prompt → ... 人处于循环内部,每个步骤都需要手动干预。

Loop 模式(人→系统→Agent): 人 → 设计 loop → loop 自动 prompt Agent → loop 读输出 → loop 判断是否完成 → loop 自动重 prompt 或终止 人处于循环外部,从执行者变成了设计者。

一句话精准概括:Loop = Cron + 决策器。模型变成子程序,人变成 loop 的作者。

概念层级

Loop Engineering 不是凭空出现的,它处于一个清晰的概念金字塔中:

         Factory Model
    — 多 loop 协同产出软件
         Loop Engineering
    — 让运行环境自己跑起来
         Harness Engineering  
    — 给模型造运行环境
         Prompt Engineering
    — 怎么跟模型说话

Addy Osmani 的精确定位:「Loop Engineering sits one floor above the harness. The harness runs on a timer, it spawns little helpers, and it feeds itself.」

Harness(运行框架)是静态的基础设施,Loop 是动态的编排层。Harness 解决「Agent 能不能跑」,Loop 解决「Agent 跑不跑、怎么跑、跑到什么时候停」。


三、从 ReAct 到多 Agent 编排:演进之路

Loop Engineering 不是一天建成的:

阶段时间核心思想局限性
ReAct2022推理+行动交替进行单步推理,无自主循环
AutoGPT2023全自主 Agent,设定目标后自动执行容易失控,缺乏有效终止条件
Ralph Loop2025引入结构化循环验证仍需人工介入验证
/goal 和 /loop2026声明式目标 + 自动循环需要精心设计目标描述
多 Agent 编排2026多个 Agent 协同完成复杂任务编排复杂度指数级增长

从「人驱动 Agent」到「人设计 Agent 驱动系统」,这是演进的核心趋势。

AutoGPT 是第一个尝试让 Agent 自主循环的项目,但它的失败恰好定义了 Loop Engineering 需要解决的核心问题——没有终止条件的自主循环就是灾难


四、Loop 的七个原语

Addy Osmani 总结了 Loop 的五个原语,加上状态管理和预算控制,扩展为七个:

原语Loop 中的角色
Automations定时发现与分诊
Worktrees并行隔离
Skills固化项目知识
Connectors连接外部工具
Sub-agents制作与审查分离
State跨会话记忆
BudgetToken 预算控制

4.1 Automations:Loop 的心跳

Automations 是 loop 之所以叫 loop 的原因——不是跑一次就结束,而是持续运行、持续发现

在 Claude Code 中,/goal 是最重要的原语:给定一个可验证的终止条件(如「test/auth 全通过且 lint clean」),Agent 持续工作直到满足。

关键的架构决策:判断是否完成的不是干活的模型,而是另一个独立的小模型——制造者不批改自己的作业。

4.2 Skills:意图的固化

Skill 的本质不是「教 Agent 做事」,而是把意图固化到磁盘上

Agent 每次启动都是失忆的。没有 skill,loop 每个循环都从零推导你的项目约定;有 skill,意图被写在外面,agent 每次运行都读取。

「我们不用这种方式是因为那次事故」——这种隐性知识只有 skill 能传递。

4.3 Sub-agents:制造者与审查者分离

Loop 运行时你不在旁边看着——所以你信任的验证器是唯一让你敢走开的东西。

最有效的结构:一个 Agent 写代码,一个不同指令(甚至不同模型)的 Agent 审查。 写代码的模型对自己太客气了,第二双眼睛能抓住第一个说服自己的东西。

4.4 State:Agent 忘记,仓库不忘记

模型在两次运行之间忘记一切,所以记忆必须在磁盘上,不在上下文里。

一个 markdown 文件、一个 Linear board、任何存在于单次对话之外的东西。Addy Osmani 反复强调:This is the same trick every long-running agent depends on.

4.5 Budget:不要让你的钱包爆炸

一个设计不当的 loop 可以在几小时内烧掉数十美元。典型的预算策略:

  • max iterations:最多循环多少次
  • max cost:token 消费上限
  • max time:最长运行时间
  • early stop:边际收益低于阈值时自动终止

五、一个真实 Loop 长什么样?

一个典型的开发效益 loop:

1. Automation 每天早上在 repo 上运行
   → 调用 $triage skill,扫描新 issue 和 CI 失败
   → 结果写入 progress.md(State)

2. Loop 读取 progress.md,找到最高优先级任务
   → 派出 sub-agent A(实现者,用 fast model)
   → 在独立 worktree 中工作
   → 完成后派 sub-agent B(审查者,用 strong model)
   → 审查通过 → 开 PR + 关联 Linear ticket(Connector)
   → 审查不通过 → 反馈写回 progress.md,A 重新尝试

3. /goal 判断:"所有 P0 issue 已关闭且 CI green"
   → 满足 → loop 终止,通知人
   → 超过迭代上限 → 终止,升级给人

4. Budget 控制:max 15 iterations / $5 / 300s

人在哪些环节介入?三个时机:

  • loop 卡住:需要人工方向调整
  • 需要外部决策:涉及产品策略或架构变更
  • 审查最终结果:合并之前做最终把关

六、核心挑战与应对策略

6.1 Token 成本

一个设计不当的 loop 成本失控。应对:设置严格的 budget 原语,使用 fast model 做实现、strong model 做审查。

6.2 质量保证

Anthropic 内部数据:Claude 写的代码在 2026 年中与人类大致持平。但「能跑」和「可维护」是两件事。应对:建立多层质量防线——自动化测试 → lint → sub-agent 审查 → 人工抽查。

6.3 可调试性

当 loop 出错时,「为什么做了这个决策」是最难回答的问题。应对:每个 iteration 的完整日志、决策树追踪、人可读的 state 变更记录。

6.4 编排税

Addy Osmani 提出的概念:你的 review 带宽是并行度的真正上限。 5 个并行 Agent 听起来很酷,但如果你每小时只能认真审查 1 个 PR,其他 4 个就是在浪费 token。


七、工具生态

2026 年中,各主要工具对 Loop Engineering 的支持程度:

工具Loop 工程支持适用场景
Claude Code/goal, /loop, hooks, sub-agents, skills全栈开发、复杂重构
Codex AppAutomations, /goal, sub-agents大型项目管理
CursorAgent 模式自动循环日常开发、快速原型
OpenClawSkills 系统、心跳机制、子 Agent 编排自动化运营、定时任务
LangGraph状态图驱动的 Agent 循环复杂工作流编排
CrewAI多 Agent 协作 + 任务循环研究、内容创作

人才市场也在迅速变化。 一个专门为 Loop Engineer 匹配工作的平台 LoopEngineer.ai 已经上线,薪资范围在 150k150k-300k+/年


八、如何成为 Loop Engineer

思维转变

从                          →  到
我写代码                    →  我设计写代码的系统
我 prompt Agent             →  我设计 prompt Agent 的 loop
我验证结果                  →  我设计验证结果的机制
我在循环里                  →  我在循环外

技能栈

  1. 编程基础:Python/TypeScript(loop 本身就是程序)
  2. 系统设计:分布式系统、状态管理、故障恢复
  3. LLM 理解:能力边界、失效模式、token 经济学
  4. 评估设计:量化 Agent 输出质量的评估体系
  5. 编排能力:多 Agent 协同、任务分解、依赖管理

入门路径

  1. 第一步:在 Claude Code 或 Codex 中尝试 /goal 和 /loop 命令
  2. 第二步:为你的仓库写第一个 SKILL.md,固化常见模式
  3. 第三步:设置一个简单的 automation,让 Agent 每天早上自动处理 issue
  4. 第四步:引入 sub-agent 审查,走通「制造-审查」分离流程
  5. 第五步:设计完整的多 loop 编排,走向 Factory Model

九、总结与展望

Loop Engineering 不是一个短暂的热词,它精准地描述了一个正在发生的根本性变化:人是如何与 AI 协作的

Boris Cherny 的数据触目惊心:最近 30 天,100% 对 Claude Code 的贡献(259 个 PR)都是由 Claude Code 自己写的。他的工作不再是写代码,而是设计让 Claude Code 写代码的 loop。

随着 Claude 等模型在开放式任务上的成功率从 26%(2025年底)飙升到 76%(2026年5月),Agent 自主工作的能力正在接近一个临界点。

AI 工程师的核心竞争力正在从「写代码的能力」转向「设计系统的能力」

你不会再被「你写代码有多快」评价,你会被「你设计的 loop 能产出多少高质量代码」评价。

你准备好从 Prompt Engineering 升级到 Loop Engineering 了吗?


参考资料:Addy Osmani, "Loop Engineering" — Google, 2026 | Anthropic, "When AI builds itself" — June 2026 | Boris Cherny, "Claude Code One Year Retrospective" | Ben's Bites, "Usage patterns in the loop era"