Agent 工程的关键,不是多开几个模型,而是把任务系统变成控制平面

0 阅读3分钟

最近几个 AI 动态放在一起看,开发者应该能感受到一个趋势:
Agent 正从 Demo 走向工程化。

OpenAI 4 月 27 日发布了开源的 Codex 编排规范 Symphony。它的思路很有代表性:把 Linear 这类项目管理工具变成 coding agents 的控制平面,让每个开放任务都能对应一个 agent workspace,并让 agent 持续执行、失败重启、产出交给人类 review。OpenAI 文中提到,部分团队在前三周 landed PR 数量提升了 500%。

Google Cloud 的 Gemini Enterprise Agent Platform 也在做类似方向,只是更偏企业级平台:Agent Identity、Agent Gateway、Agent Registry、Agent Observability、Agent Simulation,核心都是让 Agent 可管理、可审计、可评估。

这说明 Agent 工程的重点已经不是:

“我能不能让模型调用工具?”

而是:

“我能不能让一批 Agent 在真实任务系统里稳定工作?”

一个 Agent 系统至少要拆成几层:

Task Layer        工单、Issue、需求池
Policy Layer      任务规则、权限、Prompt 合同
Runtime Layer     Agent 执行环境、Workspace、上下文
Tool Layer        Git、CI、浏览器、数据库、文档系统
Review Layer      人工审核、测试、回滚
Observability     日志、指标、Trace、失败原因

很多团队做 Agent 容易失败,是因为只做了 Runtime Layer。
也就是写一个 Prompt,让模型调用几个工具,然后希望它自动完成任务。

但生产环境里真正麻烦的是:

  • Agent 执行到一半挂了怎么办?
  • 工单状态变了,Agent 是否应该停止?
  • 多个 Agent 同时改代码,如何避免冲突?
  • CI 失败后,是自动修复还是交给人?
  • Agent 生成的 PR,谁来 review?
  • Prompt 和工作流规则如何版本化?
  • 每次执行的日志和成本如何记录?

这也是 Symphony 这类思路值得关注的地方:
它不是把 Agent 当成一个聊天会话,而是把 Agent 放进任务系统,让任务状态驱动执行。

一个简化的工单状态机可以这样设计:

states:
  - Backlog
  - Ready
  - Agent Running
  - Agent Blocked
  - Human Review
  - CI Failed
  - Ready to Merge
  - Done

transitions:
  Backlog:
    - Ready
  Ready:
    - Agent Running
  Agent Running:
    - Agent Blocked
    - Human Review
    - CI Failed
  CI Failed:
    - Agent Running
    - Human Review
  Human Review:
    - Ready to Merge
    - Agent Running
  Ready to Merge:
    - Done

再配合一份 repo 内的 WORKFLOW.md

# Agent Workflow Contract

## Goal
Implement only the scope described in the issue.

## Rules
- Do not modify authentication or billing code without human approval.
- Run unit tests before submitting final changes.
- If CI fails twice, move task to Human Review.
- Summarize changed files and risk points.

## Handoff
Final output must include:
1. Summary
2. Test result
3. Risk assessment
4. Suggested reviewer

这类设计的本质是:
把 Prompt 从一次性文本,变成工程资产。

今天如果你要做 AI Agent 应用,不建议一开始就追求“全自动”。
更稳的路径是:

第一步,让 Agent 只做低风险任务。
第二步,把每次执行写日志。
第三步,加人工 Review。
第四步,加测试和回滚。
第五步,再逐渐扩大任务范围。

对于内容团队也是一样。
AI 可以抓热点、拆标题、生成初稿,但最终发布前仍然要检查事实、平台规则和品牌口径。

我会在【AI模型指南】继续分享多模型工作流、Agent 编排和 AI 工具选择。gpt985.com 可以作为多模型入口参考,但真正有价值的是:把工具变成流程,而不是把流程交给运气。

ChatGPT Image 2026年4月29日 16_23_57.png