Agent 工程的关键，不是多开几个模型，而是把任务系统变成控制平面最近几个 AI 动态放在一起看，开发者应该能感受到一

最近几个 AI 动态放在一起看，开发者应该能感受到一个趋势：
Agent 正从 Demo 走向工程化。

OpenAI 4 月 27 日发布了开源的 Codex 编排规范 Symphony。它的思路很有代表性：把 Linear 这类项目管理工具变成 coding agents 的控制平面，让每个开放任务都能对应一个 agent workspace，并让 agent 持续执行、失败重启、产出交给人类 review。OpenAI 文中提到，部分团队在前三周 landed PR 数量提升了 500%。

Google Cloud 的 Gemini Enterprise Agent Platform 也在做类似方向，只是更偏企业级平台：Agent Identity、Agent Gateway、Agent Registry、Agent Observability、Agent Simulation，核心都是让 Agent 可管理、可审计、可评估。

这说明 Agent 工程的重点已经不是：

“我能不能让模型调用工具？”

而是：

“我能不能让一批 Agent 在真实任务系统里稳定工作？”

一个 Agent 系统至少要拆成几层：

Task Layer        工单、Issue、需求池
Policy Layer      任务规则、权限、Prompt 合同
Runtime Layer     Agent 执行环境、Workspace、上下文
Tool Layer        Git、CI、浏览器、数据库、文档系统
Review Layer      人工审核、测试、回滚
Observability     日志、指标、Trace、失败原因

很多团队做 Agent 容易失败，是因为只做了 Runtime Layer。
也就是写一个 Prompt，让模型调用几个工具，然后希望它自动完成任务。

但生产环境里真正麻烦的是：

Agent 执行到一半挂了怎么办？
工单状态变了，Agent 是否应该停止？
多个 Agent 同时改代码，如何避免冲突？
CI 失败后，是自动修复还是交给人？
Agent 生成的 PR，谁来 review？
Prompt 和工作流规则如何版本化？
每次执行的日志和成本如何记录？

这也是 Symphony 这类思路值得关注的地方：
它不是把 Agent 当成一个聊天会话，而是把 Agent 放进任务系统，让任务状态驱动执行。

一个简化的工单状态机可以这样设计：

states:
  - Backlog
  - Ready
  - Agent Running
  - Agent Blocked
  - Human Review
  - CI Failed
  - Ready to Merge
  - Done

transitions:
  Backlog:
    - Ready
  Ready:
    - Agent Running
  Agent Running:
    - Agent Blocked
    - Human Review
    - CI Failed
  CI Failed:
    - Agent Running
    - Human Review
  Human Review:
    - Ready to Merge
    - Agent Running
  Ready to Merge:
    - Done

再配合一份 repo 内的 WORKFLOW.md：

# Agent Workflow Contract

## Goal
Implement only the scope described in the issue.

## Rules
- Do not modify authentication or billing code without human approval.
- Run unit tests before submitting final changes.
- If CI fails twice, move task to Human Review.
- Summarize changed files and risk points.

## Handoff
Final output must include:
1. Summary
2. Test result
3. Risk assessment
4. Suggested reviewer

这类设计的本质是：
把 Prompt 从一次性文本，变成工程资产。

今天如果你要做 AI Agent 应用，不建议一开始就追求“全自动”。
更稳的路径是：

第一步，让 Agent 只做低风险任务。
第二步，把每次执行写日志。
第三步，加人工 Review。
第四步，加测试和回滚。
第五步，再逐渐扩大任务范围。

对于内容团队也是一样。
AI 可以抓热点、拆标题、生成初稿，但最终发布前仍然要检查事实、平台规则和品牌口径。

我会在【AI模型指南】继续分享多模型工作流、Agent 编排和 AI 工具选择。gpt985.com 可以作为多模型入口参考，但真正有价值的是：把工具变成流程，而不是把流程交给运气。

ChatGPT Image 2026年4月29日 16_23_57.png