最近几个 AI 动态放在一起看,开发者应该能感受到一个趋势:
Agent 正从 Demo 走向工程化。
OpenAI 4 月 27 日发布了开源的 Codex 编排规范 Symphony。它的思路很有代表性:把 Linear 这类项目管理工具变成 coding agents 的控制平面,让每个开放任务都能对应一个 agent workspace,并让 agent 持续执行、失败重启、产出交给人类 review。OpenAI 文中提到,部分团队在前三周 landed PR 数量提升了 500%。
Google Cloud 的 Gemini Enterprise Agent Platform 也在做类似方向,只是更偏企业级平台:Agent Identity、Agent Gateway、Agent Registry、Agent Observability、Agent Simulation,核心都是让 Agent 可管理、可审计、可评估。
这说明 Agent 工程的重点已经不是:
“我能不能让模型调用工具?”
而是:
“我能不能让一批 Agent 在真实任务系统里稳定工作?”
一个 Agent 系统至少要拆成几层:
Task Layer 工单、Issue、需求池
Policy Layer 任务规则、权限、Prompt 合同
Runtime Layer Agent 执行环境、Workspace、上下文
Tool Layer Git、CI、浏览器、数据库、文档系统
Review Layer 人工审核、测试、回滚
Observability 日志、指标、Trace、失败原因
很多团队做 Agent 容易失败,是因为只做了 Runtime Layer。
也就是写一个 Prompt,让模型调用几个工具,然后希望它自动完成任务。
但生产环境里真正麻烦的是:
- Agent 执行到一半挂了怎么办?
- 工单状态变了,Agent 是否应该停止?
- 多个 Agent 同时改代码,如何避免冲突?
- CI 失败后,是自动修复还是交给人?
- Agent 生成的 PR,谁来 review?
- Prompt 和工作流规则如何版本化?
- 每次执行的日志和成本如何记录?
这也是 Symphony 这类思路值得关注的地方:
它不是把 Agent 当成一个聊天会话,而是把 Agent 放进任务系统,让任务状态驱动执行。
一个简化的工单状态机可以这样设计:
states:
- Backlog
- Ready
- Agent Running
- Agent Blocked
- Human Review
- CI Failed
- Ready to Merge
- Done
transitions:
Backlog:
- Ready
Ready:
- Agent Running
Agent Running:
- Agent Blocked
- Human Review
- CI Failed
CI Failed:
- Agent Running
- Human Review
Human Review:
- Ready to Merge
- Agent Running
Ready to Merge:
- Done
再配合一份 repo 内的 WORKFLOW.md:
# Agent Workflow Contract
## Goal
Implement only the scope described in the issue.
## Rules
- Do not modify authentication or billing code without human approval.
- Run unit tests before submitting final changes.
- If CI fails twice, move task to Human Review.
- Summarize changed files and risk points.
## Handoff
Final output must include:
1. Summary
2. Test result
3. Risk assessment
4. Suggested reviewer
这类设计的本质是:
把 Prompt 从一次性文本,变成工程资产。
今天如果你要做 AI Agent 应用,不建议一开始就追求“全自动”。
更稳的路径是:
第一步,让 Agent 只做低风险任务。
第二步,把每次执行写日志。
第三步,加人工 Review。
第四步,加测试和回滚。
第五步,再逐渐扩大任务范围。
对于内容团队也是一样。
AI 可以抓热点、拆标题、生成初稿,但最终发布前仍然要检查事实、平台规则和品牌口径。
我会在【AI模型指南】继续分享多模型工作流、Agent 编排和 AI 工具选择。gpt985.com 可以作为多模型入口参考,但真正有价值的是:把工具变成流程,而不是把流程交给运气。