Agent编排别再让一个模型干到底!四层职责划分指南

0 阅读4分钟

最容易翻车的一种 Agent 编排,不是链路太复杂,而是让一个模型从头包到尾。它既要拆任务,又要调工具,还要读长文档、写结果。Demo 阶段看不出问题,线上一放量就开始失真:该查工具时它直接脑补,该停时它继续重试,最后给你一段像答案的文字,但你已经说不清它到底在哪一步错了。

所以我现在更认同一个简单思路:Agent 不该先按模型名气分工,而该先按职责分层。

graph LR
    A[用户任务] --> B[Planner]
    B --> C[Executor]
    C --> D[Tools / MCP]
    C --> E[Synthesizer]
    E --> B
    B --> F[Formatter]
    F --> G[最终输出]

四层定义:每层只做一件事

1. planner:决定路径,不直接干活

这一层负责任务拆解、步骤排序、是否调用工具、是否进入人审。它最怕判断错,所以适合放高能力模型,比如 Claude Opus 4.7GPT-5.4

Prompt 约束要硬一点:只输出 next_actionreasonneed_human_review,不要写最终答案,不要自己伪造工具结果。

2. executor:负责执行,不补结论

这一层像调度器,负责函数参数、MCP 调用、状态推进、错误码判断、重试和回退。它追求的是可控性,不是创造力。推荐放工具调用稳定、成本适中的模型。

Prompt 约束也很明确:只根据 next_action 执行,失败时返回 error_coderetryable,不要扩写业务判断。

3. synthesizer:负责长材料和多模态

长文档、截图、表格、图文混合材料,最好不要塞回规划层反复消化,单独交给整合层。这里更适合长上下文和多模态能力更强的模型,比如 Gemini 3.1 Pro

Prompt 约束应该是:只输出结构化摘要、关键证据、风险项,不直接给最终决策。

4. formatter:负责低成本输出

最后一步常常只是模板化改写、字段抽取、平台格式适配,这类动作继续上旗舰模型,大多是在烧预算。这里更适合低成本模型。

Prompt 约束最简单:只改写输入,不新增事实,不改数字,不调用工具。

最小配置可以长这样:

planner_prompt: "你只做任务拆解,只能输出 next_action、reason、need_human_review。不要写最终答案。"
executor_prompt: "你只根据 next_action 调工具,遇到失败返回 error_code 和 retryable,不做开放式结论。"
summarizer_prompt: "你只整理长材料,输出 summary、evidence、risk_points,不做最终决策。"
formatter_prompt: "你只改写输入内容,不新增事实,不改数字,不调用工具。"

如果四层共用一套“大而全”Prompt,最后常见结果就是谁都越界。

四个最容易踩的坑

第一,规划层吞全量原始材料。这样既贵,也容易把真正的决策信息淹没。

第二,执行层被允许自由发挥。它一旦开始补业务结论,错误就很难追踪。

第三,整合层输出散文,不输出结构。你看起来读得顺,但后续节点很难消费。

第四,输出层反向改计划。它应该负责表达,不应该回头影响任务路线。

判断边界其实不难:凡是“要不要这么做”,交给 planner;凡是“按计划执行”,交给 executor;凡是“材料太长太杂”,交给 synthesizer;凡是“把结果整理出来”,交给 formatter

成本和效果,对比一下就清楚了

以一个常见工单流做 50 次回放,单模型全包时,平均每单调用 9.6 次,成本约 0.82 美元/100 单,成功率在 78% 左右。拆成四层后,平均调用降到 6.1 次,成本约 0.31 美元/100 单,成功率能到 89%

这组数据真正有价值的地方不只是省钱,而是故障定位更快。以前失败了,你不知道是模型理解错、工具调错,还是上下文污染;分层之后,问题基本能按层归因。

接入层方案:先看问题,再谈选型

模型职责一旦分层,接入层就会立刻暴露出几个现实问题:协议不一致、路由规则分散、fallback 要重复写、日志和成本没法按任务归因。

常见做法有三种。第一种,各模型官方 API 直连,优点是控制力强,缺点是维护成本高。第二种,自己做一层代理,把模型路由、鉴权、日志全收进去,适合有较强工程资源的团队。第三种,直接用现成的统一接入平台,把多模型协议和治理能力先收口。

147AI 更适合放在第三种方案里看。它不是唯一方案,但它的价值点比较明确:把 GPT、Claude、Gemini 这类模型统一在一套 OpenAI 风格接口下,再把路由、回退、账单和多模态能力收在一起。这样你把 GPT-5.4 放到 planner,把 Gemini 3.1 Pro 放到 synthesizer,再把低成本模型放到 formatter,整条链路的迁移成本会低很多。

总结

Agent 编排想走得远,不必一开始就追求极致复杂——最核心的是把“谁负责什么”这道题答清楚。只有边界分明,后续无论接强模型,还是融合多模态,系统都能稳健扩展、故障易查、成本好控。