从提示词写手到业务架构师:我眼中 AI Agent 搭建师的破局之路

5 阅读8分钟

前阵子和几个做 AI Agent 搭建的老伙计聚餐,桌上的话题全是拧巴:有人说自己打磨了大半年的提示词模板,现在用 o1 模型直接就能跑通逻辑;有人吐槽运营同事用 Coze 搭了个客服机器人,居然能满足 80% 的业务需求;还有个哥们更惨,给企业搭的 Demo 半天就成了,但落地卡了三个月,就为了那 5% 的极端案例,老板天天追着要结果。 其实我自己也深有同感 —— 这半年来,作为一名 AI Agent 搭建师,我明显感觉到自己正陷入一种「夹心」困境,甚至好几次盯着屏幕怀疑:我的经验是不是真的一夜贬值了?

一、被夹击的困境:上下挤压 + 落地死谷

  1. 上层:模型进化消解了传统技能壁垒 还记得去年做一个订单处理智能体,我花了整整一天写了近 50 行提示词,用 ReAct 框架拆解任务逻辑,引导模型一步步做订单校验、库存查询、物流分配。结果上个月试了 OpenAI o1,只需要给个简单的需求描述,模型自己就把整个流程跑通了,逻辑丝毫不差。 当时我盯着屏幕愣了好久 —— 之前引以为傲的提示词工程技巧,难道真的没用了?和同行聊的时候,很多人都有这种恐慌:「我们是不是要失业了?」
  2. 下层:低代码平台压缩了生存空间 更扎心的是低代码平台的普及。前阵子公司运营部的小姑娘找我,说她用 Dify 搭了个客服机器人,已经能处理大部分用户咨询,让我帮忙调剩下的 20%。我打开平台一看,RAG、工作流都是可视化拖拽,她甚至连向量数据库的配置都自己搞定了。 那一刻我确实有点困惑:如果业务人员自己就能搭出 80% 可用的智能体,那我们的技术壁垒到底在哪?
  3. 最核心的焦虑:Demo 到生产的「死亡之谷」 但比上下夹击更让我头疼的,是从 Demo 到生产的那道坎。上个月给某制造企业搭了个售后智能体 Demo,半天就搞定了,演示的时候老板特别满意。但真正要落地时,才发现问题百出:用户问的极端问题(比如「过保但产品有设计缺陷能不能保修」),模型经常输出错误答案;还有一些涉及企业内部规则的问题,模型的输出总是模棱两可。 我被困在调试那些「概率性输出」里,每天改提示词、调 RAG,但始终没法把准确率从 95% 提到 99% 以上。老板问我项目价值在哪,我竟一时语塞 —— 毕竟企业要的是能稳定用的系统,不是看起来好看的 Demo。 二、破局:重新定义自己的核心价值 焦虑归焦虑,我还是花了不少时间复盘,和几个资深同行交流,慢慢想通了:我们的困境,本质是行业从技术红利期到应用成熟期的必然过渡,而我们的角色,也不能再停留在「提示词写手」了。 现在我给自己的定位是:把概率性 AI 模型转化为确定性业务结果的系统架构师。核心价值要往三个方向转:
  4. 复杂业务流的 SOP 工程化:把模糊规则转成机器能懂的逻辑 上个月给某金融公司做跨部门预算审批智能体,业务方的 SOP 特别复杂:不同部门的预算额度、审批层级、合规校验规则都不一样,还涉及到临时预算的特殊处理。用低代码平台的可视化组件根本搞不定 —— 那些组件都是通用的,没法覆盖这种非标、复杂的业务逻辑。 我花了一周时间泡在财务、法务、业务部门,把他们嘴里那些「大概是这样」「特殊情况要这么处理」的模糊规则,拆解成了一个包含 12 个状态、8 个分支的状态机,每个节点都明确触发条件和输出规则。最后搭出来的智能体,能自动处理 99% 的审批场景,剩下的 1% 才需要人工介入。 这时候我才明白:大模型没有企业的「业务记忆」,低代码平台解决不了非标问题,而我们的价值,就是把人类的业务经验,翻译成机器能执行的确定性逻辑。
  5. 鲁棒性架构设计:给 AI 套上「防呆笼」 AI 的概率性输出是落地的最大障碍,我现在做项目的第一件事,就是设计「防呆系统」,把不稳定的模型框在可控范围内: 人在回路机制:在关键决策节点(比如财务审批的最终确认、客户退款的金额判定),强制引入人工校验,模型只做前置处理; 多智能体博弈:给智能体加个「批评家」角色,比如写合同智能体输出后,批评家智能体自动检查是否符合合规条款,有没有遗漏关键信息,不符合就触发回滚重试; 格式强制校验:要求模型必须输出 JSON 格式,用代码做结构验证,一旦格式错误或者字段缺失,直接让模型重新生成。 这些操作不是低代码平台能一键实现的,需要我们对 AI 的局限性有深刻理解,同时具备系统设计能力。
  6. 数据治理与 RAG 深度优化:做好 AI 的「燃料工程师」 很多人觉得 RAG 就是把文档切片存到向量数据库,但真正落地时远不止如此。前阵子给某律所做法律智能体,一开始用默认的 RAG 配置,召回率只有 60%,输出经常出错。后来我做了三件事: 脏数据清洗:把律所上传的文档里的重复内容、无效注释、格式错误全部清理掉; 假设性问题生成:用大模型生成了上百个用户可能问的边缘问题,把这些问题和对应的答案加入向量库,提升召回率; 上下文重排序:用 CrossEncoder 对召回的文档做重排序,确保最相关的内容排在前面,减少模型的幻觉。 做完这些后,召回率提到了 92%,准确率也稳定在 95% 以上。这些「脏活累活」,低代码平台做不了,业务人员也没能力做 —— 这才是我们的核心壁垒。 三、职业进阶:两条清晰的路径 现在我身边的同行,主要有两个进阶方向,都挺吃香的:
  7. AI 业务架构师:懂业务的「AI 翻译官」 有个朋友之前和我一样做搭建,现在转成了业务架构师。他每天不是写代码,而是去跟企业的 CEO、业务负责人聊,帮他们识别哪些业务环节适合用 AI Agent 重构,算投入产出比,设计人机协作的最优流程。比如他给某零售企业设计的库存管理智能体,帮企业把库存周转效率提升了 20%,老板直接给他涨了薪。 这个方向的核心是「70% 业务 + 30% 技术」,你得懂业务的痛点,知道 AI 能解决什么,不能解决什么,给企业带来实实在在的价值。
  8. AI 系统工程师:给 AI 做「质检官」 另一个朋友则深耕技术,转成了 AI 系统工程师。他的核心工作是搭建智能体的评估体系,用 Ragas、TruLens 这些工具构建测试集,量化智能体的准确率、召回率、幻觉率,在上线前就把问题解决掉。企业特别认可这种能力 —— 因为之前大家都是靠感觉说「这个智能体好用」,现在他能拿出具体的数据,比如「准确率 98%,幻觉率低于 1%」,老板一看就放心了。 这个方向是「70% 技术 + 30% 算法」,核心是解决 AI 落地的约束问题,目前市场上特别缺这样的人。 四、给同行的几个务实建议 最后,给和我一样曾经焦虑的 AI Agent 搭建师几个建议,都是我自己实践过的: 放下对提示词的执念:现在我很少花超过 1 小时调提示词,而是把时间花在跟业务方聊流程、拆解 SOP 上 —— 简单的提示逻辑迟早会被模型内化,但人类对业务规则的理解,是模型替代不了的。 养成「以评估为核心」的习惯:不管做什么项目,先搭测试集,用数据说话。比如我现在每个项目都会用 TruLens 测指标,给客户看的时候,比说「这个智能体很稳定」管用 100 倍。 深耕垂类领域:通用智能体的门槛会越来越低,但医疗、法律、金融这些对行业知识要求高、容错率低的领域,才是长期饭票。我现在主要做金融和法律领域的项目,客户愿意出更高的价格,因为他们知道这些领域的智能体,不是随便用低代码就能搭出来的。

其实焦虑是好事,说明行业在进步。过去我们靠「信息差」—— 懂提示词就能立足,现在要靠「认知差」—— 懂业务、懂系统,能把 AI 的不确定性转化为业务的确定性。 工具越简单,对我们的逻辑能力、业务理解能力要求就越高。在 AI 时代,能驾驭复杂系统、为业务结果负责的人,永远不会被淘汰。