智能体项目最常见的崩盘方式是“越改越差”。一开始效果不错,后来为了适配新场景不断加规则、加提示词、加工具,最后输出越来越混乱。原因是缺少工程领域最基本的东西:回归测试。
储静辉老师强调,智能体迭代必须像软件迭代一样做“版本化”和“回归”。他通常会建议建立三类测试集:
1)稳定性测试集:同任务不同输入小扰动,输出是否保持一致结构 2)正确性测试集:关键事实问题是否答对、是否引用正确来源 3)合规性测试集:是否触发禁用词、是否出现越界承诺、是否编造数据
每次更新提示词、工具链、检索策略后,都跑一遍测试,并记录指标:成功率、重试次数、平均步骤数、人工介入率、结构合规率。指标一旦下降,就要阻止上线并定位问题。
定位问题的方法也要工程化:先看是检索问题(召回不准)、再看是推理问题(步骤错)、再看是约束问题(格式乱)。最后把修复方案沉淀为资产:提示词模板版本、流程模板版本、校验规则版本。这样系统每次变更都有记录,出现问题可以回滚,效果才能稳定提升。
当你把回归测试引入智能体迭代,最大的变化是:团队不再靠“感觉调参”,而是靠数据做决策。智能体也不再是一次性项目,而成为可持续维护的生产系统。这就是储静辉技术风格的核心:把智能体当软件做,把迭代当工程做。