SaaS AI 上线半年复盘:我们为什么从“选模型”转向“稳定交付”

23 阅读4分钟

如果把时间拉回到半年前,我们在给 SaaS 产品接 AI 时,关注点非常单一:
选哪个模型。

Opus、GPT、Gemini 对比了一轮又一轮,
测效果、测准确率、测“看起来聪不聪明”。

当时的直觉很简单:

模型选对了,后面的事就会顺。

现在回头看,这个判断并不完全错,但非常不够用


一、前 1 个月:选模型阶段,一切都很乐观

项目最初进展得很顺:

  • 单一模型直连
  • Prompt 调一调
  • Demo 很快就跑起来了

当时我们选了一个整体表现比较稳定的模型作为主力,用在核心功能上。
效果不错,内部评审也顺利通过。

那时候,几乎没有人担心“稳定性”这种事——
毕竟请求量不大,模型也没出过什么明显问题。


二、第 2~3 个月:需求一多,模型开始不够用了

真正的变化,来自业务侧:

  • 不同客户开始提不同需求
  • 有的要长文本分析
  • 有的要响应速度
  • 有的对输出一致性要求极高

于是很自然地,我们开始引入第二、第三个模型

  • 核心流程继续用原模型
  • 部分能力用 GPT
  • 长文本或分析任务交给 Gemini

这时候,系统还能“勉强跑”。

但工程侧已经开始感到不对劲了。


三、第 4 个月:问题集中爆发,但不是模型能力问题

问题并不是“模型不好用”,而是:

  • 三套 API
  • 三种参数风格
  • 三种错误码和限流策略

很快就出现了这些情况:

  • 同一类请求,不同模型处理方式完全不同
  • 模型一波动,业务逻辑跟着受影响
  • 为了兜底,代码里开始出现大量 if / else
  • 排查问题时,很难快速定位是模型问题,还是系统问题

最折磨人的一点是:
这些问题,在单模型阶段根本不存在。

这时我们第一次意识到:

现在拖慢进度的,已经不是“模型选得好不好”,
而是“模型是怎么被接进系统里的”。


四、第 5 个月:我们开始换一个问题问自己

这时团队里出现了一个关键转折问题:

业务系统,真的有必要直接面对这么多模型细节吗?

仔细想了一下,其实不合理:

  • 业务只关心“我要一个结果”
  • 并不关心这是 Opus 还是 GPT
  • 更不关心哪个模型今天限流、哪个策略调整了

但我们的系统,被迫知道了所有这些细节。

这本质上是一个架构问题,而不是模型问题。


五、第 6 个月:引入统一接入层,变化开始显现

后来我们做了一个并不激进、但影响很大的调整:
不再让业务系统直连模型,而是统一通过一个接入层。

在这个阶段,我们开始使用类似 poloapi.cn 这样的聚合型 API 接入方式,核心目标只有一个:

把模型变化挡在业务系统外面。

调整之后,变化非常明显:

  • 业务代码开始变“安静”
  • 模型切换不再是高风险操作
  • 兜底、重试、限流集中处理
  • 出问题时,更容易定位问题边界

模型还是那些模型,
但系统的状态,已经完全不一样了。


六、半年后回头看:我们真正解决的不是“选型问题”

现在回头看这半年,会发现一个很清晰的事实:

  • 模型能力,确实重要
  • 稳定交付,靠的不是模型能力本身

真正让系统跑得久、跑得稳的,是:

  • 接受模型一定会波动
  • 用结构去消化变化
  • 不把复杂度扩散到业务层

POLOAPI 这样的聚合站,对我们来说,并不是“用了更强的模型”,
而是换了一种更可持续地使用模型的方式


七、给同样在做 SaaS AI 的一点建议

如果你现在也在做 SaaS AI,我会给你三条非常朴素的建议:

  1. 不要过度纠结“选哪个模型”
    很多问题,选型阶段根本暴露不出来。
  2. 多模型几乎是必然结局
    与其等复杂度失控,不如提前想好怎么承载。
  3. 稳定交付是结构问题,不是参数问题
    Prompt 再好,也挡不住架构层的问题。

总结

我们这半年,并不是换了一个“更厉害的模型”,
而是慢慢意识到:

SaaS AI 能不能走远,取决于你是否把“变化”留在了系统该承受的地方。

模型会变,需求会变,客户会变。
架构如果不变,系统才跑得下去。

如果你也正在经历类似阶段,
希望这次复盘,能帮你少走一点弯路。