上个月底,公司的 CFO 拿着一张云厂商的账单找到我所在的研发架构组,脸色很难看。 账单上显示,我们上个月的大模型 API 调用费用环比飙升了 300%。CFO 问了两个极其致命但我们却答不上来的问题: “这笔钱是哪个部门、哪个具体的业务花掉的?” “为什么花这么多?我们的投资回报率(ROI)在哪里?”
去查底层代码我们才发现,目前公司内部的大模型调用已经陷入了可怕的“失控状态”。
失控的“千模大战”后遗症
由于目前的模型生态极度繁荣(前有 GPT-5.4、Claude 4.6 这种超长上下文怪物,后有各种主打性价比的国产大模型和本地部署的 DeepSeek),业务部门提需求时越来越挑剔。 客服组说要接 Kimi K2.5 处理超长文档,营销组说要用 GPT-5.4 搞创意,数据组又自己搭了个 Ollama 跑开源模型。
这就导致了三个工程灾难:
- API Key 满天飞:代码库里写死了几十个不同厂商的 Key。一旦某个 Key 额度耗尽或被封禁,线上业务直接中断,排查起来极其痛苦。
- 算力 成本是一笔“大锅饭糊涂账” :所有人都在用公司的公有账号跑 API。我们根本不知道是哪个高频应用在无脑消耗最贵的 Tokens。
- 缺乏降级与路由机制:有时候一个极其简单的任务(比如给文章起个标题),也被直接发给了价格昂贵的旗舰模型,造成了巨大的算力浪费。
为了解决这个问题,我们痛定思痛,决定在应用层和各大模型厂商的 API 之间,架设一层企业级的厚重装甲——统一模型 网关 (Model Gateway ) 。这也是后来我们沉淀出的 ZGI 平台 的核心底层模块。
我们是如何重构这套网关的?
如果你公司也面临类似的困境,不妨参考我们目前的这套架构设计思路:
核心一:屏蔽底层差异,实现协议统一 我们用 Golang 研发了一个高并发的调度核心。对上层的业务应用来说,他们不再需要关心底层是 OpenAI 的协议、Anthropic 的协议还是阿里云的协议。 业务端只需调用 ZGI (www.zgi.cn/) 提供的标准接口,系统会在内部完成所有报文的转换。这样一来,所有的 API Key 集中在网关后台由系统管理员统一配置。研发代码里再也看不到明文的 Key,安全性得到了根本保障。
核心二:智能路由与流量降级( Fallback ) 这套网关最酷的地方在于“算力路由”。 我们可以为某个业务配置一组模型池。比如,首选 GPT-5.2,当监测到网络超时或者厂商限流时,网关在 100 毫秒内自动无缝降级切换到备用的同级别国产模型。业务端完全无感,彻底告别了“接口挂了,服务就宕机”的窘境。
核心三:精细到毛细血管的 Token 成本审计 为了给 CFO 算清账,我们在网关层埋了极其精细的计费探针。 在 ZGI (www.zgi.cn/) 的后台“费用中心”,系统拦截并解析了每一次调用的上下文长度。现在,我们可以给每个部门、每个独立的应用(Agent)分配独立的配额(Quota)。 当市场部的“文案助手”消耗到达月度预算的 80% 时,系统自动触发企微报警;达到 100% 时,系统可以硬熔断,或者自动将其路由到免费的本地 DeepSeek 模型上。
写在最后 把大模型接入系统只需 10 行代码,但把大模型变成企业稳定、安全、算得清账的“基础设施”,需要成千上万行的网关治理代码。 如果你不想重复造轮子,也可以直接关注我们脱胎于这些痛点打造的 ZGI(www.zgi.cn/) 资产治理与运行平台。在 AI 时代,算力很贵,别让它变成一笔糊涂账。