为什么你的团队需要一个 LLM 网关——不只是代理,是控制平面

0 阅读7分钟

上篇讲了怎么用网关一行代码切换模型。这一篇聊聊更根本的问题:当你的团队从"偶尔用用大模型"变成"业务跑在模型上",为什么网关会从"可选项"变成"必需品"。


一条凌晨三点发到你手机上的消息

想象一下这个场景。

凌晨三点,你的手机震了一下。不是闹钟。是财务同事在企业微信上发来的消息:"这个月的 DeepSeek 余额归零了,全组 API 调用都断了,怎么回事?"

你爬起来查日志,发现一个内部测试用的 Agent 在半夜触发了循环逻辑——它反复调用推理模型分析同一段用户输入,每次消耗一万多个 Token,连跑了四个小时。

没有告警。没有熔断。没有人在意。

Agent 不会累,但你的账户余额会。

这种事不是"如果",而是"什么时候"。当调用方从人变成 Agent,"有人盯着用"变成了"没人看着自动跑"。你把钥匙交给了一台 24 小时不会累的机器,却没有给它装上刹车。


LLM 网关到底是个什么东西

上一篇文章我们演示了用网关切换模型——改一个 Header 参数,DeepSeek 变通义,通义变智谱。很多人看完后的第一反应是:"哦,这不就是个 API 代理嘛。"

不只是。

如果把 LLM 调用比作开车,那一个简单的 API 代理只是帮你换了一条路——从国道换到高速。而一个完整的 LLM 网关,是给你装上了仪表盘、刹车、行车记录仪和限速器

更准确地说,LLM 网关在你的应用和所有大模型之间充当了控制平面(Control Plane):

                     ┌─────────────┐
                     │             │
    你的应用 ──────→  │   LLM 网关  │ ──→ DeepSeek
                     │             │ ──→ 通义千问
                     │  (控制平面)  │ ──→ 智谱 GLM
                     │             │ ──→ Claude
                     │             │ ──→ ...
                     └──────┬──────┘
                            │
                     ┌──────┴──────┐
                     │ 谁在调?     │
                     │ 花了多少?   │
                     │ 有没有超预算?│
                     │ 要不要熔断?  │
                     └─────────────┘

它不只是把请求"转发"出去,而是在转发的同时做四件事:身份验证、成本记录、预算控制、安全审计。这四件事,是"个人用大模型"和"团队跑大模型"之间的分界线。


从"一个人用"到"一个团队用",问题完全不一样

一个人用大模型的时候,需求很简单:有个 Key,能调就行。Key 存在 .env 里,花了多少钱月底看一眼余额,不够了再充。

一个团队用大模型的时候,情况就变了:

第一,权限问题。 三个项目、五个同事、七个模型厂商——谁的 Key 给谁用?新同事来了怎么给他配 Key?老同事离职了怎么确保他不会带走 Key 继续用?

第二,成本问题。 老板问:"这个月 AI 调用花了三千块,哪个项目花的?谁花的?值不值?"你看着散落在各家后台的账单,答不上来。

第三,合规问题。 如果你在金融、医疗、政务行业,你的 AI 调用链路必须可追溯。谁在什么时候调了什么模型、输入了什么、输出了什么——监管来查的时候,你手上得有一份不可篡改的完整记录。

这三个问题,靠"一个 Key 一个 .env"解决不了。靠各家厂商的后台额度限制也解决不了——因为那是管一个模型的,管不了跨模型的统一视图。


市面上的方案,为什么还不够

我调研过目前国内开发者用得最多的方案,结论是:对个人够用,对团队不够。

One API / New API,GitHub 上加起来近 70,000 个 Star,Go 单二进制部署,10 分钟就能跑起来。它是中国开源社区在 LLM 网关领域的标杆——但它的设计原点是为"个人开发者管理多个 API Key"而生的,不是为"企业团队管理 AI 基础设施"而生的。

没有多租户隔离——所有人共用一个视图。没有预算熔断——超量了不会自动切断。没有不可变审计日志——管理操作不可追溯。没有 AES-256 加密存储——Key 的安全性依赖部署环境本身。

这些问题对个人开发者来说不是问题。但对一个 10 人以上的团队、对一个有合规要求的公司、对一个 Agent 正在自动跑着的系统来说,这些事情不是"锦上添花",是"没它不行"。

Portkey(美国,被 Palo Alto Networks 以 1.2-1.4 亿美元收购)在这些方面做到了企业级——但它面向的是美国和印度市场,国产模型的适配浅,中文支持少,中国部署网络延迟高。

这就是为什么我做了 OneLLM。


OneLLM 在代理层之上加了什么

OneLLM 在网关核心里面内置了四层管控能力,这四层恰好对应了前面说的四个问题:

第一层:虚拟 Key 体系。 你不再需要把 DeepSeek、通义、智谱的原始 API Key 分发到各个项目里。在管理后台把各家 Key 录入(AES-256 加密存储),生成一个 aihub_sk_ 开头的虚拟 Key,把它绑给所有厂商。同事离职?在后台一键吊销,不用去各家跑一遍轮换 Key。

第二层:Workspace 多租户 + RBAC。 不同的项目、不同的团队,创建不同的 Workspace,彼此完全隔离。Owner、Admin、Member、Viewer 四个角色,谁能看什么、谁能改什么,一清二楚。

第三层:预算熔断。 给每个 Workspace 设置月预算和日预算。花费到 70% 发告警,到 85% 限速,到 100% 硬切断。Agent 跑飞了?到线自动停,不会烧穿底。

第四层:不可变审计日志。 所有管理操作——谁创建了 Key、谁修改了权限、谁删除了 Workspace——全部追加写入审计表,不可修改、不可删除。不是"记一下",是"法律级的证据链"。

这四层能力,在 One API 的生态位里不存在,在 Portkey 的生态位里存在但在中国用不了。 OneLLM 要填补的就是这个空白。


为什么现在就应该考虑这件事

2026 年的 AI 调用和 2024 年已经完全不是一个概念了。

2024 年,大模型调用是人在做——开发者手动写 Prompt、点发送、看结果。调用频率以"次/小时"为单位。

2026 年,大模型调用越来越多地是 Agent 在做——自动触发、高频调用、无人看管。调用频率以"次/秒"为单位。MCP 协议让 Agent 能直接调工具、A2A 协议让 Agent 之间能互相通信。

调用方从"人"变成了"程序",管控就必须从"手动"变成"自动"。

这不是在贩卖焦虑。你看看周围——Dify、扣子、LangChain、CrewAI,更不用提个各种“小龙虾”、“爱马仕”了,越来越多的团队正在把大模型嵌入业务流程。每多一个 Agent,就多了一条可能失控的调用链路。每多一条链路,就多了一份需要管理的成本和安全风险。

网关层在现在加,叫"基础设施建设"。等出了事再加,叫"救火"。


现在就可以开始

在这里插入图片描述

OneLLM 是开源的,MIT 协议。你可以现在就用三条命令跑起来:

git clone https://github.com/EmilyLi2026/OneLLM.git
cd OneLLM/gateway-core && npm install && npm run dev:node

启动管理后台后,录入你的模型 Key、创建虚拟 Key、设置预算——十分钟搞定。

它不是大厂产品,没有 99.99% 的 SLA 承诺,还在快速迭代中。但它解决的是一个真实存在的问题:当你的团队开始在 AI 上花钱——而且花得越来越多——谁来帮你管住这笔钱?

One API 管模型,OneLLM 管 Agent。


如果你也在经历 Key 管理的混乱、账单的不可见、Agent 调用的不可控——欢迎来 GitHub 看看。

官方网站:github.com/EmilyLi2026…

Demo 环境:http://59.110.62.203:18080/

有任何想法,直接提 Issue,或者扫码加微信聊。 在这里插入图片描述

扫码添加,备注"OneLLM"。不一定秒回,但每条都会看。


下一篇预告:《5 分钟自建 LLM 统一 API 入口——Docker 部署完整教程》。点关注,不错过。