为什么你的团队需要一个 LLM 网关——不只是代理，是控制平面一条凌晨三点发到你手机上的消息想象一下这个场景。凌晨三

上篇讲了怎么用网关一行代码切换模型。这一篇聊聊更根本的问题：当你的团队从"偶尔用用大模型"变成"业务跑在模型上"，为什么网关会从"可选项"变成"必需品"。

一条凌晨三点发到你手机上的消息

想象一下这个场景。

凌晨三点，你的手机震了一下。不是闹钟。是财务同事在企业微信上发来的消息："这个月的 DeepSeek 余额归零了，全组 API 调用都断了，怎么回事？"

你爬起来查日志，发现一个内部测试用的 Agent 在半夜触发了循环逻辑——它反复调用推理模型分析同一段用户输入，每次消耗一万多个 Token，连跑了四个小时。

没有告警。没有熔断。没有人在意。

Agent 不会累，但你的账户余额会。

这种事不是"如果"，而是"什么时候"。当调用方从人变成 Agent，"有人盯着用"变成了"没人看着自动跑"。你把钥匙交给了一台 24 小时不会累的机器，却没有给它装上刹车。

LLM 网关到底是个什么东西

上一篇文章我们演示了用网关切换模型——改一个 Header 参数，DeepSeek 变通义，通义变智谱。很多人看完后的第一反应是："哦，这不就是个 API 代理嘛。"

不只是。

如果把 LLM 调用比作开车，那一个简单的 API 代理只是帮你换了一条路——从国道换到高速。而一个完整的 LLM 网关，是给你装上了仪表盘、刹车、行车记录仪和限速器。

更准确地说，LLM 网关在你的应用和所有大模型之间充当了控制平面（Control Plane）：

                     ┌─────────────┐
                     │             │
    你的应用 ──────→  │   LLM 网关  │ ──→ DeepSeek
                     │             │ ──→ 通义千问
                     │  (控制平面)  │ ──→ 智谱 GLM
                     │             │ ──→ Claude
                     │             │ ──→ ...
                     └──────┬──────┘
                            │
                     ┌──────┴──────┐
                     │ 谁在调？     │
                     │ 花了多少？   │
                     │ 有没有超预算？│
                     │ 要不要熔断？  │
                     └─────────────┘

它不只是把请求"转发"出去，而是在转发的同时做四件事：身份验证、成本记录、预算控制、安全审计。这四件事，是"个人用大模型"和"团队跑大模型"之间的分界线。

从"一个人用"到"一个团队用"，问题完全不一样

一个人用大模型的时候，需求很简单：有个 Key，能调就行。Key 存在 .env 里，花了多少钱月底看一眼余额，不够了再充。

一个团队用大模型的时候，情况就变了：

第一，权限问题。 三个项目、五个同事、七个模型厂商——谁的 Key 给谁用？新同事来了怎么给他配 Key？老同事离职了怎么确保他不会带走 Key 继续用？

第二，成本问题。 老板问："这个月 AI 调用花了三千块，哪个项目花的？谁花的？值不值？"你看着散落在各家后台的账单，答不上来。

第三，合规问题。 如果你在金融、医疗、政务行业，你的 AI 调用链路必须可追溯。谁在什么时候调了什么模型、输入了什么、输出了什么——监管来查的时候，你手上得有一份不可篡改的完整记录。

这三个问题，靠"一个 Key 一个 .env"解决不了。靠各家厂商的后台额度限制也解决不了——因为那是管一个模型的，管不了跨模型的统一视图。

市面上的方案，为什么还不够

我调研过目前国内开发者用得最多的方案，结论是：对个人够用，对团队不够。

One API / New API，GitHub 上加起来近 70,000 个 Star，Go 单二进制部署，10 分钟就能跑起来。它是中国开源社区在 LLM 网关领域的标杆——但它的设计原点是为"个人开发者管理多个 API Key"而生的，不是为"企业团队管理 AI 基础设施"而生的。

没有多租户隔离——所有人共用一个视图。没有预算熔断——超量了不会自动切断。没有不可变审计日志——管理操作不可追溯。没有 AES-256 加密存储——Key 的安全性依赖部署环境本身。

这些问题对个人开发者来说不是问题。但对一个 10 人以上的团队、对一个有合规要求的公司、对一个 Agent 正在自动跑着的系统来说，这些事情不是"锦上添花"，是"没它不行"。

Portkey（美国，被 Palo Alto Networks 以 1.2-1.4 亿美元收购）在这些方面做到了企业级——但它面向的是美国和印度市场，国产模型的适配浅，中文支持少，中国部署网络延迟高。

这就是为什么我做了 OneLLM。

OneLLM 在代理层之上加了什么

OneLLM 在网关核心里面内置了四层管控能力，这四层恰好对应了前面说的四个问题：

第一层：虚拟 Key 体系。 你不再需要把 DeepSeek、通义、智谱的原始 API Key 分发到各个项目里。在管理后台把各家 Key 录入（AES-256 加密存储），生成一个 aihub_sk_ 开头的虚拟 Key，把它绑给所有厂商。同事离职？在后台一键吊销，不用去各家跑一遍轮换 Key。

第二层：Workspace 多租户 + RBAC。 不同的项目、不同的团队，创建不同的 Workspace，彼此完全隔离。Owner、Admin、Member、Viewer 四个角色，谁能看什么、谁能改什么，一清二楚。

第三层：预算熔断。 给每个 Workspace 设置月预算和日预算。花费到 70% 发告警，到 85% 限速，到 100% 硬切断。Agent 跑飞了？到线自动停，不会烧穿底。

第四层：不可变审计日志。 所有管理操作——谁创建了 Key、谁修改了权限、谁删除了 Workspace——全部追加写入审计表，不可修改、不可删除。不是"记一下"，是"法律级的证据链"。

这四层能力，在 One API 的生态位里不存在，在 Portkey 的生态位里存在但在中国用不了。 OneLLM 要填补的就是这个空白。

为什么现在就应该考虑这件事

2026 年的 AI 调用和 2024 年已经完全不是一个概念了。

2024 年，大模型调用是人在做——开发者手动写 Prompt、点发送、看结果。调用频率以"次/小时"为单位。

2026 年，大模型调用越来越多地是 Agent 在做——自动触发、高频调用、无人看管。调用频率以"次/秒"为单位。MCP 协议让 Agent 能直接调工具、A2A 协议让 Agent 之间能互相通信。

调用方从"人"变成了"程序"，管控就必须从"手动"变成"自动"。

这不是在贩卖焦虑。你看看周围——Dify、扣子、LangChain、CrewAI，更不用提个各种“小龙虾”、“爱马仕”了，越来越多的团队正在把大模型嵌入业务流程。每多一个 Agent，就多了一条可能失控的调用链路。每多一条链路，就多了一份需要管理的成本和安全风险。

网关层在现在加，叫"基础设施建设"。等出了事再加，叫"救火"。

现在就可以开始

在这里插入图片描述

OneLLM 是开源的，MIT 协议。你可以现在就用三条命令跑起来：

git clone https://github.com/EmilyLi2026/OneLLM.git
cd OneLLM/gateway-core && npm install && npm run dev:node

启动管理后台后，录入你的模型 Key、创建虚拟 Key、设置预算——十分钟搞定。

它不是大厂产品，没有 99.99% 的 SLA 承诺，还在快速迭代中。但它解决的是一个真实存在的问题：当你的团队开始在 AI 上花钱——而且花得越来越多——谁来帮你管住这笔钱？

One API 管模型，OneLLM 管 Agent。

如果你也在经历 Key 管理的混乱、账单的不可见、Agent 调用的不可控——欢迎来 GitHub 看看。

官方网站：github.com/EmilyLi2026…

Demo 环境：http://59.110.62.203:18080/

有任何想法，直接提 Issue，或者扫码加微信聊。在这里插入图片描述

扫码添加，备注"OneLLM"。不一定秒回，但每条都会看。

下一篇预告：《5 分钟自建 LLM 统一 API 入口——Docker 部署完整教程》。点关注，不错过。