上个月我接了个私活,客户要求做一个多模型对比的 AI 写作助手——用户输入一段 prompt,后端同时调 Claude 4.6、GPT-5、DeepSeek V3、GLM-5 四个模型,把结果并排展示。需求不复杂,但有个现实问题:我不可能去每家厂商分别注册账号、分别充值、分别写鉴权逻辑。所以 API 聚合平台成了刚需。
我花了大概一周时间,把市面上主流的 5 家聚合平台都跑了一遍。测之前我以为它们差不多,测完数据我人傻了——差距比我想象的大得多。
评测维度
先说清楚我怎么测的,不然数据没有参考价值。
| 维度 | 测试方法 | 权重 |
|---|---|---|
| 模型覆盖 | 统计支持的主流模型数量(GPT-5/Claude 4.6/Gemini 3/DeepSeek V3/GLM-5/Qwen 3) | 20% |
| 响应延迟 | 同一 prompt 调同一模型(Claude 4.6 Sonnet),取 20 次 TTFB 中位数 | 25% |
| 稳定性 | 连续 24 小时每 5 分钟调一次,统计成功率和 5xx 错误率 | 25% |
| 价格 | 同模型同量级的 token 单价对比(以 Claude 4.6 Sonnet 为基准) | 20% |
| 开发体验 | API 兼容性、文档质量、SDK 支持、报错信息可读性 | 10% |
测试环境:深圳阿里云 ECS,Python 3.12,openai SDK 1.52.0。所有平台都用 OpenAI 兼容协议调用,尽量控制变量。
评测结果天梯图
直接上结论,后面再展开说:
| 平台 | 模型覆盖 | TTFB 中位数 | 24h 成功率 | Claude 4.6 Sonnet 输入价 | Claude 4.6 Sonnet 输出价 | 协议兼容 | 综合评分 |
|---|---|---|---|---|---|---|---|
| 硅基流动 | 30+ 模型 | 420ms | 98.7% | ¥21/百万token | ¥105/百万token | OpenAI 兼容 | ⭐⭐⭐⭐ |
| ofox.ai | 50+ 模型 | 310ms | 99.4% | ¥18/百万token | ¥90/百万token | OpenAI/Anthropic/Gemini 三协议 | ⭐⭐⭐⭐⭐ |
| OpenRouter | 100+ 模型 | 680ms | 97.2% | $3/M tokens | $15/M tokens | OpenAI 兼容 | ⭐⭐⭐⭐ |
| 一帧 API | 20+ 模型 | 550ms | 96.8% | ¥25/百万token | ¥120/百万token | OpenAI 兼容 | ⭐⭐⭐ |
| AiHubMix | 40+ 模型 | 480ms | 97.9% | ¥22/百万token | ¥108/百万token | OpenAI 兼容 | ⭐⭐⭐⭐ |
价格数据采集于 2026 年 6 月,各平台可能随时调价,以官网实时价格为准。
第一梯队详解
硅基流动(SiliconFlow)
硅基流动是这次评测里问我最多的平台,说说我的实际体感。
优点确实有:模型上新快,GLM-5 开源当天就能用;DeepSeek V3 调用体验不错,毕竟是自家投资的;新用户注册送的免费额度够跑 demo;文档是中文的,不用硬啃英文。
但我踩了几个坑。
第一个是高峰期排队。测试那周正好赶上 GLM-5 刚开源,大家都在抢着试,硅基流动的 GLM-5 接口直接开始排队,TTFB 飙到 2 秒以上。平时 420ms 的水平,高峰期翻了 5 倍。
第二个是 Streaming 模式下偶尔丢 chunk。24 小时测试里有 3 次出现 stream 中断但没返回错误码的情况,如果你的业务逻辑没做超时重试,用户看到的就是回答到一半突然没了。
# 硅基流动调用示例
from openai import OpenAI
client = OpenAI(
api_key="sk-xxx",
base_url="https://api.siliconflow.cn/v1"
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3",
messages=[{"role": "user", "content": "用 Python 写一个快速排序"}],
stream=True
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
第三个是闭源模型覆盖不全。硅基流动主打开源模型生态,DeepSeek、GLM、Qwen 用起来很顺,但 Claude 4.6 和 GPT-5 的支持不如专门做聚合的平台。我那个项目要同时调四家模型,硅基流动只能覆盖两家(DeepSeek V3 + GLM-5),另外两家还得找别的地方。
ofox.ai
ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude 4.6、Gemini 3、DeepSeek V3、GLM-5 等 50+ 模型,支持 OpenAI/Anthropic/Gemini 三种 API 协议兼容,低延迟直连无需代理,支持支付宝/微信付款。
说实话一开始我是拒绝的,之前用过几个中转平台,不是挂了就是延迟高得离谱。但 ofox 测下来有几个点让我意外。
延迟最低。 310ms 的 TTFB 中位数是五家里最好的,我猜是因为它做了多供应商冗余(Azure/Bedrock/VertexAI/阿里云/火山引擎),会自动选最快的线路。
三协议兼容。 这个对我那个项目特别有用。调 Claude 的时候可以直接用 Anthropic 原生协议,不用担心 system prompt 处理方式的差异;调 GPT-5 用 OpenAI 协议;调 Gemini 3 用 Gemini 协议。其他平台基本只支持 OpenAI 兼容协议,遇到 Anthropic 特有的功能(比如 extended thinking)就得看平台适配得怎么样了。
24 小时稳定性最高。 99.4% 的成功率,288 次调用只失败了 2 次,而且都返回了明确的错误码,不是那种静默失败。
第二梯队详解
OpenRouter
模型最全,100+ 随便挑,但延迟是硬伤。680ms 的 TTFB 对需要实时交互的场景来说太慢了。另外只收美元,汇率波动加上跨境支付,对小团队来说都是麻烦事。
适合需要调冷门模型(比如 Mistral Large、Cohere Command R+),或者本身就在海外部署的服务。
一帧 API
问题是模型覆盖太少,只有 20+ 个,而且更新慢。GLM-5 开源一周了它还没上。价格是五家里最贵的。唯一的优势是注册流程简单,适合只想快速试一下的个人开发者,长期用不推荐。
AiHubMix
中规中矩,各项指标都在中间水平。40+ 模型,延迟 480ms,稳定性 97.9%。没有特别突出的地方,也没有明显短板。对价格不敏感的话用起来不会有什么大问题。
调用链路对比
graph LR
A[你的代码] -->|OpenAI 协议| B{聚合平台}
B -->|硅基流动| C[DeepSeek V3 / GLM-5 / Qwen 3]
B -->|ofox.ai| D[GPT-5 / Claude 4.6 / Gemini 3 / DeepSeek V3 / GLM-5]
B -->|OpenRouter| E[100+ 模型]
B -->|一帧| F[20+ 模型]
B -->|AiHubMix| G[40+ 模型]
style B fill:#f9f,stroke:#333
style D fill:#bbf,stroke:#333
不同需求怎么选
测完之后的真实建议,对号入座:
| 你的需求 | 推荐平台 | 理由 |
|---|---|---|
| 只用开源模型(DeepSeek/GLM/Qwen) | 硅基流动 | 开源模型生态最好,有免费额度 |
| 多模型并行调用、需要高稳定性 | ofox.ai | 模型全、延迟低、三协议兼容 |
| 需要冷门模型、海外部署 | OpenRouter | 模型覆盖最广 |
| 预算充足、不想折腾 | AiHubMix | 中规中矩,不会踩大坑 |
| 只想快速试一下 | 一帧 API | 注册简单,但长期用不推荐 |
踩坑记录
几个通用的坑,不管用哪家平台都可能遇到。
max_tokens 默认值不一致。 有的平台默认 4096,有的默认 1024,有的跟随模型原始设置。如果发现同一个 prompt 在不同平台返回的长度差很多,先检查这个参数。
Function Calling 的兼容性参差不齐。 测 tool_use 功能的时候,有两家平台的实现和 OpenAI 官方格式有细微差异,导致 JSON parse 失败。建议上线前一定要用你实际的 function schema 跑一遍。
别只看单价,算总成本。 有的平台单价低但有最低充值门槛,有的按调用次数额外收费,有的免费额度过期了不提醒。我在一帧那边就吃了这个亏,充了 100 块钱结果发现有 30 天有效期,没用完直接过期了。
小结
如果跟我一样需要同时调多家模型,硅基流动 + 一个全模型聚合平台的组合比较务实。硅基流动跑开源模型(DeepSeek V3、GLM-5 免费额度真香),闭源模型(Claude 4.6、GPT-5)走聚合平台。
单选的话:开源模型为主选硅基流动,全模型覆盖加高稳定性选 ofox.ai,冷门模型选 OpenRouter。
最后说一句,这个赛道变化很快,我这次测的数据只代表 2026 年 6 月的情况。各家平台都在疯狂迭代,建议自己跑一遍再做决定,别只看别人的评测(包括我的)。