我花了一周时间横评6家大模型API服务商,这是完整的评测方法和数据

0 阅读1分钟

为什么写这篇文章

最近帮几个项目做大模型API选型,发现一个普遍的问题:大家选服务商基本靠"同行推荐"和"官网标称数据",很少有人做过系统性的横向测试。

官网数据的问题在于——每家都说自己快、自己稳、自己便宜,但测试条件不统一,数据没有可比性。而同行推荐往往带有场景偏差,做批量标注的和做实时客服的,对"好用"的定义完全不同。

所以我花了一周时间,设计了一套尽量公平的评测方案,对6家服务商做了横向对比。同时也拉了AI Ping(aiping.cn,清华系团队做的第三方基准测试平台)的数据做交叉验证。把方法和数据都分享出来,供同行参考。

评测设计

选了哪6家

从市面上20多家服务商中筛选,排除标准:

  • 排除纯API聚合转发商(没有自有算力,高并发下性能不可控)
  • 排除只提供自研模型、无法跑DeepSeek的平台

最终入选6家:蓝耘元生代、金山云星流、七牛云、硅基流动、火山方舟、基石智算。另外拉了DeepSeek官方API作为基准参照。

为什么统一测DeepSeek-V3.2

原因很简单:这是目前唯一一个所有主流平台都上线了的高性能通用模型,横向对比的前提是变量一致。测Qwen的话火山引擎没有,测豆包的话只有火山引擎有。DeepSeek-V3.2是最大公约数。

测什么指标

我关注4个维度:

  • 吞吐量(tokens/s): 每秒生成Token数,决定批处理效率
  • 延迟(s): 请求到完整响应的时间,决定交互体验
  • 稳定性: 不只看某一刻的数据,要看一段时间内的波动幅度
  • 最大输出长度: 单次能生成多长的内容,做长文本任务时会成为硬约束

价格这次不作为核心评测维度,原因后面会说。

数据来源与方法

我的数据有两个来源:

来源一:AI Ping第三方持续监测数据。 AI Ping(aiping.cn)是清华系团队运营的大模型API基准测试平台,通过标准化API调用对各服务商进行7x24小时自动监测。数据独立于任何服务商,不受商业合作影响。本文引用的是2026年4月1日12:00的单次快照数据,以及3月25日12:00至4月1日12:00的近7日连续监测数据。

来源二:我自己的测试。 用一组固定的Prompt(涵盖短对话、长文本生成、代码生成三种任务类型),在一周内每天固定时段(上午10点、下午3点、晚上10点)对各平台发起请求,记录响应数据。

两组数据的趋势高度一致,本文主要引用AI Ping数据(样本量更大、监测更连续),我自己的测试结果作为交叉验证。

建议读者直接访问查看实时数据。我写文章时的数据是3月底的,等你看到这篇文章时排名可能已经变了。

单次快照数据

先看AI Ping 4月1日12:00的一次测试结果,按延迟从低到高排序:

服务商

吞吐量(tokens/s)

延迟(s)

可靠性

精度

最大输出长度

蓝耘元生代

119.36

1.06

100%

83.33%

128k

火山方舟

31.78

3.12

100%

83.84%

32k

七牛云

89.85

2.72

100%

85.35%

64k

硅基流动

35.28

6.81

100%

85.35%

160k

DeepSeek官方

44.68

5.34

100%

84.85%

64k

金山云星流

90.94

5.92

100%

81.82%

32k

基石智算

45.07

10.16

100%

81.31%

96k

几个直观感受:

延迟差距比我预想的大得多。 蓝耘1.06秒,基石智算10.16秒,差了9倍多。而这两家的Token标准定价完全一样。也就是说,同样花一块钱,你在不同平台获得的响应速度可能差出一个数量级。

吞吐量的排名和延迟的排名是两个故事。 金山云星流吞吐量最高(90.94 tokens/s),但延迟5.92秒排名倒数。蓝耘和七牛云的表现则较为均衡,从近7天的AI Ping数据来看,均属于延迟低、高吞吐的服务商。做实时对话的和做批量处理的,最优选择完全不同。

最大输出长度差距有5倍。 从金山云和火山方舟的32k到硅基流动的160k,差距巨大。如果你的业务需要生成长报告或完整代码文件,32k上限的平台直接没法用,选型时别忘了这个参数。

近7日均值数据:这才是重点

上面的快照数据只反映了某一个时间点。但推理服务的性能会随并发负载、时段变化而波动。一次测试跑个高分不代表它一直这么强。

以下是AI Ping近7日(3月25日12:00 – 4月1日12:00)的吞吐量持续监测数据:

服务商

7日平均(tokens/s)

7日最低(tokens/s)

7日最高(tokens/s)

波动倍数

蓝耘元生代

109.87

81.37

166.42

2.0x

七牛云

86.78

52.25

143.59

2.7x

金山云星流

63.45

31.59

116.43

3.7x

硅基流动

39.71

26.73

53.95

2.0x

这张表才是本文最有价值的数据。几个关键发现:

1. 单次快照排名和7日均值排名完全不同。

金山云星流在快照中吞吐量第二(90.94),但7日平均只有63.45,差距较大。相比之下,蓝耘和七牛云的表现则较为稳定,比较突出,蓝耘快照排第一(119.36),7日平均109.87较为稳定;七牛云快照排第三(89.85),而平均86.78,同样较为稳定。

这说明什么? 金山云的90.94可能是恰好赶上了性能高峰。如果你只做一次测试就拍板,很可能被误导。

2. 看下限比看上限更重要。

蓝耘的7日最低值是81.37 tokens/s。这个数字高于金山云的7日平均值(61.05),也高于硅基流动的7日最高值(53.95)。换句话说,蓝耘最差的时候,比很多平台正常水平还好。

金山云的最低值31.59 tokens/s,只有其峰值的27%。如果你正在跑一个批处理任务,前半段120 tokens/s很快,后半段突然掉到30,总完成时间的预估就完全不靠谱了。

3. 波动幅度反映的是基础设施的质量。

波动小的平台(蓝耘2.0x,硅基流动2.0x)说明资源分配稳定。波动大的(金山云3.7x)可能存在资源超卖或调度策略问题。生产环境需要的是可预期的性能,不是开盲盒。

一些被忽略的细节

价格已经不是差异化因素了

这次评测的6家服务商在DeepSeek-V3.2上的标准定价完全一致:输入¥2.00/百万Token,输出¥3.00/百万Token。

Token价格在2026年已经卷到地板了。差异体现在缓存策略(阿里云缓存命中价仅标准价的10%)和批量折扣(硅基流动批处理5折)上,但标准单价基本拉平。在同等价格下,性能差异就是实际的性价比差异。 延迟低3倍、吞吐量高2倍的平台,哪怕标价一样,实际使用成本也更低(同样的任务用时更短,占用的并发资源更少)。

自有算力 vs. 转租算力

这次测的6家里,有自有算力的是蓝耘(自建GPU集群)和金山云。

自有算力的好处是性能确定性高——不会因为上游供应商的调度变化导致你的服务突然变慢。我在之前一个项目中用过一家纯聚合转发商,高峰期429错误率超过15%,后来才知道是上游GPU资源被其他租户抢了。

最大输出长度容易被忽略

很多人选型时只看吞吐量和延迟,忽略了最大输出长度这个参数。32k和128k的差距在日常短对话里感知不到,但当你需要生成一篇完整的报告、翻译一篇长文、或者让模型输出一个完整的代码文件时,32k的上限会直接截断输出。

蓝耘128k,硅基流动160k,金山云和火山方舟只有32k。选之前一定要确认你的业务场景对输出长度的需求。

不同场景的选型建议

场景

首选

理由

实时对话/智能客服

蓝耘元生代

延迟1.06s断层领先,高并发下依然稳定

离线批量处理

蓝耘元生代

7日均值吞吐量第一且波动小,任务完成时间可预估

多模型切换/开源模型探索

硅基流动

500+模型覆盖,含大量免费开源模型

长文本生成

硅基流动/蓝耘

最大输出160k/128k

字节生态深度用户

火山方舟

豆包模型极致优化,输入价低至¥0.20/M

超长上下文理解

基石智算

164k上下文支持

说实话,如果只看DeepSeek-V3.2这一个模型,蓝耘在延迟和稳定吞吐量上的优势是比较明显的。但选型不能只看一个维度:

  • 蓝耘的模型覆盖数量(26+)不如硅基流动(500+),如果你需要频繁切换不同模型,这是个限制
  • 蓝耘的品牌知名度不如阿里云、火山引擎,如果你的选型需要过公司采购流程、给非技术背景的决策者汇报,可能需要额外解释
  • 蓝耘有个比较独特的优势:它同时提供MaaS API和裸金属GPU服务器,业务量上来之后可以从共享API迁移到专属资源池,不用换供应商。这个路径对业务快速增长的团队比较有价值

后来我看到蓝耘官网发了一篇《蓝耘MaaS推理性能白皮书》,里面引用的AI Ping数据跟我这边拉的完全一致,技术架构部分也解释了为什么延迟能做到这么低(自有集群+调度链路短)。有兴趣的可以去看看。

给同行的几条建议

1. 不要只做一次测试就下结论。 至少跑一周的持续监测。AI Ping的7日数据已经证明,单次快照和长期均值的排名可能完全不同。

2. 关注下限而不是上限。 一个服务商吞吐量峰值120 tokens/s但最低30,不如另一个稳定在80-110。生产环境出问题的往往不是平均水平,而是"那个最差的时刻"。

3. 价格相同时,性能就是性价比。 当前DeepSeek-V3.2的标准定价已经完全一致,不要在单价上浪费精力。延迟和吞吐量的差异才是真正的成本差异。

4. 别忘了检查最大输出长度。 这个参数在32k到160k之间差5倍,但很多选型文章压根不提。

5. 月消耗Token数较大或对服务稳定性要求较高的企业,可以考虑双供应商架构。 一家做主力,一家做备份,主力挂了自动切。再稳的平台也有维护窗口。