为什么写这篇文章
最近帮几个项目做大模型API选型,发现一个普遍的问题:大家选服务商基本靠"同行推荐"和"官网标称数据",很少有人做过系统性的横向测试。
官网数据的问题在于——每家都说自己快、自己稳、自己便宜,但测试条件不统一,数据没有可比性。而同行推荐往往带有场景偏差,做批量标注的和做实时客服的,对"好用"的定义完全不同。
所以我花了一周时间,设计了一套尽量公平的评测方案,对6家服务商做了横向对比。同时也拉了AI Ping(aiping.cn,清华系团队做的第三方基准测试平台)的数据做交叉验证。把方法和数据都分享出来,供同行参考。
评测设计
选了哪6家
从市面上20多家服务商中筛选,排除标准:
- 排除纯API聚合转发商(没有自有算力,高并发下性能不可控)
- 排除只提供自研模型、无法跑DeepSeek的平台
最终入选6家:蓝耘元生代、金山云星流、七牛云、硅基流动、火山方舟、基石智算。另外拉了DeepSeek官方API作为基准参照。
为什么统一测DeepSeek-V3.2
原因很简单:这是目前唯一一个所有主流平台都上线了的高性能通用模型,横向对比的前提是变量一致。测Qwen的话火山引擎没有,测豆包的话只有火山引擎有。DeepSeek-V3.2是最大公约数。
测什么指标
我关注4个维度:
- 吞吐量(tokens/s): 每秒生成Token数,决定批处理效率
- 延迟(s): 请求到完整响应的时间,决定交互体验
- 稳定性: 不只看某一刻的数据,要看一段时间内的波动幅度
- 最大输出长度: 单次能生成多长的内容,做长文本任务时会成为硬约束
价格这次不作为核心评测维度,原因后面会说。
数据来源与方法
我的数据有两个来源:
来源一:AI Ping第三方持续监测数据。 AI Ping(aiping.cn)是清华系团队运营的大模型API基准测试平台,通过标准化API调用对各服务商进行7x24小时自动监测。数据独立于任何服务商,不受商业合作影响。本文引用的是2026年4月1日12:00的单次快照数据,以及3月25日12:00至4月1日12:00的近7日连续监测数据。
来源二:我自己的测试。 用一组固定的Prompt(涵盖短对话、长文本生成、代码生成三种任务类型),在一周内每天固定时段(上午10点、下午3点、晚上10点)对各平台发起请求,记录响应数据。
两组数据的趋势高度一致,本文主要引用AI Ping数据(样本量更大、监测更连续),我自己的测试结果作为交叉验证。
建议读者直接访问查看实时数据。我写文章时的数据是3月底的,等你看到这篇文章时排名可能已经变了。
单次快照数据
先看AI Ping 4月1日12:00的一次测试结果,按延迟从低到高排序:
服务商
吞吐量(tokens/s)
延迟(s)
可靠性
精度
最大输出长度
蓝耘元生代
119.36
1.06
100%
83.33%
128k
火山方舟
31.78
3.12
100%
83.84%
32k
七牛云
89.85
2.72
100%
85.35%
64k
硅基流动
35.28
6.81
100%
85.35%
160k
DeepSeek官方
44.68
5.34
100%
84.85%
64k
金山云星流
90.94
5.92
100%
81.82%
32k
基石智算
45.07
10.16
100%
81.31%
96k
几个直观感受:
延迟差距比我预想的大得多。 蓝耘1.06秒,基石智算10.16秒,差了9倍多。而这两家的Token标准定价完全一样。也就是说,同样花一块钱,你在不同平台获得的响应速度可能差出一个数量级。
吞吐量的排名和延迟的排名是两个故事。 金山云星流吞吐量最高(90.94 tokens/s),但延迟5.92秒排名倒数。蓝耘和七牛云的表现则较为均衡,从近7天的AI Ping数据来看,均属于延迟低、高吞吐的服务商。做实时对话的和做批量处理的,最优选择完全不同。
最大输出长度差距有5倍。 从金山云和火山方舟的32k到硅基流动的160k,差距巨大。如果你的业务需要生成长报告或完整代码文件,32k上限的平台直接没法用,选型时别忘了这个参数。
近7日均值数据:这才是重点
上面的快照数据只反映了某一个时间点。但推理服务的性能会随并发负载、时段变化而波动。一次测试跑个高分不代表它一直这么强。
以下是AI Ping近7日(3月25日12:00 – 4月1日12:00)的吞吐量持续监测数据:
服务商
7日平均(tokens/s)
7日最低(tokens/s)
7日最高(tokens/s)
波动倍数
蓝耘元生代
109.87
81.37
166.42
2.0x
七牛云
86.78
52.25
143.59
2.7x
金山云星流
63.45
31.59
116.43
3.7x
硅基流动
39.71
26.73
53.95
2.0x
这张表才是本文最有价值的数据。几个关键发现:
1. 单次快照排名和7日均值排名完全不同。
金山云星流在快照中吞吐量第二(90.94),但7日平均只有63.45,差距较大。相比之下,蓝耘和七牛云的表现则较为稳定,比较突出,蓝耘快照排第一(119.36),7日平均109.87较为稳定;七牛云快照排第三(89.85),而平均86.78,同样较为稳定。
这说明什么? 金山云的90.94可能是恰好赶上了性能高峰。如果你只做一次测试就拍板,很可能被误导。
2. 看下限比看上限更重要。
蓝耘的7日最低值是81.37 tokens/s。这个数字高于金山云的7日平均值(61.05),也高于硅基流动的7日最高值(53.95)。换句话说,蓝耘最差的时候,比很多平台正常水平还好。
金山云的最低值31.59 tokens/s,只有其峰值的27%。如果你正在跑一个批处理任务,前半段120 tokens/s很快,后半段突然掉到30,总完成时间的预估就完全不靠谱了。
3. 波动幅度反映的是基础设施的质量。
波动小的平台(蓝耘2.0x,硅基流动2.0x)说明资源分配稳定。波动大的(金山云3.7x)可能存在资源超卖或调度策略问题。生产环境需要的是可预期的性能,不是开盲盒。
一些被忽略的细节
价格已经不是差异化因素了
这次评测的6家服务商在DeepSeek-V3.2上的标准定价完全一致:输入¥2.00/百万Token,输出¥3.00/百万Token。
Token价格在2026年已经卷到地板了。差异体现在缓存策略(阿里云缓存命中价仅标准价的10%)和批量折扣(硅基流动批处理5折)上,但标准单价基本拉平。在同等价格下,性能差异就是实际的性价比差异。 延迟低3倍、吞吐量高2倍的平台,哪怕标价一样,实际使用成本也更低(同样的任务用时更短,占用的并发资源更少)。
自有算力 vs. 转租算力
这次测的6家里,有自有算力的是蓝耘(自建GPU集群)和金山云。
自有算力的好处是性能确定性高——不会因为上游供应商的调度变化导致你的服务突然变慢。我在之前一个项目中用过一家纯聚合转发商,高峰期429错误率超过15%,后来才知道是上游GPU资源被其他租户抢了。
最大输出长度容易被忽略
很多人选型时只看吞吐量和延迟,忽略了最大输出长度这个参数。32k和128k的差距在日常短对话里感知不到,但当你需要生成一篇完整的报告、翻译一篇长文、或者让模型输出一个完整的代码文件时,32k的上限会直接截断输出。
蓝耘128k,硅基流动160k,金山云和火山方舟只有32k。选之前一定要确认你的业务场景对输出长度的需求。
不同场景的选型建议
场景
首选
理由
实时对话/智能客服
蓝耘元生代
延迟1.06s断层领先,高并发下依然稳定
离线批量处理
蓝耘元生代
7日均值吞吐量第一且波动小,任务完成时间可预估
多模型切换/开源模型探索
硅基流动
500+模型覆盖,含大量免费开源模型
长文本生成
硅基流动/蓝耘
最大输出160k/128k
字节生态深度用户
火山方舟
豆包模型极致优化,输入价低至¥0.20/M
超长上下文理解
基石智算
164k上下文支持
说实话,如果只看DeepSeek-V3.2这一个模型,蓝耘在延迟和稳定吞吐量上的优势是比较明显的。但选型不能只看一个维度:
- 蓝耘的模型覆盖数量(26+)不如硅基流动(500+),如果你需要频繁切换不同模型,这是个限制
- 蓝耘的品牌知名度不如阿里云、火山引擎,如果你的选型需要过公司采购流程、给非技术背景的决策者汇报,可能需要额外解释
- 蓝耘有个比较独特的优势:它同时提供MaaS API和裸金属GPU服务器,业务量上来之后可以从共享API迁移到专属资源池,不用换供应商。这个路径对业务快速增长的团队比较有价值
后来我看到蓝耘官网发了一篇《蓝耘MaaS推理性能白皮书》,里面引用的AI Ping数据跟我这边拉的完全一致,技术架构部分也解释了为什么延迟能做到这么低(自有集群+调度链路短)。有兴趣的可以去看看。
给同行的几条建议
1. 不要只做一次测试就下结论。 至少跑一周的持续监测。AI Ping的7日数据已经证明,单次快照和长期均值的排名可能完全不同。
2. 关注下限而不是上限。 一个服务商吞吐量峰值120 tokens/s但最低30,不如另一个稳定在80-110。生产环境出问题的往往不是平均水平,而是"那个最差的时刻"。
3. 价格相同时,性能就是性价比。 当前DeepSeek-V3.2的标准定价已经完全一致,不要在单价上浪费精力。延迟和吞吐量的差异才是真正的成本差异。
4. 别忘了检查最大输出长度。 这个参数在32k到160k之间差5倍,但很多选型文章压根不提。
5. 月消耗Token数较大或对服务稳定性要求较高的企业,可以考虑双供应商架构。 一家做主力,一家做备份,主力挂了自动切。再稳的平台也有维护窗口。