免责声明:本文所有数据均来自 Mayfly 项目团队的内部压测,测试结果受测试环境、API 配额、网络条件等因素影响,仅供参考。文中观点均为团队个人见解,不代表任何官方立场。我们尊重所有大模型厂商的努力和贡献,本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。
⚠️ 引言:昨天的报告引发热议,但我们发现了一个重要问题
昨天,我们发布了《Spring AI 2.0 弃用智谱 AI 的背后:一份来自压测实验室的真实报告》([查看原文](Spring AI 2.0 弃用智谱 AI 的背后:一份来自压测实验室的真实报告SpringAI 2.0弃用智谱 AI - 掘金)),在国内 Java 开发者社区引发广泛讨论:
- 智谱 AI 真的不适合企业级场景吗?
- DeepSeek 和通义千问表现如何?
- 企业应该如何选择大模型?
⚠️ 上一份报告的不足
在发布第一份报告后,我们收到了社区的反馈,并进行了进一步调查。我们发现上一份报告存在一个重要问题:
我们对智谱 AI 失败原因的分析存在偏差。
上一份报告的结论:
智谱 AI 的 API 稳定性不足,在所有场景下错误率都超过 50%。
实际情况:
经过进一步调查,我们发现智谱 AI 的失败主要原因是账户权益等级限制,而非 API 本身不稳定。
第一份报告使用的是免费账户(V0 等级) ,并发限制极低。50 并发远超免费账户的限制,导致大量请求被智谱 AI 服务器拒绝(500 Internal Server Error)。
这并非智谱 AI API 本身不稳定,而是账户权益等级不足导致的并发限制。
本报告的目的
为了提供更准确的对比数据,我们进行了第二轮独立对比测试:
- 独立测试:每个模型 100% 权重,排除其他模型干扰
- 统一配置:50 并发用户,10 秒 Ramp-Up,3 分钟持续时间
- 统一请求:POST http://localhost:8080/api/chat/send
- 统一内容:
{"message": "你好,请简单介绍一下你自己"}
今天,我们公布第二份报告:三大模型独立对比测试(更正版)。
🧪 独立测试说明
测试配置
| 项目 | 配置 |
|---|---|
| 设备 | Intel i9-11900H @ 2.50GHz, 16GB RAM |
| 操作系统 | Windows 11 家庭版 25H2 |
| JDK | 17.0.16 |
| Spring Boot | 3.2.4 |
| Spring AI | 1.0.0-M6 |
| JMeter | 5.6.3 |
| 测试接口 | POST /api/chat/send |
测试方法
| 模型 | 权重配置 | 并发数 | 持续时间 | 说明 |
|---|---|---|---|---|
| DeepSeek | 100% | 50 | 3分钟 | 独立测试 |
| 通义千问 | 100% | 50 | 3分钟 | 独立测试 |
| 智谱 AI | 100% | 50→10 | 3分钟 | 独立测试(账户限制) |
⚠️ 重要说明:智谱 AI 数据不可用
本次独立测试中,智谱 AI 的压测数据不可用,原因如下:
-
账户等级限制:本次测试使用的是免费账户(V0 等级) ,根据智谱 AI 官方文档 速率限制:
- V0 等级(积分 [0, 2,000)):基础服务,并发极低
- V1 等级(积分 [2,000, 10,000)):并发权益
- V2 等级(积分 [10,000, 50,000)):更高并发
- V3 等级(积分 >= 50,000):最高并发
-
测试过程:
- 50 并发:100% 失败(500 Internal Server Error)
- 降至 10 并发:依然 100% 失败
- 结论:免费账户并发限制极低,无法完成有效压测
-
相关错误码:
- 错误码 1302:触发用户速率限制(当前模型的并发请求数已达到账户上限)
- 错误码 1305:平台服务过载(模型在当前时段整体访问压力较高)
因此,本报告仅提供 DeepSeek 和通义千问的完整对比数据,智谱 AI 部分仅说明账户限制情况。
📊 对比维度一:API 稳定性
独立测试结果
| 模型 | 总请求数 | 成功数 | 失败数 | 成功率 | 表现 |
|---|---|---|---|---|---|
| 通义千问 (qwen-max) | ~850 | ~850 | 0 | ✅ 100% | 优秀 |
| DeepSeek (deepseek-chat) | ~650 | ~650 | 0 | ✅ 100% | 优秀 |
| 智谱 AI (glm-4) | ~800 | 0 | ~800 | ❌ 0% | 账户限制 |
分析:
在独立测试中,通义千问和 DeepSeek 均实现了 100% 的成功率,表现优秀。智谱 AI 因免费账户并发限制,所有请求均被拒绝(500 Internal Server Error),数据不可用。
📊 对比维度二:响应时间
响应时间对比
| 模型 | 平均响应时间 | 最小响应时间 | 最大响应时间 | 表现 |
|---|---|---|---|---|
| 通义千问 (qwen-max) | ~6.5s | 3.0s | 13.6s | ✅ 快速 |
| DeepSeek (deepseek-chat) | ~11.0s | 9.6s | 14.4s | ✅ 稳定 |
| 智谱 AI (glm-4) | N/A | 20-200ms (熔断) | N/A | ❌ 账户限制 |
响应时间可视化:
通义千问 ████████████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 6.5s
DeepSeek ████████████████████████████████████████████████████████████████████ 11.0s
智谱 AI ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ N/A (账户限制)
分析:
通义千问的平均响应时间为 6.5 秒,比 DeepSeek 的 11.0 秒快约 40%。两者的响应时间都在可接受范围内,但通义千问在响应速度上具有明显优势。
📊 对比维度三:并发能力
并发能力对比
| 模型 | 50 并发成功率 | 说明 |
|---|---|---|
| 通义千问 (qwen-max) | ✅ 100% | 并发能力强 |
| DeepSeek (deepseek-chat) | ✅ 100% | 并发能力强 |
| 智谱 AI (glm-4) | ❌ 0% | 免费账户限制极低 |
JVM 表现
| 模型 | 堆内存 | 线程数变化 | 内存泄漏 | 说明 |
|---|---|---|---|---|
| 通义千问 | 正常锯齿波动 | 30 → 70 → 恢复 | 无 | GC 有效 |
| DeepSeek | 正常锯齿波动 | 31 → 70 → 恢复 | 无 | GC 有效 |
| 智谱 AI | N/A | N/A | N/A | 账户限制 |
分析:
通义千问和 DeepSeek 在 50 并发下均表现稳定,JVM 内存管理正常,无线程泄漏,GC 有效回收。压测后系统快速恢复正常状态。
📊 对比维度四:成本效益
成本对比
| 模型 | 输入 Token 价格 | 输出 Token 价格 | 性价比 | 说明 |
|---|---|---|---|---|
| DeepSeek | ¥0.001/千Token | ¥0.002/千Token | ✅ 优秀 | 价格最低 |
| 通义千问 | ¥0.004/千Token | ¥0.012/千Token | ✅ 良好 | 价格适中 |
| 智谱 AI | ¥0.005/千Token | ¥0.005/千Token | ⚠️ 一般 | 价格较高 |
分析:
DeepSeek 的价格最低,输入 Token 价格仅为 ¥0.001/千Token,是通义千问的 1/4。通义千问价格适中,但响应速度更快。智谱 AI 价格较高,且免费账户无法用于生产环境。
🏆 综合评分与推荐
综合评分汇总
| 模型 | API稳定性 | 响应时间 | 并发能力 | 成本效益 | 综合评分 |
|---|---|---|---|---|---|
| 通义千问 | 5.0/5 | 5.0/5 | 5.0/5 | 4.0/5 | 4.8/5 ✅ |
| DeepSeek | 5.0/5 | 4.0/5 | 5.0/5 | 5.0/5 | 4.8/5 ✅ |
| 智谱 AI | ❌ 数据不可用 | ❌ 数据不可用 | ❌ 数据不可用 | ❌ 数据不可用 | ❌ 账户限制 |
推荐建议
🥇 通义千问:响应速度最快
推荐理由:
- ✅ API 稳定性优秀:100% 成功率
- ✅ 响应速度最快:平均 6.5 秒,比 DeepSeek 快 40%
- ✅ 并发能力强:50 并发下表现稳定
- ✅ 中文理解优秀:阿里通义系列模型优势
- ✅ 适合主要模型:建议配置 60-70% 权重
适用场景:
- 企业级 AI 应用
- 对响应速度要求高的场景
- 中文对话和理解场景
🥈 DeepSeek:性价比最高
推荐理由:
- ✅ API 稳定性优秀:100% 成功率
- ✅ 性价比最高:价格最低,是通义千问的 1/4
- ✅ 并发能力强:50 并发下表现稳定
- ✅ 响应时间稳定:波动小,可预测
- ✅ 适合备用模型:建议配置 30-40% 权重
适用场景:
- 成本敏感场景
- 作为通义千问的备用模型
- 需要多模型冗余的场景
⚠️ 智谱 AI:需升级账户等级才能用于生产环境
重要说明:
本次独立测试中,智谱 AI 的压测数据不可用,原因是免费账户(V0 等级)并发限制极低。
测试情况:
- ❌ 50 并发:100% 失败(500 Internal Server Error)
- ❌ 降至 10 并发:依然 100% 失败
- ❌ 结论:免费账户无法完成有效压测
企业使用智谱 AI 的前提条件:
-
账户等级要求:
- ✅ 最低要求:V1 等级(积分 >= 2,000)
- ✅ 推荐等级:V2 或以上(积分 >= 10,000)
- ❌ 不推荐:V0 等级(免费账户,并发限制极低)
-
如何提升账户等级:
- 调用模型 API 消耗现金余额获得积分
- 购买产品资源包获得积分
- 花费金额与积分按 1:1 比例兑换
-
免费模型限制:
- GLM-4-Flash:永久免费,限制 30 并发
- 如需更高并发,需使用付费模型或升级账户
-
申请提额:
- 通过控制台提交速率限制调整申请
- 填写需要调整的模型、期望增加的并发数量、实际使用场景
- 平台将在 10 个工作日内完成审核
适用场景:
- ✅ 已升级至 V1 或以上等级的企业用户
- ✅ 作为备用模型(需确保账户等级足够)
- ❌ 免费账户不适合高并发生产环境
🚀 Mayfly 的企业级能力
为什么 Mayfly 能解决单模型限制问题?
1. 智能路由:不依赖单模型
mayfly:
models:
# 主模型:通义千问
- name: tongyi-primary
provider: tongyi
model: qwen-max
weight: 70 # 70% 流量
# 备用模型:DeepSeek
- name: deepseek-backup
provider: deepseek
model: deepseek-chat
weight: 30 # 30% 流量
效果:
- 即使单模型出现问题,系统仍能处理其他模型的请求
- 单模型故障不影响整体服务
2. 熔断保护:防止系统雪崩
mayfly:
circuit-breaker:
enabled: true
failure-rate-threshold: 50 # 50% 失败率触发熔断
wait-duration-in-open-state: 60s
sliding-window-size: 10
minimum-number-of-calls: 5
效果:
- 模型错误率达到 50% 时自动熔断
- 熔断期间,请求自动路由到其他模型
- 防止单模型故障导致系统雪崩
3. 故障转移:业务无感知
@Service
public class ChatService {
private final ModelRouter modelRouter;
public ChatResponse chat(String message) {
// Mayfly 自动处理故障转移
// 当某模型失败时,自动切换到其他模型
return modelRouter.chat(new Prompt(message));
}
}
效果:
- 业务代码无需处理故障转移逻辑
- 模型失败时,自动切换到其他模型
- 业务无感知,用户体验不受影响
4. 长时间稳定性:生产就绪
10分钟压测结果(第一份报告数据):
- 无内存泄漏:内存底部稳定在 70-80MB
- 无线程泄漏:活动线程数完全稳定在 72 个
- GC 工作正常:锯齿状波动持续,垃圾回收有效
效果:
- 适合生产环境长时间运行
- 资源管理稳定
- 系统行为可预测
📈 测试数据汇总
独立测试完整数据
| 模型 | 并发数 | 持续时间 | 总请求数 | 成功率 | 平均响应时间 | 系统状态 |
|---|---|---|---|---|---|---|
| 通义千问 | 50 | 3分钟 | ~850 | 100% | ~6.5s | ✅ 优秀 |
| DeepSeek | 50 | 3分钟 | ~650 | 100% | ~11.0s | ✅ 优秀 |
| 智谱 AI | 50→10 | 3分钟 | ~800 | 0% | N/A | ❌ 账户限制 |
关键结论
| 结论 | 说明 |
|---|---|
| 通义千问 | 响应速度最快,适合作为主模型 |
| DeepSeek | 性价比最高,适合作为备用模型 |
| 智谱 AI | 免费账户并发限制极低,数据不可用 |
| 系统瓶颈 | 外部AI模型API(非本地系统) |
| Mayfly 价值 | 多模型路由+熔断保护,保障系统稳定性 |
⚠️ 已知问题与改进计划
当前版本限制
- 模型数量:当前支持3个模型(DeepSeek、通义千问、智谱AI),v1.1将扩展至8+
- 智谱AI说明:本次测试使用免费账户(V0等级),并发限制极低,压测数据不可用。企业使用智谱AI需确保账户达到V1或以上等级
- 文档完善度:用户文档正在完善中,v1.1将提供完整文档
v1.1改进计划
- 扩展模型支持至8+(文心一言、讯飞星火、OpenAI、Claude等)
- 完善用户文档(快速入门、配置说明、FAQ)
- 补充Token成本统计监控
- 编写基础单元测试
🤝 关于 Mayfly
Mayfly 是一个基于 Spring AI 的企业级模型路由增强插件,专为国内 Java 开发者打造。我们致力于解决 Spring AI 在国产模型支持和企业级特性方面的不足,让每个开发者都能轻松构建生产级的 AI 应用。
核心能力
- ✅ 智能路由:固定路由、权重路由、SpEL规则路由
- ✅ 负载均衡:轮询、加权轮询算法
- ✅ 熔断保护:基于Resilience4j,50%失败率自动熔断
- ✅ 故障转移:主备切换+冷却机制
- ✅ 健康监控:Micrometer + Prometheus 完整指标
- ✅ 零配置集成:3行配置快速接入
开源与社区
- 许可证:Apache License 2.0 (商业友好)
- 代码托管:gitcode.com/Topfogking/…
- Issues:gitcode.com/Topfogking/…
- 邮箱:git@xsjyby.asia
快速开始
# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git
# 查看示例配置
cat mayfly-demo/src/main/resources/application.yml
# 运行测试
cd mayfly-demo && mvn spring-boot:run
💬 免责声明
- 测试数据:本文所有数据均来自 Mayfly 项目团队的内部压测,测试结果受测试环境、API 配额、网络条件等因素影响,仅供参考。
- 个人观点:文中观点均为团队个人见解,不代表任何官方立场。
- 尊重厂商:我们尊重所有大模型厂商的努力和贡献,本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。
- 非官方测试:本文非 Spring 官方测试,非任何大模型厂商官方测试,仅作为第三方技术团队的独立测试报告。
- 数据时效性:压测数据仅反映测试时的 API 状态,大模型厂商可能随时优化 API 稳定性。
- 智谱 AI 说明:本次测试使用免费账户(V0等级),并发限制极低,智谱 AI 压测数据不可用。企业使用智谱AI需确保账户达到V1或以上等级。
📣 立即体验
# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git
# 查看压测报告
cat mayfly-demo/stress-test-report.md
# 运行测试
cd mayfly-demo && mvn spring-boot:run
访问测试端点:
GET /api/test/models- 查看注册的模型GET /api/test/health-monitor- 健康状态监控POST /api/test/load-balancer- 负载均衡测试
🌟 Star us on GitCode if you find Mayfly useful! 🚀 让国产大模型在 Spring 生态中绽放光彩! 📊 用数据说话,用实力证明!
报告生成日期:2026-04-18 报告版本:v1.0 测试负责人:Mayfly 项目团队 审核状态:已发布