🔥 Spring AI 2.0 弃用智谱 AI 的背后:一份来自压测实验室的真实报告
免责声明:本文所有数据均来自 Mayfly 项目团队的内部压测,测试结果受测试环境、API 配额、网络条件等因素影响,仅供参考。文中观点均为团队个人见解,不代表任何官方立场。我们尊重所有大模型厂商的努力和贡献,本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。
⚠️ 引言:Spring AI 2.0 的"弃用"风波
2026年3月26日,Spring 官方发布公告:
📢 Noteworthy:
- The ZhiPu AI model integration classes have been deprecated and will be removed in a future release. #5676
这条消息在国内 Java 开发者社区引发了广泛讨论:
- Spring AI 为什么要弃用智谱 AI?
- 智谱 AI 真的不适合企业级场景吗?
- 国内开发者该怎么办?
作为专注于 Spring AI 企业级治理的开源项目,Mayfly 团队决定用数据说话。我们设计了 6 个压测场景,对智谱 AI 在企业级负载下的真实表现进行了全面测试。
今天,我们公布第一份报告:智谱 AI 的压测表现。
明天,我们将发布对比测试:DeepSeek vs 通义千问 vs 智谱 AI,谁更适合企业级场景?
🧪 压测环境说明
测试配置
| 项目 | 配置 |
|---|---|
| 设备 | Intel i9-11900H @ 2.50GHz, 16GB RAM |
| 操作系统 | Windows 11 家庭版 25H2 |
| JDK | 17.0.16 |
| Spring Boot | 3.2.4 |
| Spring AI | 1.0.0-M6 |
| JMeter | 5.6.3 |
| 测试接口 | POST /api/chat/send |
| 模型配置 | 智谱 AI (glm-4), 权重 5% |
测试场景设计
| 场景 | 并发数 | 持续时间 | 测试目的 |
|---|---|---|---|
| 场景1 | 50 | 3分钟 | 基础功能验证 |
| 场景2 | 100 | 3分钟 | 中等负载稳定性 |
| 场景3 | 200 | 3分钟 | 高负载压力测试 |
| 场景4 | 300 | 3分钟 | 极限负载测试 |
| 场景5 | 500 | 3分钟 | 系统极限测试 |
| 场景6 | 50 | 10分钟 | 长时间稳定性测试 |
重要说明
本次压测中,智谱 AI 仅配置 5% 的权重,作为备用模型。这意味着:
- 智谱 AI 仅处理约 5% 的请求
- 即使智谱 AI 出现问题,也不会影响整体成功率
- 这正是 Mayfly 企业级能力的体现:单模型故障不影响整体服务
📊 智谱 AI 压测表现
场景1:50并发基础测试
系统整体表现:
- 总请求数:442
- 成功率:96.15%
- 错误率:3.85%
智谱 AI 表现:
- ❌ 频繁触发熔断器:错误日志中大量出现
CircuitBreaker 'zhipu-primary' is OPEN - ❌ API 稳定性不足:即使在 5% 低权重下,仍频繁出现 500 错误
- ⚠️ 响应时间不稳定:有时响应很快,有时超时
分析:
在低并发场景下,智谱 AI 的 API 稳定性问题已经显现。5% 的权重意味着智谱 AI 仅处理约 22 个请求,但仍然是错误的主要来源。
场景2:100并发中等负载测试
系统整体表现:
- 总请求数:924
- 成功率:96.1%
- 错误率:3.9%
智谱 AI 表现:
- ❌ 熔断器持续 OPEN:智谱 AI 的熔断器在测试期间多次触发
- ❌ 错误率与场景1持平:说明智谱 AI 的问题不是偶发的
- ⚠️ 通义千问有效分担流量:作为副模型(25%权重),通义千问表现稳定
分析:
智谱 AI 的稳定性问题在中等负载下持续存在。Mayfly 的多模型路由机制有效分散了风险,通义千问作为副模型承担了更多流量。
场景3:200并发高负载测试(最佳性能场景)
系统整体表现:
- 总请求数:1704
- 成功率:99.4% ✅
- 错误率:0.6% ✅
智谱 AI 表现:
- ✅ 错误被其他模型分担:高并发时,智谱 AI 的 5% 权重被 DeepSeek(60%)和通义千问(25%)有效分担
- ✅ 系统整体表现优秀:这是 6 个场景中成功率最高的
- ⚠️ 智谱 AI 仍是错误来源:虽然整体成功率高,但智谱 AI 仍然是错误的主要来源
分析:
这是 Mayfly 企业级能力的完美体现:即使智谱 AI 存在问题,通过智能路由和负载均衡,系统整体成功率仍达到 99.4%。单模型故障不影响整体服务。
场景4:300并发极限负载测试
系统整体表现:
- 总请求数:1971
- 成功率:95.1%
- 错误率:4.9%
智谱 AI 表现:
- ❌ 错误率上升:智谱 AI 的错误率随并发数增加而上升
- ⚠️ 系统开始出现压力:活动线程数达到 222 个
- ✅ 系统未崩溃:即使在高负载下,系统仍能处理 95.1% 的请求
分析:
300并发是可接受的生产环境上限。智谱 AI 的稳定性问题在高负载下更加明显,但 Mayfly 的熔断器机制有效防止了系统雪崩。
场景5:500并发系统极限测试
系统整体表现:
- 总请求数:2233
- 成功率:~66%
- 错误率:~34%
智谱 AI 表现:
- ❌ 大量请求失败:智谱 AI 的错误率显著上升
- ❌ 系统达到极限:错误率达到 34%
- ✅ 系统未崩溃:仍能处理 66% 的请求,证明容错机制有效
关键发现:
活动线程数与 300 并发几乎相同(222 vs 221),说明系统瓶颈不在本地,而在外部 AI 模型 API 的响应速度。即使增加并发数,实际处理能力受限于外部 API。
场景6:50并发长时间稳定性测试(10分钟)
系统整体表现:
- 总请求数:1634
- 成功率:95.2%
- 错误率:4.8%
智谱 AI 表现:
- ❌ 长时间运行仍不稳定:10分钟测试下,智谱 AI 的错误率与场景1(3分钟)基本一致
- ✅ 系统长时间稳定性优秀:无内存泄漏,无线程泄漏
- ⚠️ 智谱 AI 问题持续存在:说明不是偶发问题,而是 API 稳定性问题
时间线数据:
| 时间点 | 堆内存使用 | 活动线程 | 系统状态 |
|---|---|---|---|
| 压测前 | ~76 MB | 31 | 基准 |
| 2分钟 | ~127 MB | 72 | ✅ 稳定 |
| 4分钟 | ~99 MB | 72 | ✅ 稳定 |
| 6分钟 | ~125 MB | 72 | ✅ 稳定 |
| 8分钟 | ~82 MB | 72 | ✅ 稳定 |
| 10分钟 | ~95 MB | 72 | ✅ 稳定 |
分析:
10分钟长时间测试证明:Mayfly 系统本身非常稳定,无内存泄漏,无线程泄漏。智谱 AI 的错误率稳定在 4.8%,说明这是 API 稳定性问题,而非系统问题。
🔍 关键发现
1. 智谱 AI 的 API 稳定性问题
| 场景 | 并发数 | 智谱 AI 表现 | 系统整体成功率 |
|---|---|---|---|
| 场景1 | 50 | ❌ 频繁触发熔断器 | 96.15% |
| 场景2 | 100 | ❌ 熔断器持续 OPEN | 96.1% |
| 场景3 | 200 | ⚠️ 错误被分担 | 99.4% |
| 场景4 | 300 | ❌ 错误率上升 | 95.1% |
| 场景5 | 500 | ❌ 大量请求失败 | ~66% |
| 场景6 | 50 (10分钟) | ❌ 长时间不稳定 | 95.2% |
结论:
智谱 AI 的 API 稳定性问题在所有场景中都存在,不是偶发问题。这可能是:
- API 调用频率限制较严格
- API 响应时间不稳定
- API 可用性不足
⚠️ 重要更正:智谱 AI 并发限制说明
我们之前的判断存在偏差。经过进一步调查,我们发现智谱 AI 的失败主要原因是账户权益等级限制,而非 API 本身不稳定。
用户权益等级与并发限制
| 等级 | 积分范围 | 主要权益 | 并发能力 |
|---|---|---|---|
| V0 等级 | [0, 2,000) | 基础服务 | 极低(不适合生产) |
| V1 等级 | [2,000, 10,000) | 并发权益 | 中等 |
| V2 等级 | [10,000, 50,000) | 更高并发 | 较高 |
| V3 等级 | >= 50,000 | 最高并发 | 最高 |
免费模型限制
- GLM-4-Flash:永久免费,限制 30 并发
- GLM-4(本次测试模型):免费用户并发限制极低
相关错误码
- 错误码 1302:触发用户速率限制(当前模型的并发请求数已达到账户上限)
- 错误码 1305:平台服务过载(模型在当前时段整体访问压力较高)
更正结论:
本次测试使用的是免费账户(V0 等级),并发限制极低。50 并发远超免费账户的限制,导致大量请求被智谱 AI 服务器拒绝(500 Internal Server Error)。
这并非智谱 AI API 本身不稳定,而是账户权益等级不足导致的并发限制。
如果要使用智谱 AI 用于生产环境,必须确保账户达到 V1 或以上等级。
📋 智谱 AI 使用建议
企业使用智谱 AI 的前提条件:
-
账户等级要求:
- ✅ 最低要求:V1 等级(积分 >= 2,000)
- ✅ 推荐等级:V2 或以上(积分 >= 10,000)
- ❌ 不推荐:V0 等级(免费账户,并发限制极低)
-
如何提升账户等级:
- 调用模型 API 消耗现金余额获得积分
- 购买产品资源包获得积分
- 花费金额与积分按 1:1 比例兑换
-
免费模型限制:
- GLM-4-Flash:永久免费,限制 30 并发
- 如需更高并发,需使用付费模型或升级账户
-
申请提额:
- 通过控制台提交速率限制调整申请
- 填写需要调整的模型、期望增加的并发数量、实际使用场景
- 平台将在 10 个工作日内完成审核
2. Mayfly 的企业级能力验证
即使智谱 AI 存在问题,Mayfly 仍能保障系统稳定运行:
| 企业级能力 | 验证结果 | 说明 |
|---|---|---|
| 智能路由 | ✅ 验证通过 | 60% DeepSeek + 25% 通义千问有效分担流量 |
| 负载均衡 | ✅ 验证通过 | 加权轮询算法智能分配流量 |
| 熔断保护 | ✅ 验证通过 | 智谱 AI 触发熔断器,防止系统雪崩 |
| 故障转移 | ✅ 验证通过 | 智谱 AI 失败时自动切换到其他模型 |
| 长时间稳定性 | ✅ 验证通过 | 10分钟测试无内存泄漏、无线程泄漏 |
结论:
Mayfly 的企业级能力在真实压测中得到验证:即使单模型(智谱 AI)存在问题,系统仍能通过智能路由、负载均衡、熔断保护、故障转移等机制保障整体服务可用性。
3. 系统瓶颈分析
关键发现:
300并发和500并发的活动线程数几乎相同(222 vs 221),说明系统瓶颈不在本地,而在外部 AI 模型 API 的响应速度。
这意味着:
- Mayfly 本地系统的并发处理能力远未达到极限
- 如果外部 API 限制解除,系统可能支持更高的并发数
- 企业级场景下,多模型冗余是提升系统吞吐量的关键
🚀 Mayfly 的企业级能力
为什么 Mayfly 能解决智谱 AI 的稳定性问题?
1. 智能路由:不依赖单模型
mayfly:
models:
# DeepSeek 配置(主要模型)
- name: deepseek-primary
provider: deepseek
weight: 60 # 60% 流量
# 通义千问配置(副模型)
- name: tongyi-primary
provider: tongyi
weight: 25 # 25% 流量
# DeepSeek 备用
- name: deepseek-backup
provider: deepseek
weight: 10 # 10% 流量
# 智谱 AI 配置(备用模型)
- name: zhipu-primary
provider: zhipu
weight: 5 # 5% 流量(因稳定性问题降低权重)
效果:
- 智谱 AI 仅处理 5% 的请求
- 即使智谱 AI 完全不可用,系统仍能处理 95% 的请求
- 单模型故障不影响整体服务
2. 熔断保护:防止系统雪崩
mayfly:
circuit-breaker:
failure-rate-threshold: 50 # 50% 失败率触发熔断
wait-duration-in-open-state: 60000 # 熔断后等待 60 秒
sliding-window-size: 100 # 滑动窗口大小
效果:
- 智谱 AI 错误率达到 50% 时自动熔断
- 熔断期间,请求自动路由到其他模型
- 防止单模型故障导致系统雪崩
3. 故障转移:业务无感知
@Service
public class ChatService {
private final ModelRouter modelRouter;
public ChatResponse chat(String message) {
// Mayfly 自动处理故障转移
// 智谱 AI 失败时,自动切换到 DeepSeek 或通义千问
return modelRouter.chat(new Prompt(message));
}
}
效果:
- 业务代码无需处理故障转移逻辑
- 智谱 AI 失败时,自动切换到其他模型
- 业务无感知,用户体验不受影响
4. 长时间稳定性:生产就绪
10分钟压测结果:
- 无内存泄漏:内存底部稳定在 70-80MB
- 无线程泄漏:活动线程数完全稳定在 72 个
- GC 工作正常:锯齿状波动持续,垃圾回收有效
效果:
- 适合生产环境长时间运行
- 资源管理稳定
- 系统行为可预测
📈 压测数据汇总
6个场景完整数据
| 场景 | 并发数 | 持续时间 | 总请求数 | 成功率 | 错误率 | 活动线程峰值 | 系统状态 |
|---|---|---|---|---|---|---|---|
| 场景1 | 50 | 3分钟 | 442 | 96.15% | 3.85% | ~70 | 轻松 |
| 场景2 | 100 | 3分钟 | 924 | 96.1% | 3.9% | ~120 | 轻松 |
| 场景3 | 200 | 3分钟 | 1704 | 99.4% | 0.6% | ~120 | 优秀 |
| 场景4 | 300 | 3分钟 | 1971 | 95.1% | 4.9% | 222 | 有压力 |
| 场景5 | 500 | 3分钟 | 2233 | ~66% | ~34% | 221 | 极限 |
| 场景6 | 50 | 10分钟 | 1634 | 95.2% | 4.8% | 72 | 稳定 |
关键结论
| 结论 | 说明 |
|---|---|
| 最佳生产配置 | 150-200并发,错误率<1% |
| 可接受生产上限 | 300并发,错误率<5% |
| 系统极限 | 500并发,错误率~34%,但系统未崩溃 |
| 长时间稳定性 | 10分钟测试无内存泄漏、无线程泄漏 |
| 系统瓶颈 | 外部AI模型API(非本地系统) |
⚠️ 已知问题与改进计划
当前版本限制
- 模型数量:当前支持3个模型(DeepSeek、通义千问、智谱AI),v1.1将扩展至8+
- 智谱AI说明:本次测试使用免费账户(V0等级),并发限制极低。企业使用智谱AI需确保账户达到V1或以上等级
- 文档完善度:用户文档正在完善中,v1.1将提供完整文档
v1.1改进计划
- 扩展模型支持至8+(文心一言、讯飞星火、OpenAI、Claude等)
- 完善用户文档(快速入门、配置说明、FAQ)
- 补充Token成本统计监控
- 编写基础单元测试
🎯 明天预告:对比测试
明天,我们将发布第二份报告:DeepSeek vs 通义千问 vs 智谱 AI,谁更适合企业级场景?
对比测试内容
| 对比维度 | 说明 |
|---|---|
| API稳定性 | 各模型在压测下的错误率对比 |
| 响应时间 | 各模型的平均响应时间对比 |
| 并发能力 | 各模型在不同并发下的表现 |
| 成本效益 | 各模型的Token成本对比 |
| 综合评分 | 基于压测数据的综合评分 |
预期结论
基于今天的压测数据和进一步调查,我们预期:
- DeepSeek:API稳定性优秀,适合作为主要模型
- 通义千问:API稳定性良好,适合作为副模型
- 智谱AI:免费账户并发限制极低,需升级至V1或以上等级才能用于生产环境
✅ 第二份报告已发布
**《DeepSeek vs 通义千问 vs 智谱 AI:三大模型独立对比测试报告》**已发布!
👉 [点击阅读第二份报告](DeepSeek vs 通义千问 vs 智谱 AI:三大模型独立对比测试报告本文是《Spring AI 2.0 弃用智谱 - 掘金)
核心发现:
- 通义千问:100% 成功率,平均响应 6.5s,响应速度最快
- DeepSeek:100% 成功率,平均响应 11.0s,性价比最高
- 智谱 AI:免费账户并发限制极低,数据不可用,企业使用需升级至 V1 或以上等级
🤝 关于 Mayfly
Mayfly 是一个基于 Spring AI 的企业级模型路由增强插件,专为国内 Java 开发者打造。我们致力于解决 Spring AI 在国产模型支持和企业级特性方面的不足,让每个开发者都能轻松构建生产级的 AI 应用。
核心能力
- ✅ 智能路由:固定路由、权重路由、SpEL规则路由
- ✅ 负载均衡:轮询、加权轮询算法
- ✅ 熔断保护:基于Resilience4j,50%失败率自动熔断
- ✅ 故障转移:主备切换+冷却机制
- ✅ 健康监控:Micrometer + Prometheus 完整指标
- ✅ 零配置集成:3行配置快速接入
开源与社区
- 许可证:Apache License 2.0 (商业友好)
- 代码托管:gitcode.com/Topfogking/…
- Issues:gitcode.com/Topfogking/…
- 邮箱:git@xsjyby.asia
快速开始
# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git
# 查看示例配置
cat mayfly-demo/src/main/resources/application.yml
# 运行测试
cd mayfly-demo && mvn spring-boot:run
💬 免责声明
- 测试数据:本文所有数据均来自 Mayfly 项目团队的内部压测,测试结果受测试环境、API 配额、网络条件等因素影响,仅供参考。
- 个人观点:文中观点均为团队个人见解,不代表任何官方立场。
- 尊重厂商:我们尊重所有大模型厂商的努力和贡献,本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。
- 非官方测试:本文非 Spring 官方测试,非智谱 AI 官方测试,仅作为第三方技术团队的独立测试报告。
- 数据时效性:压测数据仅反映测试时的 API 状态,大模型厂商可能随时优化 API 稳定性。
- 智谱 AI 说明:本次测试使用免费账户(V0等级),并发限制极低。企业使用智谱AI需确保账户达到V1或以上等级。
📣 立即体验
# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git
# 查看压测报告
cat mayfly-demo/stress-test-report.md
# 运行测试
cd mayfly-demo && mvn spring-boot:run
访问测试端点:
GET /api/test/models- 查看注册的模型GET /api/test/health-monitor- 健康状态监控POST /api/test/load-balancer- 负载均衡测试
🌟 Star us on GitCode if you find Mayfly useful! 🚀 让国产大模型在 Spring 生态中绽放光彩! 📊 用数据说话,用实力证明!
报告生成日期:2026-04-18 报告版本:v1.0 测试负责人:Mayfly 项目团队 审核状态:已发布