Spring AI 2.0 弃用智谱 AI 的背后:一份来自压测实验室的真实报告

81 阅读16分钟

🔥 Spring AI 2.0 弃用智谱 AI 的背后:一份来自压测实验室的真实报告

免责声明:本文所有数据均来自 Mayfly 项目团队的内部压测,测试结果受测试环境、API 配额、网络条件等因素影响,仅供参考。文中观点均为团队个人见解,不代表任何官方立场。我们尊重所有大模型厂商的努力和贡献,本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。


⚠️ 引言:Spring AI 2.0 的"弃用"风波

2026年3月26日,Spring 官方发布公告:

📢 Noteworthy:

  • The ZhiPu AI model integration classes have been deprecated and will be removed in a future release. #5676

这条消息在国内 Java 开发者社区引发了广泛讨论:

  • Spring AI 为什么要弃用智谱 AI?
  • 智谱 AI 真的不适合企业级场景吗?
  • 国内开发者该怎么办?

作为专注于 Spring AI 企业级治理的开源项目,Mayfly 团队决定用数据说话。我们设计了 6 个压测场景,对智谱 AI 在企业级负载下的真实表现进行了全面测试。

今天,我们公布第一份报告:智谱 AI 的压测表现。

明天,我们将发布对比测试:DeepSeek vs 通义千问 vs 智谱 AI,谁更适合企业级场景?


🧪 压测环境说明

测试配置

项目配置
设备Intel i9-11900H @ 2.50GHz, 16GB RAM
操作系统Windows 11 家庭版 25H2
JDK17.0.16
Spring Boot3.2.4
Spring AI1.0.0-M6
JMeter5.6.3
测试接口POST /api/chat/send
模型配置智谱 AI (glm-4), 权重 5%

测试场景设计

场景并发数持续时间测试目的
场景1503分钟基础功能验证
场景21003分钟中等负载稳定性
场景32003分钟高负载压力测试
场景43003分钟极限负载测试
场景55003分钟系统极限测试
场景65010分钟长时间稳定性测试

重要说明

本次压测中,智谱 AI 仅配置 5% 的权重,作为备用模型。这意味着:

  • 智谱 AI 仅处理约 5% 的请求
  • 即使智谱 AI 出现问题,也不会影响整体成功率
  • 这正是 Mayfly 企业级能力的体现:单模型故障不影响整体服务

📊 智谱 AI 压测表现

场景1:50并发基础测试

系统整体表现

  • 总请求数:442
  • 成功率:96.15%
  • 错误率:3.85%

智谱 AI 表现

  • 频繁触发熔断器:错误日志中大量出现 CircuitBreaker 'zhipu-primary' is OPEN
  • API 稳定性不足:即使在 5% 低权重下,仍频繁出现 500 错误
  • ⚠️ 响应时间不稳定:有时响应很快,有时超时

分析

在低并发场景下,智谱 AI 的 API 稳定性问题已经显现。5% 的权重意味着智谱 AI 仅处理约 22 个请求,但仍然是错误的主要来源。


场景2:100并发中等负载测试

系统整体表现

  • 总请求数:924
  • 成功率:96.1%
  • 错误率:3.9%

智谱 AI 表现

  • 熔断器持续 OPEN:智谱 AI 的熔断器在测试期间多次触发
  • 错误率与场景1持平:说明智谱 AI 的问题不是偶发的
  • ⚠️ 通义千问有效分担流量:作为副模型(25%权重),通义千问表现稳定

分析

智谱 AI 的稳定性问题在中等负载下持续存在。Mayfly 的多模型路由机制有效分散了风险,通义千问作为副模型承担了更多流量。


场景3:200并发高负载测试(最佳性能场景)

系统整体表现

  • 总请求数:1704
  • 成功率:99.4%
  • 错误率:0.6%

智谱 AI 表现

  • 错误被其他模型分担:高并发时,智谱 AI 的 5% 权重被 DeepSeek(60%)和通义千问(25%)有效分担
  • 系统整体表现优秀:这是 6 个场景中成功率最高的
  • ⚠️ 智谱 AI 仍是错误来源:虽然整体成功率高,但智谱 AI 仍然是错误的主要来源

分析

这是 Mayfly 企业级能力的完美体现:即使智谱 AI 存在问题,通过智能路由和负载均衡,系统整体成功率仍达到 99.4%。单模型故障不影响整体服务。


场景4:300并发极限负载测试

系统整体表现

  • 总请求数:1971
  • 成功率:95.1%
  • 错误率:4.9%

智谱 AI 表现

  • 错误率上升:智谱 AI 的错误率随并发数增加而上升
  • ⚠️ 系统开始出现压力:活动线程数达到 222 个
  • 系统未崩溃:即使在高负载下,系统仍能处理 95.1% 的请求

分析

300并发是可接受的生产环境上限。智谱 AI 的稳定性问题在高负载下更加明显,但 Mayfly 的熔断器机制有效防止了系统雪崩。


场景5:500并发系统极限测试

系统整体表现

  • 总请求数:2233
  • 成功率:~66%
  • 错误率:~34%

智谱 AI 表现

  • 大量请求失败:智谱 AI 的错误率显著上升
  • 系统达到极限:错误率达到 34%
  • 系统未崩溃:仍能处理 66% 的请求,证明容错机制有效

关键发现

活动线程数与 300 并发几乎相同(222 vs 221),说明系统瓶颈不在本地,而在外部 AI 模型 API 的响应速度。即使增加并发数,实际处理能力受限于外部 API。


场景6:50并发长时间稳定性测试(10分钟)

系统整体表现

  • 总请求数:1634
  • 成功率:95.2%
  • 错误率:4.8%

智谱 AI 表现

  • 长时间运行仍不稳定:10分钟测试下,智谱 AI 的错误率与场景1(3分钟)基本一致
  • 系统长时间稳定性优秀:无内存泄漏,无线程泄漏
  • ⚠️ 智谱 AI 问题持续存在:说明不是偶发问题,而是 API 稳定性问题

时间线数据

时间点堆内存使用活动线程系统状态
压测前~76 MB31基准
2分钟~127 MB72✅ 稳定
4分钟~99 MB72✅ 稳定
6分钟~125 MB72✅ 稳定
8分钟~82 MB72✅ 稳定
10分钟~95 MB72✅ 稳定

分析

10分钟长时间测试证明:Mayfly 系统本身非常稳定,无内存泄漏,无线程泄漏。智谱 AI 的错误率稳定在 4.8%,说明这是 API 稳定性问题,而非系统问题。


🔍 关键发现

1. 智谱 AI 的 API 稳定性问题

场景并发数智谱 AI 表现系统整体成功率
场景150❌ 频繁触发熔断器96.15%
场景2100❌ 熔断器持续 OPEN96.1%
场景3200⚠️ 错误被分担99.4%
场景4300❌ 错误率上升95.1%
场景5500❌ 大量请求失败~66%
场景650 (10分钟)❌ 长时间不稳定95.2%

结论

智谱 AI 的 API 稳定性问题在所有场景中都存在,不是偶发问题。这可能是:

  • API 调用频率限制较严格
  • API 响应时间不稳定
  • API 可用性不足

⚠️ 重要更正:智谱 AI 并发限制说明

我们之前的判断存在偏差。经过进一步调查,我们发现智谱 AI 的失败主要原因是账户权益等级限制,而非 API 本身不稳定。

根据智谱 AI 官方公开文档 速率限制用户权益说明

用户权益等级与并发限制
等级积分范围主要权益并发能力
V0 等级[0, 2,000)基础服务极低(不适合生产)
V1 等级[2,000, 10,000)并发权益中等
V2 等级[10,000, 50,000)更高并发较高
V3 等级>= 50,000最高并发最高
免费模型限制
  • GLM-4-Flash:永久免费,限制 30 并发
  • GLM-4(本次测试模型):免费用户并发限制极低
相关错误码
  • 错误码 1302:触发用户速率限制(当前模型的并发请求数已达到账户上限)
  • 错误码 1305:平台服务过载(模型在当前时段整体访问压力较高)

更正结论

本次测试使用的是免费账户(V0 等级),并发限制极低。50 并发远超免费账户的限制,导致大量请求被智谱 AI 服务器拒绝(500 Internal Server Error)。

这并非智谱 AI API 本身不稳定,而是账户权益等级不足导致的并发限制。

如果要使用智谱 AI 用于生产环境,必须确保账户达到 V1 或以上等级。

📋 智谱 AI 使用建议

企业使用智谱 AI 的前提条件

  1. 账户等级要求

    • ✅ 最低要求:V1 等级(积分 >= 2,000)
    • ✅ 推荐等级:V2 或以上(积分 >= 10,000)
    • ❌ 不推荐:V0 等级(免费账户,并发限制极低)
  2. 如何提升账户等级

    • 调用模型 API 消耗现金余额获得积分
    • 购买产品资源包获得积分
    • 花费金额与积分按 1:1 比例兑换
  3. 免费模型限制

    • GLM-4-Flash:永久免费,限制 30 并发
    • 如需更高并发,需使用付费模型或升级账户
  4. 申请提额

    • 通过控制台提交速率限制调整申请
    • 填写需要调整的模型、期望增加的并发数量、实际使用场景
    • 平台将在 10 个工作日内完成审核

2. Mayfly 的企业级能力验证

即使智谱 AI 存在问题,Mayfly 仍能保障系统稳定运行

企业级能力验证结果说明
智能路由✅ 验证通过60% DeepSeek + 25% 通义千问有效分担流量
负载均衡✅ 验证通过加权轮询算法智能分配流量
熔断保护✅ 验证通过智谱 AI 触发熔断器,防止系统雪崩
故障转移✅ 验证通过智谱 AI 失败时自动切换到其他模型
长时间稳定性✅ 验证通过10分钟测试无内存泄漏、无线程泄漏

结论

Mayfly 的企业级能力在真实压测中得到验证:即使单模型(智谱 AI)存在问题,系统仍能通过智能路由、负载均衡、熔断保护、故障转移等机制保障整体服务可用性。

3. 系统瓶颈分析

关键发现

300并发和500并发的活动线程数几乎相同(222 vs 221),说明系统瓶颈不在本地,而在外部 AI 模型 API 的响应速度

这意味着:

  • Mayfly 本地系统的并发处理能力远未达到极限
  • 如果外部 API 限制解除,系统可能支持更高的并发数
  • 企业级场景下,多模型冗余是提升系统吞吐量的关键

🚀 Mayfly 的企业级能力

为什么 Mayfly 能解决智谱 AI 的稳定性问题?

1. 智能路由:不依赖单模型
mayfly:
  models:
    # DeepSeek 配置(主要模型)
    - name: deepseek-primary
      provider: deepseek
      weight: 60  # 60% 流量
    
    # 通义千问配置(副模型)
    - name: tongyi-primary
      provider: tongyi
      weight: 25  # 25% 流量
    
    # DeepSeek 备用
    - name: deepseek-backup
      provider: deepseek
      weight: 10  # 10% 流量
    
    # 智谱 AI 配置(备用模型)
    - name: zhipu-primary
      provider: zhipu
      weight: 5   # 5% 流量(因稳定性问题降低权重)

效果

  • 智谱 AI 仅处理 5% 的请求
  • 即使智谱 AI 完全不可用,系统仍能处理 95% 的请求
  • 单模型故障不影响整体服务
2. 熔断保护:防止系统雪崩
mayfly:
  circuit-breaker:
    failure-rate-threshold: 50  # 50% 失败率触发熔断
    wait-duration-in-open-state: 60000  # 熔断后等待 60 秒
    sliding-window-size: 100  # 滑动窗口大小

效果

  • 智谱 AI 错误率达到 50% 时自动熔断
  • 熔断期间,请求自动路由到其他模型
  • 防止单模型故障导致系统雪崩
3. 故障转移:业务无感知
@Service
public class ChatService {
    private final ModelRouter modelRouter;
    
    public ChatResponse chat(String message) {
        // Mayfly 自动处理故障转移
        // 智谱 AI 失败时,自动切换到 DeepSeek 或通义千问
        return modelRouter.chat(new Prompt(message));
    }
}

效果

  • 业务代码无需处理故障转移逻辑
  • 智谱 AI 失败时,自动切换到其他模型
  • 业务无感知,用户体验不受影响
4. 长时间稳定性:生产就绪

10分钟压测结果

  • 无内存泄漏:内存底部稳定在 70-80MB
  • 无线程泄漏:活动线程数完全稳定在 72 个
  • GC 工作正常:锯齿状波动持续,垃圾回收有效

效果

  • 适合生产环境长时间运行
  • 资源管理稳定
  • 系统行为可预测

📈 压测数据汇总

6个场景完整数据

场景并发数持续时间总请求数成功率错误率活动线程峰值系统状态
场景1503分钟44296.15%3.85%~70轻松
场景21003分钟92496.1%3.9%~120轻松
场景32003分钟170499.4%0.6%~120优秀
场景43003分钟197195.1%4.9%222有压力
场景55003分钟2233~66%~34%221极限
场景65010分钟163495.2%4.8%72稳定

关键结论

结论说明
最佳生产配置150-200并发,错误率<1%
可接受生产上限300并发,错误率<5%
系统极限500并发,错误率~34%,但系统未崩溃
长时间稳定性10分钟测试无内存泄漏、无线程泄漏
系统瓶颈外部AI模型API(非本地系统)

⚠️ 已知问题与改进计划

当前版本限制

  • 模型数量:当前支持3个模型(DeepSeek、通义千问、智谱AI),v1.1将扩展至8+
  • 智谱AI说明:本次测试使用免费账户(V0等级),并发限制极低。企业使用智谱AI需确保账户达到V1或以上等级
  • 文档完善度:用户文档正在完善中,v1.1将提供完整文档

v1.1改进计划

  • 扩展模型支持至8+(文心一言、讯飞星火、OpenAI、Claude等)
  • 完善用户文档(快速入门、配置说明、FAQ)
  • 补充Token成本统计监控
  • 编写基础单元测试

🎯 明天预告:对比测试

明天,我们将发布第二份报告:DeepSeek vs 通义千问 vs 智谱 AI,谁更适合企业级场景?

对比测试内容

对比维度说明
API稳定性各模型在压测下的错误率对比
响应时间各模型的平均响应时间对比
并发能力各模型在不同并发下的表现
成本效益各模型的Token成本对比
综合评分基于压测数据的综合评分

预期结论

基于今天的压测数据和进一步调查,我们预期:

  • DeepSeek:API稳定性优秀,适合作为主要模型
  • 通义千问:API稳定性良好,适合作为副模型
  • 智谱AI:免费账户并发限制极低,需升级至V1或以上等级才能用于生产环境

✅ 第二份报告已发布

**《DeepSeek vs 通义千问 vs 智谱 AI:三大模型独立对比测试报告》**已发布!

👉 [点击阅读第二份报告](DeepSeek vs 通义千问 vs 智谱 AI:三大模型独立对比测试报告本文是《Spring AI 2.0 弃用智谱 - 掘金)

核心发现

  • 通义千问:100% 成功率,平均响应 6.5s,响应速度最快
  • DeepSeek:100% 成功率,平均响应 11.0s,性价比最高
  • 智谱 AI:免费账户并发限制极低,数据不可用,企业使用需升级至 V1 或以上等级

🤝 关于 Mayfly

Mayfly 是一个基于 Spring AI 的企业级模型路由增强插件,专为国内 Java 开发者打造。我们致力于解决 Spring AI 在国产模型支持和企业级特性方面的不足,让每个开发者都能轻松构建生产级的 AI 应用。

核心能力

  • 智能路由:固定路由、权重路由、SpEL规则路由
  • 负载均衡:轮询、加权轮询算法
  • 熔断保护:基于Resilience4j,50%失败率自动熔断
  • 故障转移:主备切换+冷却机制
  • 健康监控:Micrometer + Prometheus 完整指标
  • 零配置集成:3行配置快速接入

开源与社区

快速开始

# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git

# 查看示例配置
cat mayfly-demo/src/main/resources/application.yml

# 运行测试
cd mayfly-demo && mvn spring-boot:run

💬 免责声明

  1. 测试数据:本文所有数据均来自 Mayfly 项目团队的内部压测,测试结果受测试环境、API 配额、网络条件等因素影响,仅供参考。
  2. 个人观点:文中观点均为团队个人见解,不代表任何官方立场。
  3. 尊重厂商:我们尊重所有大模型厂商的努力和贡献,本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。
  4. 非官方测试:本文非 Spring 官方测试,非智谱 AI 官方测试,仅作为第三方技术团队的独立测试报告。
  5. 数据时效性:压测数据仅反映测试时的 API 状态,大模型厂商可能随时优化 API 稳定性。
  6. 智谱 AI 说明:本次测试使用免费账户(V0等级),并发限制极低。企业使用智谱AI需确保账户达到V1或以上等级

📣 立即体验

# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git

# 查看压测报告
cat mayfly-demo/stress-test-report.md

# 运行测试
cd mayfly-demo && mvn spring-boot:run

访问测试端点

  • GET /api/test/models - 查看注册的模型
  • GET /api/test/health-monitor - 健康状态监控
  • POST /api/test/load-balancer - 负载均衡测试

🌟 Star us on GitCode if you find Mayfly useful! 🚀 让国产大模型在 Spring 生态中绽放光彩! 📊 用数据说话,用实力证明!


报告生成日期:2026-04-18 报告版本:v1.0 测试负责人:Mayfly 项目团队 审核状态:已发布