AiPy发布第七期大模型适配度测评报告:GLM-5成功率追平Claude Sonnet 4.6,Gemini全球最优

0 阅读9分钟

3月2日,AiPy正式对外发布《第七期大模型适配度测评报告》。2026年春节前后,国内外主流大模型厂商集中发布新版本,形成了罕见的"春节档激战"格局,本次测评正是在此背景下展开。

本期共纳入 17 款主流大模型,覆盖国内外头部厂商。国产模型包括智谱 GLM-5、MiniMax M2.5、字节跳动 Doubao 2.0 以及 阿里巴巴 Qwen3.5 等最新版本;同时纳入 Google、Anthropic、OpenAI、xAI 等厂商的旗舰模型,确保样本覆盖面,并便于横向对比。

报告围绕模型在 AiPy 平台中的实际可用性展开,基于统一测试框架与标准化任务设计,重点评估其在 9 大核心应用场景中的适配能力:联网搜索、网络爬取、本地分析、软件控制、数据分析、批量处理、Word 制作、编程开发及日志分析。测评目标在于呈现模型在真实业务环境下的任务完成能力、稳定性与场景匹配度,为用户选型提供有力参考依据。

本次测评共完成 340 次标准化测试,与模型实际交互时长 37 小时,总消耗约 2600 万 Tokens。整体平均成功率为 75.9%,表明主流大模型在 AiPy 平台上的适配度已达到较高水平,但不同模型之间在成功率与稳定性方面仍存在显著差异。

图片

一、榜单结果

综合排名以成功率为首要维度,成功率相同时以平均 Tokens 消耗(越少越优)进行排序。平均tokens和平均执行时间均采用去除最高值和最低值后的均值,以减少异常值干扰,使数据更具参考价值。

图片

  • 冠军:Gemini-3-Pro

以 95% 的最高成功率再次居于榜首,在任务完成率与稳定性方面表现突出,综合能力领先。

  • 亚军:Gemini-3.1-Pro-Preview

以 90% 的成功率紧随其后,同时兼具较低的token消耗。Google 的两款模型分别获得冠亚军,在本次测评中优势明显。

  • 季军:Claude-Opus-4.5

Anthropic 旗下两款模型均达到 85% 成功率,Claude-Opus-4.5 tokens消耗更低,综合表现优于 Claude-Sonnet-4.6。

  • GLM-5

国产榜首,GLM-5成功率与Claude-Opus-4.5和 Claude-Sonnet-4.6持平。整体表现稳定,在复杂场景任务中具备较强完成能力,体现出国产模型在已经趋近国际一流水平。

  • Doubao-Seed-2.0-pro

位于总榜第六,国产第二,以 80% 的成功率和相对较低的tokens消耗展现出优秀的性价比。

  • 阿里系模型:Qwen3-Max、Qwen3.5-Plus

在本次测评中成功率分别仅为 45% 和 55%,与当前主流模型相比仍存在差距,适配能力有待提升。

国内大模型表现分析

国内参测模型共 11 款,来自字节跳动、阿里、腾讯、智谱华章、月之暗面、深度求索等厂商。整体来看,国内模型表现参差不齐,但头部模型已展现出较强竞争力。

图片

  • GLM系列:

GLM-5、GLM-4.7、GLM-4.6分别位列国内榜单第一、第三、第五,展现出智谱华章的不俗实力。

其中,GLM-5 以 85% 成功率夺得国内冠军,在多个任务类型上表现稳定,尤其在编程开发和数据分析场景中表现突出。

  • Doubao-Seed-2.0:

字节跳动 Doubao-Seed-2.0-pro 甩掉啰嗦的标签,成功率达 80%,平均 Tokens 消耗约 46K。在保证任务完成率的同时具备较优的资源消耗控制能力,在效率与成本之间取得较为均衡的表现。

  • Qwen3-Max、Qwen3.5-Plus:

阿里系两款模型成功率均低于50%,在AiPy适配度上仍有较大提升空间,建议关注后续版本迭代。

国外大模型表现分析

图片

  • Gemini 系列:

前两名均由 Google Gemini 系列包揽,Gemini-3-Pro 以 95% 的成功率位居全球总榜第一,同时平均tokens消耗仅 36K,兼顾了高性能与高效率。Gemini-3.1-Pro-Preview 以 90% 紧随其后,Google 在本次测评中展现出压倒性优势。

  • Claude系列:

Anthropic 旗下 Claude-Opus-4.5 和 Claude-Sonnet-4.6 均以 85% 的成功率表现亮眼。

  • Grok:

xAI 的 Grok-4.1-Fast 平均执行时间仅 104秒,是所有模型中响应最快的之一,但成功率有待提升。

  • GPT-5.3-Codex:

OpenAI 的 GPT-5.3-Codex 以 65% 的成功率表现略显逊色,经分析主要在中文处理能力上吃了亏,多个任务因中文处理问题不当导致失败。

二、核心指标分析

1、成功率

图片

  • 优秀(成功率 85%以上):Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5
  • 良好(75-84%):Deepseek-V3.2、GLM-4.7、Kimi-K2.5、Doubao-Seed-2.0-Pro、GLM-4.6、Hunyuan-2.0-Thinking-20251109、Doubao-Seed-1-8-251228
  • 一般(65-74%):Grok-4.1-Fast、GPT-5.3-Codex、MiniMax-M2.5
  • 低于65%:Qwen3.5-Plus、Qwen3-Max-2026-01-23

总体来看,17款模型中,成功率达到 85%以上优秀水平的有5款占比约29%;达到 75-84%良好水平的有7款,占比约41%;处于 65-74%一般水平的有3款;低于65%的有2款,说明仍有部分模型在AiPy平台上的适配度需要进一步优化。整体成功率均值为 75.9%,处于行业中上游水平。

2、Tokens消耗

图片

  • GPT-5.3-Codex 平均消耗约 27K Tokens,为本次测试中消耗最低;
  • Gemini-3.1-Pro-Preview 以 28K tokens紧随其后,同样具备较高的token效率。
  • Deepseek-V3.2消耗最高,约113K tokens;GLM-4.6 次之,约 94K tokens。

需要强调的是,低tokens消耗并不一定意味着高成功率,性价比需综合考量成功率与消耗量两个维度。

3、场景适配分析

本次测评覆盖9大任务类型,从热力图中可看出Word制作和批量处理任务各模型成功率均100%,在AiPy上发挥稳定;日志分析和软件控制类任务则只有几个模型表现优秀;各模型在不同任务类型上的成功率分布可见下图,颜色越绿表示成功率越高,越红表示成功率越低,各模型的优势场景和薄弱环节一目了然。

图片

不同任务类型选用模型建议

  • 联网搜索场景: Doubao系列 和 GLM系列表现突出,成功率均为100%,推荐优先选择,在联网搜索任务中兼具高成功率和合理的tokens消耗。
  • 软件控制场景:该场景整体成功率偏低,多数模型在此类任务上存在挑战。建议选择 Gemini-3.1-Pro-Preview 或 Grok-4.1-Fast,并配合充分的任务描述提示词提升成功率。
  • 本地电脑分析场景:Gemini系列和Claude系列均表现优异。若成本敏感,可考虑 Doubao-Seed-2.0-pro、Hunyuan-2.0-Thinking-20251109、Kimi-K2.5,其在本地电脑分析场景中展现出良好的性价比。
  • 日志分析场景:大文件日志分析中 Gemini系列有出色表现,其余模型均有所失误。

TOP5多维度性能雷达图

图片

雷达图从执行效率、Token效率、稳定性、成功率、综合评分五大维度,全面呈现综合排名前5的模型的能力分布。

其中:执行效率以平均执行时间归一化衡量(越快越高);Token效率以平均tokens消耗归一化衡量(越省越高);稳定性以执行时间标准差衡量(越稳定越高);综合评分由成功率(40%)、执行效率(20%)、Token效率(20%)、稳定性(20%)加权计算得出。

表现总结:

  • Gemini-3.1-Pro-Preview 在Token效率和稳定性维度表现最为突出,综合评分最高;
  • Gemini-3-Pro 成功率最高,整体均衡性强;
  • GLM-5 作为国内唯一入选TOP5的模型,稳定性表现优异,但Token效率有待提升。

三、失败原因分析

本次测评共记录 82次测试失败,通过对失败原因的系统梳理,发现主要集中在以下几类问题:

图片

1、代码质量问题(39次 / 47.6%):

代码逻辑错误、语法问题或依赖缺失导致执行失败,是最主要的失败原因,建议模型加强代码自检能力。

2、任务规划问题(23次 / 28.0%)

模型对复杂任务的分解和执行路径规划不合理,导致任务无法完成,需提升多步骤任务的规划能力。

3、中文乱码问题(15次 / 18.3%))

主要集中在文件输出格式和画图处理环节,是国内场景下的特有痛点。

4、任务理解问题(3次 / 3.7%)

模型对用户意图理解偏差,导致执行方向错误,建议优化指令理解和意图识别能力。

测试任务分类表(部分题目展示)

以下展示本次测评使用的部分测试题目,涵盖9大任务类型的典型代表性任务。以下为部分题目,完整题目集可联系AiPy官方获取。

图片


四、深度洞察

基于本次340次完整测试数据,从多个维度进行深度分析,提炼出以下关键洞察,供用户在模型选型和使用策略制定时参考。本次测评数据客观反映了当前主流大模型在AiPy平台上的真实表现,各模型均有其独特的优势场景和改进空间。

性能冠军分析

Gemini-3-Pro 以 95% 的最高成功率摘得本次测评总冠军,同时平均tokens消耗仅 36K,是成功率与效率的完美结合。Google Gemini 系列包揽全球前两名,展现出在AiPy平台上的卓越适配能力。

国内冠军 GLM-5 以 85% 的成功率表现亮眼,与国际顶级模型的差距正在快速缩小。

亮点发现

  • Google双雄:Gemini-3-Pro 和 Gemini-3.1-Pro-Preview 包揽全球前两名,且tokens消耗均处于较低水平,性价比突出。
  • 国内黑马GLM-5:智谱GLM-5进步明显,以85%成功率与国际顶级模型并驾齐驱。
  • Claude系列稳定:Anthropic两款模型均达85%,稳定性极强。
  • 速度之王MiniMax:MiniMax-M2.5平均响应仅94秒,适合对速度敏感的场景。

改进建议

  • 代码质量:50%的失败源于代码质量问题,建议厂商重点优化代码生成和自检能力。
  • 中文编码:18%的失败涉及中文乱码,国内模型应优先解决本地化编码问题。
  • 阿里系模型:Qwen系列成功率偏低,建议针对AiPy平台的工具调用场景进行专项优化。
  • 软件控制场景:整体成功率最低,是所有模型共同的薄弱环节,需重点突破。

选型建议矩阵

  • 追求最高成功率:首选 Gemini-3-Pro(95%)
  • 国内最佳选择:GLM-5(85%,国内冠军)
  • 速度优先:MiniMax-M2.5(94秒平均响应)
  • 代码开发场景:Claude-Opus-4.5(85%+强代码能力)
  • 国内性价比:GLM 系列、Doubao-Seed系列、Kimi-K2.5