AiPy 第七期大模型测评:Gemini 霸榜全球,GLM-5 成国产标杆

101 阅读10分钟

2026 年春节前后,国内外大模型厂商集中发布新版本,掀起了一场激烈的技术比拼。3 月 2 日,AiPy 正式发布《第七期大模型适配度测评报告》,以真实业务场景为测试基准,对 17 款国内外主流大模型展开全方位适配能力评估,为用户模型选型提供了权威参考。本次测评覆盖 9 大核心应用场景,完成 340 次标准化测试,累计交互 37 小时、消耗 2600 万 Tokens,最终得出整体平均成功率 75.9% 的结果,印证了主流大模型的高适配度,同时也凸显出不同模型间的显著性能差异。

测评全景:17 款模型同台竞技,多维度量化评估

本次测评的样本覆盖国内外头部大模型厂商,其中国产模型包含智谱 GLM-5、字节跳动 Doubao 2.0、阿里巴巴 Qwen3.5、MiniMax M2.5 等最新版本;海外模型则纳入 Google、Anthropic、OpenAI、xAI 等企业的旗舰产品。测评围绕联网搜索、网络爬取、本地分析、软件控制、数据分析、批量处理、Word 制作、编程开发、日志分析9 大核心场景,重点考察模型的任务完成能力、稳定性与场景匹配度。

排名规则以成功率为首要维度,成功率相同时,按平均 Tokens 消耗从少到多排序,且平均 Tokens 消耗和执行时间均剔除极值,最大程度保证数据的客观性与参考性。

榜单揭晓:Gemini 包揽冠亚,国产模型头部突围

全球总榜:Google 展现压倒性优势

本次测评中,Google Gemini 系列表现惊艳,包揽全球总榜前两名,成为最大赢家。Gemini-3-Pro 以 95% 的超高成功率登顶,同时平均 Tokens 消耗仅 36020、执行时间 124 秒,实现高性能与高效率的双重突破;Gemini-3.1-Pro-Preview 以 90% 成功率位居第二,28361 的平均 Tokens 消耗更是展现出极致的资源利用效率。

Anthropic 旗下两款模型表现稳定,Claude-Opus-4.5 和 Claude-Sonnet-4.6 均达到 85% 的成功率,分列第三、四位,其中 Claude-Opus-4.5 因 Tokens 消耗更低,综合表现更胜一筹。智谱 GLM-5 以 85% 的成功率与 Anthropic 两款模型持平,位列第五,成为国产模型的领头羊,彰显了国产大模型的国际竞争力。

字节跳动 Doubao-Seed-2.0-Pro-260215 以 80% 成功率位居第六,成为国产第二,凭借 46233 的较低 Tokens 消耗,展现出优秀的性价比。而阿里系的 Qwen3.5-Plus 和 Qwen3-Max-2026-01-23 表现不佳,成功率仅 55% 和 45%,位列榜单末尾,与主流模型存在明显差距。

国产分榜:智谱领跑,头部梯队竞争力凸显

本次参测的 11 款国产模型来自字节跳动、阿里、腾讯、智谱华章等厂商,整体表现虽参差不齐,但头部模型已展现出与国际一流模型抗衡的实力。智谱华章成为国产最大赢家,GLM-5、GLM-4.7、GLM-4.6 分别位列国产榜单第一、第三、第五,其中 GLM-5 在编程开发、数据分析等复杂场景中表现突出,稳定性极佳;字节跳动两款模型跻身前十,Doubao-Seed-2.0-Pro-260215 以 80% 成功率成为国产第二,在效率与成本之间实现良好平衡;月之暗面 Kimi-K2.5、深度求索 Deepseek-V3.2 也均达到 80% 成功率,位列国产榜单第四、第六;腾讯 Hunyuan-2.0-Thinking-20251109 以 75% 成功率位居第七,而阿里系两款模型则处于国产榜单末尾,适配能力亟待提升。

海外分榜:

海外 6 款参测模型中,除 Google 和 Anthropic 的 4 款模型稳居全球前五外,xAI 的 Grok-4.1-Fast 以 70% 成功率位列第五,其平均执行时间仅 104 秒,是所有模型中响应最快的之一,但成功率仍有提升空间。OpenAI 的 GPT-5.3-Codex 表现逊色,65% 的成功率位列第六,经分析,中文处理能力不足是其主要短板,多个任务因中文处理不当导致失败。

核心指标:成功率分层明显,Tokens 消耗与性能非正相关

成功率:近三成模型达优秀水平,头部差距缩小

本次测评将模型成功率分为四个等级:85% 及以上为优秀,75%-84% 为良好,65%-74% 为一般,低于 65% 为待改进。结果显示,17 款模型中仅有 5 款达到优秀水平,占比约 29%,分别为 Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6 和 GLM-5;7 款模型处于良好水平,占比 41%;3 款为一般水平;2 款为待改进水平。整体来看,头部模型间的成功率差距逐步缩小,国产模型已跻身第一梯队。

Tokens 消耗:效率差异显著,低消耗不等于高成功率

Tokens 消耗是衡量模型成本的关键指标,本次测评中各模型的 Tokens 消耗差异悬殊。GPT-5.3-Codex 以 27262 的平均 Tokens 消耗成为最 "省资源" 的模型,Gemini-3.1-Pro-Preview 紧随其后,仅 28361;而 Deepseek-V3.2 则以 112802 的平均 Tokens 消耗成为消耗最高的模型,GLM-4.6、Qwen3-Max-2026-01-23 也处于高消耗区间。

值得注意的是,低 Tokens 消耗并不等同于高成功率,如 GPT-5.3-Codex 虽消耗最低,但成功率仅 65%;而 Gemini-3-Pro 则实现了高成功率与低消耗的兼顾,成为性价比标杆。因此,模型选型需综合考量成功率与 Tokens 消耗,而非单一指标。

场景适配:两极分化明显,各模型各有所长

从 9 大场景的适配情况来看,模型表现呈现明显的两极分化:Word 制作和批量处理成为所有模型的 "强项",成功率均达 100%,在 AiPy 平台上发挥稳定;而日志分析和软件控制则是共同 "短板",仅有少数模型表现优秀,多数模型在此类场景中成功率偏低。

针对不同场景,测评也给出了针对性的模型选型建议:

  • 联网搜索:Doubao 系列和 GLM 系列表现突出,成功率均为 100%,兼顾高成功率与合理 Tokens 消耗;
  • 软件控制:整体适配难度大,建议选择 Gemini-3.1-Pro-Preview 或 Grok-4.1-Fast,并搭配详细的任务描述提升成功率;
  • 本地电脑分析:Gemini 系列和 Claude 系列表现优异,成本敏感型用户可选择 Doubao-Seed-2.0-pro、Hunyuan-2.0-Thinking-20251109 或 Kimi-K2.5;
  • 日志分析:Gemini 系列优势显著,大文件日志分析能力远超其他模型。

此外,本次测评还对综合排名前五的模型绘制了多维度性能雷达图,从执行效率、Token 效率、稳定性、成功率、综合评分五个维度进行全面评估。结果显示,Gemini-3.1-Pro-Preview 在 Token 效率和稳定性上表现最佳,综合评分最高;Gemini-3-Pro 成功率一骑绝尘,整体能力均衡;GLM-5 作为唯一入选前五的国产模型,稳定性表现优异,成为国产标杆,但 Token 效率仍有提升空间。

失败溯源:代码质量成主因,中文问题成国产痛点

本次测评共记录 82 次测试失败,经梳理,失败原因主要集中在四大类,且占比差异显著:

  1. 代码质量问题:占比 47.6%(39 次),是最主要的失败原因,主要表现为代码逻辑错误、语法问题或依赖缺失,反映出模型的代码自检能力仍需加强;
  2. 任务规划问题:占比 28.0%(23 次),模型对复杂任务的分解和执行路径规划不合理,导致多步骤任务无法完成;
  3. 中文乱码问题:占比 18.3%(15 次),主要集中在文件输出格式和画图处理环节,成为国内场景下的特有痛点,国产模型需重点解决本地化编码问题;
  4. 任务理解问题:占比 3.7%(3 次),模型对用户意图理解偏差导致执行方向错误,指令理解和意图识别能力仍需优化。

以下展示本次测评使用的部分测试题目,涵盖9大任务类型的典型代表性任务。以下为部分题目,完整题目集可联系AiPy官方获取。

此外,任务异常中断和代码异常截断的占比均仅 1.2%,对测试结果的影响较小。

深度洞察:亮点与短板并存,模型选型有章可循

本次测评通过海量测试数据,勾勒出当前全球大模型的发展现状:亮点突出,短板也十分明显,为厂商技术优化和用户模型选型提供了清晰方向。

行业亮点:Google 双雄称霸,国产模型快速崛起

  1. Google 技术领先:Gemini-3-Pro 和 Gemini-3.1-Pro-Preview 包揽全球前两名,不仅成功率居高不下,还实现了低 Tokens 消耗,性价比突出,展现出在大模型领域的压倒性优势;
  2. 国产模型迎突破:智谱 GLM-5 以 85% 的成功率追平国际顶级模型,成为国产大模型的标杆,标志着国产模型与国际一流水平的差距正在快速缩小,且 GLM-5 还实现了对国产算力的全栈适配,进一步提升了本土化优势;
  3. Claude 系列稳定性强:Anthropic 旗下两款模型均保持 85% 的高成功率,在各场景中表现稳定,成为全球第一梯队的重要力量;
  4. MiniMax 速度亮眼:MiniMax-M2.5 以 94 秒的平均执行时间成为 "速度之王",适合对响应速度要求高的场景。

待改进方向:聚焦核心痛点,突破技术瓶颈

  1. 优化代码质量:近五成失败源于代码问题,厂商需重点提升模型的代码生成和自检能力,减少逻辑错误和语法问题;
  2. 解决中文编码问题:18% 的失败涉及中文乱码,国产模型应优先攻克本地化编码难题,提升在中文场景下的适配能力;
  3. 提升阿里系模型性能:Qwen 系列成功率偏低,需针对 AiPy 平台的工具调用场景进行专项优化,缩小与主流模型的差距;
  4. 突破软件控制场景:软件控制是所有模型的共同薄弱环节,整体成功率偏低,成为行业亟待突破的技术瓶颈。

选型建议:按需选择,兼顾性能与成本

针对不同的使用需求,测评给出了清晰的模型选型矩阵,帮助用户精准匹配模型:

  • 追求最高成功率:首选 Gemini-3-Pro(95% 成功率),任务完成能力和稳定性均为行业顶尖;
  • 国内最佳选择:智谱 GLM-5(85% 成功率),国产标杆,复杂场景表现优异,适配本土化需求;
  • 速度优先:MiniMax-M2.5(94 秒平均响应),适合对响应速度敏感、对成功率要求相对宽松的场景;
  • 代码开发场景:Claude-Opus-4.5(85% 成功率 + 强代码能力),代码生成质量高,适配编程开发需求;
  • 国内性价比之选:GLM 系列、Doubao-Seed 系列、Kimi-K2.5,兼顾成功率与资源消耗,适合国内中小企业和个人用户。

本次 AiPy 第七期大模型适配度测评,不仅客观反映了当前全球大模型的技术水平,也为行业发展指明了方向。随着大模型技术的不断迭代,国产模型正加速崛起,与国际模型的差距逐步缩小,而技术短板的突破将成为下一阶段行业竞争的核心。AiPy 也将持续开展大模型测评工作,为用户提供客观、权威的参考,推动大模型在真实业务场景中的落地与应用。