AiPy发布第七期大模型适配度测评报告：GLM-5成功率追平Claude Sonnet 4.6，Gemini全球最优

3月2日，AiPy正式对外发布《第七期大模型适配度测评报告》。2026年春节前后，国内外主流大模型厂商集中发布新版本，形成了罕见的"春节档激战"格局，本次测评正是在此背景下展开。

本期共纳入 17 款主流大模型，覆盖国内外头部厂商。国产模型包括智谱 GLM-5、MiniMax M2.5、字节跳动 Doubao 2.0 以及阿里巴巴 Qwen3.5 等最新版本；同时纳入 Google、Anthropic、OpenAI、xAI 等厂商的旗舰模型，确保样本覆盖面，并便于横向对比。

报告围绕模型在 AiPy 平台中的实际可用性展开，基于统一测试框架与标准化任务设计，重点评估其在 9 大核心应用场景中的适配能力：联网搜索、网络爬取、本地分析、软件控制、数据分析、批量处理、Word 制作、编程开发及日志分析。测评目标在于呈现模型在真实业务环境下的任务完成能力、稳定性与场景匹配度，为用户选型提供有力参考依据。

本次测评共完成 340 次标准化测试，与模型实际交互时长 37 小时，总消耗约 2600 万 Tokens。整体平均成功率为 75.9%，表明主流大模型在 AiPy 平台上的适配度已达到较高水平，但不同模型之间在成功率与稳定性方面仍存在显著差异。

一、榜单结果

综合排名以成功率为首要维度，成功率相同时以平均 Tokens 消耗（越少越优）进行排序。平均tokens和平均执行时间均采用去除最高值和最低值后的均值，以减少异常值干扰，使数据更具参考价值。

冠军：Gemini-3-Pro

以 95% 的最高成功率再次居于榜首，在任务完成率与稳定性方面表现突出，综合能力领先。

亚军：Gemini-3.1-Pro-Preview

以 90% 的成功率紧随其后，同时兼具较低的token消耗。Google 的两款模型分别获得冠亚军，在本次测评中优势明显。

季军：Claude-Opus-4.5

Anthropic 旗下两款模型均达到 85% 成功率，Claude-Opus-4.5 tokens消耗更低，综合表现优于 Claude-Sonnet-4.6。

GLM-5

国产榜首，GLM-5成功率与Claude-Opus-4.5和 Claude-Sonnet-4.6持平。整体表现稳定，在复杂场景任务中具备较强完成能力，体现出国产模型在已经趋近国际一流水平。

Doubao-Seed-2.0-pro

位于总榜第六，国产第二，以 80% 的成功率和相对较低的tokens消耗展现出优秀的性价比。

阿里系模型：Qwen3-Max、Qwen3.5-Plus

在本次测评中成功率分别仅为 45% 和 55%，与当前主流模型相比仍存在差距，适配能力有待提升。

国内大模型表现分析

国内参测模型共 11 款，来自字节跳动、阿里、腾讯、智谱华章、月之暗面、深度求索等厂商。整体来看，国内模型表现参差不齐，但头部模型已展现出较强竞争力。

GLM系列：

GLM-5、GLM-4.7、GLM-4.6分别位列国内榜单第一、第三、第五，展现出智谱华章的不俗实力。

其中，GLM-5 以 85% 成功率夺得国内冠军，在多个任务类型上表现稳定，尤其在编程开发和数据分析场景中表现突出。

Doubao-Seed-2.0：

字节跳动 Doubao-Seed-2.0-pro 甩掉啰嗦的标签，成功率达 80%，平均 Tokens 消耗约 46K。在保证任务完成率的同时具备较优的资源消耗控制能力，在效率与成本之间取得较为均衡的表现。

Qwen3-Max、Qwen3.5-Plus：

阿里系两款模型成功率均低于50%，在AiPy适配度上仍有较大提升空间，建议关注后续版本迭代。

国外大模型表现分析

Gemini 系列：

前两名均由 Google Gemini 系列包揽，Gemini-3-Pro 以 95% 的成功率位居全球总榜第一，同时平均tokens消耗仅 36K，兼顾了高性能与高效率。Gemini-3.1-Pro-Preview 以 90% 紧随其后，Google 在本次测评中展现出压倒性优势。

Claude系列：

Anthropic 旗下 Claude-Opus-4.5 和 Claude-Sonnet-4.6 均以 85% 的成功率表现亮眼。

Grok：

xAI 的 Grok-4.1-Fast 平均执行时间仅 104秒，是所有模型中响应最快的之一，但成功率有待提升。

GPT-5.3-Codex：

OpenAI 的 GPT-5.3-Codex 以 65% 的成功率表现略显逊色，经分析主要在中文处理能力上吃了亏，多个任务因中文处理问题不当导致失败。

二、核心指标分析

1、成功率

优秀（成功率 85%以上）：Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6、GLM-5

良好（75-84%）：Deepseek-V3.2、GLM-4.7、Kimi-K2.5、Doubao-Seed-2.0-Pro、GLM-4.6、Hunyuan-2.0-Thinking-20251109、Doubao-Seed-1-8-251228

一般（65-74%）：Grok-4.1-Fast、GPT-5.3-Codex、MiniMax-M2.5

低于65%：Qwen3.5-Plus、Qwen3-Max-2026-01-23

总体来看，17款模型中，成功率达到 85%以上优秀水平的有5款占比约29%；达到 75-84%良好水平的有7款，占比约41%；处于 65-74%一般水平的有3款；低于65%的有2款，说明仍有部分模型在AiPy平台上的适配度需要进一步优化。整体成功率均值为 75.9%，处于行业中上游水平。

2、Tokens消耗

GPT-5.3-Codex 平均消耗约 27K Tokens，为本次测试中消耗最低；

Gemini-3.1-Pro-Preview 以 28K tokens紧随其后，同样具备较高的token效率。

Deepseek-V3.2消耗最高，约113K tokens；GLM-4.6 次之，约 94K tokens。

需要强调的是，低tokens消耗并不一定意味着高成功率，性价比需综合考量成功率与消耗量两个维度。

3、场景适配分析

本次测评覆盖9大任务类型，从热力图中可看出Word制作和批量处理任务各模型成功率均100%，在AiPy上发挥稳定；日志分析和软件控制类任务则只有几个模型表现优秀；各模型在不同任务类型上的成功率分布可见下图，颜色越绿表示成功率越高，越红表示成功率越低，各模型的优势场景和薄弱环节一目了然。

不同任务类型选用模型建议

联网搜索场景： Doubao系列和 GLM系列表现突出，成功率均为100%，推荐优先选择，在联网搜索任务中兼具高成功率和合理的tokens消耗。

软件控制场景：该场景整体成功率偏低，多数模型在此类任务上存在挑战。建议选择 Gemini-3.1-Pro-Preview 或 Grok-4.1-Fast，并配合充分的任务描述提示词提升成功率。

本地电脑分析场景：Gemini系列和Claude系列均表现优异。若成本敏感，可考虑 Doubao-Seed-2.0-pro、Hunyuan-2.0-Thinking-20251109、Kimi-K2.5，其在本地电脑分析场景中展现出良好的性价比。

日志分析场景：大文件日志分析中 Gemini系列有出色表现，其余模型均有所失误。

TOP5多维度性能雷达图

雷达图从执行效率、Token效率、稳定性、成功率、综合评分五大维度，全面呈现综合排名前5的模型的能力分布。

其中：执行效率以平均执行时间归一化衡量（越快越高）；Token效率以平均tokens消耗归一化衡量（越省越高）；稳定性以执行时间标准差衡量（越稳定越高）；综合评分由成功率(40%)、执行效率(20%)、Token效率(20%)、稳定性(20%)加权计算得出。

表现总结：

Gemini-3.1-Pro-Preview 在Token效率和稳定性维度表现最为突出，综合评分最高；

Gemini-3-Pro 成功率最高，整体均衡性强；

GLM-5 作为国内唯一入选TOP5的模型，稳定性表现优异，但Token效率有待提升。

三、失败原因分析

本次测评共记录 82次测试失败，通过对失败原因的系统梳理，发现主要集中在以下几类问题：

1、代码质量问题(39次 / 47.6%）：

代码逻辑错误、语法问题或依赖缺失导致执行失败，是最主要的失败原因，建议模型加强代码自检能力。

2、任务规划问题(23次 / 28.0%)

模型对复杂任务的分解和执行路径规划不合理，导致任务无法完成，需提升多步骤任务的规划能力。

3、中文乱码问题（15次 / 18.3%)）

主要集中在文件输出格式和画图处理环节，是国内场景下的特有痛点。

4、任务理解问题(3次 / 3.7%）

模型对用户意图理解偏差，导致执行方向错误，建议优化指令理解和意图识别能力。

测试任务分类表（部分题目展示）

以下展示本次测评使用的部分测试题目，涵盖9大任务类型的典型代表性任务。以下为部分题目，完整题目集可联系AiPy官方获取。

四、深度洞察

基于本次340次完整测试数据，从多个维度进行深度分析，提炼出以下关键洞察，供用户在模型选型和使用策略制定时参考。本次测评数据客观反映了当前主流大模型在AiPy平台上的真实表现，各模型均有其独特的优势场景和改进空间。

性能冠军分析

Gemini-3-Pro 以 95% 的最高成功率摘得本次测评总冠军，同时平均tokens消耗仅 36K，是成功率与效率的完美结合。Google Gemini 系列包揽全球前两名，展现出在AiPy平台上的卓越适配能力。

国内冠军 GLM-5 以 85% 的成功率表现亮眼，与国际顶级模型的差距正在快速缩小。

亮点发现

Google双雄：Gemini-3-Pro 和 Gemini-3.1-Pro-Preview 包揽全球前两名，且tokens消耗均处于较低水平，性价比突出。

国内黑马GLM-5：智谱GLM-5进步明显，以85%成功率与国际顶级模型并驾齐驱。

Claude系列稳定：Anthropic两款模型均达85%，稳定性极强。

速度之王MiniMax：MiniMax-M2.5平均响应仅94秒，适合对速度敏感的场景。

改进建议

代码质量：50%的失败源于代码质量问题，建议厂商重点优化代码生成和自检能力。

中文编码：18%的失败涉及中文乱码，国内模型应优先解决本地化编码问题。

阿里系模型：Qwen系列成功率偏低，建议针对AiPy平台的工具调用场景进行专项优化。

软件控制场景：整体成功率最低，是所有模型共同的薄弱环节，需重点突破。

选型建议矩阵

追求最高成功率：首选 Gemini-3-Pro（95%）

国内最佳选择：GLM-5（85%，国内冠军）

速度优先：MiniMax-M2.5（94秒平均响应）

代码开发场景：Claude-Opus-4.5（85%+强代码能力）

国内性价比：GLM 系列、Doubao-Seed系列、Kimi-K2.5