AiPy 第七期大模型测评：Gemini 霸榜全球，GLM-5 成国产标杆2026 年春节前后，国内外大模型厂商集中发布

2026 年春节前后，国内外大模型厂商集中发布新版本，掀起了一场激烈的技术比拼。3 月 2 日，AiPy 正式发布《第七期大模型适配度测评报告》，以真实业务场景为测试基准，对 17 款国内外主流大模型展开全方位适配能力评估，为用户模型选型提供了权威参考。本次测评覆盖 9 大核心应用场景，完成 340 次标准化测试，累计交互 37 小时、消耗 2600 万 Tokens，最终得出整体平均成功率 75.9% 的结果，印证了主流大模型的高适配度，同时也凸显出不同模型间的显著性能差异。

测评全景：17 款模型同台竞技，多维度量化评估

本次测评的样本覆盖国内外头部大模型厂商，其中国产模型包含智谱 GLM-5、字节跳动 Doubao 2.0、阿里巴巴 Qwen3.5、MiniMax M2.5 等最新版本；海外模型则纳入 Google、Anthropic、OpenAI、xAI 等企业的旗舰产品。测评围绕联网搜索、网络爬取、本地分析、软件控制、数据分析、批量处理、Word 制作、编程开发、日志分析9 大核心场景，重点考察模型的任务完成能力、稳定性与场景匹配度。

排名规则以成功率为首要维度，成功率相同时，按平均 Tokens 消耗从少到多排序，且平均 Tokens 消耗和执行时间均剔除极值，最大程度保证数据的客观性与参考性。

榜单揭晓：Gemini 包揽冠亚，国产模型头部突围

全球总榜：Google 展现压倒性优势

本次测评中，Google Gemini 系列表现惊艳，包揽全球总榜前两名，成为最大赢家。Gemini-3-Pro 以 95% 的超高成功率登顶，同时平均 Tokens 消耗仅 36020、执行时间 124 秒，实现高性能与高效率的双重突破；Gemini-3.1-Pro-Preview 以 90% 成功率位居第二，28361 的平均 Tokens 消耗更是展现出极致的资源利用效率。

Anthropic 旗下两款模型表现稳定，Claude-Opus-4.5 和 Claude-Sonnet-4.6 均达到 85% 的成功率，分列第三、四位，其中 Claude-Opus-4.5 因 Tokens 消耗更低，综合表现更胜一筹。智谱 GLM-5 以 85% 的成功率与 Anthropic 两款模型持平，位列第五，成为国产模型的领头羊，彰显了国产大模型的国际竞争力。

字节跳动 Doubao-Seed-2.0-Pro-260215 以 80% 成功率位居第六，成为国产第二，凭借 46233 的较低 Tokens 消耗，展现出优秀的性价比。而阿里系的 Qwen3.5-Plus 和 Qwen3-Max-2026-01-23 表现不佳，成功率仅 55% 和 45%，位列榜单末尾，与主流模型存在明显差距。

国产分榜：智谱领跑，头部梯队竞争力凸显

本次参测的 11 款国产模型来自字节跳动、阿里、腾讯、智谱华章等厂商，整体表现虽参差不齐，但头部模型已展现出与国际一流模型抗衡的实力。智谱华章成为国产最大赢家，GLM-5、GLM-4.7、GLM-4.6 分别位列国产榜单第一、第三、第五，其中 GLM-5 在编程开发、数据分析等复杂场景中表现突出，稳定性极佳；字节跳动两款模型跻身前十，Doubao-Seed-2.0-Pro-260215 以 80% 成功率成为国产第二，在效率与成本之间实现良好平衡；月之暗面 Kimi-K2.5、深度求索 Deepseek-V3.2 也均达到 80% 成功率，位列国产榜单第四、第六；腾讯 Hunyuan-2.0-Thinking-20251109 以 75% 成功率位居第七，而阿里系两款模型则处于国产榜单末尾，适配能力亟待提升。

海外分榜：

海外 6 款参测模型中，除 Google 和 Anthropic 的 4 款模型稳居全球前五外，xAI 的 Grok-4.1-Fast 以 70% 成功率位列第五，其平均执行时间仅 104 秒，是所有模型中响应最快的之一，但成功率仍有提升空间。OpenAI 的 GPT-5.3-Codex 表现逊色，65% 的成功率位列第六，经分析，中文处理能力不足是其主要短板，多个任务因中文处理不当导致失败。

核心指标：成功率分层明显，Tokens 消耗与性能非正相关

成功率：近三成模型达优秀水平，头部差距缩小

本次测评将模型成功率分为四个等级：85% 及以上为优秀，75%-84% 为良好，65%-74% 为一般，低于 65% 为待改进。结果显示，17 款模型中仅有 5 款达到优秀水平，占比约 29%，分别为 Gemini-3-Pro、Gemini-3.1-Pro-Preview、Claude-Opus-4.5、Claude-Sonnet-4.6 和 GLM-5；7 款模型处于良好水平，占比 41%；3 款为一般水平；2 款为待改进水平。整体来看，头部模型间的成功率差距逐步缩小，国产模型已跻身第一梯队。

Tokens 消耗：效率差异显著，低消耗不等于高成功率

Tokens 消耗是衡量模型成本的关键指标，本次测评中各模型的 Tokens 消耗差异悬殊。GPT-5.3-Codex 以 27262 的平均 Tokens 消耗成为最 "省资源" 的模型，Gemini-3.1-Pro-Preview 紧随其后，仅 28361；而 Deepseek-V3.2 则以 112802 的平均 Tokens 消耗成为消耗最高的模型，GLM-4.6、Qwen3-Max-2026-01-23 也处于高消耗区间。

值得注意的是，低 Tokens 消耗并不等同于高成功率，如 GPT-5.3-Codex 虽消耗最低，但成功率仅 65%；而 Gemini-3-Pro 则实现了高成功率与低消耗的兼顾，成为性价比标杆。因此，模型选型需综合考量成功率与 Tokens 消耗，而非单一指标。

场景适配：两极分化明显，各模型各有所长

从 9 大场景的适配情况来看，模型表现呈现明显的两极分化：Word 制作和批量处理成为所有模型的 "强项"，成功率均达 100%，在 AiPy 平台上发挥稳定；而日志分析和软件控制则是共同 "短板"，仅有少数模型表现优秀，多数模型在此类场景中成功率偏低。

针对不同场景，测评也给出了针对性的模型选型建议：

联网搜索：Doubao 系列和 GLM 系列表现突出，成功率均为 100%，兼顾高成功率与合理 Tokens 消耗；
软件控制：整体适配难度大，建议选择 Gemini-3.1-Pro-Preview 或 Grok-4.1-Fast，并搭配详细的任务描述提升成功率；
本地电脑分析：Gemini 系列和 Claude 系列表现优异，成本敏感型用户可选择 Doubao-Seed-2.0-pro、Hunyuan-2.0-Thinking-20251109 或 Kimi-K2.5；
日志分析：Gemini 系列优势显著，大文件日志分析能力远超其他模型。

此外，本次测评还对综合排名前五的模型绘制了多维度性能雷达图，从执行效率、Token 效率、稳定性、成功率、综合评分五个维度进行全面评估。结果显示，Gemini-3.1-Pro-Preview 在 Token 效率和稳定性上表现最佳，综合评分最高；Gemini-3-Pro 成功率一骑绝尘，整体能力均衡；GLM-5 作为唯一入选前五的国产模型，稳定性表现优异，成为国产标杆，但 Token 效率仍有提升空间。

失败溯源：代码质量成主因，中文问题成国产痛点

本次测评共记录 82 次测试失败，经梳理，失败原因主要集中在四大类，且占比差异显著：

代码质量问题：占比 47.6%（39 次），是最主要的失败原因，主要表现为代码逻辑错误、语法问题或依赖缺失，反映出模型的代码自检能力仍需加强；
任务规划问题：占比 28.0%（23 次），模型对复杂任务的分解和执行路径规划不合理，导致多步骤任务无法完成；
中文乱码问题：占比 18.3%（15 次），主要集中在文件输出格式和画图处理环节，成为国内场景下的特有痛点，国产模型需重点解决本地化编码问题；
任务理解问题：占比 3.7%（3 次），模型对用户意图理解偏差导致执行方向错误，指令理解和意图识别能力仍需优化。

以下展示本次测评使用的部分测试题目，涵盖9大任务类型的典型代表性任务。以下为部分题目，完整题目集可联系AiPy官方获取。

此外，任务异常中断和代码异常截断的占比均仅 1.2%，对测试结果的影响较小。

深度洞察：亮点与短板并存，模型选型有章可循

本次测评通过海量测试数据，勾勒出当前全球大模型的发展现状：亮点突出，短板也十分明显，为厂商技术优化和用户模型选型提供了清晰方向。

行业亮点：Google 双雄称霸，国产模型快速崛起

Google 技术领先：Gemini-3-Pro 和 Gemini-3.1-Pro-Preview 包揽全球前两名，不仅成功率居高不下，还实现了低 Tokens 消耗，性价比突出，展现出在大模型领域的压倒性优势；
国产模型迎突破：智谱 GLM-5 以 85% 的成功率追平国际顶级模型，成为国产大模型的标杆，标志着国产模型与国际一流水平的差距正在快速缩小，且 GLM-5 还实现了对国产算力的全栈适配，进一步提升了本土化优势；
Claude 系列稳定性强：Anthropic 旗下两款模型均保持 85% 的高成功率，在各场景中表现稳定，成为全球第一梯队的重要力量；
MiniMax 速度亮眼：MiniMax-M2.5 以 94 秒的平均执行时间成为 "速度之王"，适合对响应速度要求高的场景。

待改进方向：聚焦核心痛点，突破技术瓶颈

优化代码质量：近五成失败源于代码问题，厂商需重点提升模型的代码生成和自检能力，减少逻辑错误和语法问题；
解决中文编码问题：18% 的失败涉及中文乱码，国产模型应优先攻克本地化编码难题，提升在中文场景下的适配能力；
提升阿里系模型性能：Qwen 系列成功率偏低，需针对 AiPy 平台的工具调用场景进行专项优化，缩小与主流模型的差距；
突破软件控制场景：软件控制是所有模型的共同薄弱环节，整体成功率偏低，成为行业亟待突破的技术瓶颈。

选型建议：按需选择，兼顾性能与成本

针对不同的使用需求，测评给出了清晰的模型选型矩阵，帮助用户精准匹配模型：

追求最高成功率：首选 Gemini-3-Pro（95% 成功率），任务完成能力和稳定性均为行业顶尖；
国内最佳选择：智谱 GLM-5（85% 成功率），国产标杆，复杂场景表现优异，适配本土化需求；
速度优先：MiniMax-M2.5（94 秒平均响应），适合对响应速度敏感、对成功率要求相对宽松的场景；
代码开发场景：Claude-Opus-4.5（85% 成功率 + 强代码能力），代码生成质量高，适配编程开发需求；
国内性价比之选：GLM 系列、Doubao-Seed 系列、Kimi-K2.5，兼顾成功率与资源消耗，适合国内中小企业和个人用户。

本次 AiPy 第七期大模型适配度测评，不仅客观反映了当前全球大模型的技术水平，也为行业发展指明了方向。随着大模型技术的不断迭代，国产模型正加速崛起，与国际模型的差距逐步缩小，而技术短板的突破将成为下一阶段行业竞争的核心。AiPy 也将持续开展大模型测评工作，为用户提供客观、权威的参考，推动大模型在真实业务场景中的落地与应用。