国内外顶尖大模型神仙打架!GLM-4.5一骑绝尘,GPT-4.1竟上不了桌?

255 阅读4分钟

一、背景说明

为帮助用户深入了解 AI 技术发展现状,团队开展第三次大语言模型测评。本次测评纳入通义千问 Qwen3 系列(含深度推理、高效指令、专业编程等版本)、智谱华章 GLM-4.5 开源模型,同时对比 OpenAI GPT-4.1、Google Gemini-2.5 Pro 等海外产品,共覆盖 13 款国内外模型,首次对中外模型进行差异化分析。 1.png

二、测评概况

本次测评通过 130 项标准化任务,在严格控制变量的条件下,全面测试 13 款主流大模型在实际场景中的表现。 2.png

 

三、综合排名

测评采用成功率(80% 权重)、Tokens 效率(10% 权重)、时间效率(10% 权重)的评估体系。结果显示,GLM-4.5 凭借 100% 成功率位列榜首,Qwen3 系列紧随其后,测评前三名均为国产模型!

3.png

4.png  

四、国内大模型排名情况

9 款参测国产模型中,6 款成功率超 80%。GLM-4.5 表现突出,Qwen3 系列也有亮眼表现,反映出国产 AI 技术的快速发展。新兴厂商展现出强劲实力,老牌厂商技术表现则出现分化。

5.png

国内模型亮点

  •   GLM-4.5 以 100% 成功率、91 分综合得分领先

  •   Qwen3 系列占据国内 2-4

  •   字节 Seed-1.6 综合排名国内第 5

  •   百度两款模型排名靠后

 

五、国外大模型排名情况

海外模型表现差异显著,xAI 的 Grok 4 和 Google 的 Gemini 2.5 Pro 表现较好,而 OpenAI 的 GPT-4.1 意外垫底。Claude Sonnet 4 虽保持竞争力,但在中文场景仍有提升空间。

6.png

国外模型分析

  • Grok 4 以 90% 成功率领先海外阵营

  • Claude Sonnet 4 在复杂任务处理上优势明显

  • Gemini 2.5 Pro 平均执行时间最短,仅 111.6

  • GPT-4.1 存在技术问题,成功率为 0

 

六、参数对比

(1)各模型成功率对比分析

成功率是衡量模型实用性的关键指标。GLM-4.5 以 100% 成功率领先,多款模型达到 90% 的优秀水平,不同模型在技术成熟度和指令理解能力上存在明显差异。 7.png

(2)各模型执行时间对比分析

执行时间直接影响用户体验。除去成功率为 0 的 GPT-4.1,Gemini 2.5 Pro 平均执行时间最短,部分高成功率模型如 GLM-4.5 和 Qwen3-Instruct 在效率与准确性上实现了较好平衡。 8.png

(3)各模型消耗Tokens对比分析

Tokens 消耗关系到使用成本。GPT-4.1 虽成功率低但消耗最少,而 GLM-4.5 和 DeepSeek-V3 在保证高成功率的同时,展现出良好的成本效益。

9.png

(4)测试任务类型分布情况

测评涵盖 5 大核心应用场景,其中信息获取类任务占比最高,各任务类型均衡分布,确保测评能全面反映模型实际表现。

10.png

(5)各模型在不同任务类型表现分析

通过热力图分析发现,GLM-4.5 在各任务类型中均表现优秀,部分模型在特定领域展现专业优势,体现了当前大模型专业化与通用性并存的发展趋势。

11.png

(6)多维度性能雷达图

雷达图展示前6名模型在成功率、时间效率等5个维度的表现,帮助用户根据自身需求选择最合适的模型。

12.png

七、测试任务分类表

本次测评任务涵盖信息获取、数据处理等多个维度,任务设计贴合实际应用场景,可为用户提供实用的性能参考。

13.png

八、总结

核心结论

l  国产强势崛起:GLM-4.5夺冠,Qwen3系列集体发力,国产模型整体实力显著提升

l  技术分化加剧:模型间性能差距扩大,专业化发展趋势明显

l  实用性为王:成功率成为核心竞争力,稳定性比单项优势更重要

l  效率成新战场:在保证准确性前提下,响应速度和成本控制成为差异化优势

14.png

测评结果表明,大模型技术进入新阶段。国产模型已具备与国际顶尖产品竞争的实力,部分领域实现超越。同时,海外模型在效率和特定场景仍有优势,未来需在准确性、效率和经济性等多维度均衡发展,才能在竞争中脱颖而出。