2025年AiPy大模型适配度测评第三期报告揭晓,谁是新一代AI王者?

127 阅读9分钟

最近AiPy发布大模型适配度测评报告,第三期了,本来没太在意,结果一看,还挺有意思的。

这次测了13个主流大模型,包括好些国际上特别火的。本来以为是豆包、deepseek等霸榜,没想到前三分别是GLM-4.5,Qwen3-Instruct和Qwen3-Thinking,有点意外。

最猛的是GLM-4.5,各项任务下来成功率居然接近满分,成功率达100%,这个数据确实有点夸张了。之前用过几个国产模型,感觉进步挺快,用起来挺顺手的,但这次数据一摆出来,还是有点吃惊。

其实也不光是排名,更关键是这些模型在实际任务里的表现越来越稳了。以前总觉得大模型花里胡哨,现在看,有些已经能真正用起来了。

先来看一看这份报告吧。

核心亮点

他们这次测了13个模型,都是目前市面上最主流的,包括刚发布的 Qwen3 系列:Thinking 版偏推理,Instruct 是常规指令,还有个 Coder Plus 专注编程。另外,智谱的 GLM-4.5 也加入了,再加上 GPT-4.1、Gemini 2.5 Pro 这些国外的“老面孔”,阵容挺全。

总共测试130个真实任务,覆盖信息获取、数据处理、图表生成这些日常高频场景。不是那种“讲个笑话”的简单测试,而是更贴近实际工作流,比如爬网页、整理数据、画图之类的。

评价维度也比较全面,任务能不能完成(成功率)、花多少时间、消耗多少 token,三项综合打分。

总体来看,这次测试在准确性、覆盖范围和权威性方面都做得比较扎实,参考价值确实高一些。

图片

先看结果

模型排名主要依据成功率(权重80%)、Tokens 使用效率(10%)和响应时间效率(10%)三个维度。结果显示,GLM-4.5 凭借近乎满分的100%任务成功率,稳稳拿下第一。紧随其后的是通义千问的 Qwen3 系列,包揽了第二和第三名,整体表现相当抢眼。

更让人意外的是最终的排名格局——国产模型直接包揽前三,把一众国际知名模型甩在后面。这在过去几次测评中还很少见,看来这一轮,真是“自己人”全面领跑。

图片图片

国内模型排名情况

国产大模型在这次测评中整体表现相当亮眼,9款参测模型里有6款成功率超过80%,展现出整体技术水位的提升。其中,GLM-4.5以100%的任务通过率交出满分答卷,综合得分91分,稳坐头把交椅。阿里通义千问的Qwen3系列紧随其后,包揽了综合排名的第2到第4位,技术积累的厚度确实看得出来。

其他模型也不容小觑:字节、深度求索等公司在特定任务上都有不错的表现。不过豆包的Seed-1.6版本相比前一期略有下降,排在国产第五。相比之下,百度这次的两款模型表现不太理想,排名靠后。

说点个人体验。最近我拿GLM-4.5处理一些复杂的数据任务,体验特别顺。不管是多层嵌套的逻辑分析,还是跨表格的数据关联,它都能理得清清楚楚,生成的代码简洁、结构清晰,基本不用大改就能跑通,效率确实提了一大截。

反观之前用豆包处理类似任务,有时候挺无奈,明明三五行代码能解决的问题,它非得加冗余的判断逻辑,结果就是token猛增,执行还容易出岔子,典型的“话多还不靠谱”。

这些细节上的差异,其实恰恰反映出模型在工程优化和实际场景适配上的差距。国内用户的需求往往更具体、更“实用主义”,对响应质量、输出效率和稳定性要求都很高。在这种环境下,光有参数规模或者宣传亮点根本不够,必须在实际任务中跑得稳、出得准,才能真正站住脚。

图片

国外模型排名情况

海外模型阵营表现分化明显,曾经的顶流 GPT 这次跌出赛道,直接垫底。xAI的Grok 4和Google的Gemini 2.5 Pro表现优秀, Grok 4 这匹黑马更是后发制人排名第一 。

图片

各模型成功率、Tokens 使用效率和响应时间效率对比分析

这次最让我惊讶的是成功率。GLM-4.5 居然做到了 100% 全通过,这个数据真的很让人吃惊。这在130项任务、5大场景下能保持零失败,说明它的稳定性和指令理解能力已经打磨得相当扎实。

图片

速度这块,Google 的 Gemini 2.5 Pro 真的是“飞”起来,平均111.6秒完成任务,是所有模型里最快的。看得出来谷歌在推理优化上下了功夫。

但有意思的是,快和准不一定冲突。比如 GLM-4.5 和 Qwen3-Instruct,虽然不是最快的,但都在200秒出头,而且成功率拉满。这种“又稳又不慢”的组合,才是日常使用中最舒服的。

反观一些模型,要么快但错得多,要么慢得离谱——最慢的比最快慢了5倍以上。在需要实时交互的场景里,等个半分钟出结果,体验直接打折扣。

图片

很多人只看效果,但对企业或高频用户来说,token 消耗就是成本。这次 GPT-4.1 虽然总消耗最少,但它任务全失败了,省下来也没意义。

真正让我觉得“值”的是 DeepSeek-V3 和 GLM-4.5。它们在成功率极高的前提下,token 消耗控制得非常好。尤其是 DeepSeek-V3,只用了3万多token,性价比直接拉满。

而像 Qwen3-Instruct 和 Claude 这类模型,虽然能力强,但动不动就十几万token,长期用下来成本压力不小。有时候“话太多”不只是啰嗦,是真金白银在烧。

图片

测试任务表现分析

前文也说了,国内用户的需求往往更具体、更“实用主义”,不追求花哨的功能,更关心能不能解决实际问题。大模型要想真正打动他们,还需还需要专注于日常、具体的场景,比如周报、处理表格、爬数据、写代码等。说白了,得“接地气”才能站得住。这次测试也是聚焦以下五大常见的应用场景。

图片

图片

多数大模型在“找信息”这类任务上都不错,但一到“操作”和“自动化”,就容易露怯。

GLM-4.5 是这次唯一的“全能型选手”,在所有类型里都表现稳定。它处理跨表关联、复杂逻辑嵌套时,输出干净利落,代码基本不用改就能跑通,非常省心。而像 Qwen3-Coder Plus 这种专业版本,在编程任务上明显更强,说明“通用+专用”的路线正在成型。

如果你有特定需求,选对型号比盲目追高分更重要。

图片

失败原因分析

报告里还很贴心的拆了34次失败案例,我发现一个特别典型的共性:代码块标记错误,占了近三成,主要集中在GPT-4.1。比如该用 python 的地方用了 ,或者代码被拆成好几段,导致执行直接报错。

其次是代码质量和任务理解问题。有些模型不是不会写,而是写的逻辑绕、冗余多,跑起来容易崩。豆包就会有这种情况,三五行能搞定的非得写十几行,还加一堆解释,token 花得多,效果反而差。

这些失败案例不仅帮助我们理解当前大模型的技术瓶颈, 为模型开发商提供了明确的改进方向,同时提醒用户在实际应用中需要关注的潜在风险点。

图片

谁赢了?

这次最出风头的肯定是 GLM-4.5。它不只是拿了第一,关键是—130个任务,一个都没翻车。这在大模型测评里非常罕见。很多模型可能某几项特别强,但面对复杂、多变的真实任务,很容易在某个环节出错。而 GLM-4.5 的表现说明,它已经不是“能用”,而是“可靠”。

它的综合得分比第二名高出近10分,在一个有多项指标的评估体系里,这种差距其实挺大的。更难得的是,它在速度和成本上也没明显短板,属于那种“不偏科”的选手。可以说,这次它代表国产模型,真正打了一场“教科书式”的胜仗。

Google 的 Gemini 2.5 Pro 在速度上一骑绝尘,平均111.6秒完成任务,是所有模型里最快的。而且它成功率也有80%。

而在“省钱”这件事上,DeepSeek-V3 让我有点意外。它在高成功率的前提下,token 消耗控制得非常好,属于“低调但实用”的类型。相比之下,有些模型动不动十几万token起步,用起来确实得掂量掂量。

这说明,现在选模型,不能只看“谁分高”,还得看“谁更划算”。

图片


我们该怎么选模型?

如果你也在用AI辅助工作,我觉得可以从这几个角度考虑:

  • 要稳定选 GLM-4.5 这类成功率高的,别让AI中途掉链子。
  • 要快Gemini 2.5 Pro 是目前响应最快的,适合对时效要求高的场景。
  • 要省DeepSeek-V3 这类低消耗模型,适合高频使用或预算有限的情况。
  • 要专如果你主要写代码,可以试试 Qwen3-Coder Plus 这类专业版本,针对性更强。

说到底,没有“最好的模型”,只有“最适合你需求的模型”。


最后一点思考

这次测评让我感受到,大模型的竞争已经从“能不能”进入“好不好用”的阶段。拼的不再是参数规模或发布声势,而是稳定性、效率、成本、适配性这些实实在在的细节。

国产模型这次的表现,不是偶然。它背后是过去一两年在工程化、场景打磨、中文理解上的持续投入。而海外厂商也在不断优化效率和生态,竞争越来越多元。

未来,谁能更好地平衡“能力、速度、成本、体验”,谁才能真正赢得用户。毕竟,技术再先进,也得能落地、能用上,才算数。

这份报告,不只是一个排名,更像是一个信号:AI 的实用时代,真的来了

AiPy将持续追踪大模型技术发展,定期更新测评数据,为用户提供最新、最客观的技术评估, 助力每一位用户在AI时代找到最适合的技术伙伴,共同迎接智能化未来的无限可能。欢迎大家加入AiPy交流群一起探讨问题!

image.png