2025年AiPy大模型适配度测评第三期报告揭晓，谁是新一代AI王者？最近AiPy发布大模型适配度测评报告，第三期了，本

最近AiPy发布大模型适配度测评报告，第三期了，本来没太在意，结果一看，还挺有意思的。

这次测了13个主流大模型，包括好些国际上特别火的。本来以为是豆包、deepseek等霸榜，没想到前三分别是GLM-4.5，Qwen3-Instruct和Qwen3-Thinking，有点意外。

最猛的是GLM-4.5，各项任务下来成功率居然接近满分，成功率达100%，这个数据确实有点夸张了。之前用过几个国产模型，感觉进步挺快，用起来挺顺手的，但这次数据一摆出来，还是有点吃惊。

其实也不光是排名，更关键是这些模型在实际任务里的表现越来越稳了。以前总觉得大模型花里胡哨，现在看，有些已经能真正用起来了。

先来看一看这份报告吧。

核心亮点

他们这次测了13个模型，都是目前市面上最主流的，包括刚发布的 Qwen3 系列：Thinking 版偏推理，Instruct 是常规指令，还有个 Coder Plus 专注编程。另外，智谱的 GLM-4.5 也加入了，再加上 GPT-4.1、Gemini 2.5 Pro 这些国外的“老面孔”，阵容挺全。

总共测试130个真实任务，覆盖信息获取、数据处理、图表生成这些日常高频场景。不是那种“讲个笑话”的简单测试，而是更贴近实际工作流，比如爬网页、整理数据、画图之类的。

评价维度也比较全面，任务能不能完成（成功率）、花多少时间、消耗多少 token，三项综合打分。

总体来看，这次测试在准确性、覆盖范围和权威性方面都做得比较扎实，参考价值确实高一些。

先看结果

模型排名主要依据成功率（权重80%）、Tokens 使用效率（10%）和响应时间效率（10%）三个维度。结果显示，GLM-4.5 凭借近乎满分的100%任务成功率，稳稳拿下第一。紧随其后的是通义千问的 Qwen3 系列，包揽了第二和第三名，整体表现相当抢眼。

更让人意外的是最终的排名格局——国产模型直接包揽前三，把一众国际知名模型甩在后面。这在过去几次测评中还很少见，看来这一轮，真是“自己人”全面领跑。

国内模型排名情况

国产大模型在这次测评中整体表现相当亮眼，9款参测模型里有6款成功率超过80%，展现出整体技术水位的提升。其中，GLM-4.5以100%的任务通过率交出满分答卷，综合得分91分，稳坐头把交椅。阿里通义千问的Qwen3系列紧随其后，包揽了综合排名的第2到第4位，技术积累的厚度确实看得出来。

其他模型也不容小觑：字节、深度求索等公司在特定任务上都有不错的表现。不过豆包的Seed-1.6版本相比前一期略有下降，排在国产第五。相比之下，百度这次的两款模型表现不太理想，排名靠后。

说点个人体验。最近我拿GLM-4.5处理一些复杂的数据任务，体验特别顺。不管是多层嵌套的逻辑分析，还是跨表格的数据关联，它都能理得清清楚楚，生成的代码简洁、结构清晰，基本不用大改就能跑通，效率确实提了一大截。

反观之前用豆包处理类似任务，有时候挺无奈，明明三五行代码能解决的问题，它非得加冗余的判断逻辑，结果就是token猛增，执行还容易出岔子，典型的“话多还不靠谱”。

这些细节上的差异，其实恰恰反映出模型在工程优化和实际场景适配上的差距。国内用户的需求往往更具体、更“实用主义”，对响应质量、输出效率和稳定性要求都很高。在这种环境下，光有参数规模或者宣传亮点根本不够，必须在实际任务中跑得稳、出得准，才能真正站住脚。

国外模型排名情况

海外模型阵营表现分化明显，曾经的顶流 GPT 这次跌出赛道，直接垫底。xAI的Grok 4和Google的Gemini 2.5 Pro表现优秀， Grok 4 这匹黑马更是后发制人排名第一。

各模型成功率、Tokens 使用效率和响应时间效率对比分析

这次最让我惊讶的是成功率。GLM-4.5 居然做到了 100% 全通过，这个数据真的很让人吃惊。这在130项任务、5大场景下能保持零失败，说明它的稳定性和指令理解能力已经打磨得相当扎实。

速度这块，Google 的 Gemini 2.5 Pro 真的是“飞”起来，平均111.6秒完成任务，是所有模型里最快的。看得出来谷歌在推理优化上下了功夫。

但有意思的是，快和准不一定冲突。比如 GLM-4.5 和 Qwen3-Instruct，虽然不是最快的，但都在200秒出头，而且成功率拉满。这种“又稳又不慢”的组合，才是日常使用中最舒服的。

反观一些模型，要么快但错得多，要么慢得离谱——最慢的比最快慢了5倍以上。在需要实时交互的场景里，等个半分钟出结果，体验直接打折扣。

很多人只看效果，但对企业或高频用户来说，token 消耗就是成本。这次 GPT-4.1 虽然总消耗最少，但它任务全失败了，省下来也没意义。

真正让我觉得“值”的是 DeepSeek-V3 和 GLM-4.5。它们在成功率极高的前提下，token 消耗控制得非常好。尤其是 DeepSeek-V3，只用了3万多token，性价比直接拉满。

而像 Qwen3-Instruct 和 Claude 这类模型，虽然能力强，但动不动就十几万token，长期用下来成本压力不小。有时候“话太多”不只是啰嗦，是真金白银在烧。

测试任务表现分析

前文也说了，国内用户的需求往往更具体、更“实用主义”，不追求花哨的功能，更关心能不能解决实际问题。大模型要想真正打动他们，还需还需要专注于日常、具体的场景，比如周报、处理表格、爬数据、写代码等。说白了，得“接地气”才能站得住。这次测试也是聚焦以下五大常见的应用场景。

多数大模型在“找信息”这类任务上都不错，但一到“操作”和“自动化”，就容易露怯。

GLM-4.5 是这次唯一的“全能型选手”，在所有类型里都表现稳定。它处理跨表关联、复杂逻辑嵌套时，输出干净利落，代码基本不用改就能跑通，非常省心。而像 Qwen3-Coder Plus 这种专业版本，在编程任务上明显更强，说明“通用+专用”的路线正在成型。

如果你有特定需求，选对型号比盲目追高分更重要。

失败原因分析

报告里还很贴心的拆了34次失败案例，我发现一个特别典型的共性：代码块标记错误，占了近三成，主要集中在GPT-4.1。比如该用 python 的地方用了，或者代码被拆成好几段，导致执行直接报错。

其次是代码质量和任务理解问题。有些模型不是不会写，而是写的逻辑绕、冗余多，跑起来容易崩。豆包就会有这种情况，三五行能搞定的非得写十几行，还加一堆解释，token 花得多，效果反而差。

这些失败案例不仅帮助我们理解当前大模型的技术瓶颈，为模型开发商提供了明确的改进方向，同时提醒用户在实际应用中需要关注的潜在风险点。

谁赢了？

这次最出风头的肯定是 GLM-4.5。它不只是拿了第一，关键是—130个任务，一个都没翻车。这在大模型测评里非常罕见。很多模型可能某几项特别强，但面对复杂、多变的真实任务，很容易在某个环节出错。而 GLM-4.5 的表现说明，它已经不是“能用”，而是“可靠”。

它的综合得分比第二名高出近10分，在一个有多项指标的评估体系里，这种差距其实挺大的。更难得的是，它在速度和成本上也没明显短板，属于那种“不偏科”的选手。可以说，这次它代表国产模型，真正打了一场“教科书式”的胜仗。

Google 的 Gemini 2.5 Pro 在速度上一骑绝尘，平均111.6秒完成任务，是所有模型里最快的。而且它成功率也有80%。

而在“省钱”这件事上，DeepSeek-V3 让我有点意外。它在高成功率的前提下，token 消耗控制得非常好，属于“低调但实用”的类型。相比之下，有些模型动不动十几万token起步，用起来确实得掂量掂量。

这说明，现在选模型，不能只看“谁分高”，还得看“谁更划算”。

我们该怎么选模型？

如果你也在用AI辅助工作，我觉得可以从这几个角度考虑：

要稳定选 GLM-4.5 这类成功率高的，别让AI中途掉链子。
要快Gemini 2.5 Pro 是目前响应最快的，适合对时效要求高的场景。
要省DeepSeek-V3 这类低消耗模型，适合高频使用或预算有限的情况。
要专如果你主要写代码，可以试试 Qwen3-Coder Plus 这类专业版本，针对性更强。

说到底，没有“最好的模型”，只有“最适合你需求的模型”。

最后一点思考

这次测评让我感受到，大模型的竞争已经从“能不能”进入“好不好用”的阶段。拼的不再是参数规模或发布声势，而是稳定性、效率、成本、适配性这些实实在在的细节。

国产模型这次的表现，不是偶然。它背后是过去一两年在工程化、场景打磨、中文理解上的持续投入。而海外厂商也在不断优化效率和生态，竞争越来越多元。

未来，谁能更好地平衡“能力、速度、成本、体验”，谁才能真正赢得用户。毕竟，技术再先进，也得能落地、能用上，才算数。

这份报告，不只是一个排名，更像是一个信号：AI 的实用时代，真的来了。

AiPy将持续追踪大模型技术发展，定期更新测评数据，为用户提供最新、最客观的技术评估，助力每一位用户在AI时代找到最适合的技术伙伴，共同迎接智能化未来的无限可能。欢迎大家加入AiPy交流群一起探讨问题！