国产大模型横向评测报告:Kimi K2.5 vs MiniMax M2.5 vs GLM-5
免责声明:本评测由技术爱好者基于日常网络环境进行测试,所有数据均为真实API调用结果,仅供参考,不构成任何商业推荐。
评测时间:2026年2月16日
评测机构:MaxStorm Team
API渠道:硅基流动(siliconflow.cn)
测试环境:macOS + Python 3.9
💡 关于硅基流动 (SiliconFlow)
本次评测统一使用 硅基流动 作为API调用渠道。硅基流动是国内领先的AI模型聚合平台,汇聚了MiniMax、智谱AI、月之暗面、通义千问、DeepSeek等主流国产大模型,提供稳定、高速、低成本的API服务。
- 新用户福利:注册即送积分,可免费体验多款模型
- 价格优势:官方定价的5-8折,性价比极高
- 稳定可靠:企业级SLA保障,响应速度快
- 模型丰富:持续更新最新模型,一站式体验
👉 立即访问:siliconflow.cn
一、评测背景与方法
1.1 评测模型
| 模型 | 厂商 | API模型名 | 定位 |
|---|---|---|---|
| Kimi K2.5 | 月之暗面 | Pro/moonshotai/Kimi-K2.5 | 长文本专家 |
| MiniMax M2.5 | MiniMax | Pro/MiniMaxAI/MiniMax-M2.5 | 多模态通用 |
| GLM-5 | 智谱AI | Pro/zai-org/GLM-5 | 开源领先 |
1.2 评测维度与权重
基于业界通用的大模型评测框架,我们设计了7个核心维度:
| 维度 | 权重 | 评估内容 |
|---|---|---|
| 基础能力 | 30% | 知识准确性、时效性、概念解释 |
| 代码能力 | 15% | 算法实现、代码质量、注释规范 |
| 推理能力 | 15% | 数学计算、逻辑推理、步骤清晰度 |
| 创意写作 | 10% | 文案质量、风格模仿、中文表达 |
| 模型一致性 | 10% | temperature=0时可复现性 |
| 推理性能 | 10% | 响应时延、稳定性 |
| 鲁棒性 | 10% | 边界输入处理能力 |
1.3 测试方法
- 一致性测试:temperature=0,相同输入调用3次
- 性能测试:5次调用计算平均时延
- 能力测试:每类能力2-3道测试题,记录真实响应
二、核心发现速览
2.1 综合排名
| 排名 | 模型 | 综合评分 | 核心优势 | 主要短板 |
|---|---|---|---|---|
| 🥇 | MiniMax M2.5 | 4.7/5.0 | 时效知识准确、推理详细 | API偶发超时 |
| 🥈 | GLM-5 | 4.3/5.0 | 内容详尽、多种实现 | 时延过长(38s) |
| 🥉 | Kimi K2.5 | 4.1/5.0 | 代码规范、创意写作 | 一致性差、时延长 |
2.2 关键发现
- MiniMax M2.5 唯一正确回答2024诺贝尔物理学奖,Kimi K2.5 和 GLM-5 均回答错误
- Kimi K2.5 一致性为0%,temperature=0时仍不可复现
- GLM-5 时延最长(平均38s),是MiniMax的4.6倍
- 三模型在代码、推理、创意维度表现相当
三、详细评测结果
3.1 基础能力(权重30%)
测试题目
- B1:量子计算的基本原理
- B2:2024年诺贝尔物理学奖得主
- B3:解释Transformer架构
评分结果
| 模型 | B1 | B2 | B3 | 平均分 |
|---|---|---|---|---|
| MiniMax M2.5 | 5.0 | 5.0 ✅ | 5.0 | 5.0 |
| GLM-5 | 5.0 | 5.0 | 5.0 | 5.0 |
| Kimi K2.5 | 5.0 | 4.0 ❌ | 5.0 | 4.7 |
关键发现:2024诺奖答案对比
正确答案:Pierre Agostini、Ferenc Krausz、Anne L'Huillier(阿秒光脉冲)
| 模型 | 回答 | 正确性 |
|---|---|---|
| MiniMax M2.5 | Agostini、Krausz、L'Huillier | ✅ 正确 |
| Kimi K2.5 | Hopfield、Hinton(机器学习) | ❌ 错误 |
| GLM-5 | Hopfield、Hinton(机器学习) | ❌ 错误 |
分析:MiniMax M2.5 在时效知识方面表现最佳,能够准确回答2024年最新信息。Kimi K2.5 和 GLM-5 均混淆了2024年诺贝尔物理学奖和诺贝尔化学奖(后者授予了Hinton等人)。
3.2 代码能力(权重15%)
测试题目
- C1:Python快速排序+中文注释
- C2:Python LRU缓存实现
评分结果
| 模型 | C1 | C2 | 平均分 |
|---|---|---|---|
| MiniMax M2.5 | 5.0 | 5.0 | 5.0 |
| GLM-5 | 5.0 | 5.0 | 5.0 |
| Kimi K2.5 | 5.0 | 5.0 | 5.0 |
特点对比
| 模型 | 代码特点 | 注释质量 | 实现方式 |
|---|---|---|---|
| MiniMax M2.5 | 提供多种实现、面试友好 | 详细 | 三种LRU实现 |
| GLM-5 | 详尽全面、适合学习 | 非常详细 | 多种算法对比 |
| Kimi K2.5 | 简洁规范、可直接使用 | 清晰 | 标准实现 |
结论:三模型代码能力相当,均能生成正确、可运行的代码。GLM-5 最详尽,Kimi K2.5 最简洁,MiniMax M2.5 最适合面试准备。
3.3 推理能力(权重15%)
测试题目
- R1:数学计算(苹果问题)
- R2:逻辑推理(三段论)
- R3:数组排序(第5大数)
评分结果
| 模型 | R1 | R2 | R3 | 平均分 |
|---|---|---|---|---|
| MiniMax M2.5 | 5.0 | 5.0 | 5.0 | 5.0 |
| GLM-5 | 5.0 | 5.0 | 5.0 | 5.0 |
| Kimi K2.5 | 5.0 | 5.0 | 5.0 | 5.0 |
推理风格对比
R2逻辑推理题示例:
- MiniMax M2.5:使用数学符号(∀x, ∃x)进行形式化推导
- GLM-5:文字解释+反例说明
- Kimi K2.5:逻辑分析+集合图示
结论:三模型推理能力均优秀,答案正确。MiniMax M2.5 最严谨(数学符号),Kimi K2.5 最直观,GLM-5 最全面。
3.4 创意写作(权重10%)
测试题目
- CR1:AI写作助手产品文案(200字)
- CR2:鲁迅风格内卷讽刺文
评分结果
| 模型 | CR1 | CR2 | 平均分 |
|---|---|---|---|
| MiniMax M2.5 | 5.0 | 5.0 | 5.0 |
| GLM-5 | 5.0 | 5.0 | 5.0 |
| Kimi K2.5 | 5.0 | 5.0 | 5.0 |
鲁迅风格对比
MiniMax M2.5:
"大抵是都在忙了。我看那大路上的人,神色匆匆,仿佛后面有鬼追着似的..."
GLM-5:
"我向来是不惮以最坏的恶意来推测这时代的,然而我还不料,也不信竟会内卷到这地步..."
Kimi K2.5:
"我翻开简历一看,这简历没有年代,歪歪斜斜的每页上都写着'奋斗'几个字..."
结论:三模型均能较好模仿鲁迅风格,GLM-5 最像("我向来是不惮..."),Kimi K2.5 最有创意("翻开简历"),MiniMax M2.5 最自然。
3.5 模型一致性(权重10%)
测试方法
temperature=0,相同输入调用3次,检查输出一致性
测试结果
| 模型 | 调用1 | 调用2 | 调用3 | 一致性 | 评分 |
|---|---|---|---|---|---|
| MiniMax M2.5 | 成功 | 超时 | 超时 | 33% | 3.0 |
| GLM-5 | 不同 | 不同 | 不同 | 0% | 1.0 |
| Kimi K2.5 | 不同 | 不同 | 不同 | 0% | 1.0 |
关键发现
令人意外的结果:三模型在 temperature=0 时均无法保证输出一致性。
- Kimi K2.5:3次调用返回3个不同响应,第2次时延高达83秒
- GLM-5:3次调用均成功但内容完全不同
- MiniMax M2.5:仅1次成功,2次超时
结论:国产大模型在确定性输出方面仍有提升空间,不适合需要严格可复现性的应用场景。
3.6 推理性能(权重10%)
测试数据(5次调用平均)
| 模型 | 平均时延 | 最小时延 | 最大时延 | 超时率 | 评分 |
|---|---|---|---|---|---|
| MiniMax M2.5 | 8.25s | 6.71s | 9.68s | 0% | 4.0 |
| Kimi K2.5 | 29.01s | 22.32s | 37.92s | 0% | 3.0 |
| GLM-5 | 37.98s | 30.53s | 44.07s | 0% | 2.0 |
性能对比
MiniMax M2.5 (8.25s) ████████
Kimi K2.5 (29.01s) █████████████████████████████
GLM-5 (37.98s) ██████████████████████████████████████
结论:
- MiniMax M2.5 最快,平均8秒,适合实时对话
- Kimi K2.5 较慢,平均29秒,是MiniMax的3.5倍
- GLM-5 最慢,平均38秒,适合批量处理
3.7 鲁棒性(权重10%)
测试用例
- 空输入
- 特殊字符(XSS脚本)
- 乱码输入(西里尔字母)
测试结果
| 模型 | 空输入 | 特殊字符 | 乱码输入 | 评分 |
|---|---|---|---|---|
| MiniMax M2.5 | ✅ | ✅ | ✅ | 5.0 |
| GLM-5 | ✅ | ✅ | ✅ | 5.0 |
| Kimi K2.5 | ✅ | ✅ | ✅ | 5.0 |
结论:三模型鲁棒性均优秀,能正确处理各种边界输入,无崩溃、无异常。
四、综合评分汇总
4.1 评分矩阵
| 维度 | 权重 | MiniMax M2.5 | GLM-5 | Kimi K2.5 |
|---|---|---|---|---|
| 基础能力 | 30% | 5.0 | 5.0 | 4.0 |
| 代码能力 | 15% | 5.0 | 5.0 | 5.0 |
| 推理能力 | 15% | 5.0 | 5.0 | 5.0 |
| 创意写作 | 10% | 5.0 | 5.0 | 5.0 |
| 模型一致性 | 10% | 3.0 | 1.0 | 1.0 |
| 推理性能 | 10% | 4.0 | 2.0 | 3.0 |
| 鲁棒性 | 10% | 5.0 | 5.0 | 5.0 |
| 加权总分 | 100% | 4.7 | 4.3 | 4.1 |
4.2 雷达图对比
基础能力(30%)
5.0
|
鲁棒性(10%) 5.0 ------+------ 5.0 代码能力(15%)
|
一致性(10%) 3.0 ------+------ 5.0 推理能力(15%)
|
性能(10%) 4.0
[MiniMax M2.5 雷达图示意]
五、API价格对比
5.1 硅基流动官方定价(2026年2月)
以下价格为硅基流动平台官方标注价格,数据来源:siliconflow.cn/pricing
| 模型 | 输入价格 | 输出价格 | 输出/输入比 | 备注 |
|---|---|---|---|---|
| MiniMax M2.5 | ¥2.10/百万 tokens | ¥8.40/百万 tokens | 4.0x | 性价比之选 |
| Kimi K2.5 | ¥4.00/百万 tokens | ¥21.00/百万 tokens | 5.25x | 长文本专家 |
| GLM-5 | ¥4.00/百万 tokens | ¥22.00/百万 tokens | 5.5x | 开源领先 |
注:以上模型暂不支持上下文缓存(Context Caching)价格区分,即无缓存命中/未命中价格差异。如后续支持,输入价格可能分为「缓存命中价」和「缓存未命中价」两档。
5.2 价格对比分析
输入价格对比
MiniMax M2.5 ¥2.10/M tokens ████████████
Kimi K2.5 ¥4.00/M tokens ████████████████████████
GLM-5 ¥4.00/M tokens ████████████████████████
输出价格对比
MiniMax M2.5 ¥8.40/M tokens ████████████
Kimi K2.5 ¥21.00/M tokens ███████████████████████████████
GLM-5 ¥22.00/M tokens ████████████████████████████████
5.3 实际成本估算
以一次典型对话(输入500 tokens,输出1000 tokens)为例:
| 模型 | 输入成本 | 输出成本 | 单次成本 | 相对MiniMax |
|---|---|---|---|---|
| MiniMax M2.5 | ¥0.00105 | ¥0.00840 | ¥0.00945 | 基准(1.0x) |
| Kimi K2.5 | ¥0.00200 | ¥0.02100 | ¥0.02300 | 2.43x |
| GLM-5 | ¥0.00200 | ¥0.02200 | ¥0.02400 | 2.54x |
5.4 性价比综合评估
| 模型 | 综合评分 | 单次成本 | 性价比指数(评分/成本) | 推荐度 |
|---|---|---|---|---|
| MiniMax M2.5 | 4.7/5.0 | ¥0.00945 | 497 ⭐⭐⭐⭐⭐ | 首选 |
| GLM-5 | 4.3/5.0 | ¥0.02400 | 179 ⭐⭐⭐ | 次选 |
| Kimi K2.5 | 4.1/5.0 | ¥0.02300 | 178 ⭐⭐⭐ | 次选 |
性价比指数计算方式:(综合评分 / 单次成本) × 1000,数值越高代表单位成本获得的性能越好
结论:
- MiniMax M2.5 性价比遥遥领先,单次成本仅为其他两款的40%,但评分最高
- Kimi K2.5 和 GLM-5 价格相近,但 GLM-5 评分略高,性价比稍优
- 对于高频调用场景,MiniMax M2.5 可节省 60% 以上的 API 成本
🚀 开启低成本AI之旅
想体验高性价比的国产大模型吗?立即访问 硅基流动,新用户注册即送积分,最快3分钟上手!
六、选型建议
6.1 按场景推荐
| 应用场景 | 推荐模型 | 原因 |
|---|---|---|
| 实时对话/客服 | MiniMax M2.5 | 响应快(8s)、成本低 |
| 代码生成 | Kimi K2.5 | 代码规范、简洁可用 |
| 批量数据处理 | GLM-5 | 内容详尽、多种实现 |
| 教育/学习 | GLM-5 | 解释详细、适合深入理解 |
| 内容创作 | 三模型均可 | 创意能力相当 |
| 需要确定性输出 | 暂不推荐 | 三模型一致性均不佳 |
6.2 按需求推荐
| 需求优先级 | 推荐模型 |
|---|---|
| 速度优先 | MiniMax M2.5 |
| 成本优先 | MiniMax M2.5 |
| 时效知识优先 | MiniMax M2.5 |
| 代码质量优先 | Kimi K2.5 |
| 内容深度优先 | GLM-5 |
七、关键发现与建议
7.1 关键发现
-
时效知识差异显著
- 仅 MiniMax M2.5 正确回答2024诺奖
- 建议:对时效性要求高的场景,优先选择 MiniMax
-
一致性普遍不足
- 三模型 temperature=0 时均无法保证一致性
- 建议:需要确定性输出的场景,需额外校验机制
-
性能差异巨大
- MiniMax (8s) vs GLM-5 (38s),差距4.6倍
- 建议:实时场景避开 GLM-5
-
核心能力相当
- 代码、推理、创意维度,三模型表现接近
- 建议:根据场景需求选择,无需过度纠结
7.2 改进建议
对厂商:
- 提升 temperature=0 时的一致性
- 优化响应时延,特别是 GLM-5
- 加强时效知识的更新机制
对用户:
- 根据具体场景选择模型,不要一刀切
- 对时效知识进行人工校验
- 对关键应用增加输出校验机制
八、测试局限性
- 样本量有限:每项测试仅3-5次调用,统计意义有限
- 时间局限:仅反映2026年2月模型表现
- 网络影响:测试结果受网络状况影响
- API渠道:仅测试硅基流动渠道,不代表官方API性能
九、总结
9.1 一句话评价
- MiniMax M2.5:性价比之王,时效知识准确,适合大多数场景
- GLM-5:内容详尽专家,适合学习和深度理解,但速度较慢
- Kimi K2.5:代码规范之选,但一致性和时效知识需改进
9.2 最终推荐
| 排名 | 模型 | 综合评分 | 推荐指数 |
|---|---|---|---|
| 🥇 | MiniMax M2.5 | 4.7/5.0 | ⭐⭐⭐⭐⭐ |
| 🥈 | GLM-5 | 4.3/5.0 | ⭐⭐⭐⭐ |
| 🥉 | Kimi K2.5 | 4.1/5.0 | ⭐⭐⭐⭐ |
评测团队:MaxStorm Team
评测时间:2026年2月16日
联系方式:[18610311840@126.com]
测试可能受设备性能、网络环境等影响,数据仅供参考。