国产大模型横向对比报告(2026 年 Q2)
调研日期:2026-05-07 调研方法:综合各厂商官网公告、Artificial Analysis / Text Arena (LMArena) / SuperCLUE 等第三方评测平台、以及多个独立技术评测文章,交叉验证关键数据。
一、模型基本参数
| 项目 | MiMo-V2.5-Pro | DeepSeek V4-Pro | Kimi K2.6 | GLM-5.1 | Qwen3.5-Plus | MiniMax M2.7 |
|---|---|---|---|---|---|---|
| 厂商 | 小米 | 深度求索 | 月之暗面 | 智谱 AI | 阿里云 | MiniMax 稀宇科技 |
| 发布日期 | 2026-04-22 | 2026-04-24 | 2026-04-21 | 2026-04-08 | 2026-02-16 | 2026-03-18 |
| 架构 | MoE | MoE | MoE | MoE | MoE | MoE |
| 总参数量 | 1.02T | 1.6T | ~1T | 744B | 397B | 230B |
| 激活参数量 | 42B | 49B | ~32B | ~40B | 17B | ~10B |
| 上下文窗口 | 1M tokens | 1M tokens | 128K tokens | 202K tokens | 128K tokens | 200K tokens |
| 开源协议 | MIT | MIT | 不开源 | MIT | Apache 2.0 | 开源(有限制商用条款) |
| 模态支持 | 文本(V2.5 为全模态) | 文本 | 文本 | 文本 | 文本+多模态 | 文本 |
数据来源:各厂商官方公告及技术报告。Kimi K2.6 总参数和激活参数来自 CSDN 技术解析文章(非官方精确数字),GLM-5.1 参数来自 CSDN 技术报告解读,MiniMax M2.7 参数来自 CSDN 技术解析及 MiniMax 官网。
二、核心评测数据
2.1 Agent / 智能体能力
| 评测基准 | MiMo-V2.5-Pro | DeepSeek V4-Pro | Kimi K2.6 | GLM-5.1 | MiniMax M2.7 | 说明 |
|---|---|---|---|---|---|---|
| GDPVal-AA (Elo) | 1581 | — | — | — | 1495 | MiMo 官方;MiniMax 来自官方公告 |
| ClawEval (pass^3) | 63.8% | — | 62.3% | — | — | MiMo 官方;Kimi 来自官方 benchmark 表 |
| τ³-Bench | 72.9% | — | — | — | — | MiMo 官方公布 |
| Artificial Analysis 智能指数 | 并列开源第一 | 52 分 | 开源第一(K2 Thinking 67 分) | 50 分(GLM-5) | — | AA 为独立第三方评测 |
| Text Arena 全球排名 | Top 5(V2-Pro) | — | — | — | — | 雷军官宣,仅次于 Anthropic/OpenAI/Google |
| Terminal Bench 2 | — | — | — | — | 57.0% | MiniMax 官方公布 |
数据来源:
- MiMo GDPVal-AA/ClawEval/τ³-Bench:小米官方公告,经博客园、OSCHINA 等多家媒体转载
- DeepSeek V4-Pro AA 指数 52 分:腾讯新闻转载 Artificial Analysis 评测
- Kimi K2.6 ClawEval 62.3%:月之暗面官方 benchmark 表(CSDN 转载)
- GLM-5 AA 指数 50 分:博客园技术报告解读(原始来源 Artificial Analysis v4.0)
- MiniMax M2.7 GDPVal-AA 1495 / Terminal Bench 2 57.0%:MiniMax 官网及钛媒体报道
2.2 编程 / 软件工程能力
| 评测基准 | MiMo-V2.5-Pro | DeepSeek V4-Pro | Kimi K2.6 | GLM-5.1 | MiniMax M2.7 | 说明 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | — | 80.6% | 76.5% | 76.8% | 78% | DS V4 来自 DataLearner;GLM/Kimi 来自 CSDN 四强横评;MiniMax 来自 CSDN 技术解析 |
| SWE-bench Pro | 57.2% | — | 58.6% | 58.4% | 56.22% | MiMo/Kimi/GLM 来源同上;MiniMax 来自官方公告及 NVIDIA Model Card |
| VIBE-Pro | — | — | — | — | 55.6% | MiniMax 官方公布 |
| HumanEval pass@1 | — | 90.8% | — | — | — | DS V4 来自 CSDN 深度解析 |
| Codeforces 评分 | — | 3206 | — | — | — | DS V4 超过 GPT-5.4 (3168) |
| Claude Code 评测 | — | — | — | 45.3/113 | — | GLM-5.1 达到 Opus 4.6 的 94.6% |
数据来源:
- SWE-bench Pro 各模型数据:MiMo 官方公告(经 Binance/NS3.AI 核实)、Kimi 官方发布、GLM 来自 Galaxy.ai 和 Apiyi 评测报告
- DeepSeek V4-Pro SWE-bench Verified 80.6%:DataLearnerAI 模型详情页
- SWE-bench Verified 横向对比(GLM 76.8%/Kimi 76.5%):CSDN 四强横评文章
- MiniMax M2.7 SWE-bench Pro 56.22% / Verified 78% / VIBE-Pro 55.6%:MiniMax 官网、NVIDIA Model Card、钛媒体报道
2.3 通用知识与推理
| 评测基准 | MiMo-V2.5-Pro | DeepSeek V4-Pro | Kimi K2.6 | GLM-5.1 | Qwen3.5-Plus | MiniMax M2.7 |
|---|---|---|---|---|---|---|
| MMLU-Pro | 68.5% | 87.5% | — | — | 87.8% | — |
| GPQA-Diamond | 66.7% | ~72% | — | — | 88.4% | — |
| SuperCLUE 综合 | — | 70.98 分(国内第一) | — | — | — | — |
| ReLE 评测总分 | 71.4% | 71.7% | — | — | — | 67.7% |
数据来源:
- MiMo MMLU-Pro 68.5% / GPQA-Diamond 66.7%:人人都是产品经理测评报告(标注来源为官方数据)
- DeepSeek V4-Pro MMLU-Pro 87.5%:CSDN 深度解析(引用官方技术报告)
- DeepSeek V4-Pro GPQA ~72 分:CSDN 深度解析
- Qwen3.5-Plus MMLU-Pro 87.8% / GPQA 88.4%:阿里官方公告,经腾讯新闻、搜狐等多家媒体转载
- DeepSeek V4 SuperCLUE 70.98 分:腾讯新闻转载 SuperCLUE 官方测评
- ReLE 评测:非线智能开源评测项目(github.com/jeinlee1991/chinese-llm-benchmark)
- MiniMax M2.7 ReLE 67.7%:非线智能 ReLE 评测实测(CSDN 转载)
2.4 Token 效率
| 模型 | ClawEval 每轨迹 Token 消耗 | AA 评测输出 Token 消耗 | 说明 |
|---|---|---|---|
| MiMo-V2.5-Pro | ~70,000 | ~92M | Token 效率最优 |
| Kimi K2.6 | — | ~170M | 比 MiMo 多消耗 ~85% |
| GLM-5.1 | — | ~110M | 比 MiMo 多消耗 ~20% |
| MiniMax M2.7 | — | — | 官方宣称推理效率极高(100+ TPS),但无独立 Token 消耗对比数据 |
数据来源:
- MiMo ClawEval Token 消耗:VentureBeat、dayahimour.org、Superculture 三个独立来源交叉确认
- AA 评测 Token 消耗:人人都是产品经理测评报告引用 Artificial Analysis 独立实测
三、API 定价对比
| 模型 | 输入价格(/百万 tokens) | 输出价格(/百万 tokens) | 备注 |
|---|---|---|---|
| MiMo-V2.5-Pro | 2(1M 内) | 6(1M 内) | 小米官方定价 |
| DeepSeek V4-Pro | ¥12(未命中)/ ¥1.2(命中) | ¥24 | 限时 2.5 折至 2026-05-05 |
| Kimi K2.6 | — | — | 未公开独立定价(通过 Moonshot API) |
| GLM-5.1 | $1.40 | $4.40 | 智谱官方定价 |
| Qwen3.5-Plus | ¥2.50 | ¥10.00 | 阿里云官方定价 |
| MiniMax M2.7 | $0.30 | $1.20 | MiniMax 官方定价,为 Opus 4.6 的 ~1/20 |
数据来源:各厂商官方 API 文档及公告。DeepSeek 定价来自钛媒体和腾讯新闻报道。MiniMax M2.7 定价来自 MiniMax 官网及腾讯云开发者文章。
四、第三方评测平台排名汇总
4.1 Artificial Analysis 智能指数(2026 年 4-5 月)
| 排名 | 模型 | 得分 | 说明 |
|---|---|---|---|
| 全球开源并列第一 | MiMo-V2.5-Pro | — | Agent 指数开源第一 |
| 全球开源第二 | DeepSeek V4-Pro | 52 | 相比 V3.2 提升 10 分 |
| 全球开源前列 | GLM-5 | 50 | 首个达到该分数的开源模型 |
| 全球开源前列 | Kimi K2 Thinking | 67 | 2025 年 11 月数据 |
数据来源:Artificial Analysis 官网,经腾讯新闻、博客园、CSDN 等多家媒体转载。
4.2 Text Arena (LMArena) 全球排名
| 排名 | 模型 | 说明 |
|---|---|---|
| 全球第五 | MiMo-V2-Pro | 雷军官宣,仅次于 Anthropic/OpenAI/Google |
| 全球前列 | Qwen3.5 | LM Arena 盲测中国榜首(全球第五) |
| 文本全球并列第二 | ERNIE-5.0-Preview | 百度文心,中国第一 |
数据来源:Text Arena 官方榜单,小米/阿里/百度官方公告。
4.3 SuperCLUE 中文评测(2026 年 4 月)
| 排名 | 模型 | 得分 |
|---|---|---|
| 国内第一 | DeepSeek-V4-Pro | 70.98 |
| 国内第二 | DeepSeek-V4-Flash | 68.82 |
数据来源:SuperCLUE 官方测评报告,腾讯新闻转载。
五、综合分析
5.1 各模型核心优势
| 模型 | 最强项 | 相对短板 |
|---|---|---|
| MiMo-V2.5-Pro | Agent 长程任务、Token 效率、开源生态 | 通识推理(MMLU-Pro 68.5%)、科学推理(GPQA-Diamond 66.7%) |
| DeepSeek V4-Pro | 通识推理(MMLU-Pro 87.5%)、中文能力(SuperCLUE 第一)、代码竞赛 | Agent 长程能力数据较少 |
| Kimi K2.6 | 编程(SWE-bench Pro 58.6% 开源最高)、Agent 集群(300 并行) | 不开源、上下文窗口仅 128K |
| GLM-5.1 | 编程(SWE-bench Pro 58.4%)、华为芯片训练 | 通识推理数据未公开 |
| Qwen3.5-Plus | 科学推理(GPQA 88.4%)、通识知识(MMLU-Pro 87.8%)、多模态 | Agent 能力数据较少 |
| MiniMax M2.7 | 极致性价比(1.20)、Agent 协作、模型自我进化 | 参数规模较小(230B/10B 激活)、通识推理数据不足、开源协议有限制 |
5.2 关键结论
-
Agent / 长程任务:MiMo-V2.5-Pro 在 Agent 场景有明确的结构性优势,GDPVal-AA 1581 分全球开源第一,且 Token 效率比竞品高 40-60%。这是其最核心的差异化能力。MiniMax M2.7 GDPVal-AA 1495 分紧随其后,且主打 Agent 协作和模型自我进化。
-
编程能力:Kimi K2.6(58.6%)和 GLM-5.1(58.4%)在 SWE-bench Pro 上并列开源最高,MiMo-V2.5-Pro(57.2%)和 MiniMax M2.7(56.22%)略低但差距不大。DeepSeek V4-Pro 在 SWE-bench Verified(80.6%)和 Codeforces(3206)上表现最强。
-
通识推理:Qwen3.5-Plus(MMLU-Pro 87.8%、GPQA 88.4%)和 DeepSeek V4-Pro(MMLU-Pro 87.5%)遥遥领先,MiMo-V2.5-Pro 在此维度有 20+ 个百分点的差距。MiniMax M2.7 在此维度同样数据不足。
-
中文能力:DeepSeek V4-Pro 在 SuperCLUE 中文评测中拿下国内第一(70.98 分),Qwen 系列在中文语义理解上也有传统优势。
-
性价比:MiniMax M2.7 以 1.20 的定价,在 SWE-bench Pro 上取得 56.22%,成本仅为 Claude Opus 4.6 的 ~1/20,是所有模型中价格最低的。MiMo-V2.5-Pro 以 ~3 的定价,在 SWE-bench Pro 上达到 GPT-5.4(57.7%)的 99%,成本仅约 1/5。DeepSeek V4-Pro 限时 2.5 折后价格也极具竞争力。
-
开源生态:MiMo-V2.5-Pro、DeepSeek V4-Pro、GLM-5.1 均采用 MIT 协议完全开源,Qwen3.5-Plus 采用 Apache 2.0,MiniMax M2.7 开源但有商用限制条款,Kimi K2.6 不开源。
5.3 选型建议
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| Agent / 长程自动化任务 | MiMo-V2.5-Pro | Agent 能力全球开源第一,Token 效率最优 |
| Agent 协作 / 多智能体 | MiniMax M2.7 | 原生 Agent Harness 框架,自我进化能力,性价比极高 |
| 代码生成 / 软件工程 | Kimi K2.6 或 GLM-5.1 | SWE-bench Pro 开源最高 |
| 通识问答 / 科学推理 | Qwen3.5-Plus 或 DeepSeek V4-Pro | MMLU-Pro / GPQA 领先 |
| 中文场景 / 国内部署 | DeepSeek V4-Pro | SuperCLUE 第一,国产芯片全栈适配 |
| 多模态理解 | Qwen3.5-Plus | 原生多模态,视觉/音频能力最强 |
| 预算敏感 | MiniMax M2.7 | 输入 $0.30/百万 tokens,为所有模型中最低 |
| 预算敏感(综合能力) | DeepSeek V4-Pro(限时折扣) | 折扣后价格低,综合能力更强 |
六、数据可信度说明
| 可信度 | 数据来源 | 覆盖范围 |
|---|---|---|
| ⭐⭐⭐ 高 | 各厂商官方公告 + 独立第三方平台(Artificial Analysis、Text Arena、SuperCLUE) | 排名、部分 benchmark 分数 |
| ⭐⭐ 中 | 技术评测文章(CSDN、博客园、人人都是产品经理等)引用的 benchmark 数据 | 具体 benchmark 分数 |
| ⭐ 较低 | 单一来源、非官方复现的数据 | 部分对比数据(如 MMLU-Pro 横向对比) |
注意:
- 部分 benchmark(如 MMLU-Pro、GPQA-Diamond)的横向对比数据来自单一测评文章,未在各厂商官方技术报告中找到原始数据,可能存在测试条件不一致的情况。
- 各模型发布时间不同(2026 年 2 月至 4 月),后续版本迭代可能改变排名。
- Benchmark 成绩不等同于实际应用效果,建议根据具体业务场景进行实测。
七、参考来源
- 小米官方公告 - MiMo-V2.5 系列开源(2026-04-28)
- DeepSeek 官方公告 - V4 系列发布(2026-04-24)
- 月之暗面官方公告 - Kimi K2.6 发布(2026-04-21)
- 智谱 AI 官方公告 - GLM-5.1 发布(2026-04-08)
- 阿里云官方公告 - Qwen3.5-Plus 开源(2026-02-16)
- MiniMax 官方公告 - M2.7 发布(2026-03-18)及开源(2026-04-12)
- MiniMax 官网 - M2.7 模型详情页(minimaxi.com/models/text/m27)
- Artificial Analysis 官网 - Intelligence Index 榜单
- Text Arena (LMArena) 官网 - 全球大模型排名
- SuperCLUE 官方测评报告(2026-04)
- DataLearnerAI - DeepSeek-V4-Pro 模型详情页
- 人人都是产品经理 - Xiaomi MiMo 全模型测评报告(2026-05-07)
- CSDN - 国产大模型四强对决横评(2026-05-03)
- CSDN - MiniMax M2.7 技术解析与评测(2026-03-27)
- 钛媒体 - MiniMax M2.7 发布报道(2026-03-18)
- 腾讯云开发者 - MiniMax M2.7 API 完全指南(2026-05-07)
- NVIDIA Model Card - MiniMax M-2.7 技术规格
- 非线智能 ReLE 评测 - 中文大模型 benchmark(github.com/jeinlee1991/chinese-llm-benchmark)