国产大模型横向对比报告(2026 年 Q2)

0 阅读9分钟

国产大模型横向对比报告(2026 年 Q2)

调研日期:2026-05-07 调研方法:综合各厂商官网公告、Artificial Analysis / Text Arena (LMArena) / SuperCLUE 等第三方评测平台、以及多个独立技术评测文章,交叉验证关键数据。


一、模型基本参数

项目MiMo-V2.5-ProDeepSeek V4-ProKimi K2.6GLM-5.1Qwen3.5-PlusMiniMax M2.7
厂商小米深度求索月之暗面智谱 AI阿里云MiniMax 稀宇科技
发布日期2026-04-222026-04-242026-04-212026-04-082026-02-162026-03-18
架构MoEMoEMoEMoEMoEMoE
总参数量1.02T1.6T~1T744B397B230B
激活参数量42B49B~32B~40B17B~10B
上下文窗口1M tokens1M tokens128K tokens202K tokens128K tokens200K tokens
开源协议MITMIT不开源MITApache 2.0开源(有限制商用条款)
模态支持文本(V2.5 为全模态)文本文本文本文本+多模态文本

数据来源:各厂商官方公告及技术报告。Kimi K2.6 总参数和激活参数来自 CSDN 技术解析文章(非官方精确数字),GLM-5.1 参数来自 CSDN 技术报告解读,MiniMax M2.7 参数来自 CSDN 技术解析及 MiniMax 官网。


二、核心评测数据

2.1 Agent / 智能体能力

评测基准MiMo-V2.5-ProDeepSeek V4-ProKimi K2.6GLM-5.1MiniMax M2.7说明
GDPVal-AA (Elo)15811495MiMo 官方;MiniMax 来自官方公告
ClawEval (pass^3)63.8%62.3%MiMo 官方;Kimi 来自官方 benchmark 表
τ³-Bench72.9%MiMo 官方公布
Artificial Analysis 智能指数并列开源第一52 分开源第一(K2 Thinking 67 分)50 分(GLM-5)AA 为独立第三方评测
Text Arena 全球排名Top 5(V2-Pro)雷军官宣,仅次于 Anthropic/OpenAI/Google
Terminal Bench 257.0%MiniMax 官方公布

数据来源

  • MiMo GDPVal-AA/ClawEval/τ³-Bench:小米官方公告,经博客园、OSCHINA 等多家媒体转载
  • DeepSeek V4-Pro AA 指数 52 分:腾讯新闻转载 Artificial Analysis 评测
  • Kimi K2.6 ClawEval 62.3%:月之暗面官方 benchmark 表(CSDN 转载)
  • GLM-5 AA 指数 50 分:博客园技术报告解读(原始来源 Artificial Analysis v4.0)
  • MiniMax M2.7 GDPVal-AA 1495 / Terminal Bench 2 57.0%:MiniMax 官网及钛媒体报道

2.2 编程 / 软件工程能力

评测基准MiMo-V2.5-ProDeepSeek V4-ProKimi K2.6GLM-5.1MiniMax M2.7说明
SWE-bench Verified80.6%76.5%76.8%78%DS V4 来自 DataLearner;GLM/Kimi 来自 CSDN 四强横评;MiniMax 来自 CSDN 技术解析
SWE-bench Pro57.2%58.6%58.4%56.22%MiMo/Kimi/GLM 来源同上;MiniMax 来自官方公告及 NVIDIA Model Card
VIBE-Pro55.6%MiniMax 官方公布
HumanEval pass@190.8%DS V4 来自 CSDN 深度解析
Codeforces 评分3206DS V4 超过 GPT-5.4 (3168)
Claude Code 评测45.3/113GLM-5.1 达到 Opus 4.6 的 94.6%

数据来源

  • SWE-bench Pro 各模型数据:MiMo 官方公告(经 Binance/NS3.AI 核实)、Kimi 官方发布、GLM 来自 Galaxy.ai 和 Apiyi 评测报告
  • DeepSeek V4-Pro SWE-bench Verified 80.6%:DataLearnerAI 模型详情页
  • SWE-bench Verified 横向对比(GLM 76.8%/Kimi 76.5%):CSDN 四强横评文章
  • MiniMax M2.7 SWE-bench Pro 56.22% / Verified 78% / VIBE-Pro 55.6%:MiniMax 官网、NVIDIA Model Card、钛媒体报道

2.3 通用知识与推理

评测基准MiMo-V2.5-ProDeepSeek V4-ProKimi K2.6GLM-5.1Qwen3.5-PlusMiniMax M2.7
MMLU-Pro68.5%87.5%87.8%
GPQA-Diamond66.7%~72%88.4%
SuperCLUE 综合70.98 分(国内第一)
ReLE 评测总分71.4%71.7%67.7%

数据来源

  • MiMo MMLU-Pro 68.5% / GPQA-Diamond 66.7%:人人都是产品经理测评报告(标注来源为官方数据)
  • DeepSeek V4-Pro MMLU-Pro 87.5%:CSDN 深度解析(引用官方技术报告)
  • DeepSeek V4-Pro GPQA ~72 分:CSDN 深度解析
  • Qwen3.5-Plus MMLU-Pro 87.8% / GPQA 88.4%:阿里官方公告,经腾讯新闻、搜狐等多家媒体转载
  • DeepSeek V4 SuperCLUE 70.98 分:腾讯新闻转载 SuperCLUE 官方测评
  • ReLE 评测:非线智能开源评测项目(github.com/jeinlee1991/chinese-llm-benchmark)
  • MiniMax M2.7 ReLE 67.7%:非线智能 ReLE 评测实测(CSDN 转载)

2.4 Token 效率

模型ClawEval 每轨迹 Token 消耗AA 评测输出 Token 消耗说明
MiMo-V2.5-Pro~70,000~92MToken 效率最优
Kimi K2.6~170M比 MiMo 多消耗 ~85%
GLM-5.1~110M比 MiMo 多消耗 ~20%
MiniMax M2.7官方宣称推理效率极高(100+ TPS),但无独立 Token 消耗对比数据

数据来源

  • MiMo ClawEval Token 消耗:VentureBeat、dayahimour.org、Superculture 三个独立来源交叉确认
  • AA 评测 Token 消耗:人人都是产品经理测评报告引用 Artificial Analysis 独立实测

三、API 定价对比

模型输入价格(/百万 tokens)输出价格(/百万 tokens)备注
MiMo-V2.5-Pro1256K内)/1(256K 内)/ 2(1M 内)3256K内)/3(256K 内)/ 6(1M 内)小米官方定价
DeepSeek V4-Pro¥12(未命中)/ ¥1.2(命中)¥24限时 2.5 折至 2026-05-05
Kimi K2.6未公开独立定价(通过 Moonshot API)
GLM-5.1$1.40$4.40智谱官方定价
Qwen3.5-Plus¥2.50¥10.00阿里云官方定价
MiniMax M2.7$0.30$1.20MiniMax 官方定价,为 Opus 4.6 的 ~1/20

数据来源:各厂商官方 API 文档及公告。DeepSeek 定价来自钛媒体和腾讯新闻报道。MiniMax M2.7 定价来自 MiniMax 官网及腾讯云开发者文章。


四、第三方评测平台排名汇总

4.1 Artificial Analysis 智能指数(2026 年 4-5 月)

排名模型得分说明
全球开源并列第一MiMo-V2.5-ProAgent 指数开源第一
全球开源第二DeepSeek V4-Pro52相比 V3.2 提升 10 分
全球开源前列GLM-550首个达到该分数的开源模型
全球开源前列Kimi K2 Thinking672025 年 11 月数据

数据来源:Artificial Analysis 官网,经腾讯新闻、博客园、CSDN 等多家媒体转载。

4.2 Text Arena (LMArena) 全球排名

排名模型说明
全球第五MiMo-V2-Pro雷军官宣,仅次于 Anthropic/OpenAI/Google
全球前列Qwen3.5LM Arena 盲测中国榜首(全球第五)
文本全球并列第二ERNIE-5.0-Preview百度文心,中国第一

数据来源:Text Arena 官方榜单,小米/阿里/百度官方公告。

4.3 SuperCLUE 中文评测(2026 年 4 月)

排名模型得分
国内第一DeepSeek-V4-Pro70.98
国内第二DeepSeek-V4-Flash68.82

数据来源:SuperCLUE 官方测评报告,腾讯新闻转载。


五、综合分析

5.1 各模型核心优势

模型最强项相对短板
MiMo-V2.5-ProAgent 长程任务、Token 效率、开源生态通识推理(MMLU-Pro 68.5%)、科学推理(GPQA-Diamond 66.7%)
DeepSeek V4-Pro通识推理(MMLU-Pro 87.5%)、中文能力(SuperCLUE 第一)、代码竞赛Agent 长程能力数据较少
Kimi K2.6编程(SWE-bench Pro 58.6% 开源最高)、Agent 集群(300 并行)不开源、上下文窗口仅 128K
GLM-5.1编程(SWE-bench Pro 58.4%)、华为芯片训练通识推理数据未公开
Qwen3.5-Plus科学推理(GPQA 88.4%)、通识知识(MMLU-Pro 87.8%)、多模态Agent 能力数据较少
MiniMax M2.7极致性价比(0.30/0.30/1.20)、Agent 协作、模型自我进化参数规模较小(230B/10B 激活)、通识推理数据不足、开源协议有限制

5.2 关键结论

  1. Agent / 长程任务:MiMo-V2.5-Pro 在 Agent 场景有明确的结构性优势,GDPVal-AA 1581 分全球开源第一,且 Token 效率比竞品高 40-60%。这是其最核心的差异化能力。MiniMax M2.7 GDPVal-AA 1495 分紧随其后,且主打 Agent 协作和模型自我进化。

  2. 编程能力:Kimi K2.6(58.6%)和 GLM-5.1(58.4%)在 SWE-bench Pro 上并列开源最高,MiMo-V2.5-Pro(57.2%)和 MiniMax M2.7(56.22%)略低但差距不大。DeepSeek V4-Pro 在 SWE-bench Verified(80.6%)和 Codeforces(3206)上表现最强。

  3. 通识推理:Qwen3.5-Plus(MMLU-Pro 87.8%、GPQA 88.4%)和 DeepSeek V4-Pro(MMLU-Pro 87.5%)遥遥领先,MiMo-V2.5-Pro 在此维度有 20+ 个百分点的差距。MiniMax M2.7 在此维度同样数据不足。

  4. 中文能力:DeepSeek V4-Pro 在 SuperCLUE 中文评测中拿下国内第一(70.98 分),Qwen 系列在中文语义理解上也有传统优势。

  5. 性价比:MiniMax M2.7 以 0.30/0.30/1.20 的定价,在 SWE-bench Pro 上取得 56.22%,成本仅为 Claude Opus 4.6 的 ~1/20,是所有模型中价格最低的。MiMo-V2.5-Pro 以 ~1/1/3 的定价,在 SWE-bench Pro 上达到 GPT-5.4(57.7%)的 99%,成本仅约 1/5。DeepSeek V4-Pro 限时 2.5 折后价格也极具竞争力。

  6. 开源生态:MiMo-V2.5-Pro、DeepSeek V4-Pro、GLM-5.1 均采用 MIT 协议完全开源,Qwen3.5-Plus 采用 Apache 2.0,MiniMax M2.7 开源但有商用限制条款,Kimi K2.6 不开源。

5.3 选型建议

场景推荐模型理由
Agent / 长程自动化任务MiMo-V2.5-ProAgent 能力全球开源第一,Token 效率最优
Agent 协作 / 多智能体MiniMax M2.7原生 Agent Harness 框架,自我进化能力,性价比极高
代码生成 / 软件工程Kimi K2.6 或 GLM-5.1SWE-bench Pro 开源最高
通识问答 / 科学推理Qwen3.5-Plus 或 DeepSeek V4-ProMMLU-Pro / GPQA 领先
中文场景 / 国内部署DeepSeek V4-ProSuperCLUE 第一,国产芯片全栈适配
多模态理解Qwen3.5-Plus原生多模态,视觉/音频能力最强
预算敏感MiniMax M2.7输入 $0.30/百万 tokens,为所有模型中最低
预算敏感(综合能力)DeepSeek V4-Pro(限时折扣)折扣后价格低,综合能力更强

六、数据可信度说明

可信度数据来源覆盖范围
⭐⭐⭐ 高各厂商官方公告 + 独立第三方平台(Artificial Analysis、Text Arena、SuperCLUE)排名、部分 benchmark 分数
⭐⭐ 中技术评测文章(CSDN、博客园、人人都是产品经理等)引用的 benchmark 数据具体 benchmark 分数
⭐ 较低单一来源、非官方复现的数据部分对比数据(如 MMLU-Pro 横向对比)

注意

  • 部分 benchmark(如 MMLU-Pro、GPQA-Diamond)的横向对比数据来自单一测评文章,未在各厂商官方技术报告中找到原始数据,可能存在测试条件不一致的情况。
  • 各模型发布时间不同(2026 年 2 月至 4 月),后续版本迭代可能改变排名。
  • Benchmark 成绩不等同于实际应用效果,建议根据具体业务场景进行实测。

七、参考来源

  1. 小米官方公告 - MiMo-V2.5 系列开源(2026-04-28)
  2. DeepSeek 官方公告 - V4 系列发布(2026-04-24)
  3. 月之暗面官方公告 - Kimi K2.6 发布(2026-04-21)
  4. 智谱 AI 官方公告 - GLM-5.1 发布(2026-04-08)
  5. 阿里云官方公告 - Qwen3.5-Plus 开源(2026-02-16)
  6. MiniMax 官方公告 - M2.7 发布(2026-03-18)及开源(2026-04-12)
  7. MiniMax 官网 - M2.7 模型详情页(minimaxi.com/models/text/m27)
  8. Artificial Analysis 官网 - Intelligence Index 榜单
  9. Text Arena (LMArena) 官网 - 全球大模型排名
  10. SuperCLUE 官方测评报告(2026-04)
  11. DataLearnerAI - DeepSeek-V4-Pro 模型详情页
  12. 人人都是产品经理 - Xiaomi MiMo 全模型测评报告(2026-05-07)
  13. CSDN - 国产大模型四强对决横评(2026-05-03)
  14. CSDN - MiniMax M2.7 技术解析与评测(2026-03-27)
  15. 钛媒体 - MiniMax M2.7 发布报道(2026-03-18)
  16. 腾讯云开发者 - MiniMax M2.7 API 完全指南(2026-05-07)
  17. NVIDIA Model Card - MiniMax M-2.7 技术规格
  18. 非线智能 ReLE 评测 - 中文大模型 benchmark(github.com/jeinlee1991/chinese-llm-benchmark)