国产大模型横向对比报告（2026 年 Q2）国产大模型横向对比报告（2026 年 Q2）MiMo-V2.5-Pro ；D

国产大模型横向对比报告（2026 年 Q2）

调研日期：2026-05-07 调研方法：综合各厂商官网公告、Artificial Analysis / Text Arena (LMArena) / SuperCLUE 等第三方评测平台、以及多个独立技术评测文章，交叉验证关键数据。

一、模型基本参数

项目	MiMo-V2.5-Pro	DeepSeek V4-Pro	Kimi K2.6	GLM-5.1	Qwen3.5-Plus	MiniMax M2.7
厂商	小米	深度求索	月之暗面	智谱 AI	阿里云	MiniMax 稀宇科技
发布日期	2026-04-22	2026-04-24	2026-04-21	2026-04-08	2026-02-16	2026-03-18
架构	MoE	MoE	MoE	MoE	MoE	MoE
总参数量	1.02T	1.6T	~1T	744B	397B	230B
激活参数量	42B	49B	~32B	~40B	17B	~10B
上下文窗口	1M tokens	1M tokens	128K tokens	202K tokens	128K tokens	200K tokens
开源协议	MIT	MIT	不开源	MIT	Apache 2.0	开源（有限制商用条款）
模态支持	文本（V2.5 为全模态）	文本	文本	文本	文本+多模态	文本

数据来源：各厂商官方公告及技术报告。Kimi K2.6 总参数和激活参数来自 CSDN 技术解析文章（非官方精确数字），GLM-5.1 参数来自 CSDN 技术报告解读，MiniMax M2.7 参数来自 CSDN 技术解析及 MiniMax 官网。

二、核心评测数据

2.1 Agent / 智能体能力

评测基准	MiMo-V2.5-Pro	DeepSeek V4-Pro	Kimi K2.6	GLM-5.1	MiniMax M2.7	说明
GDPVal-AA (Elo)	1581	—	—	—	1495	MiMo 官方；MiniMax 来自官方公告
ClawEval (pass^3)	63.8%	—	62.3%	—	—	MiMo 官方；Kimi 来自官方 benchmark 表
τ³-Bench	72.9%	—	—	—	—	MiMo 官方公布
Artificial Analysis 智能指数	并列开源第一	52 分	开源第一（K2 Thinking 67 分）	50 分（GLM-5）	—	AA 为独立第三方评测
Text Arena 全球排名	Top 5（V2-Pro）	—	—	—	—	雷军官宣，仅次于 Anthropic/OpenAI/Google
Terminal Bench 2	—	—	—	—	57.0%	MiniMax 官方公布

数据来源：

MiMo GDPVal-AA/ClawEval/τ³-Bench：小米官方公告，经博客园、OSCHINA 等多家媒体转载

DeepSeek V4-Pro AA 指数 52 分：腾讯新闻转载 Artificial Analysis 评测

Kimi K2.6 ClawEval 62.3%：月之暗面官方 benchmark 表（CSDN 转载）

GLM-5 AA 指数 50 分：博客园技术报告解读（原始来源 Artificial Analysis v4.0）

MiniMax M2.7 GDPVal-AA 1495 / Terminal Bench 2 57.0%：MiniMax 官网及钛媒体报道

2.2 编程 / 软件工程能力

评测基准	MiMo-V2.5-Pro	DeepSeek V4-Pro	Kimi K2.6	GLM-5.1	MiniMax M2.7	说明
SWE-bench Verified	—	80.6%	76.5%	76.8%	78%	DS V4 来自 DataLearner；GLM/Kimi 来自 CSDN 四强横评；MiniMax 来自 CSDN 技术解析
SWE-bench Pro	57.2%	—	58.6%	58.4%	56.22%	MiMo/Kimi/GLM 来源同上；MiniMax 来自官方公告及 NVIDIA Model Card
VIBE-Pro	—	—	—	—	55.6%	MiniMax 官方公布
HumanEval pass@1	—	90.8%	—	—	—	DS V4 来自 CSDN 深度解析
Codeforces 评分	—	3206	—	—	—	DS V4 超过 GPT-5.4 (3168)
Claude Code 评测	—	—	—	45.3/113	—	GLM-5.1 达到 Opus 4.6 的 94.6%

数据来源：

SWE-bench Pro 各模型数据：MiMo 官方公告（经 Binance/NS3.AI 核实）、Kimi 官方发布、GLM 来自 Galaxy.ai 和 Apiyi 评测报告

DeepSeek V4-Pro SWE-bench Verified 80.6%：DataLearnerAI 模型详情页

SWE-bench Verified 横向对比（GLM 76.8%/Kimi 76.5%）：CSDN 四强横评文章

MiniMax M2.7 SWE-bench Pro 56.22% / Verified 78% / VIBE-Pro 55.6%：MiniMax 官网、NVIDIA Model Card、钛媒体报道

2.3 通用知识与推理

评测基准	MiMo-V2.5-Pro	DeepSeek V4-Pro	Kimi K2.6	GLM-5.1	Qwen3.5-Plus	MiniMax M2.7
MMLU-Pro	68.5%	87.5%	—	—	87.8%	—
GPQA-Diamond	66.7%	~72%	—	—	88.4%	—
SuperCLUE 综合	—	70.98 分（国内第一）	—	—	—	—
ReLE 评测总分	71.4%	71.7%	—	—	—	67.7%

数据来源：

MiMo MMLU-Pro 68.5% / GPQA-Diamond 66.7%：人人都是产品经理测评报告（标注来源为官方数据）

DeepSeek V4-Pro MMLU-Pro 87.5%：CSDN 深度解析（引用官方技术报告）

DeepSeek V4-Pro GPQA ~72 分：CSDN 深度解析

Qwen3.5-Plus MMLU-Pro 87.8% / GPQA 88.4%：阿里官方公告，经腾讯新闻、搜狐等多家媒体转载

DeepSeek V4 SuperCLUE 70.98 分：腾讯新闻转载 SuperCLUE 官方测评

ReLE 评测：非线智能开源评测项目（github.com/jeinlee1991/chinese-llm-benchmark）

MiniMax M2.7 ReLE 67.7%：非线智能 ReLE 评测实测（CSDN 转载）

2.4 Token 效率

模型	ClawEval 每轨迹 Token 消耗	AA 评测输出 Token 消耗	说明
MiMo-V2.5-Pro	~70,000	~92M	Token 效率最优
Kimi K2.6	—	~170M	比 MiMo 多消耗 ~85%
GLM-5.1	—	~110M	比 MiMo 多消耗 ~20%
MiniMax M2.7	—	—	官方宣称推理效率极高（100+ TPS），但无独立 Token 消耗对比数据

数据来源：

MiMo ClawEval Token 消耗：VentureBeat、dayahimour.org、Superculture 三个独立来源交叉确认

AA 评测 Token 消耗：人人都是产品经理测评报告引用 Artificial Analysis 独立实测

三、API 定价对比

模型	输入价格（/百万 tokens）	输出价格（/百万 tokens）	备注
MiMo-V2.5-Pro	$1（256K 内）/$ 2（1M 内）	$3（256K 内）/$ 6（1M 内）	小米官方定价
DeepSeek V4-Pro	¥12（未命中）/ ¥1.2（命中）	¥24	限时 2.5 折至 2026-05-05
Kimi K2.6	—	—	未公开独立定价（通过 Moonshot API）
GLM-5.1	$1.40	$4.40	智谱官方定价
Qwen3.5-Plus	¥2.50	¥10.00	阿里云官方定价
MiniMax M2.7	$0.30	$1.20	MiniMax 官方定价，为 Opus 4.6 的 ~1/20

数据来源：各厂商官方 API 文档及公告。DeepSeek 定价来自钛媒体和腾讯新闻报道。MiniMax M2.7 定价来自 MiniMax 官网及腾讯云开发者文章。

四、第三方评测平台排名汇总

4.1 Artificial Analysis 智能指数（2026 年 4-5 月）

排名	模型	得分	说明
全球开源并列第一	MiMo-V2.5-Pro	—	Agent 指数开源第一
全球开源第二	DeepSeek V4-Pro	52	相比 V3.2 提升 10 分
全球开源前列	GLM-5	50	首个达到该分数的开源模型
全球开源前列	Kimi K2 Thinking	67	2025 年 11 月数据

数据来源：Artificial Analysis 官网，经腾讯新闻、博客园、CSDN 等多家媒体转载。

4.2 Text Arena (LMArena) 全球排名

排名	模型	说明
全球第五	MiMo-V2-Pro	雷军官宣，仅次于 Anthropic/OpenAI/Google
全球前列	Qwen3.5	LM Arena 盲测中国榜首（全球第五）
文本全球并列第二	ERNIE-5.0-Preview	百度文心，中国第一

数据来源：Text Arena 官方榜单，小米/阿里/百度官方公告。

4.3 SuperCLUE 中文评测（2026 年 4 月）

排名	模型	得分
国内第一	DeepSeek-V4-Pro	70.98
国内第二	DeepSeek-V4-Flash	68.82

数据来源：SuperCLUE 官方测评报告，腾讯新闻转载。

五、综合分析

5.1 各模型核心优势

模型	最强项	相对短板
MiMo-V2.5-Pro	Agent 长程任务、Token 效率、开源生态	通识推理（MMLU-Pro 68.5%）、科学推理（GPQA-Diamond 66.7%）
DeepSeek V4-Pro	通识推理（MMLU-Pro 87.5%）、中文能力（SuperCLUE 第一）、代码竞赛	Agent 长程能力数据较少
Kimi K2.6	编程（SWE-bench Pro 58.6% 开源最高）、Agent 集群（300 并行）	不开源、上下文窗口仅 128K
GLM-5.1	编程（SWE-bench Pro 58.4%）、华为芯片训练	通识推理数据未公开
Qwen3.5-Plus	科学推理（GPQA 88.4%）、通识知识（MMLU-Pro 87.8%）、多模态	Agent 能力数据较少
MiniMax M2.7	极致性价比（ $0.30/$ 1.20）、Agent 协作、模型自我进化	参数规模较小（230B/10B 激活）、通识推理数据不足、开源协议有限制

5.2 关键结论

Agent / 长程任务：MiMo-V2.5-Pro 在 Agent 场景有明确的结构性优势，GDPVal-AA 1581 分全球开源第一，且 Token 效率比竞品高 40-60%。这是其最核心的差异化能力。MiniMax M2.7 GDPVal-AA 1495 分紧随其后，且主打 Agent 协作和模型自我进化。
编程能力：Kimi K2.6（58.6%）和 GLM-5.1（58.4%）在 SWE-bench Pro 上并列开源最高，MiMo-V2.5-Pro（57.2%）和 MiniMax M2.7（56.22%）略低但差距不大。DeepSeek V4-Pro 在 SWE-bench Verified（80.6%）和 Codeforces（3206）上表现最强。
通识推理：Qwen3.5-Plus（MMLU-Pro 87.8%、GPQA 88.4%）和 DeepSeek V4-Pro（MMLU-Pro 87.5%）遥遥领先，MiMo-V2.5-Pro 在此维度有 20+ 个百分点的差距。MiniMax M2.7 在此维度同样数据不足。
中文能力：DeepSeek V4-Pro 在 SuperCLUE 中文评测中拿下国内第一（70.98 分），Qwen 系列在中文语义理解上也有传统优势。
性价比：MiniMax M2.7 以 $0.30/$ 1.20 的定价，在 SWE-bench Pro 上取得 56.22%，成本仅为 Claude Opus 4.6 的 ~1/20，是所有模型中价格最低的。MiMo-V2.5-Pro 以 ~ $1/$ 3 的定价，在 SWE-bench Pro 上达到 GPT-5.4（57.7%）的 99%，成本仅约 1/5。DeepSeek V4-Pro 限时 2.5 折后价格也极具竞争力。
开源生态：MiMo-V2.5-Pro、DeepSeek V4-Pro、GLM-5.1 均采用 MIT 协议完全开源，Qwen3.5-Plus 采用 Apache 2.0，MiniMax M2.7 开源但有商用限制条款，Kimi K2.6 不开源。

5.3 选型建议

场景	推荐模型	理由
Agent / 长程自动化任务	MiMo-V2.5-Pro	Agent 能力全球开源第一，Token 效率最优
Agent 协作 / 多智能体	MiniMax M2.7	原生 Agent Harness 框架，自我进化能力，性价比极高
代码生成 / 软件工程	Kimi K2.6 或 GLM-5.1	SWE-bench Pro 开源最高
通识问答 / 科学推理	Qwen3.5-Plus 或 DeepSeek V4-Pro	MMLU-Pro / GPQA 领先
中文场景 / 国内部署	DeepSeek V4-Pro	SuperCLUE 第一，国产芯片全栈适配
多模态理解	Qwen3.5-Plus	原生多模态，视觉/音频能力最强
预算敏感	MiniMax M2.7	输入 $0.30/百万 tokens，为所有模型中最低
预算敏感（综合能力）	DeepSeek V4-Pro（限时折扣）	折扣后价格低，综合能力更强

六、数据可信度说明

可信度	数据来源	覆盖范围
⭐⭐⭐ 高	各厂商官方公告 + 独立第三方平台（Artificial Analysis、Text Arena、SuperCLUE）	排名、部分 benchmark 分数
⭐⭐ 中	技术评测文章（CSDN、博客园、人人都是产品经理等）引用的 benchmark 数据	具体 benchmark 分数
⭐ 较低	单一来源、非官方复现的数据	部分对比数据（如 MMLU-Pro 横向对比）

注意：

部分 benchmark（如 MMLU-Pro、GPQA-Diamond）的横向对比数据来自单一测评文章，未在各厂商官方技术报告中找到原始数据，可能存在测试条件不一致的情况。
各模型发布时间不同（2026 年 2 月至 4 月），后续版本迭代可能改变排名。
Benchmark 成绩不等同于实际应用效果，建议根据具体业务场景进行实测。

七、参考来源

小米官方公告 - MiMo-V2.5 系列开源（2026-04-28）
DeepSeek 官方公告 - V4 系列发布（2026-04-24）
月之暗面官方公告 - Kimi K2.6 发布（2026-04-21）
智谱 AI 官方公告 - GLM-5.1 发布（2026-04-08）
阿里云官方公告 - Qwen3.5-Plus 开源（2026-02-16）
MiniMax 官方公告 - M2.7 发布（2026-03-18）及开源（2026-04-12）
MiniMax 官网 - M2.7 模型详情页（minimaxi.com/models/text/m27）
Artificial Analysis 官网 - Intelligence Index 榜单
Text Arena (LMArena) 官网 - 全球大模型排名
SuperCLUE 官方测评报告（2026-04）
DataLearnerAI - DeepSeek-V4-Pro 模型详情页
人人都是产品经理 - Xiaomi MiMo 全模型测评报告（2026-05-07）
CSDN - 国产大模型四强对决横评（2026-05-03）
CSDN - MiniMax M2.7 技术解析与评测（2026-03-27）
钛媒体 - MiniMax M2.7 发布报道（2026-03-18）
腾讯云开发者 - MiniMax M2.7 API 完全指南（2026-05-07）
NVIDIA Model Card - MiniMax M-2.7 技术规格
非线智能 ReLE 评测 - 中文大模型 benchmark（github.com/jeinlee1991/chinese-llm-benchmark）