【AI】数学能力排名前十

2026-04-24 3 阅读3分钟

为什么现在无法给出绝对准确的数学前十？

问题	说明
AIME 2025 已饱和	5 个以上模型刷到 98-100%，失去区分度
AIME 2026 数据稀缺	2026 年 4 月刚启用，独立验证机构（MathArena、Artificial Analysis）尚未完成对所有前沿模型的完整评测
厂商自报 vs 独立验证差距大	例如 xAI 自报 Grok 4 数学 95%，独立评测仅 88-90%
不同评测方方法不同	pass@1 vs consensus vs 多次采样平均，同一模型分数可差 1-3 分

目前最可靠的"纯数学"数据是什么？

MathArena 独立评测（arxiv 论文，2026 年 1 月发布）是当前唯一经过同行评审、方法学透明的多竞赛数学综合评测，它测试了 AIME + HMMT + BRUMO + CMIMC 四个竞赛数学基准，取平均准确率：

排名	模型	MathArena 综合平均	备注
1	GPT-5 (high)	91.25%	OpenAI，闭源
2	Grok 4 Fast (Reasoning)	90.57%	xAI，闭源
3	Grok 4	90.36%	xAI，闭源
4	GPT OSS 120B (high)	89.32%	OpenAI 开源，120B 参数
5	DeepSeek-v3.2 (Think)	88.28%	DeepSeek，开源
6	GPT-5-mini (high)	87.45%	OpenAI，闭源
7	DeepSeek-v3.1 (Think)	86.98%	DeepSeek，开源
8	o4-mini (high)	86.30%	OpenAI，闭源
9	GLM 4.5	83.65%	智谱，开源权重
10	GPT OSS 20B (high)	80.42%	OpenAI 开源，20B 参数

关键限制：

这是 2026 年 1 月的数据，不包含 Gemini 3.1 Pro、GPT-5.4、Kimi K2.6、Claude Opus 4.7 等 4 月发布的新模型
这些新模型的 AIME 2026 分数主要来自 厂商自报 或 单一评测方（如 Vals AI、AwesomeAgents），尚未形成多机构交叉验证

AIME 2026 已知分数（标注可信度）

以下是目前各渠道披露的 AIME 2026 分数，请务必注意数据来源：

模型	AIME 2026	数据来源	可信度
GPT-5.4	~99%	Artificial Analysis / AwesomeAgents 引用 OpenAI 数据	⚠️ 厂商关联，待独立验证
Claude Opus 4.6	~98.2%	AwesomeAgents 引用 Anthropic 数据	⚠️ 厂商关联
Gemini 3.1 Pro	98.1%	Vals AI 独立评测	✅ 独立验证（但仅一家）
Kimi K2.6	96.4%	Moonshot 自报 / AwesomeAgents 引用	⚠️ 厂商自报
GLM-5.1	95.3%	智谱自报 / AwesomeAgents 引用	⚠️ 厂商自报
Qwen 3.5	91.3%	阿里自报 / AwesomeAgents 引用	⚠️ 厂商自报
Claude Opus 4.7	未公布	Anthropic 未披露 AIME 2026	❌ 数据缺失
DeepSeek R1	未公布	无 AIME 2026 数据	❌ 数据缺失
Grok 4.20	未公布	xAI 未披露	❌ 数据缺失

我的结论

目前无法给出"保证真实"的数学能力前十名，因为：

最权威的独立评测（MathArena）停留在 2026 年 1 月，未覆盖 4 月发布的 Gemini 3.1 Pro、GPT-5.4、Kimi K2.6 等模型
AIME 2026 的独立验证覆盖面极窄，仅 Vals AI 等少数机构发布了部分数据，且方法学细节未完全公开
厂商自报数据历史上有 inflated 先例（如 Grok 4 自报 95% vs 独立评测 88-90%）

如果你必须选一个当前最可靠的数学能力指标：

MathArena 综合数学（多竞赛平均）是目前唯一经过学术同行评审的指标，但数据滞后 3 个月
AIME 2026 理论上是最新金标准，但独立验证数据严重不足，任何基于它的"前十排名"都包含大量推测和厂商自报数据