【AI】数学能力排名前十

3 阅读3分钟

为什么现在无法给出绝对准确的数学前十?

问题说明
AIME 2025 已饱和5 个以上模型刷到 98-100%,失去区分度
AIME 2026 数据稀缺2026 年 4 月刚启用,独立验证机构(MathArena、Artificial Analysis)尚未完成对所有前沿模型的完整评测
厂商自报 vs 独立验证差距大例如 xAI 自报 Grok 4 数学 95%,独立评测仅 88-90%
不同评测方方法不同pass@1 vs consensus vs 多次采样平均,同一模型分数可差 1-3 分

目前最可靠的"纯数学"数据是什么?

MathArena 独立评测(arxiv 论文,2026 年 1 月发布) 是当前唯一经过同行评审、方法学透明的多竞赛数学综合评测,它测试了 AIME + HMMT + BRUMO + CMIMC 四个竞赛数学基准,取平均准确率:

排名模型MathArena 综合平均备注
1GPT-5 (high)91.25%OpenAI,闭源
2Grok 4 Fast (Reasoning)90.57%xAI,闭源
3Grok 490.36%xAI,闭源
4GPT OSS 120B (high)89.32%OpenAI 开源,120B 参数
5DeepSeek-v3.2 (Think)88.28%DeepSeek,开源
6GPT-5-mini (high)87.45%OpenAI,闭源
7DeepSeek-v3.1 (Think)86.98%DeepSeek,开源
8o4-mini (high)86.30%OpenAI,闭源
9GLM 4.583.65%智谱,开源权重
10GPT OSS 20B (high)80.42%OpenAI 开源,20B 参数

关键限制

  • 这是 2026 年 1 月的数据,不包含 Gemini 3.1 Pro、GPT-5.4、Kimi K2.6、Claude Opus 4.7 等 4 月发布的新模型
  • 这些新模型的 AIME 2026 分数主要来自 厂商自报单一评测方(如 Vals AI、AwesomeAgents),尚未形成多机构交叉验证

AIME 2026 已知分数(标注可信度)

以下是目前各渠道披露的 AIME 2026 分数,请务必注意数据来源

模型AIME 2026数据来源可信度
GPT-5.4~99%Artificial Analysis / AwesomeAgents 引用 OpenAI 数据⚠️ 厂商关联,待独立验证
Claude Opus 4.6~98.2%AwesomeAgents 引用 Anthropic 数据⚠️ 厂商关联
Gemini 3.1 Pro98.1%Vals AI 独立评测✅ 独立验证(但仅一家)
Kimi K2.696.4%Moonshot 自报 / AwesomeAgents 引用⚠️ 厂商自报
GLM-5.195.3%智谱自报 / AwesomeAgents 引用⚠️ 厂商自报
Qwen 3.591.3%阿里自报 / AwesomeAgents 引用⚠️ 厂商自报
Claude Opus 4.7未公布Anthropic 未披露 AIME 2026❌ 数据缺失
DeepSeek R1未公布无 AIME 2026 数据❌ 数据缺失
Grok 4.20未公布xAI 未披露❌ 数据缺失

我的结论

目前无法给出"保证真实"的数学能力前十名,因为:

  1. 最权威的独立评测(MathArena)停留在 2026 年 1 月,未覆盖 4 月发布的 Gemini 3.1 Pro、GPT-5.4、Kimi K2.6 等模型
  2. AIME 2026 的独立验证覆盖面极窄,仅 Vals AI 等少数机构发布了部分数据,且方法学细节未完全公开
  3. 厂商自报数据历史上有 inflated 先例(如 Grok 4 自报 95% vs 独立评测 88-90%)

如果你必须选一个当前最可靠的数学能力指标

  • MathArena 综合数学(多竞赛平均)是目前唯一经过学术同行评审的指标,但数据滞后 3 个月
  • AIME 2026 理论上是最新金标准,但独立验证数据严重不足,任何基于它的"前十排名"都包含大量推测和厂商自报数据