为什么现在无法给出绝对准确的数学前十?
| 问题 | 说明 |
|---|---|
| AIME 2025 已饱和 | 5 个以上模型刷到 98-100%,失去区分度 |
| AIME 2026 数据稀缺 | 2026 年 4 月刚启用,独立验证机构(MathArena、Artificial Analysis)尚未完成对所有前沿模型的完整评测 |
| 厂商自报 vs 独立验证差距大 | 例如 xAI 自报 Grok 4 数学 95%,独立评测仅 88-90% |
| 不同评测方方法不同 | pass@1 vs consensus vs 多次采样平均,同一模型分数可差 1-3 分 |
目前最可靠的"纯数学"数据是什么?
MathArena 独立评测(arxiv 论文,2026 年 1 月发布) 是当前唯一经过同行评审、方法学透明的多竞赛数学综合评测,它测试了 AIME + HMMT + BRUMO + CMIMC 四个竞赛数学基准,取平均准确率:
| 排名 | 模型 | MathArena 综合平均 | 备注 |
|---|---|---|---|
| 1 | GPT-5 (high) | 91.25% | OpenAI,闭源 |
| 2 | Grok 4 Fast (Reasoning) | 90.57% | xAI,闭源 |
| 3 | Grok 4 | 90.36% | xAI,闭源 |
| 4 | GPT OSS 120B (high) | 89.32% | OpenAI 开源,120B 参数 |
| 5 | DeepSeek-v3.2 (Think) | 88.28% | DeepSeek,开源 |
| 6 | GPT-5-mini (high) | 87.45% | OpenAI,闭源 |
| 7 | DeepSeek-v3.1 (Think) | 86.98% | DeepSeek,开源 |
| 8 | o4-mini (high) | 86.30% | OpenAI,闭源 |
| 9 | GLM 4.5 | 83.65% | 智谱,开源权重 |
| 10 | GPT OSS 20B (high) | 80.42% | OpenAI 开源,20B 参数 |
关键限制:
- 这是 2026 年 1 月的数据,不包含 Gemini 3.1 Pro、GPT-5.4、Kimi K2.6、Claude Opus 4.7 等 4 月发布的新模型
- 这些新模型的 AIME 2026 分数主要来自 厂商自报 或 单一评测方(如 Vals AI、AwesomeAgents),尚未形成多机构交叉验证
AIME 2026 已知分数(标注可信度)
以下是目前各渠道披露的 AIME 2026 分数,请务必注意数据来源:
| 模型 | AIME 2026 | 数据来源 | 可信度 |
|---|---|---|---|
| GPT-5.4 | ~99% | Artificial Analysis / AwesomeAgents 引用 OpenAI 数据 | ⚠️ 厂商关联,待独立验证 |
| Claude Opus 4.6 | ~98.2% | AwesomeAgents 引用 Anthropic 数据 | ⚠️ 厂商关联 |
| Gemini 3.1 Pro | 98.1% | Vals AI 独立评测 | ✅ 独立验证(但仅一家) |
| Kimi K2.6 | 96.4% | Moonshot 自报 / AwesomeAgents 引用 | ⚠️ 厂商自报 |
| GLM-5.1 | 95.3% | 智谱自报 / AwesomeAgents 引用 | ⚠️ 厂商自报 |
| Qwen 3.5 | 91.3% | 阿里自报 / AwesomeAgents 引用 | ⚠️ 厂商自报 |
| Claude Opus 4.7 | 未公布 | Anthropic 未披露 AIME 2026 | ❌ 数据缺失 |
| DeepSeek R1 | 未公布 | 无 AIME 2026 数据 | ❌ 数据缺失 |
| Grok 4.20 | 未公布 | xAI 未披露 | ❌ 数据缺失 |
我的结论
目前无法给出"保证真实"的数学能力前十名,因为:
- 最权威的独立评测(MathArena)停留在 2026 年 1 月,未覆盖 4 月发布的 Gemini 3.1 Pro、GPT-5.4、Kimi K2.6 等模型
- AIME 2026 的独立验证覆盖面极窄,仅 Vals AI 等少数机构发布了部分数据,且方法学细节未完全公开
- 厂商自报数据历史上有 inflated 先例(如 Grok 4 自报 95% vs 独立评测 88-90%)
如果你必须选一个当前最可靠的数学能力指标:
- MathArena 综合数学(多竞赛平均)是目前唯一经过学术同行评审的指标,但数据滞后 3 个月
- AIME 2026 理论上是最新金标准,但独立验证数据严重不足,任何基于它的"前十排名"都包含大量推测和厂商自报数据