📌 文章速览
| 章节 | 内容 |
|---|---|
| 1️⃣ 模型与基准对照表 | 谁用了哪些评测?一眼看全 |
| 2️⃣ 高频基准深度解读 | ≥3 个模型共同采用的硬核考题 |
| 3️⃣ 实战榜单 & 体验入口 | 在线刷榜 + 盲测竞技场 |
1️⃣ 模型 × 基准统计矩阵
| Benchmark | GPT-5 | Gemini-2.5 | Grok-4 | Claude-4 | DeepSeek-V3.1 | Qwen3 | 总计 |
|---|---|---|---|---|---|---|---|
| Humanity's Last Exam | ✅ | ✅ | ✅ | ✅ | 4 | ||
| GPQA / GPQA-Diamond | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | 6 |
| MMMU / MMMU-Pro | ✅ | ✅ | ✅ | 3 | |||
| SWE-bench | ✅ | ✅ | ✅ | ✅ | 4 | ||
| Aider Polyglot | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | 6 |
| LiveCodeBench | ✅ | ✅ | ✅ | ✅ | 4 | ||
| AIME | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | 6 |
| HMMT | ✅ | ✅ | ✅ | 3 |
✅ 表示该模型在官方发布时明确引用此基准。
2️⃣ 高频基准深度解读(≥3 次出现)
🎓 Humanity's Last Exam(HLE)
- 定位:“闭卷学术评测的终极考验”
- 题库:2 500 题,横跨数学、人文、自然科学等数十个学科
- 特点:多模态、短答案 & 选择题、谷歌无法秒答
- 官网:lastexam.ai
💎 GPQA-Diamond
- 定位:自然科学博士级难度,448 题
- 防作弊:专家验证“Google-proof”
- 成绩:真·专家 65 %,高技能非专家仅 34 %
- 论文:arXiv:2303.16744
🧠 MMMU
- 定位:大学水平多学科多模态理解
- 规模:11.5 K 题,含 30 个学科 183 子领域
- 题型:图、表、乐谱、化学结构等 30 种图像类型
- 官网:mmmu-benchmark.github.io
🧪 SWE-bench
- 定位:真实 GitHub issue → pull request 全流程
- 规模:2 294 个 Python 仓库实例
- 难点:需跨函数、跨文件推理并运行测试
- 官网:swebench.com
🖥️ Aider Polyglot
- 定位:终端结对编程能力
- 任务:225 道 Exercism 练习,支持 C++/Go/Java/JS/Python/Rust
- 指标:无人工干预一次通过率
- 排行:aider.chat/leaderboard…
⚡ LiveCodeBench
- 定位:实时抓取 LeetCode/AtCoder/CodeForces 新题
- 能力域:代码生成、自我修复、执行结果预测
- 防污染:持续滚动题库
- 排行:livecodebench.github.io
🧮 AIME & HMMT
- AIME:美国数学邀请赛,官方成绩榜单 artificialanalysis.ai
- HMMT:哈佛-麻省理工数学锦标赛,刷题入口 matharena.ai
3️⃣ 综合榜单 & 体验入口
| 场景 | 推荐榜单 | 备注 |
|---|---|---|
| 通用模型 PK | Artificial Analysis | 多维度跑分,更新及时 |
| 盲测用户体验 | LMSYS Chatbot Arena | 匿名投票,消除品牌滤镜 |
| 代码专项 | Vellum Code Leaderboard | 面向生产级代码任务 |
📎 附录:引用 & 外链
- 官方发布页
- GPT-5:openai.com/index/intro…
- Grok-4:x.ai/news/grok-4
- Claude-4:anthropic.com/news/claude…
- Gemini-2.5:blog.google/.../gemini-…
- Qwen3:qwenlm.github.io/blog/qwen3
- DeepSeek-V3.1:huggingface.co/deepseek-ai…
- 论文
- Humanity's Last Exam
- GPQA: A Graduate-Level Google-Proof Q&A Benchmark
- MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
- LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code