最强 LLM 评测基准全景图：一文看懂 GPT-5、Claude-4、Grok-4 等 6 大新模型如何「应试」

学习ML还来得及吗

2025-09-01 121 阅读2分钟

📌 文章速览

章节	内容
1️⃣ 模型与基准对照表	谁用了哪些评测？一眼看全
2️⃣ 高频基准深度解读	≥3 个模型共同采用的硬核考题
3️⃣ 实战榜单 & 体验入口	在线刷榜 + 盲测竞技场

1️⃣ 模型 × 基准统计矩阵

Benchmark	GPT-5	Gemini-2.5	Grok-4	Claude-4	DeepSeek-V3.1	Qwen3	总计
Humanity's Last Exam	✅	✅	✅	✅			4
GPQA / GPQA-Diamond	✅	✅	✅	✅	✅	✅	6
MMMU / MMMU-Pro	✅	✅	✅				3
SWE-bench	✅	✅		✅	✅		4
Aider Polyglot	✅	✅	✅	✅	✅	✅	6
LiveCodeBench		✅	✅		✅	✅	4
AIME	✅	✅	✅	✅	✅	✅	6
HMMT	✅		✅		✅		3

✅ 表示该模型在官方发布时明确引用此基准。

2️⃣ 高频基准深度解读（≥3 次出现）

🎓 Humanity's Last Exam（HLE）

定位：“闭卷学术评测的终极考验”
题库：2 500 题，横跨数学、人文、自然科学等数十个学科
特点：多模态、短答案 & 选择题、谷歌无法秒答
官网：lastexam.ai

💎 GPQA-Diamond

定位：自然科学博士级难度，448 题
防作弊：专家验证“Google-proof”
成绩：真·专家 65 %，高技能非专家仅 34 %
论文：arXiv:2303.16744

🧠 MMMU

定位：大学水平多学科多模态理解
规模：11.5 K 题，含 30 个学科 183 子领域
题型：图、表、乐谱、化学结构等 30 种图像类型
官网：mmmu-benchmark.github.io

🧪 SWE-bench

定位：真实 GitHub issue → pull request 全流程
规模：2 294 个 Python 仓库实例
难点：需跨函数、跨文件推理并运行测试
官网：swebench.com

🖥️ Aider Polyglot

定位：终端结对编程能力
任务：225 道 Exercism 练习，支持 C++/Go/Java/JS/Python/Rust
指标：无人工干预一次通过率
排行：aider.chat/leaderboard…

⚡ LiveCodeBench

定位：实时抓取 LeetCode/AtCoder/CodeForces 新题
能力域：代码生成、自我修复、执行结果预测
防污染：持续滚动题库
排行：livecodebench.github.io

🧮 AIME & HMMT

AIME：美国数学邀请赛，官方成绩榜单 artificialanalysis.ai
HMMT：哈佛-麻省理工数学锦标赛，刷题入口 matharena.ai

3️⃣ 综合榜单 & 体验入口

场景	推荐榜单	备注
通用模型 PK	Artificial Analysis	多维度跑分，更新及时
盲测用户体验	LMSYS Chatbot Arena	匿名投票，消除品牌滤镜
代码专项	Vellum Code Leaderboard	面向生产级代码任务

📎 附录：引用 & 外链

官方发布页
- GPT-5：openai.com/index/intro…
- Grok-4：x.ai/news/grok-4
- Claude-4：anthropic.com/news/claude…
- Gemini-2.5：blog.google/.../gemini-…
- Qwen3：qwenlm.github.io/blog/qwen3
- DeepSeek-V3.1：huggingface.co/deepseek-ai…
论文