最强 LLM 评测基准全景图:一文看懂 GPT-5、Claude-4、Grok-4 等 6 大新模型如何「应试」

121 阅读2分钟

📌 文章速览

章节内容
1️⃣ 模型与基准对照表谁用了哪些评测?一眼看全
2️⃣ 高频基准深度解读≥3 个模型共同采用的硬核考题
3️⃣ 实战榜单 & 体验入口在线刷榜 + 盲测竞技场

1️⃣ 模型 × 基准统计矩阵

BenchmarkGPT-5Gemini-2.5Grok-4Claude-4DeepSeek-V3.1Qwen3总计
Humanity's Last Exam4
GPQA / GPQA-Diamond6
MMMU / MMMU-Pro3
SWE-bench4
Aider Polyglot6
LiveCodeBench4
AIME6
HMMT3

✅ 表示该模型在官方发布时明确引用此基准。


2️⃣ 高频基准深度解读(≥3 次出现)

🎓 Humanity's Last Exam(HLE)

  • 定位:“闭卷学术评测的终极考验”
  • 题库:2 500 题,横跨数学、人文、自然科学等数十个学科
  • 特点:多模态、短答案 & 选择题、谷歌无法秒答
  • 官网lastexam.ai

💎 GPQA-Diamond

  • 定位:自然科学博士级难度,448 题
  • 防作弊:专家验证“Google-proof”
  • 成绩:真·专家 65 %,高技能非专家仅 34 %
  • 论文arXiv:2303.16744

🧠 MMMU

  • 定位:大学水平多学科多模态理解
  • 规模:11.5 K 题,含 30 个学科 183 子领域
  • 题型:图、表、乐谱、化学结构等 30 种图像类型
  • 官网mmmu-benchmark.github.io

🧪 SWE-bench

  • 定位:真实 GitHub issue → pull request 全流程
  • 规模:2 294 个 Python 仓库实例
  • 难点:需跨函数、跨文件推理并运行测试
  • 官网swebench.com

🖥️ Aider Polyglot

  • 定位:终端结对编程能力
  • 任务:225 道 Exercism 练习,支持 C++/Go/Java/JS/Python/Rust
  • 指标:无人工干预一次通过率
  • 排行aider.chat/leaderboard…

⚡ LiveCodeBench

  • 定位:实时抓取 LeetCode/AtCoder/CodeForces 新题
  • 能力域:代码生成、自我修复、执行结果预测
  • 防污染:持续滚动题库
  • 排行livecodebench.github.io

🧮 AIME & HMMT


3️⃣ 综合榜单 & 体验入口

场景推荐榜单备注
通用模型 PKArtificial Analysis多维度跑分,更新及时
盲测用户体验LMSYS Chatbot Arena匿名投票,消除品牌滤镜
代码专项Vellum Code Leaderboard面向生产级代码任务

📎 附录:引用 & 外链