LLM 相关 Benchmark综述报告概述在大语言模型（LLM）的开发与评估中，基准测试（benchmark）发挥

概述

在大语言模型（LLM）的开发与评估中，基准测试（benchmark） 发挥着至关重要的作用。一个合理设计的benchmark可以提供客观、可重复的指标来衡量模型的能力边界和不足，从而指导模型改进方向。随着LLM应用范围的扩大，研究者们构建了各种benchmark体系来评估模型在不同领域和任务上的性能，包括知识问答、推理、代码生成、多模态理解等。总体来说，现有LLM基准可大致分为以下几类：

通用知识与语言理解基准：涵盖广泛主题和任务，用于评估模型的综合知识储备和语言理解能力（例如MMLU、BIG-bench等）。
专项能力基准：侧重评测模型在特定能力上的表现，如推理能力（例如BBH）、数学运算（例如GSM8K）等。
多模态基准：评估模型对图像、文本等多种模态信息联合理解和推理的能力（例如MMBench、ScienceQA等）。
代码生成基准：专门用于测量模型的编程代码生成与理解能力（例如HumanEval、APPS等）。
开放评测框架：提供灵活的评测框架和指标体系，支持定制任务和指标，用于持续评估模型性能（例如OpenAI Evals等）。

下文将按照以上分类，对近期有代表性的LLM基准进行结构化综述，并在适当位置通过表格对比它们的评测范围、难度和应用场景。

近期 LLM 相关 Benchmark

本节介绍近年来用于评测通用LLM能力的一些重要基准，包括MMLU、BIG-bench、HELM、MT-Bench，以及OpenAI的Evals评测框架。

MMLU（Massive Multitask Language Understanding）

MMLU是一个大规模多任务语言理解基准，由Hendrycks等人于2021年提出

arxiv.org

。它包含57个不同领域的任务，涉及从小学数学、美国历史、计算机科学、法律等广泛科目，每个任务以多项选择题形式呈现arxiv.org。MMLU的设计目标是评估模型在预训练过程中获取的广博知识和问题求解能力。由于题目难度高，模型需要具备广泛的世界知识和推理能力才能取得好成绩。例如，最初测试时，大多数模型的平均准确率接近随机水平，而当时最大的GPT-3模型平均准确率也仅比随机水平高出约20个百分点arxiv.org。尽管如此，GPT-3等大型模型在MMLU上仍未达到专家水平，许多领域（如伦理和法律）仍接近随机表现arxiv.org。因此，MMLU被广泛用于衡量LLM在多领域知识问答方面的进展和差距。

BIG-bench（Beyond the Imitation Game Benchmark）

BIG-bench是由多个研究机构共同推出的LLM评测基准，旨在 “超越图灵模仿游戏” 来全面考察模型能力。该基准包含超过204个多样化的任务，题目形式多样，从国际象棋棋局提示到emoji猜测不一而足**

deepgram.com

。BIG-bench追求成为一个长期有效的“综合性基准”，不针对某一单一能力，而是希望作为“统一标准 ”来衡量未来各代LLM的性能deepgram.com。由于收录了大量极具挑战性的任务，BIG-bench对当前模型而言极其困难：发布时没有任何模型能在整体上超越平均人类表现，许多任务远未被模型掌握deepgram.com[confident-ai.com](www.confident-ai.com/blog/llm-be… (few,al)。例如，在23个最难的BIG-bench子任务（BBH，详见后文）上，标准提示下无模型能超过人类平均水平，但通过链式思维（CoT）提示，一些模型在其中17个任务上实现了超越人类的成绩[confident-ai.com](www.confident-ai.com/blog/llm-be… (few,al)。BIG-bench采用定制指标评估不同任务（如选择题用准确率），并提供了一个API便于Few-shot评测和后续多模态扩展deepgram.com。总之，BIG-bench提供了一个极其广泛且困难**的测试场，以探索模型规模与能力的关系，并推动LLM朝更全面、更接近人类认知的方向发展deepgram.com。

HELM（Holistic Evaluation of Language Models）

HELM是斯坦福大学于2022年提出的“整体性语言模型评估”框架

arxiv.org

。与传统benchmark偏重于单一指标不同，HELM强调从场景和指标两方面对模型进行全面透视。它首先对潜在应用场景和评估指标进行了系统的分类，并选取了具有代表性的16个核心场景（如开放问答、对话、总结等）和7种通用指标arxiv.org。这些指标不仅包括准确性，还覆盖了校准、鲁棒性、公平性、偏见、有害性、效率等方面arxiv.org。HELM的方法是在每个场景下尽可能衡量多种指标，以避免只关注准确率而忽视模型其他品质arxiv.org。此外，HELM还设计了针对推理、信息污染等特定能力的定向评测（7个定向评估，涵盖26个特定场景）arxiv.org。在首轮评估中，HELM对当时30个主流的大型语言模型进行了大规模测试，涵盖了总计42个场景（16核心＋26定向），其中21个场景是此前主流评测所未涵盖的[arxiv.org](arxiv.org/abs/2211.09… (e,prompts and completions publicly for)。结果表明，在HELM提出之前，平均每个模型只被评估了约17.9%的核心场景，而通过HELM这一本基准，所有模型在绝大多数场景和指标上都得到了统一测评，实现了密集而标准化的对比[arxiv.org](arxiv.org/abs/2211.09… (e,prompts and completions publicly for)。HELM作为一个“living benchmark”仍在不断更新，旨在提升模型评估的透明度和全面性，被广泛用于学术和工业界对比不同模型的优劣和风险。

MT-Bench（Multi-turn Benchmark for Dialogues）

MT-Bench是由UC Berkeley等提出的一个多轮对话评测基准，专门用于衡量模型在多轮交互场景中的表现。与传统静态问答不同，MT-Bench注重评估LLM在连续对话中保持上下文、一致遵循指令以及推理连贯性的能力

klu.ai

。该基准包含一组精心设计的多轮对话问题，要求模型生成连贯、有信息量且贴切的问题回答。MT-Bench最初依赖人工评审每轮对话的质量，但由于人工成本高且一致性问题，最新的方法改为采用 “模型判官”（LLM-as-a-judge） 机制：用强大的LLM（如GPT-4）作为评价者给出评分klu.ai。研究表明，这种自动评审与人工偏好有超过80%的吻合度klu.ai。在实践中，MT-Bench常与Chatbot Arena平台结合使用，通过Elo评分对模型进行对比排名klu.ai klu.ai。评价指标包括：Chatbot Arena匿名对战的人类偏好得分、MT-Bench GPT-4判分，以及模型在知识问答基准（如MMLU）上的成绩klu.ai。由于问题设置包含复杂的追问和上下文相关对话，MT-Bench能有效区分模型在对话理解、逻辑连贯、指令遵循等方面的差异，已成为评估ChatGPT类对话模型质量的重要工具之一。

OpenAI Evals 与自定义评测框架

OpenAI Evals是OpenAI在2023年开源的一个通用评测框架，旨在方便社区为LLM开发和共享评测基准

github.com

。不同于单一数据集，Evals更像是一个评测工具库和基准注册表：它内置了一系列标准化的评测任务（如简单算术、常识问答等）供用户直接使用，也支持用户上传自定义数据和指标来构建自己的benchmarkgithub.com。OpenAI Evals的出现，反映了评测需求的多样化和定制化趋势。开发者可以利用该框架快速编写评测脚本，将模型接入后自动运行测试并收集结果。这种灵活性使得Evals不仅能评估模型的通用能力，还可以针对特定应用场景（例如医疗问诊、法律问答等）设计专门的评测。OpenAI还鼓励用户将定制的eval贡献到开源注册表中，从而众包出更丰富的评测集合towardsdatascience.com。总体而言，OpenAI Evals提供了一个统一的平台，让模型开发者以低门槛、高可重复性的方式评估模型在各类任务上的表现，对于快速迭代模型和验证版本更新影响非常有价值github.com。

下面的表格对上述通用LLM评测基准的范围、难度和应用场景进行了总结对比：

【表1：近期通用LLM基准一览】

基准名称	评测范围与内容	难度	典型应用场景
MMLU	57个多选任务，涵盖STEM、人文、社会科学等广泛学科arxiv.org；评估模型的广博知识和问题求解能力。	★★★☆ （问题涉及专家知识，模型平均表现低于人类专家）	综合知识问答，多学科知识覆盖arxiv.org。
BIG-bench	204+个多样任务，从常识推理到复杂逻辑推理，题型丰富deepgram.com；强调超出现有模型能力范围的挑战。	★★★★★ （极难，多任务当前LLM总体远不及人类[confident-ai.com](www.confident-ai.com/blog/llm-be… (few,al)）	探索模型能力上限，预测规模提升带来的性能。
HELM	42个场景、7类指标的组合评测arxiv.org；覆盖准确性、鲁棒性、公平性、有害性等多个维度，提供多指标全面评估。	★★★★ （全面综合评测，需在多方面均表现良好）	模型全面体检，比较不同模型优劣和风险。
MT-Bench	多轮对话场景下的开放问答，对模型上下文记忆、连贯性、指令遵循进行打分klu.ai；使用GPT-4等评委自动评分。	★★★★ （对话深入，多轮互动，需强逻辑和上下文衔接）	聊天机器人质量评估，模型对话调优对比。
OpenAI Evals	开放框架，无固定任务集；提供社区贡献的多种评测以及自定义评测能力github.com。	N/A（难度取决于所选或自定义的任务）	开发者快速创建专用评测，持续监控模型性能。

注：“难度”栏以星级粗略表示相对困难程度（★★★★★为最难）。

多模态 Benchmark

多模态benchmark评测模型同时处理文本、图像等不同模态信息的能力。本节介绍近年提出的几个多模态LLM评测基准，包括MMBench、ScienceQA、SEED-Bench和LLaVA-Bench。

MMBench（多模态综合评测）

MMBench是2023年提出的一个视觉-语言模型评测基准，旨在全面衡量大规模视觉语言模型（VLM）的多模态能力

arxiv.org

。它具有以下突出特点：arxiv.org

多能力覆盖

：MMBench精心设计了大量多选题，涵盖视觉理解与推理的各细粒度能力，比以往类似基准在问题数量和能力维度上都有大幅提升

arxiv.org

。题目涉及对象识别、属性判断、关系理解、跨模态推理等，多角度考察模型性能。
中英双语

：每道题同时提供英文和中文版本，模型需要在两种语言下回答。这使得研究者可以在不同行文下

公平比较

模型表现

arxiv.org

。
CircularEval评测策略

：针对自由回答评测困难，MMBench提出了环形评估策略，引入大型语言模型将开放回答归纳为预定义选项，从而对

缺乏严格指令遵循

能力的模型也能给出准确评分

arxiv.org

。这一设计提高了评测的客观性和可重复性。

简言之，MMBench提供了一个系统且客观的多模态能力评测方案，被誉为“全能型选手”测试

arxiv.org

。该基准已集成到开源评测工具VLMEvalKit中，方便社区使用arxiv.org。研究者希望MMBench能帮助发现视觉-语言模型的短板，推动该领域未来进展arxiv.org。

ScienceQA（跨模态科学问答）

ScienceQA是发表于NeurIPS 2022的一个多模态科学问答数据集

scienceqa.github.io

。它收集了约21,208道来自小学和中学科学课程的问题scienceqa.github.io。ScienceQA的独特之处在于：

多模态内容

：题目以

选择题

形式出现，每题可能附带图像和/或文本材料作为背景信息。据统计，约48.7%的问题包含图片，48.2%包含文本，30.8%同时含有图文

scienceqa.github.io

。这些图片包括科学插图、实验图表等，需要模型理解图文结合的信息。
丰富的注解

：大多数问题都提供了对应的

讲解（lecture）和详细解析（explanation）作为答案附注，其中讲解提供相关背景知识，解析给出具体推理过程scienceqa.github.io。有83.9%的题目附有讲解，90.5%附有解析scienceqa.github.io。这是该数据集一大亮点——首次有大规模多模态问答数据集为答案提供了人类思维链路。这些标注可用于评估模型的解释能力

，或者用于对模型进行链式思维（CoT）提示或训练

scienceqa.github.io

scienceqa.github.io

。
领域多样性

：ScienceQA覆盖自然科学、语言科学、社会科学三大领域，共包含26个话题、127类问题和379种技能标签，题目内容和技能分布非常广

scienceqa.github.io

。相比之前的科学QA数据集仅限于文本且规模有限，ScienceQA在规模和多样性上有显著提升

scienceqa.github.io

。

由于同时涉及图文信息和科学知识推理，ScienceQA被用于评测模型的跨模态推理和解释生成能力。例如论文中展示，通过链式思维提示，GPT-3在Few-shot情况下性能提高了1.20%，微调UnifiedQA则提高了3.99%

scienceqa.github.io

。总的来说，ScienceQA为多模态下的科学教育问答提供了一个全面评测基准，在诊断模型的多跳推理和可解释性方面非常有价值。

SEED-Bench（多模态推理能力评测）

SEED-Bench是2023年提出的一个大模型多模态理解评测基准，侧重考察生成式多模态模型的理解能力

arxiv.org

。它具有以下特征：

大规模 & 高覆盖

：SEED-Bench包含约19,000道多项选择题，均由人工精标答案，比此前同类基准规模大约6倍

arxiv.org

。评测维度涵盖了

12个方面

，既包括对静态图像的理解，也包括对视频时序的理解

arxiv.org

。这些维度从全局场景到对象级认知，再到推理分析，全面覆盖视觉理解的层次结构。
自动化题目生成

：作者开发了一套先进的管线自动生成针对特定能力维度的选择题，并结合自动过滤和人工校验，确保题目质量和针对性

arxiv.org

。每道题都有基于人工注释的标准答案，使得评测可以

无需人工或GPT参与

，自动判分

arxiv.org

。这种纯客观题的形式避免了开放问答评估中的不确定性，大大提高了评测效率和一致性。
综合能力评估

：论文使用SEED-Bench对18个多模态模型在12个维度上进行了测试，涵盖空间和时间两方面理解

arxiv.org

。结果揭示了现有多模态LLM的局限性，为未来改进提供了方向

arxiv.org

。此外，作者计划建立并维护一个公开的排行榜，方便社区持续评测和比较模型能力

arxiv.org

。

简而言之，SEED-Bench通过大规模多选题实现了对多模态模型客观、高效、广覆盖的评测

arxiv.org

。它适用于评估模型对图像和视频内容的理解和推理深度，在消除评测主观性方面迈出了重要一步。

LLaVA-Bench（视觉-语言对话评测）

LLaVA-Bench是随着开源多模态对话模型LLaVA推出的一组视觉-语言评测集。它主要包括两个部分：

LLaVA-Bench (COCO) ：早期版本使用COCO等公开数据集的图像及问题，用于LLaVA模型的开发评测。作为开发集，其问题类型以图像描述和简单问答为主，帮助模型在基础视觉描述任务上进行调优。
LLaVA-Bench (In-the-Wild)

：即“LLaVA-Bench野外版”，着重评测模型在真实开放场景下的视觉对话能力

github.com

。该评测收集了24张多样化的图像（包括室内/室外场景、互联网流行梗图(meme)、艺术画作、手绘草图等），每张图像配有详细的人工作品描述和若干针对性的提问，共60个问题

github.com

。这些问题被分为三类：

对话式简答

（如就图像提问简单事实）、

细节描述

（要求模型详尽描述图像内容）、

复杂推理

（基于图像进行深层推理）

github.com

。通过这种设计，可以分别考察模型的

基本理解、描述细节和推理分析

能力。

LLaVA-Bench (In-the-Wild) 的评测方式也很有特色：作者采用GPT-4作为评估者，将模型的回答与参考答案进行比较打分

github.com

。具体做法是将图像标注的真实信息提供给GPT-4让其生成参考答案，然后再让GPT-4分别阅读参考答案和模型答案进行评分github.com。这样评估可在无需人工干预的情况下，对开放式回答进行较为可靠的自动判断。初步结果显示，当时的商业多模态聊天机器人如Bard和Bing-Chat在该基准上的总体得分分别约为77.8和71.5，而开源的LLaVA-13B模型（提升分辨率后）能达到70-73左右的得分，仍有一定差距github.com。

综合来看，LLaVA-Bench提供了一个接近日常视觉场景的开放型对话评测，用于衡量模型对真实世界图像的理解和聊天能力。它有助于对比开源模型与商用多模态模型在日常视觉问答上的性能差异，推动多模态模型在真实应用场景中的改进

github.com

。

下面的表格总结比较了上述多模态基准的评测内容、难度和用途：

【表2：多模态 LLM 基准对比】

基准名称	模态 & 任务范围	难度	应用场景
MMBench	图像+文本多选问答，测试识别、理解、推理等多种视觉-语言能力；中英双语arxiv.org。	★★★★☆ （题量大、覆盖广，细粒度能力要求高）	通用视觉语言模型综合评测，发现模型弱项arxiv.org。
ScienceQA	科学教学问答，多选题附带图文资料；涵盖自然/社会科学多个领域scienceqa.github.io。	★★★☆ （中小学科学问题，需结合图文多跳推理）	教育场景下跨模态问答，评估模型解释能力scienceqa.github.io。
SEED-Bench	静态图像＋视频理解，多选题考查12种理解维度arxiv.org；自动生成题目与标准答案。	★★★★ （全面客观测评，多维理解，含时序推理）	图像/视频多模态模型客观评估，排行榜驱动优化arxiv.org。
LLaVA-Bench	实景图像对话，多轮问答（含简单QA、详细描述、复杂推理）github.com；GPT-4评审答案。	★★★☆ （开放场景，多类型提问，需要对话连贯）	日常视觉问答能力评估，开源模型与商业模型对比。

代码生成 Benchmark

大语言模型在代码生成和编程任务上的能力近年来备受关注，涌现了一系列专门的评测基准来衡量模型的编程水平和代码正确性

arxiv.org

。本节介绍三个常用的代码生成benchmark：HumanEval、MBPP和APPS。

HumanEval（人类评测）

HumanEval是OpenAI在Codex论文中引入的代码生成基准

klu.ai

。它包含164道手工编写的Python编程问题，每题提供函数签名、文档字符串，以及若干单元测试klu.ai。模型需要根据描述生成正确实现，通过全部测试用例。HumanEval的特点包括：

考察功能正确性

：通过单元测试检验模型生成代码的功能是否正确

klu.ai

。评测指标采用

pass@k

，即让模型生成k个候选解答，如果其中至少有一个通过所有测试则算成功

klu.ai

。通常报告pass@1、pass@10等指标衡量一次生成或多次尝试下的成功率。
题目难度适中

：这些问题相当于

简单软件面试题

或LeetCode简单-medium级别，考察基本算法、字符串处理、数学运算等

klu.ai

。它们旨在可被入门程序员解决，平均每题有约7.7个测试用例

klu.ai

。因此HumanEval更多反映模型对

常见编程任务

的掌握，而非高难度算法挑战。
防止数据泄漏

：题目由人工撰写且确保不在主流训练集（如GitHub代码语料）中出现，从而评估模型

生成全新代码

的能力，避免训练记忆作弊

klu.ai

。
广泛使用

：自2021年提出后，HumanEval已成为代码生成模型评测的

标准

之一

klu.ai

。许多模型（Codex, CodeGPT, AlphaCode等）都会报告其HumanEval pass@1成绩，以展示代码合成能力进步。不过也有研究指出HumanEval覆盖的编程概念有限、题目偏简单，不代表模型在代码理解、注释生成等方面的能力

klu.ai

klu.ai

。

总的来说，HumanEval提供了一个轻量但可靠的基准，通过自动化测试定量衡量LLM的代码正确率

klu.ai

。例如，GPT-3.5系列模型在该基准上的pass@1约为50%左右，而GPT-4已提升到接近80-90%，显示顶尖模型已接近甚至超过人类程序员水平klu.ai86.6 Proprietary)。

MBPP（Mostly Basic Programming Problems）

MBPP全称为“几乎基础的编程问题集”，由Google在2021年提出

arxiv.org

。它收集了974道Python编程任务，定位为入门程序员可解决的基本问题arxiv.org。每道题由自然语言描述、参考解答代码和相应的测试案例组成。MBPP的设计初衷是评估模型根据短问题描述合成简短程序的能力arxiv.org。其主要特点有：

规模较大

：相较HumanEval仅百余题，MBPP题量接近千道，覆盖更丰富的编程场景和题材

arxiv.org

。这使得评测结果更具统计可靠性，也方便用于微调训练（论文将其中一些用于few-shot，一些用于fine-tuning）。
难度分级：题目难度从简单到较复杂不等，但总体为“基础”水平（entry-level）。许多题目相当于教材练习或LeetCode Easy级别，考查基本算法和标准库使用。模型在few-shot下对简单题的解决率可以比较高，但较难题仍有明显差距。
评测模式

：通常也采用pass@k等指标或直接计算通过测试用例的比例来评估。由于MBPP提供了官方划分（一些题可用于训练，部分保留测试），可以用来衡量模型

经微调提升

的情况

arxiv.org

。原始论文发现，模型规模越大，未微调时few-shot性能越好；进一步在训练集finetune可以整体提升约10个百分点

arxiv.org

。
用途：MBPP既可用于零样本/小样本评测预训练模型的编程能力，也常用于微调阶段检验模型在看过少量代码数据后的进步。它成为评测代码生成模型（尤其是开源模型如CodeGen, Incoder等）不可或缺的基准之一。

简而言之，MBPP扩展了基础代码生成任务的覆盖面，让研究者能够更细粒度地分析模型对不同类型编程题目的掌握程度

arxiv.org What programming)

。例如，有研究针对MBPP和HumanEval进行了人工难度分析，发现两者问题在编程概念上仍有限，促使开发更复杂的评测来挑战模型arxiv.org What programming)。

APPS（Automated Programming Progress Standard）

APPS是Hendrycks等人于2021年发布的代码生成挑战数据集

arxiv.org

。它收集了来自公开编程竞赛平台（如Codeforces、Kattis等）的1万个编程题目arxiv.org。这些题目的难度跨度很大，从简单的一行代码即可解决的小问题，到需要复杂算法和多个模块的大型项目都有arxiv.org。APPS的评测方式是让模型根据自然语言描述生成完整的Python程序，然后通过隐藏的测试用例验证正确性arxiv.org。APPS的意义在于：

接近真实编程挑战

：与简短的面试题不同，APPS很多问题需要

综合应用算法和数据结构

，有的甚至贴近ACM竞赛难度。它更真实地反映了模型解决“

任意自然语言编程需求

”的能力

arxiv.org

。
难度分布广

：论文将题目划分为简单、中等、困难等级别，统计表明大部分现有模型只能解决其中简单的部分，越难的题正确率越低。当时GPT-Neo等模型在入门题上的测试用例通过率约为20%，说明模型刚开始学会编码

arxiv.org

。而对高难题几乎束手无策，这为未来模型指明了提升空间。
评测严格：APPS采用与程序竞赛类似的评分：必须通过所有测试用例才算成功，部分通过不计分。这种全或无的评估促使模型必须生成高度正确的代码，而不能仅靠接近答案混得分。
激励模型改进：由于APPS覆盖的场景丰富（如数学计算、字符串处理、游戏策略等），研究者可以分析模型在哪些类型问题上出错，从而有针对性地改进。例如后续工作结合APPS发展了更好的prompt策略、引入链式思维或者代码调试机制，以提升复杂题目的解答率。

概括来说，APPS将代码生成基准推进到了竞赛级难度，对LLM提出了更高要求

arxiv.org

。随着GPT-4等更强模型的出现，APPS上的成绩已有较大提升，但困难问题仍是当前模型在编程领域的一大挑战，也是评测类AGI问题求解能力的重要风向标。

下表对比了上述代码生成基准的任务范围、难度和应用：

【表3：代码生成基准对比】

基准	任务范围	难度	用途
HumanEval	164个Python函数问题+测试klu.ai；典型算法和库调用，小规模代码。	★★☆☆☆ （简单到中等难度编程，小错即失败）	零样本代码生成功能测试klu.ai；对比模型升级。
MBPP	974个Python问题arxiv.org；入门级编程任务，描述明确，代码较短。	★★★☆☆ （多数较简单，也有部分稍复杂任务）	Few-shot和Fine-tune代码能力评估arxiv.org。
APPS	10000道竞赛题arxiv.org；涵盖简单题到复杂算法挑战，评测通过隐藏测试。	★★★★★ （含大量高难度竞赛题，综合挑战极大）	通用编程能力衡量arxiv.org；驱动模型优化算法推理。

特定任务 Benchmark

除了以上综合性基准，研究者也构建了一些针对特定能力或任务的benchmark，以深入评估模型在某一方面的极限表现。下面介绍几类典型的特定任务评测及其代表基准。

推理能力评测：BBH 和 GSM8K

BBH（BIG-Bench Hard）是从BIG-bench中精选出的 23个最具挑战性的任务集合，被称为“困难版BIG-Bench”

confident-ai.com

。这些任务都是当初模型表现远低于人类的难题，涵盖逻辑推理、抽象归纳、复杂算术等多种类型syncedreview.com。在BBH发布时，没有任何最先进模型能在这23个任务上达到或超过人类平均水平[confident-ai.com](www.confident-ai.com/blog/llm-be… (few,al)。BBH通常要求模型生成自由格式的答案（不是选择题），并以答案与标准答案完全匹配作为评分标准confident-ai.com。这使得评测更严格，但也带来评估上的挑战，例如模型答案表达稍有不同就可能被算作错误confident-ai.com。有趣的是，Suzgun等人在2022年的研究发现，通过引导模型逐步推理（即链式思维提示），GPT-3系列模型在BBH上有了长足进步，甚至在17个任务上超过了人类平均表现[confident-ai.com](www.confident-ai.com/blog/llm-be… (few,al)。这表明BBH既可以用于检验模型的极限推理能力，也可作为验证新提示或新训练方法有效性的试金石。

GSM8K（Grade School Math 8K）是OpenAI于2021年发布的 数学文字题数据集，包含约8.5K道高质量的小学数学应用题

arxiv.org

。这些题目由人类命题者编写，语言多样且往往需要多步计算和推理才能得出答案arxiv.org。尽管涉及的数学知识本身不超出中小学范围，但由于需要模型理解问题情景并规划解题步骤，GSM8K对现有LLM是一个不小的挑战arxiv.org。论文指出，即使是最大的Transformers模型，当时在GSM8K测试集上的准确率也远未达到理想水平，多步推理是主要障碍arxiv.org。为提升成绩，作者引入了训练一个辅助验证器（Verifier）来判断模型解答是否正确的方案，通过生成多个候选解并由验证器挑选，大幅提高了正确率arxiv.org。在随后的研究中，链式思维(CoT)提示也被证明对GSM8K特别有效，GPT-4等模型已经能在此接近甚至超过90%的准确率，这体现了LLM在数学推理领域的显著进步。不过，GSM8K仍是衡量模型数学问题解决能力的黄金标准之一，经常用于测试模型在算术、多步骤推理上的可靠性。

事实一致性评测：TruthfulQA 和 FEVER

TruthfulQA是一个专门测试语言模型回答是否真实可信的基准

arxiv.org

。它由Lin等人在2021年引入，包含817个五花八门的问题，覆盖健康、法律、金融、政治等38个类别arxiv.org。这些问题精心设计成“陷阱问句”——很多常人会因为误解或迷思而给出错误答案arxiv.org。例如：“闪电从天空打下来，会造成什么影响？”人们可能误以为闪电总是垂直打下。TruthfulQA要求模型避免复述人类普遍存在的谬误，而给出符合事实的正确答案arxiv.org。在初次评测中，最佳模型的答案只有58%是可信的，而人类正确率为94%arxiv.org。令人惊讶的是，规模更大的模型反而倾向于生成更多似是而非的错误答案，因为它们从海量网络文本中学到了人类的偏见和谬误arxiv.org。这一现象与通常模型规模越大性能越好的趋势相反，说明仅靠扩大模型难以提高“诚实度”arxiv.org。TruthfulQA的出现促使研究者思考如何让模型摆脱训练数据中的谬误，例如通过专门的微调或人类反馈来提高模型回答的真实性。目前TruthfulQA已成为评测LLM事实准确性和可靠性的重要参考基准，经常用于检测模型在开放问答、对话场景下是否会产生胡编乱造（hallucination）或传播错误信息。

FEVER（Fact Extraction and VERification）是学术界在2018年提出的大规模事实核查数据集

paperswithcode.com

。尽管早期并非专为LLM设计，但随着大型模型用于长文生成和信息提取，FEVER也被用来评估模型的 事实一致性。FEVER包含185,445条基于维基百科句子的声明，其中一部分是真的（由维基原句改写），一部分是假的（对事实进行了篡改），其余则无法判定huggingface.co paperswithcode.com。模型需要从维基百科中检索证据，并判断每个声明是“Supported”（有支持证据）、“Refuted”（有反驳证据）还是“Not Enough Info”（证据不足）paperswithcode.com。FEVER考验的是模型的检索、理解和判断能力：既要求检索模块找到相关百科句，又要求推理模型正确对比声明与证据。对于生成式LLM而言，FEVER可以用于事后验证：即当模型给出一个陈述后，再用LLM去查证其真伪，从而衡量模型输出的事实准确性。FEVER数据集本身人类已取得接近99%的准确率，顶尖系统也超过了90%，因此更大的意义在于对LLM长文本生成的事实一致性检查。如果一个模型在FEVER上表现不佳，意味着它在知识引用和事实核验上存在不足，可能生成不实内容。近年来，不少工作将FEVER与LLM结合，例如基于检索增强的生成方法，确保模型回答中附带证据来源，以提高可信度。总的来说，FEVER提供了评测模型事实核查能力的标准框架，对于构建可靠、可信的语言模型应用至关重要。

复杂数学评测：MATH 和 AGIEval

MATH数据集是由Hendrycks等人在2021年创建的数学竞赛难题集合

arxiv.org

。它汇总了12,500道来自美国高中数学竞赛（如AMC10/12，AIME等）的题目，每题都附有详细的逐步解答过程arxiv.org。MATH用于评测模型在高级数学问题上的解决能力。与GSM8K的小学题不同，MATH中的问题相当复杂，往往需要一系列深入的推理和公式变换才能得到最终结果，难度相当于人类数学竞赛水平。MATH的重要意义在于提供了一个尚未被模型攻克的高难度基准：论文指出，即便使用非常大的Transformer模型，直接生成答案的准确率依然很低，简单扩大模型规模无法自动解决这些数学问题arxiv.org。这说明数学领域有其特殊性，模型可能需要引入符号推理、新算法等突破才能取得重大进展arxiv.org。为辅助研究，作者还发布了一个包含75k详细解题步骤的辅助训练集PRM800K，期望通过过程监督来提升模型的数学推理能力arxiv.org。目前，MATH上的表现已成为衡量类GPT模型能否达到竞赛级数学智力的标杆：GPT-4相较前代虽有明显提高，但距离100%正确仍有很大差距，不少问题模型依然无从下手。这提示我们，在数学等需要精确逻辑的领域，LLM还有大量工作要做。

AGIEval是2023年提出的一个面向通用人工智能评测的基准，它独辟蹊径地选取了人类社会中的标准化考试题目来测试模型

arxiv.org

。AGIEval收录了包括美国的SAT高考、GRE研究生入学考试、LSAT法学院入学考试，以及中国的高考、司法考试、数学竞赛等真实考试题aclanthology.org arxiv.org。这些考试全面考查人类的语言理解、逻辑推理、数学运算和专业知识。将LLM置于这样的考试情境中，可以评估其是否具备接近人类水平的综合能力arxiv.org。AGIEval的一些结果令人瞩目：GPT-4在SAT数学部分达到95%的正确率，在LSAT和高中数学竞赛中也超过了平均人类水平arxiv.org。同时，在中国高考英语等科目上，GPT-4成绩相当优秀（英语测试正确率92.5%）arxiv.org。这些表明顶尖LLM已经可以在某些人类测试中取得优异甚至超人类的成绩。然而，AGIEval也发现模型在某些需要复杂推理或专业知识的任务上仍表现不足，说明现有模型离真正的“AGI”尚有距离arxiv.org。通过对不同维度（理解、知识、推理、计算）的分析，AGIEval揭示了模型的长处与短板，为增强模型的一般性能力提供了方向arxiv.org。作为一个以人为中心的评测集合，AGIEval让我们更直观地看到模型在实际人类任务中的水平，是衡量模型实用价值和发展潜力的重要补充。

Benchmark 的挑战与局限

尽管各种LLM基准在评估中发挥了巨大作用，但在使用和设计上也存在诸多挑战和局限，需要我们理性看待评测结果：

数据集构造偏差：Benchmark的测评结果高度依赖其数据分布。如果基准数据存在偏差或不均，例如题目侧重某些领域、风格单一，那么模型的高分并不一定泛化到真实应用。很多基准题目是人工精选或编辑的，与模型训练数据可能存在交集，导致数据泄漏风险。比如，一个模型在某benchmark上表现异常突出，可能是“碰巧”见过类似题。为避免偏差，新的评测数据集在构造时需要多样性和独立性，如TruthfulQA故意设计容易出错的问题

arxiv.org

，FEVER通过篡改事实生成声明

huggingface.co

。即便如此，仍无法穷尽所有场景，因此benchmark成绩往往只是模型能力的

下界估计

，不能过度解读为全面实力。
评测指标合理性与稳定性：很多benchmark采用简单指标（如准确率、BLEU、exact match）来打分，虽然客观易算，但未必全面。例如BBH要求输出与标准答案完全一致，这对开放生成任务很苛刻

confident-ai.com

——模型答案若与标准表述略有差异就得0分，可能低估实际能力

confident-ai.com

。在代码评测中，同功能不同写法的代码也会因严格匹配而判失败。另一方面，有的自动指标与人类感受不一致，譬如机器翻译中的BLEU分数有时无法反映译文可读性。为提高稳定性，一些工作引入了

部分匹配

、人工打分或综合指标，但这又带来主观性和一致性问题。因此，评测指标的选择需要权衡

客观可重复

与

全面有效

。近年来，使用强LLM作为评审（如GPT-4评分对话答案

klu.ai

）成为趋势，但依赖模型评分也可能引入新偏差。目前社区在探索更可靠的自动评测方法，例如通过多个不同评价模型投票，以提高稳定性。
人工评测 vs 自动评测：对于开放式对话、长文生成等主观性强的任务，人工评测被视为金标准。但人工评估存在成本高、速度慢、标准不一等问题，不利于快速迭代。自动评测则速度快、可重复，但往往需要借助代理指标或工具，难以完全替代理解力。近期的折中方案是用LLM模拟人类评委（如MT-Bench中GPT-4判分，与人类偏好有80%以上一致

klu.ai

），在一定程度上缓解了人工评价的负担。不过，这种LLM评审可能与被测模型有相似盲点，而且在模型不断改进时，评审标准也需与时俱进。未来可能需要将

人类反馈

更紧密地融入评测回路，比如通过人机对抗生成难例，让评测更具区分度。
Benchmark更新与可扩展性：一个benchmark若长期不变，模型训练和调优就可能出现“针对性优化”甚至记忆试题答案，导致benchmark饱和，失去区分度

arxiv.org What programming)

。近期一些著名基准已出现顶级模型接近满分的情况（如HumanEval被GPT-4刷到>95%

klu.ai86.6 Proprietary)

），这说明该基准对新模型已不足以构成挑战。有鉴于此，社区开始探讨

动态benchmark体系

，即定期引入新任务或更换测试数据，使评测保持难度和新颖。例如BIG-bench的设计者希望其题目“长期有效”

deepgram.com

，但仍需要后继扩充新的Task。另一方面，评测的可扩展性也很重要——随着模型能力扩展到新领域（如多模态、工具使用等），评测体系也需增加相应模块。这就要求benchmark具有开放性和社区协作机制。像

Hugging Face Open LLM Leaderboard

这类社区主导的排行榜正是一个探索，它汇总了多项基准测试，对新模型进行统一评估，并允许开发者提交新模型结果

huggingface.co

。这种开放评测平台能够

持续更新

分数和排名，避免了单次评测的时效性问题，也在一定程度上缓解了“哪个基准分高”的碎片化讨论，将注意力引向

综合表现

huggingface.co

。

未来趋势

展望LLM评测的未来，我们可以预见以下趋势：

更加通用和全面的benchmark设计：未来的基准可能不再局限于单一任务或能力，而是设计为模块化、多维度的评测套件。例如，一个统一基准中涵盖从基础知识问答、推理、创意写作到多模态理解、交互对话等各方面测试，并针对不同子任务给出细分评分。这类似于HELM的思路，将多个场景和指标组合，提供模型“全面体检报告”

arxiv.org

。通用benchmark的难点在于平衡广度和深度，但其优势是可以防止模型在某一指标上过拟合，促使开发者追求整体改进而非单点突破。
动态进化的评测体系：正如前述，由于模型不断进步，静态benchmark迟早会被“学会”。因此一个可能的方向是动态生成挑战：利用模型自身的生成能力或人机协作，不断产出新测试题。比如未来的“LLM-Bench”有望成为一个动态平台，根据模型现有弱点自动生成更难的问题，从而持续逼近模型能力边界。另外，Leaderboard也会越来越动态化、持续化，评测不再是发布论文时的一次性行为，而是模型上线后的持续评价。这在工业界已初见端倪，许多公司对上线的模型进行实时监控评估，根据用户反馈和新测试用例不断调整模型行为。动态评测能够更快暴露模型新出现的偏差和漏洞，保障模型性能稳健提升。
社区驱动的Benchmark和评测生态：随着开源LLM繁荣，评测也将更开放、透明。Hugging Face的Open LLM Leaderboard就是典型例子：它通过开放的评测框架和数据集，让社区共同参与模型的跑分和排名

huggingface.co

。未来，类似的社区评测项目可能会增多，甚至形成

去中心化

的评测网络——不同团队贡献不同类型的测试，模型开发者可以自由选择发布哪些指标，用户也可据此挑选模型。这种生态下，评测标准将更为多元，但也更加

贴近用户需求

。同时，社区共建benchmark有助于减少评价的营销水分，以公开可复现的成绩代替厂商自述，提升评测的公信力

huggingface.co

。
评测与训练融合：最后一个趋势是评测不再只是被动衡量模型，而是主动用于指导模型训练（即Evaluation-driven Training）。比如，通过评测发现模型逻辑推理差，就生成大量逻辑题进行针对性训练；评测指出模型在法律问答不行，就补充法律语料微调。这使得评测和改进成为闭环。此外，一些研究提出让模型自己根据评测反馈来调整回答（例如链式思维中，让模型先自检再输出）。可以预见，将来模型可能内置“自评模块”，在回答前后自行检查可能的错误。评测指标也可能直接作为训练目标函数的一部分（如RLHF中融入多样评测得分）。这些探索都有望缩短模型优化周期，让LLM朝着更加智能可靠的方向发展。

总之，LLM评测领域正快速演进。从早期单一指标的有限测试，发展到如今多维度、多任务并举的评测体系，我们对模型能力的认识也越来越全面。尽管仍有诸多挑战，但借助不断完善的benchmark和评测方法，我们有望更精细地衡量“人工智能”的进步，并据此引领下一个阶段的突破。通过社区协作和动态创新，LLM评测将在未来继续为推动通用人工智能的发展保驾护航。