评估篇| 大模型评测综述在传统的自然语言任务下，如分类等，经常会用精确率、F1等指标，来评测模型的好坏。随着大模型技术研

在传统的自然语言任务下，如分类等，经常会用精确率、F1等指标，来评测模型的好坏。随着大模型技术研究的快速发展，以往的指标，对于大模型评估显得过于单薄。如何准确地评估大语言模型在不同维度的能力水平，已经成为当前研究的热点问题。为了全面考察大语言模型的有效性，研究人员设计了多种评测任务并创建了对应的数据集，用于对模型性能进行评估与分析。

为更为准确、系统地介绍大模型的评测方法,根据研发方式将大语言模型划分为两种主要类型：

第一类是基础大语言模型，这类模型仅经过预训练，未经任何特定任务的适配；

第二类是微调大语言模型，这类模型在预训练的基础上，针对特定指令或对齐需求进行了微调。

01 基础大语言模型

经过预训练获得的模型。它们通常具备丰富的世界知识与通用的语言能力，是后续研发各类大语言模型及其应用的基础。在评测这类模型时，主要关注其基础能力。典型的能力包括复杂推理、知识使用等。由于这些基础能力可以通过明确定义的任务来进行有效评测，因此基于评测基准的方法已经成为了评估基础大语言模型性能的主要手段。

1、常用评测数据集：在评测基础大语言模型时，研究人员通常会采用一系列经典的评测数据集。这些数据集多以选择题等封闭式问题形式呈现，旨在全面评估、模型的知识利用和推理能力。


评测工作	数据	说明
MMLU	人类考试	是一个综合性的大规模评测数据集，旨在全面评估大语言模型在多个领域中的知识理解和应用能力，包括人文科学、社会科学、自然科学和工程技术等。MMLU 设置了涵盖各种领域知识的 57 种子任务。这些子任务的难度不等，既有基础知识问题，也有高级问题挑战，从而能够全面衡量模型在不同层次上的知识掌握情况。由于涵盖的知识面极为广泛，MMLU 能够有效地检测出模型在哪些领域或知识点上存在不足。例如，在理工学科领域的测试中，模型需要具有出色的数理计算和推理能力；而在社会科学领域的挑战中，模型则需要对于社会现象和理论知识具有深入的理解。
BIG-Bench	人工标注	是一个综合评测体系，旨在从多个维度全面评估大语言模型的能力。BIG-Bench 包含了 204 个任务，广泛涵盖了语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等多个领域，旨在全面反映模型在不同方面的综合能力。
HELM	基准集合	包括了 16 个核心场景和7 类评估指标。每个核心场景都由任务、领域和语言三个维度组成。任务维度指定了该场景下模型需要完成的目标，如信息检索、文本摘要等；领域维度指定了数据所属的类别，如新闻类、图书类；语言维度指定了评测使用的语言，在核心场景中仅包含英文及若干种英文方言。涵盖多种自然语言处理任务，包括问答系统、信息检索、文本摘要、情感分析、有害信息检测等
C-Eval	人类考试	是一个专门为中文大语言模型设计的综合评测体系，旨在为中文语言模型提供一个标准化、多层次的评估体系。C-Eval 的题目设计涵盖了从初中到大学的不同难度级别，包括初中、高中、大学和专业四个层次。同时，题目内容也涉及了众多领域，包括 STEM（科学、技术、工程和数学）、人类学、社会科学等多个领域，从而加强了评估的全面性和深入性。
GSM8K	数学问题	是一个小学数学问题数据集，其中包含 8,500 个高质量问题。这些问题均可通过 2 到 8 步的基本算术运算来进行求解，从而确保其适用于评估数学模型。对于每个问题，数据中都标注了具体的自然语言形式的推理步骤。评估时，可以采用少样本设置或零样本设置，并通过提示引导大语言模型进行逐步思考，从而生成思维链，以提升模型的表现效果。在计算性能指标时，通常以预测答案和标准答案的准确率作为主要评测指标。
MATH	数学竞赛	包含了 12,500 条具有挑战性的数学竞赛问题。这些问题覆盖了众多的数学领域与知识点，从而确保了数据集的多样性和难度。每条问题都配备了详细的解题过程，这些过程为模型提供了解决问题的详细步骤。在 MATH 数据集中，每个问题都有一个 1 到 5 之间的难度标注，数字越大 =表示问题的难度越高，需要更复杂的数学知识和推理能力才能解决。此外，MATH数据集中的问题描述和答案均采用 LaTeX 格式进行表达。在评估过程中，研究人员采用答案准确率作为主要评测指标，通过对比模型输出的答案表达式与参考表达式的等价性来判断答案的正确性。

具体来说，面向知识的评测数据集（如 MMLU和 C-Eval）侧重于评估大语言模型对现实世界知识的理解和应用;面向推理的评测数据集（如 GSM8K 、BBH和 MATH）则更加关注模型在解决复杂推理问题时的表现。此外，一些综合评测体系（如 OpenCompass也尝试将这两类评测任务相结合，从而更全面地评估大语言模型的综合能力。

除上述评测数据集，还有更多其他公开评测数据集:

级别	能力	任务	数据集
基础	语言生成	语言建模	Penn Treebank, WikiText-103, the Pile,LAMBADA
		条件文本生成	WMT'14,16,19,20,21,22,Flores-101,DiaBLa, CNN/DailyMail,XSum, WikiLingua OpenDialKG
		代码合成	APPS,HumanEval,MBPP,CodeContest, MTPB, DS-1000,ODEX
	知识运用	闭卷问答	Natural Questions, ARC, TruthfulQA, Web Questions, TriviaQA,PIQA,LC-quad2.0,GrailQA, KQApro, CWQ. MKQA,ScienceQA
		开卷问答	Natural Questions, OpenBookQA, ARC, TriviaQA, Web Questions, MS MARCO, QASC,SQuAD, WikiMovies
		知识补全	WikiFact, FB15k-237,Freebase, WN18RR, WordNet, LAMA, YAGO3-10,YAGO
	复杂推理	知识推理	CSQA,StrategyQA, HotpotQA,ARC,BoolQ, PIQA,SIQA,HellaSwag,WinoGrande,COPA, OpenBookQA, ScienceQA, proScript, ProPara, ExplaGraphs,ProofWriter, EntailmentBank, ProOntoQA
		符号推理	CoinFlip, ReverseList, LastLetter,Boolean Assignment, Parity,Colored Object,Penguins in a Table, Repeat Copy, Object Counting
		数学推理	MATH, GSM8K, SVAMP, MultiArith,ASDiv, MathQA,AQUA-RAT,MAWPS,DROP, NaturalProofs,PISA,miniF2F,ProofNet
高级	人类对齐	诚实性	TruthfulQA,HaluEval
	人类对齐	无害性	HH-RLHF,Crows-Pairs WinoGender,RealToxicityPrompts
	环境交互	家庭环境	VirtualHome,BEHAVIOR, ALFRED,ALFWorld
		网页环境	WebShop,Mind2Web
		开放世界	MineRL, MineDojo
	工具使用	搜索引擎	HotpotQA, TriviaQA, Natural Questions
		代码编译器	GSM8K,TabMWP,Date Understanding
		计算器	GSM8K, MATH, CARP
		模型API	GPT4Tools,Gorilla
		数据API	WebQSP,MetaQA,WTQ WikiSQL,TabFact, Spider

2、具体评估流程：

2.1 将每个评测任务的具体样本转化为模型可以理解的提示语，引导模型生成相应的结果文本。

2.2 利用人工编写的规则或自动化脚本对生成的结果文本进行解析和处理，以提

取出模型针对每个问题的预测答案。

2.3 将预测答案与真实答案进行对比，并借助准确率等定量指标来评估模型的性能。

值得注意的是，由于基础大语言模型没有经过特定任务的指令微调，其零样本指令遵循能力和下游任务泛化能力可能相对较弱。因此，在少样本设置下进行评估通常更为合适。

02 微调大语言模型

微调大语言模型通常是指针对特定指令或对齐需求进行微调而得到的模型。由于微调大语言模型旨在提升模型在通用能力范围内的表现，包括知识利用与人类对齐等，因此其评测方法也相应地更加多样化。除了传统的基于评测基准的方法外，基于人类评估和基于模型评估的方法也在微调大语言模型的评测中占据重要地位。前面通用的基础大语言模型就是基于评测基准的方法，接下来就不重复介绍了。

1、基于人类的评测。与针对基础大语言模型的自动化评测不同，微调大语言模型的评测更加注重模型在实际应用场景中的表现，如与人类交互的自然度、对齐度等。这类评测任务通常采用开放式指令或对话形式，并邀请人类评估员对模型生成的回复进行质量评估。评估员的评分方法主要有两种：成对比较法和单一评分法。在成对比较法中，评估员从两个不同模型生成的答案中选择更优的一个。例如，Chatbot Arena 项目搭建了一个众包平台，允许用户与两个匿名的聊天大语言模型进行对话，通过根据成对的比较结果来计算不同模型的 Elo 评分。在单一评分法中，评估员则独立地对每个模型的回复进行打分，最后得到每个模型的平均得分。例如，HELM 综合评测体系让评估员对摘要和虚假信息任务进行直接打分。

2、基于模型的评测。考虑到人工评测的成本高昂且耗时较长，一些研究工作使用强大的闭源大语言模型（如 ChatGPT 和 GPT-4）来替代人类评估员，对微调大模型的输出进行自动评分或比较。例如，AlpacaEval 排行榜基于由大语言模型合成的人类需求指令作为评测任务，然后收集待评估大模型的回应，并采用 GPT-4 等大语言模型作为评测员，将待评估大语言模型的输出与参考输出进行成对比较。此外，MT-Bench 项目也通过收集多轮问题来评估大语言模型的能力，并通过引入上下文学习和思维链提示等方法提高了基于大语言模型的评测方法的可靠性。

不同方法都有各自的优缺点，下面将深入地分析每种评测方法的优势与不足。

方法	优势	不足
基于基准的评测	1、使用已有的评测基准对于大语言模型进行性能评估已经成为一种标准性的实践方法。这些评测基准通常包含一系列精心设计的任务，每个任务都对应着充足的测试样本，以确保能够全面而准确地衡量大语言模型的核心能力，如复杂推理、知识利用等。这种评估方法的主要优势在于其高度的自动化和可复用性。 2、自动化的评估过程可以大大减少人工干预的需要，从而提高评估的效率与一致性。 3、可复用性意味着研究人员能够复现之前的实验结果，对比不同模型之间的性能差异，并在预训练阶段实时监控模型的表现，以便及时发现和解决问题。	1、大语言模型对评估设置极为敏感，包括问题的表述方式、提示样本的选择以及答案的解析策略等，这些细微的差别都可能导致评估结果的显著变化。 2、数据污染问题日益严重，随着大量开放数据被用于大语言模型的开发，测试数据中的部分内容可能已在预训练语料中出现过，从而影响评估的准确性和公正性。
基于人工的评测	1、相较于基于基准的评测方法，人工评估在衡量解决实际任务能力方面具有更好的适用性，它能够真实地反映大语言模型在真实应用场景中的性能表现。 2、人工评估还具有高度的灵活性，能够针对性地应对各种复杂多变的任务需求。	1、评估结果可能受到评估者个人偏好、教育程度等主观因素的制约，进而对评估的准确性与一致性产生影响。 2、人工评估往往需耗费大量时间与人力资源，成本高昂且不易扩展。 3、人工评估的不可重复性也增加了对大语言模型性能进行长期追踪与比较的难度。
基于模型的评测	1、基于模型的评测方法旨在降低对于人工参与的依赖程度，从而提升评估的效率与可扩展性。 2、在使用其他大语言模型对待评测文本进行自动化评测，从而能够高效地在开放性任务上对众多大语言模型进行批量评估与比较。 3、部分性能先进的模型还能够给出相应的打分理由，进而增强评估结果的可解释性。	1、位置偏置（即答案呈现顺序）导致大语言模型倾向于给特定位置的答案更高的评分；冗长偏置则是指大语言模型往往更偏好冗长的答案，即使这些答案在质量上并不优于更简短的答案；而自增强偏置则表现为大语言模型倾向于给自己所生成答案更高的评分。 2、它们无法胜任某些高难度任务（如复杂数学推理）的评估工作。

参考:

www.toutiao.com/article/742…

github.com/modelscope/…

www.datalearner.com/ai-models/l…

medium.com/data-scienc…

myscale.com/blog/zh/ult…

huggingface.co/learn/cookb…

更多合集文章请关注我的公众号，一起学习一起进步：

本文使用文章同步助手同步