benchmark 数据集 MMLU C-Eval GSM8K MATH HumanEval MBPP BBH CMMLU

MMLU (Massive Multilingual Language Understanding) MMLU 是一个大规模的多语言基准测试，用于评估预训练语言模型在多种语言和文化背景下的知识水平和常识。它包含了来自 57 个领域的 14,416 个问题，涵盖了科学、历史、文化、技术等多个领域，支持 75 种不同的语言。

C-Eval (Crosslingual Evaluation) C-Eval 是一个为评估跨语言预训练模型而设计的基准测试。它包含了多个语言版本的人工编写的问题，旨在测试模型在不同语言中的理解能力。C-Eval 通常包括数学、逻辑、自然科学和社会科学等方面的问题。

GSM8K (Grade School Math 8K) GSM8K 是一个包含 8,000 个数学问题的数据集，这些问题涉及基本的算术运算和简单的实际问题解决。这些问题是从美国小学的数学问题中提取的，旨在评估模型在数学问题解决方面的能力。

MATH (Mathematical Problems) MATH 是一个数学问题解答的数据集，包含了大量的数学题目，旨在评估模型在解决数学问题方面的能力。这些题目覆盖了从基础算术到高等数学的多个难度级别。

HumanEval HumanEval 是一个用于评估代码生成模型的性能的数据集。它包含了 164 个人工编写的编程问题和相应的解决方案，这些问题需要模型生成正确的代码来解决问题。

MBPP (Massive Benchmark for Program Synthesis with Pseudocode) MBPP 是一个大规模的程序合成基准，包含了 1,000 个编程问题和相应的伪代码描述。这些问题旨在测试模型根据伪代码生成有效代码的能力。

BBH (Big Bench Hard) BBH 是 Big Bench 基准测试的一个子集，专注于更难的问题。Big Bench 是一个用于评估大型语言模型在各种任务上的性能的基准测试，包括问答、自然语言推理、情感分析等。

CMMLU (Cross-lingual Massive Multilingual Language Understanding) CMMLU 是 MMLU 的跨语言版本，它将 MMLU 的问题翻译成了多种语言，用于评估模型在跨语言设置下的性能。CMMLU 包含了 75 种语言和 57 个领域的问题，是评估多语言模型跨语言能力的重要资源。