OpenAI 使用过的 LLM Benchmark 分类汇总

234 阅读16分钟

OpenAI 使用过的 LLM Benchmark 分类汇总

以下按类别梳理 OpenAI 曾公开提及或使用的主要大型语言模型(LLM)评测基准,每个基准均给出简介、适用场景和现有排行榜前列模型。

语言模型基准

  • Penn Treebank (PTB) :经典的词级语言模型数据集,由《华尔街日报》文章构成,常用于评估模型的困惑度(perplexity)

    springboard.com

    。适用于测试模型的基本语言建模能力(在无额外上下文下预测下一个单词)。GPT-3 在该基准上零样本评估达到新记录的 20.5 困惑度

    springboard.com

    。目前该数据集上最好的模型是 OpenAI 的 GPT-3(零样本)

    muni-dev.tistory.com

    。GPT-3 相比以往的 LSTM、Transformer-XL 等模型大幅降低困惑度,显示出语言模型随着参数规模扩大会显著提升文本预测能力

    springboard.com

  • WikiText-103:大型维基百科语料语言模型数据集,含约1亿词,评测模型长文本语言建模和上下文记忆能力。适用于测试模型在大规模开放域文本上的困惑度表现。OpenAI 的 GPT-2 在该数据集上曾达到约8.6的测试困惑度(显著优于先前SOTA的18.3)

    cdn.openai.com

    。当前最新的领先模型是 DeepMind 提出的

    RETRO (7.5B)

    ,通过引入检索机制取得了该数据集的最佳结果

    paperswithcode.com

    。这类基准反映模型对大规模常识文本的预测能力,困惑度越低表示语言流畅度越高。

  • LAMBADA:要求根据一段长篇上下文预测最后一个单词的填空任务,重点考察模型长程依赖理解和语境推理能力

    paperswithcode.com

    。适用场景是

    完形填空

    式阅读理解,需要阅读整段才能猜出结尾词。GPT-3 在零样本下达到76%准确率,较此前模型提高8个百分点

    springboard.com

    。此前的状态-of-the-art是 ALBERT 等微调模型约68%准确率;GPT-3 175B Few-Shot 将准确率提升了18%

    springboard.com

    roysubhradip.hashnode.dev

    。最新大型模型 GPT-4 在该任务上取得95.3%的准确率

    anoopsarkar.github.io

    cdn.openai.com

    ,远超之前最大的 PaLM-540B 模型的表现,是该数据集新的纪录保持者。

常识推理基准

  • HellaSwag:常识推理选择题基准,需从给定情境中挑选最合理的后续描述,被用于评估模型对日常情景和常识的推断能力

    confident-ai.com

    。模型需

    理解生活常识和因果

    才能选对结局。GPT-3 Few-Shot 在该数据集达到79.3%准确率,超过了同等规模未微调模型,但仍低于微调多任务模型ALUM的85.6%

    springboard.com

    。GPT-4 大幅提升了表现,达到95.3%的准确率

    cdn.openai.com

    ,显示出接近人类常识推理水平的能力。目前排行榜上

    GPT-4

    居首,其次有Google的

    Flan-PaLM

    等模型(85.6%,微调)

    springboard.com

  • WinoGrande:基于Winograd模式的大规模常识推理基准,测试模型在含有歧义代词的句子中进行指代消解的能力

    cdn.openai.com

    。需要模型具备常识和语境理解来判断代词指代的人或物。GPT-3在Few-Shot设置下约达88%准确率

    ritvik19.medium.com

    ,已经接近专门微调模型水平。GPT-4 达到87.5%

    cdn.openai.com

    并超越之前微调的PaLM模型(85.1%)

    cdn.openai.com

    。当前Leaderboard显示

    GPT-4

    等大模型占据领先,表明大模型凭借规模和少量提示就能解决复杂代词消解,而无需专项微调。

  • PIQA (Physical IQA) :物理常识问答基准,包含日常物理常识问题及两个选择项,考察模型对物理世界常识和直观认知的理解

    springboard.com

    。例如问“如何防止奶酪发霉”这类问题。适用于评估模型对

    日常物理常识

    的掌握。GPT-3 Few-Shot 在测试服务器上 đạt到82.8%的准确率

    springboard.com

    ,优于此前微调模型约79.4%的水平

    springboard.com

    。这说明大模型在物理常识上已接近甚至超过专门训练的模型。最新模型(如GPT-4或Anthropic Claude)预计能进一步提升,但具体排名尚待公开;目前GPT-3 82.8% 已是公开记录中较高的结果

    springboard.com

  • COPA (Choice of Plausible Alternatives) :因果常识推理任务,每个样本给出一个情景和一个问题(要求找原因或结果),以及两个候选句子,让模型选择更合理的一个。适用于评估模型的因果推理和常识。GPT-3 在一拍设置下 đạt到87%的准确率

    paperswithcode.com. 86)

    ,略高于此前微调的RoBERTa大型模型(86.4%)

    paperswithcode.com. 86)

    。COPA数据集很小(仅500题),顶级模型已接近人类表现(人类约95%)。目前排行榜显示

    GPT-3 175B Few-Shot

    等生成模型已与精调模型性能相当,成为该任务的领先者

    paperswithcode.com. 86)

  • StoryCloze (故事结局选择) :给出四句话的故事开头和两个不同的第五句话结局,要求模型选出更合理的故事结局

    springboard.com

    。评测模型的

    日常常识和叙事理解

    。GPT-3 在零样本下取得83.2%准确率,少样本(提供70个示例)提升到87.7%

    springboard.com

    。虽然仍比当时微调的BERT类模型SOTA低约4%(SOTA约91.8%)

    springboard.com

    ,但已大幅超过此前零样本结果约10%

    springboard.com

    。最新大模型有望进一步接近或超过微调SOTA;目前排行榜记录的

    顶尖模型

    包括微调集成的BERT/ALBERT模型(约91-92%)

    springboard.com

    ,GPT-3 Few-Shot以87.7%紧随其后。

开放域问答基准

  • TriviaQA:大规模开放域问答数据集,从维基百科等来源收集问答

    paperswithcode.com. 69.9)

    。模型仅根据问题在自身知识中生成答案,考验

    百科知识储备

    。GPT-3 在

    闭卷

    (不检索)情况下少样本达到71.2%准确率,已匹配甚至超越相同设置下微调模型的表现

    developer.aliyun.com

    。使用检索加强的系统能取得更高成绩,目前排行榜上的最佳模型是 Anthropic 的

    Claude 2

    (Few-Shot 5-shot)

    paperswithcode.com

    和基于检索的大模型如

    RAG 2.0

    ,准确率超过80%。GPT-4 等最新模型若结合检索,预计在该基准上也接近顶尖水平。

  • WebQuestions:谷歌提问集(WebQuestions)开放域问答数据,问题多源自实际用户查询,答案基于Freebase知识库。评估模型直接回答事实性问题的能力。GPT-3 Few-Shot 对该数据集的零样本成绩相对较低,但能通过示例学习显著提高

    developer.aliyun.com

    。当前最好的模型是采用GPT-4并结合程序式思维提示的

    PoG-GPT4

    方法

    paperswithcode.com

    ,刷新了该基准的纪录。传统上,检索+阅读器式系统在WebQuestions上表现最好,但大型模型通过Prompt也逐渐逼近这些系统的水平。

  • Natural Questions (NQ) :谷歌自然问答数据集,问题多为用户在搜索引擎输入的真实查询,标准答案为维基文档片段。适用于评测模型开放域问答和长文档检索能力。GPT-3 在闭卷Few-Shot下达到约29%精确匹配率(在无需检索情况下已相当可观)

    developer.aliyun.com

    。最新的SOTA由 Facebook 的

    Atlas

    (基于T5并结合检索)创造,利用维基百科检索将准确率推进到50%以上

    paperswithcode.com

    。在排行榜上,

    Atlas

    等检索增强模型居前;而GPT-4等大模型若不借助外部知识库,闭卷成绩仍有限,但在Few-Shot下已体现出对大量事实的记忆和概括能力。

阅读理解问答基准

  • RACE:大型阅读理解考试数据集,来源于中国中学生英语考试题,包含中学和高中两个难度的文章及多项选择题

    arxiv.org

    。评估模型的

    文章理解和推理

    能力,需要从给定文章中选择正确选项。GPT-3在Few-Shot条件下表现一般(据报道约45-55%的准确率,明显低于人类和微调模型)

    developer.aliyun.com

    developer.aliyun.com

    。该任务SOTA由ALBERT模型集成创造,准确率约90%

    paperswithcode.com

    ,接近人类水平。当前Leaderboard显示

    ALBERT + 集成

    等预训练+微调模型领先

    paperswithcode.com

    。GPT-4尚未公布在RACE上的成绩,但有望利用其强阅读理解能力缩小与精调模型的差距。

  • CoQA:对话式阅读理解挑战,每个样本是一段文章和一系列上下文关联的问题,模型需要根据文章连续回答多个互相关联的问题

    stanfordnlp.github.io

    。适用于评估模型的

    多轮阅读理解和对话

    能力。GPT-3 在零样本下达到81.5 F1,一/少样本可提升至85.0 F1

    arxiv.org

    。SOTA模型为使用数据增广的

    BERT Large

    单模型,F1约90+

    paperswithcode.com

    。目前排行榜

    冠军

    是微调的BERT变体

    paperswithcode.com

    。GPT-3 虽未超越精调模型,但其在无需专门训练情况下取得85 F1已相当突出

    arxiv.org

    ,展示了大模型对对话阅读理解的掌握。

  • QuAC:情境问答数据集,提供百科篇章和师生对话形式的问题序列,模型需在给定段落中回答信息检索型的问题

    huggingface.co

    。考察模型的

    上下文对话理解

    能力和在多轮提问下保持一致的能力。GPT-3对此类对话阅读理解任务的零样本表现有限(因为需要针对每轮问题找到相关段落信息),一般借助提示也难以匹敌检索式模型。当前SOTA是

    FlowQA

    模型,专门建模对话流程,领先其它方法

    paperswithcode.com

    。FlowQA 单模型在QuAC上取得了最高的F1分数

    paperswithcode.com

    。总体而言,此类需要深入文章检索的任务,大语言模型若无检索机制,表现仍落后于结合信息检索和阅读器的系统。

  • DROP:需要离散推理的阅读理解数据集,题目给出一段文本并提出涉及数字运算或日期比较的问题,模型需从文本中抽取并计算答案

    cdn.openai.com

    。适用于评估

    阅读+算术推理

    综合能力。GPT-3在DROP上的Few-Shot表现(约60-70% F1)远低于精调模型,因为需要多步计算。GPT-4 提升到80.9%的F1

    cdn.openai.com

    ,但仍未超越当前SOTA模型。排行榜上领先的是深度融合推理模型如

    QDGAT

    ,F1约88.4%,能有效结合数值推理

    cdn.openai.com

    。这说明即使最先进的大模型,在需要精确数学推理的阅读任务上仍有差距,需要进一步结合符号推理技巧。

自然语言推理基准

  • RTE (Recognizing Textual Entailment) :二分类文本蕴含任务,判断一句话是否可以从另一句话推断而来。作为自然语言推理(NLI)的经典小型数据集(GLUE/SuperGLUE子集),适合评估模型基础推理和事实判断能力。GPT-3 175B Few-Shot 在RTE仅 đạt到约69%的准确率

    paperswithcode.com

    ,略高于部分大模型零样本表现,但明显低于微调后SOTA(人为和大型微调模型可 đạt到90%以上)。当前排行榜上,顶尖模型(如

    DeBERTa

    等)在RTE上可 đạt约92-93%的准确率(接近人类)。“巨量预训练+少样本”方法在小数据NLI任务上效果有限,GPT-4 预计能有提升但仍难以超越专门微调的模型。

  • ANLI (Adversarial NLI) :由对抗采样获得的自然语言推理数据集,共三轮逐步难度提升的NLI题目,专门难化以挑战模型

    samuelalbanie.com

    。ANLI要求模型应对经过挑选的刁钻样本,对模型推理一致性是巨大考验。OpenAI 团队发现GPT-3在较小模型上几乎是随机水平(~33%),而175B模型虽有提升,但在ANLI第三轮上准确率也仅略高于50%,表明该任务对当时模型仍

    极具挑战

    researchgate.net

    aclanthology.org

    。截至2022年,SOTA模型在ANLI上的准确率也刚刚过50%

    aclanthology.org

    。这意味着即便最新的GPT-4等,在未微调情况下可能也只取得中等成绩。ANLI强调了当前LLM在

    复杂推理和对抗案例

    上的不足,是衡量模型鲁棒性的严苛基准之一。

代码生成基准

  • HumanEval

    :由OpenAI创建的代码生成评测集合,包括164个Python编程题目及对应的单元测试

    paperswithcode.com

    。模型需要根据自然语言的函数描述生成符合要求的Python代码。适用于评估LLM的

    编程合成能力

    。OpenAI 的 Codex (GPT-3 微调版) 在该基准上最早 đạt到超过70%的通过率。GPT-3.5 基础模型大约通过率在48%

    cdn.openai.com

    。最新的 GPT-4 模型在此基准上 đạt到67.0%的通过率

    cdn.openai.com

    (即生成的代码有67%能通过对应测试),略高于此前Codex系列最佳的65.8%

    cdn.openai.com

    。当前Leaderboard显示

    GPT-4

    是该任务的顶级模型之一,在未使用外部工具辅助下生成代码的准确性领先。类似的模型还有谷歌的 PaLM 540B(56.2%)等

    cdn.openai.com

    。HumanEval 已成为衡量代码合成质量的标准指标,大模型在此上的高分意味着接近人类新手程序员的水准

    datacamp.com

(注:还有Google提出的 MBPP、DeepMind的 APPS 等代码基准,但OpenAI 官方资料主要提及和使用了 HumanEval。因此此处侧重 HumanEval。)

综合能力评估基准

  • MMLU (Massive Multi-Task Language Understanding) :由57个学术和专业科目组成的大规模多任务选择题评测集合

    cdn.openai.com

    。涵盖历史、数学、医学、法律等多领域知识,适用于评估模型的

    综合知识和推理

    水平。GPT-3 在英文版MMLU上约70%准确率

    cdn.openai.com

    。GPT-4 在不同行业考试中表现出接近人类的水准,在MMLU上 đạt到86.4%的平均准确率

    [cdn.openai.com](cdn.openai.com/papers/gpt-… external model (incl. benchmark,85.6)

    ,不仅远超先前大型模型Chinchilla (67.6%)和PaLM (68.8%),还超过了有专门调优的Flan-PaLM (75.2%)

    [cdn.openai.com](cdn.openai.com/papers/gpt-… external model (incl. benchmark,85.6)

    。目前MMLU排行榜上

    GPT-4

    保持领先

    cdn.openai.com

    。据最新消息,Google DeepMind 的下代模型 Gemini(推测参数达数万亿)在内部测试中进一步刷新纪录

    cobusgreyling.medium.com

    ,但未公开数据。在多语言版本测试中,GPT-4 在26种语言里有24种超过了英文SOTA

    cdn.openai.com

    。MMLU已成为权威的通才能力指标,反映模型跨领域的知识广度和推理深度。

  • AI2 ARC:Allen AI的科学问答挑战,包含小学至高中科学考试题(提供科学常识选项)

    cdn.openai.com

    。分简单集和挑战集,通常使用挑战集评比。评估模型在

    科学知识和推理

    方面的表现。GPT-3在ARC挑战集few-shot约85%左右

    cdn.openai.com

    。GPT-4 达到96.3%的高准确率

    cdn.openai.com

    ,首次超过大多数人类考生成绩。此前最佳模型是AI2的 ST-MoE 混合专家模型,准确率86.5%

    cdn.openai.com

    。目前ARC排行榜由

    GPT-4

    等大模型占据前列,其显著领先表明大模型已具备理解教材级科学问题并推理作答的能力。

  • BIG-bench (Beyond the Imitation Game) :一个由业界学界众包构建的大型基准集合,涵盖204项多样任务,包括算术、多语言翻译、常识推理、代码理解等

    cdn.openai.com

    。旨在发现模型的能力边界和薄弱点。OpenAI 曾将 BIG-bench 纳入GPT-4预训练集一部分,不慎导致评测泄漏,因而GPT-4技术报告没有报告其结果

    cdn.openai.com

    。BIG-bench 提供

    开放挑战

    :没有单一排行榜,但设有难度较高的子集 “BIG-Bench Hard (BBH)” 专测模型极限

    confident-ai.com

    。目前Google等的超大模型(PaLM, GPT-4 等)在多数BIG-bench任务上已经取得优异成绩,但该基准的价值在于发掘长尾任务——例如算数推理、句子逻辑等——上模型仍未完全解决的问题。由于OpenAI已明确提及该基准(尽管未公布成绩),它体现了LLM社区对模型

    通用智能

    的全面考察。

真确性与安全基准

  • TruthfulQA:一个用于评估模型真实性(truthfulness)的问答基准

    cdn.openai.com

    。包含817道经过精心设计的问题,涉及健康、法律、金融、政治等38个类别,专门测试模型是否会给出看似可信但实际上错误的回答

    confident-ai.com

    。很多问题旨在诱导模型说出人类常见谬误。该基准以模型回答的

    真实率

    为评分。原论文中GPT-3的准确率仅58%,远低于人类基线94%

    confident-ai.com

    ,表明模型经常“胡编”不实信息。InstructGPT(GPT-3经人类反馈微调版)将真实率提升了近一倍

    arxiv.org

    。GPT-4 在TruthfulQA上有所进步,但在零样本时依然经常产生不正确回答

    cdn.openai.com

    。Anthropic的Claude模型也在此基准上评测以改进真实性。当前TruthfulQA的最佳模型在严格评价下仍未超过70%

    confident-ai.com

    。TruthfulQA 强调了大型模型在拒绝诱导、不传播谬误方面的能力,是衡量模型可靠性的关键指标。

  • RealToxicityPrompts (RTP) :由Allen AI提出的有毒内容生成评估基准

    openai.com

    。包含约10万条提示语句(既有毒也有非毒)

    medium.com

    。模型需要在接续这些提示时尽量避免产生仇恨、歧视等有害语言。通过Jigsaw的Perspective API对模型生成结果打分评估毒性倾向

    github.com

    。OpenAI 在对InstructGPT的评估中使用了该基准,发现微调后模型

    毒性降低

    :在相同提示下,InstructGPT产生有毒续写的概率显著小于GPT-3

    openai.com

    。RTP没有传统排行榜,但作为安全评测的重要标准,被OpenAI等用于比较模型在

    有害内容

    方面的改进

    openai.com

    。例如,InstructGPT相较GPT-3模仿用户提示中的不实或有害言论的次数减少了一半以上

    cdn.openai.com

    openai.com

    。总体来看,RealToxicityPrompts有助于衡量模型在

    对抗有毒输出

    上的效果,促使模型朝更安全的方向发展。

参考文献:【33】OpenAI GPT-3技术解读;【4】GPT-4技术报告;【55】PapersWithCode 基准;【47】Confident AI 基准讲解;【44】OpenAI InstructGPT 博客 等。