FACTS基准套件:系统性评估大语言模型事实性的新方法

4 阅读5分钟

FACTS基准套件:系统性评估大语言模型的事实性

大语言模型正日益成为跨多种使用场景的主要信息交付来源,因此确保其回复的事实准确性至关重要。为了持续改进这一行业性挑战上的表现,我们必须更好地理解模型在哪些使用场景中难以提供准确回复,并更有效地衡量模型在这些领域的事实性表现。

今日发布的FACTS基准套件

今日,我们与Kaggle合作推出FACTS基准套件。该套件基于我们之前开发的FACTS Grounding Benchmark,扩展了三个新的事实性基准,包括:

  • 参数化基准:衡量模型在事实性问答用例中准确访问其内部知识的能力。
  • 搜索基准:测试模型利用搜索作为工具来检索信息并正确综合信息的能力。
  • 多模态基准:测试模型基于输入图像以事实正确的方式回答提示的能力。

同时,我们更新了原始的FACTS基准,推出了基准-v2,这是一个扩展的基准测试,用于评估模型在给定提示的上下文中提供有根据的回答的能力。

每个基准都经过精心设计,总计提供了3513个示例,并于今日公开发布。与之前的发布类似,我们遵循行业标准做法,保留一部分评估集作为私有集。FACTS基准套件评分(或称FACTS评分)的计算方式是在四个基准测试中,对公共集和私有集取平均准确率。Kaggle将负责管理FACTS基准套件,包括持有私有测试集、在基准上测试领先的LLMs,并将结果托管在公共排行榜上。关于FACTS评估方法的更多细节可在技术报告中找到。

基准测试概览

参数化基准

FACTS参数化基准评估模型在无需外部工具(如网络搜索)帮助的情况下准确回答事实性问题的能力。该基准中的所有问题都是“琐事风格”的问题,源于用户兴趣,可以通过维基百科(LLM预训练的标准来源)来回答。最终基准包括一个1052项的公共集和一个1052项的私有集。

[分布图:上下文领域分布(左图)和答案类型分布(右图),占参数化基准问题总数的百分比。]

来自公共集的一个典型提示会要求模型回答一个关于小众主题的简单问题,例如:“谁在《The Rockford Files》主题曲中演奏口琴?”

搜索基准

相比之下,FACTS搜索基准评估模型使用网络搜索工具来回答问题的能力。该基准旨在对即使能访问网络的LLMs也具有挑战性,通常需要顺序检索多个事实来回答单个查询。相同的网络搜索工具将提供给所有模型使用,确保在隔离测试模型能力时,不受自定义网页检索设置等因素的干扰。FACTS搜索基准包含一个890项的公共集和一个994项的私有集。

[分布图:上下文领域分布(左图)和用户请求的任务类型分布(右图),占搜索基准提示总数的百分比。]

来自公共集的以下示例被包含在内,因为它需要从多个网页检索信息:“在1960年夏季奥运会上击败Vazik Kazarian的英国拳击手的出生年份、在同一届奥运会上参加男子轻中量级比赛的摩洛哥拳击手的出生年份,以及参加了1960年和1964年两届夏季奥运会的丹麦拳击手的出生年份,这三个年份的总和是多少?”

多模态基准

FACTS多模态基准评估模型根据基于图像的问题生成事实准确文本的能力,这是现代多模态系统的一项关键能力。

该任务需要整合视觉理解能力(即准确解释并关联来自视觉输入的信息),并利用其内部或“参数化”的世界知识。评估框架旨在确保回答既正确又提供了所有必要信息。该基准包含一个711项的公共集和一个811项的私有集。

[分布图:图像来源分布(左图)和问题类别分布(右图),占多模态基准的一部分。]

例如,以下来自多模态基准公共集的图片附带了提示:“这个动物属于哪个属?”

[图片:一张沙漠自然主义者拍摄的Racta apella图片,采用CC BY 4.0许可。]

评估结果

我们评估了领先的LLMs在FACTS基准套件上的表现,该套件包含了更新后的FACTS基准-v2。

下表列出了15个领先的模型及其总体FACTS得分(随后是其在四个独立基准——、多模态、参数化和搜索——上的得分细分)。

[表格:展示15个领先模型的总体FACTS得分及各分项得分的表格。]

Gemini 3 Pro在整体表现上领先,FACTS评分为68.8%。特别是,我们看到从Gemini 2.5 Pro到Gemini 3 Pro在搜索和参数化部分有显著改进,在FACTS搜索上的错误率降低了55%,在FACTS参数化上降低了35%。总体而言,FACTS多模态得分最低。所有被评估模型的总体准确率都低于70%,表明未来还有相当大的进步空间。

除了FACTS基准套件,Gemini在事实性方面的改进也反映在另一个事实性基准SimpleQA Verified上,从Gemini 2.5 Pro的54.5%准确率提升到Gemini 3 Pro的72.1%。SimpleQA Verified测试LLMs在简短回答上的参数化知识。

展望未来

虽然LLM事实性仍是一个持续研究的领域,但FACTS基准套件和Gemini 3 Pro的结果代表了某中心长期致力于使信息普遍可访问和有用的承诺。我们希望这项工作能鼓励对LLM事实性进行更深入的研究,从而为依赖它们的人们带来更好、更准确的模型和产品。