大模型评测数据集：FLORES-101发布方： Facebook AI Research 发布时间： 2021-01-0

发布方：

Facebook AI Research

发布时间：

2021-01-01

简介：

FLORES 评估基准由从英语维基百科中提取的 3001 个句子组成，涵盖各种不同的主题和领域。这些句子已由专业翻译人员通过严格控制的过程翻译成 101 种语言。生成的数据集可以更好地评估低资源语言的长尾模型质量，包括评估多对多多语言翻译系统，因为所有翻译都是多语言对齐的。通过公开发布如此高质量和高覆盖率的数据集，我们希望促进机器翻译社区及其他领域的进步。论文：低资源和多语言机器翻译的 FLORES-101 评估基准

下载地址：

github.com/facebookres…

论文地址：

arxiv.org/pdf/2106.03…

HuggingFace

huggingface.co/datasets/gs…

The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation

FLORES-101评估基准用于低资源和多语言机器翻译

摘要

阻碍低资源和多语言机器翻译进展的最大挑战之一是缺乏良好的评估基准。当前的评估基准要么缺乏对低资源语言的良好覆盖，要么只考虑受限域，要么质量低下，因为它们是使用半自动程序构建的。在这项工作中，我们介绍了 FLORES-101 评估基准，该基准由从英文维基百科中提取的 3001 个句子组成，涵盖了各种不同的主题和领域。这些句子已由专业翻译人员通过精心控制的流程翻译成 101 种语言。生成的数据集可以更好地评估低资源语言长尾上的模型质量，包括评估多对多多语言翻译系统，因为所有翻译都是多语言一致的。通过公开发布这样一个高质量和高覆盖率的数据集，我们希望促进机器翻译社区及其他领域的进步。

1、引言

目前，关于低资源语言的基准测试很少。这些语言对低资源语言的覆盖率通常非常低。我们提出了 FLORES-101 基准测试，由从英文维基百科采样的 3001 个句子组成，并被专业翻译成 101 种语言。利用这个数据集，我们做出了多项贡献。首先，我们为社区提供了一个高质量的基准测试，与任何其他现有数据集相比，该基准测试的主题范围和低资源语言的覆盖范围要大得多。其次，FLORES-101 适用于多对多评估，这意味着它可以对 10,100 个语言对进行无缝评估。这样就可以评估流行的多语言 MT 系统，以及评估与区域相关的语言对，例如西班牙语 - 艾马拉语和越南泰语。第三，我们彻底记录了我们遵循的注释过程，帮助社区建立有关如何构建 MT 数据集的机构知识。第四，我们不仅发布句子及其翻译，还发布丰富的元数据，以支持其他类型的评估和任务，例如文档级翻译、多模态翻译和文本分类。第五，我们提出了一个基于句段标记化的 BLEU 指标，它可以在一个统一且可扩展的框架中评估集合中的所有语言。最后，我们公开发布实验中使用的数据和基线，以促进低资源机器翻译和相关领域的研究。

2、相关工作

机器翻译的一个主要挑战是缺乏评估基准，尤其是当该领域将重点转移到资源匮乏的语言时。最近的许多工作都集中在创建训练语料库上和模型的开发，但评估对于能够评估和提高翻译质量至关重要。

迄今为止，可用于评估目的的最大并行数据资源是 OPUS ，它本身就是公开可用的并行数据集的集合。虽然 OPUS 的语言覆盖范围是迄今为止最大的，尤其是英语之间的语言，但它由手动翻译和挖掘的数据混合而成，这导致了种类繁多的数据集和领域，质量水平参差不齐。例如，OPUS 包含来自人类翻译的来自 Ubuntu 等操作系统手册的并行数据，或来自宗教文件的并行数据，如耶和华见证人杂志和圣经。这些最近也被扩展到包括更多语言。OPUS 还包含各种其他自动对齐的数据集，例如各种版本的 TED 演讲，这些演讲通常质量较低。同样，OPUS 包含通过自动过滤和对齐方法生成的大型并行数据集，例如 WikiMatrix、ccMatrix、ccAligned和 ParaCrawl，其中包含嘈杂的翻译。虽然这些可以用于训练，但由于自动对齐，它们显然不适合用于评估目的。

3、数据集构建

FLORES-101 的构建旨在实现几个目标：

（i）能够评估多对多多语言模型，这意味着评估从任何语言到任何其他语言的翻译，包括非常长尾的语言;

（ii）支持机器翻译以外的其他类型的评估，例如文档级翻译、多模态翻译、多语言分类等;

（iii）最重要的是，建立一个高质量的评估基准。

3.1 句子来源

我们选择从英文维基百科获取所有句子，同时考虑一系列广泛的主题，无论读者的母语如何，这些主题都可能引起普遍的兴趣。特别是，我们从 Wikinews2 收集了三分之一的句子，这是国际新闻文章的集合，三分之一来自 Wikijunior3，这是适合出生到 12 岁儿童的适龄非小说类书籍的集合，第三次来自 WikiVoyage4，这是一本包含有关旅行贴士文章的旅行指南，全球各地的食物和目的地。通过用一百多种语言翻译同一组英语句子，我们可以评估多语言 MT，但唯一需要注意的是，非英语的源句子是由人工翻译产生的。虽然翻译（或过于直译或笨拙的翻译）已知特质（Zhang 和 Toral，2019 年），但我们推测，在评估资源匮乏语言的模型时，这些影响相当微不足道，因为当前的 MT 系统会产生许多严重的错误。我们相信，多对多评估的好处，它支持测量传统上被忽视的地区相关对，如科萨-祖鲁语、越南泰语和西班牙语-艾马拉语，在很大程度上超过了评估翻译的风险。

3.2 Pilot实验

3.2.1 提供者和工作流

翻译和质量保证工作流程。尽管拥有可靠的翻译 LSP，但我们需要确保每次翻译都符合基准测试要求的最高质量水平。因此，我们将工作流程分为两部分：由初始 LSP 执行的翻译（包括编辑）和由独立 LSP 执行的质量保证（QA）。在 QA 流程之后，翻译可能需要重新翻译或进行最低限度的编辑以提高其质量。在这里，我们探讨了需要重新翻译时的最佳工作流程。假设有两个翻译 LSP（A 和 B）和一个单独的 QA LSP C，我们可以有两个可能的工作流程：（i） A-C-B，我们可以让 B 重新翻译由 C 标记的由 A 生成的翻译;（ii） A-C-A 另一种更简单的工作流程是让同一个 LSP 同时处理给定语言的翻译和重新翻译，并让每个翻译 LSP 处理一半的语言。

3.2.2 自动翻译质量

已实施的检查。我们实施了几项检查，以确保第一轮翻译的质量可接受：（i）语言识别，（ii）检查翻译是否是源句子的副本;（iii）检查翻译的长度是否明显不同，（iv）根据语言模型检查翻译流畅度，（v）并检查翻译是否是公开可用的翻译引擎生成的翻译的副本。在所有检查中，我们发现（v）是最重要的问题，尽管制定了禁止使用翻译引擎的明确指导方针。这很重要，因为我们希望我们的翻译尽可能公正。依赖来自在线引擎的逐字翻译或译后编辑翻译会带来误导，并且在使用基于参考的自动指标进行比较时会给他们带来不公平的优势。

3.3 翻译评估

我们如何知道翻译是否足够好，可以纳入 FLORES-101 中？我们又如何知道一种语言的翻译何时完成？在总结产生翻译的工作流程之前，我们简要讨论一下如何衡量翻译质量。我们通过翻译质量得分来评估翻译质量，每种语言在 0 到 100 的范围内进行计算。翻译质量得分是根据评估语言服务提供商识别出的错误数量确定的。以下错误会被检查：语法、标点、拼写、大小写、信息的添加或遗漏、误译、不自然的翻译、未翻译的文本和语域。每个错误还与一个严重程度级别相关联，分为轻微、主要和严重。根据对这些不同错误类型的统计，确定最终的总分。我们鼓励评估人员特别关注不自然的翻译错误。根据我们的试点实验，我们将可接受的翻译质量得分设定为 90%。

整体翻译工作流程如图 2 所示。对于每种语言，所有源语句都被发送到特定的翻译语言服务提供商（LSP）。一旦句子被翻译，数据就会被发送给该语言服务提供商内部的不同译员进行编辑，然后进入自动化质量控制步骤。如前所述，这个特定的工作流程中增加了一个额外的验证步骤，即将翻译后的数据与商业引擎的翻译进行比较。如果任何一项检查失败，语言服务提供商必须重新翻译，直到所有验证都通过。之后，翻译被发送到一个评估语言服务提供商，该提供商进行质量评估，在句子和语言层面提供翻译质量得分和建设性的语言反馈。如果得分低于可接受的阈值，翻译连同评估报告将被送回翻译语言服务提供商进行重新翻译。如果初始得分低于另一个特定阈值（与良好的翻译质量相关），重新翻译的译文将再次由人工进行评估。

4、一目了然

4.1 与现有基准的比较

4.2 FLORES-101中的句子

4.3 FLORES-101中的语言

表 4 中总结了 FLORES-101 中的所有 101 种语言及其文字和语系。我们注意到语言分类是一项复杂的任务，存在不同的分类层次。我们选择了一个合理详细程度的语系，即足够精细，使得语言可以与其他一些语言归为一组，但又不至于精细到每种语言都自成一组。总体而言，我们选择的语言覆盖了全球很大比例的人口，具有多种不同的文字和语系。尽管在研究界被认为是低资源语言，但这些语言中的大多数都有数百万人使用。

4.4 翻译质量

5、指标

5.1 动机

多年来虽然已经提出了许多指标，但分析仅涵盖了少数低资源语言。此外，尽管自动指标取得了进展，但在报告结果时的常见做法是使用 BLEU（Papineni 等人，2002）。不幸的是，直接使用 BLEU 并不理想，因为它依赖于 n 元组重叠，而这在很大程度上取决于所使用的特定标记化方法，即更积极地进行标记化可能会人为地提高分数，使得难以比较已报告的结果。

5.2 BLEU

我们使用单语数据训练了一个具有 256,000 个标记的 SentencePiece （SPM）分词器。来自所有 FLORES-101 语言。SPM 是一个根据训练数据学习子词单元的系统，不需要分词化。该逻辑不依赖于语言，因为系统将所有句子视为 Unicode 序列。鉴于大量的多语言数据和大量的语言，这本质上提供了一个通用的分词器，可以对任何语言进行操作。

5.3 实验和分析

6、评估 FLORES-101 的基线

6.1 数据分割

FLORES-101 分为三个部分：dev、devtest 和 test。除非另有说明，否则我们将报告 FLORES-101 开发部分的结果。dev 集旨在用于超参数优化。devtest 旨在用于开发阶段的测试目的。测试集不会发布，但将通过公开可用的评估服务器提供，而 dev 和 devtest 可公开下载9。通过评估服务器，测试集可用于各种评估活动，例如 WMT 2021 大规模多语言任务10。保持测试集仅通过评估服务器可用的主要动机是保证模型的等效评估并减少对测试集的过度拟合。此外，由于数据集是多对多的，如果源句子被释放，目标句子也会被释放。

6.2 基线

M2M-124

OPUS-100

Models open-sourced by Masakhane

大模型评测数据集：FLORES-101

摘要