多语言ASR？没有什么听不懂，15种语言我全都要摘要：在这篇博文中，我们介绍来自Google的一篇论文《Scaling

摘要：在这篇博文中，我们介绍来自 Google 的一篇论文《Scaling End-to-End Modelsfor Large-Scale Multilingual ASR》，来看看如何构建一个能够识别 15 种语言的多语 ASR 系统。

本文分享自华为云社区《多语言ASR没有什么听不懂，15种语言我全都要》，作者：xiaoye0829。

在这篇博文中，我们介绍来自 Google 的一篇论文《Scaling End-to-EndModels for Large-Scale Multilingual ASR》。建立一个能识别多种语言的 ASR 系统，是十分有挑战的，因为这些语言之间存在着非常大的差异，并且数据量十分不均衡。现有的工作中，我们可以观察到利用有丰富语料的语言，可以帮助只有少量语料的语言的学习，但是这往往也伴随着，有丰富语料的语言的效果会下降。我们在 15 种语言上进行了研究，每种语言的大小从 7.7 千小时到 54.7 千小时，我们发现增大模型的参数量，是解决容量瓶颈的有效方法，我们 500M 参数的模型，已经超过了单语的 baseline 模型，当我们把模型参数进一步增大到 1B 或者 10B 时，我们能获得更大的收益。另外，我们发现大模型不仅在数据利用上更有效，在训练时间上也更有效率，我们的 1B（10 亿）参数的模型达到和 500M 参数的模型相同的准确率，只花了 34%的时间。当模型容量有限时，增加模型的深度，通常比增加模型的宽度要好，更大的 encoder，也往往比更大的 decoder 要好。

多语言 ASR 的关注点通常在于提高低资源（只有少量语料）语言的性能，背后的思想是，利用相似语言的数据，多种语言一起联合优化，以及连续的正向迁移从高资源语言的迁移。在这篇文章中，我们从容量（capacity）的视角来研究下，在多语言的模型中，高资源语言的性能下降问题。

先前的工作探索过 50 到 100 种语言，但是数据集的大小十分有限，最大的数据集仅仅只有 1k 小时的演讲数据。在我们的实验中，每种语言的数据量从 7.7 千小时到 54.7 千小时（如下图，counts 代表语音的条数，hours 代表语音的时长），这使得我们可以有一个高质量的单语模型，那么我们就是要训练一个多语的模型，能够超过每个单语的模型。我们从容量的角度展示了如何去解决这个问题。

随着模型容量上升，我们成功恢复了所有高资源单语模型的性能。我们做了很多对比试验，并发现增加深度通常能取得比增加宽度更好的效果，并且我们发现，encoder 的容量往往与模型的识别效果很相关。我们观察到，在固定的模型容量下，如何分配语言的信息变得不那么重要了。而且，大模型更简单，并且更有效率，需要更少的训练轮次，和更少的 TPU 时间，去达到相似的实验效果。

在本文的多语言 ASR 系统中，使用的是一个基于 attention 的 encoder-decoder 模型。对于 encoder，我们使用 Conformer 架构，包含一个输入映射层，一个相对位置嵌入层，以及一些 conformer 层。第一个 conformer 块，包含 4 个 conformer 层。第二个 conformer 块，包含一个 conformer 层。我们的 decoder 尝试了两种不同的架构，一种是单向的 LSTM，另一种是带有掩码的自注意和跨注意力机制的 Transformer。我们的输出词表大小为一个有 3328 个 token 的表，在这个表中， 3315 个 token 是在训练集中至少出现了 1000 次，剩下的 token 是一些特殊的 token，类似“”“”，和一些占位填充符。词表中的大部分词来自于中文，并且中文由于在训练集中的覆盖面，是唯一一个有 OOV 问题的语言。我们将语言信息也编码成一个 one-hot 向量，作为一个额外的输入。我们在训练的时间，简单地把所有数据放在一起，并且根据数据分布，在每个 batch 里，去进行采样。整个 eocoder-decoder 模型是在网络的输出和真实文字间，用交叉熵进行优化的。

实际上，我们有很多方法，去缩放一个基于 encoder-decoder 的多语言模型，在这篇文章中，我们主要研究下面四种模式的影响：

1. 深度 vs 宽度；

2. encoder vs decoder；

3. 语言相关的模型容量 vs 语言无关的模型容量；

4. 架构 vs 容量。

严格来说，模型容量并不完全等于模型的参数量，比如模型大小。对于有语言依赖的模型内容，推理时的模型容量，要小于训练时候的模型容量，这是因为在推理的时候，只有贡献的参数和对应于特定语言的参数被激活。为了简化本文的讨论，我们关注在训练时的模型容量，并且混用模型大小和容量。缩放模型大小，也会带来很多实际问题，比如模型的并行化支持。

本文的实验，是在来自 9 种语系的 15 种语言上进行的实验。总计 235.4 百万条语音，语音时长共计 364.9 千小时，这些数据采集自谷歌的声学搜索引擎，数据是完全匿名的，并且由标注人员标注成文本。本文使用的数据是之前论文使用的数据的 20 倍。据我们所知，这也是第一篇在这么大规模的数据集上做多语言实验的论文。与之前多语言的工作不同，我们关注在不同高资源语言间的干扰问题。在我们的设定里，我们最小的语言有大约 7.7 千小时的训练数据，大约是之前工作里最大的语言资源的 7 倍。这个规模的数据集又给训练效率带来了挑战。我们的每种语言的测试集，包含大约 3 到 19k 的语音，这些语音是从谷歌语音搜索引擎里面的采样出来的，并且和训练集没有重合。同样地，测试集也是完全匿名和手工转写的。

我们在训练的时候使用了 80 维的 log mel 特征，每帧的窗口大小为 32ms，每两个窗口间有 10ms 的重叠。将连续 3 帧的特征堆叠起来，并做一个下采样，我们能获得 240 维的输入特征，这个特征的采样率为 30ms。一个 16 维的 one-hot 语言向量，被送入到 encoder 中作为额外的输入，SpecAugment 数据增强也被用来增强模型的鲁棒性。整个模型利用 512 个 TPU 核进行训练，除了 10B（100 亿）参数的模型，用了 1024 个 TPU 进行训练，这主要是由于每核 16G 的带宽限制。模型使用同步随机梯度下降进行优化。对于 LSTM 作 decoder 的模型，我们采样 Adam 优化器做优化，对于 Transformer，我们采样 Adafactor 做优化器。transformer 学习率优化策略也被使用，其中最大学习率为 3e-4，warmup 的步数为 10k。

在这一节，我们展示我们在大规模数据集上建立高质量的多语言模型的研究结果，为了简单，我们只用平均 WER 作对比，并且只汇报每种语言的性能。

我们使用 Conformer 作为 encoder 和 LSTM 作为 decoder，来构建单语的 baseline 模型，encoder 包含 17 层 conformer block，每个 conformer 层的模型维度为 512，有 8 个 head 的 attention，conformer 内部卷积模块中，卷积核的大小为 15。decoder 是 LSTM，包含 2 层 640 维的 LSTM，隐藏单元的大小为 2048。每个单语模型的大小为 140M，并被用来预测跟该语言相关的 token。平均的 WER 为 9.29%。每种语言的性能如下图所示，其中英语（US）的 WER 最低，为 4.6%，Marathi（IN）的 WER 最高为 20.2%。拥有更多训练数据的语言，往往有更低的 WER。

为了证明 conformer 作为多语言建模的 encoder 的有效性，我们对比了三种不同 encoder，他们都以 LSTM 作为 decoder。1. LSTM 作为 encoder，包含 8 层 LSTM，每层有 2048 个隐藏单元，和 640 维的输出单元。2. ContextNet 作为 encoder，包含 24 层 contextnet，每层有 640 维的隐藏单元，通道大小为 2。3. Conformer 作为 encoder，包含 17 层 conformer，每层有 512 维的隐藏层，这个设置和单语的模型一致。语言适应层（LanguageAdapter）在每个 encoder 层之间都被插入。这三种不同 encoder 结构的选择，是为了使得模型参数的总数尽肯能保持一致，都大约为 220M。相比单语模型，多语模型的大小的增加主要来自于额外的语言适应层（LanguageAdapter）和输出词表的大小的增加。这三个模型的平均 WER 为 11.86%，10.77%，和 9.43%。这个结果充分展示了 conformer 作为多语 ASR 的 encoder 的效果。对比单语模型，尽管在质量上还不如单语模型，但是它在同时识别 15 种语言上，表现得很好。它在大概 21 个 epoch 时收敛，训练了大概 120 万 step，而单语模型通常要训练到 50 个 epoch。为了理解语言适应层的效果，我们做了下面的消融实验，为了快速进行实验，我们对比了模型在 200k step 时候的效果，大约此时是在第 3.5 个 epoch。使用语言适应层，会带来语言依赖的参数，和一些模型大小上的增加。为了帮我们更好理解，我们训练了一个单独的适应模型，能使得所有模型共享相同的 adaptertransformation。因此，我们的模型能够大小能够摆脱 adapter 模型。在 200k step 时，这个模型获得了 10.86%的平均 WER，相对刚刚的 baseline（带语言适应层），获得了 10.38%的平均错误率。从这个对比，可以看到，在模型中加入语言适应层很重要。

除了用一个共享 decoder，多头模型（用不同的 decoder 针对不同的语系）能够被用来增加模型容量，和之前的工作相同，我们为每种语系使用不同的 decoder。总共 5 种语系会被使用，包括 Germanic,Italic，Arabic，Indo-Iranan 和其他语言。为了对比，我们确保单个 decoder 和多个 decoder 模型有相同的参数量：1. 单 decoder 模型有 6 层 768 维的 LSTM，每层有 3074 维的隐藏单元。2. 多 decoder，有 5 个 decoder，每个 decoder 有 2 层 640 维的 LSTM，每层有 2048 维的隐藏层单元。这两种模型都有 354M 的参数。在 200k 的 step 时，单个 decoder 的平均 WER 为 10.13%，多个 decoder 的平均 WER 为 10.28%，这建议我们在相同的模型大小下，我们用单个 decoder，相比多个 decoder 要好。

为了提高我们多语模型的效果，我们进一步把模型参数从 354M 增加到 500M，通过把模型的宽度从 512 维，增大到 640 维。把宽度从 17 层，增大到 22 层。这个增大后的模型，在 200k step 时能够获得 9.63%的 WER，并在 1.1M step 时，获得了 9.13%的 WER，能超过单语模型。然而，相比基本的 220M 的模型，它的训练速度慢了 1/3，这是由于 RNN 的错误反向传播带来的。这个特性也使得用 LSTM 做 decoder 不适合进一步的模型扩增。相比 LSTM，基于 transformer 的 decoder 模型，在训练时有更高的并行化能力。在相同的 encoder 架构下，我们建立了一个 Transformerdecoder 模型，参数大约 500M，有 12 层 transformer，768 维的模型维度，3072 维的隐藏层维度，和 8 个 attention head。它的平均 WER 是 9.26%，比 LSTM 的 WER 要高一些，但是它的训练速度和 220Mbaseline 模型接近。因此，我们在后面的研究中，都用 Transformer 作为 decoder。

在下面的实验中，我们想进一步增大 Conformer 作为 encoder 和 Transformer 作为 decoder 的模型的容量大小，实验结果如下表所示，L 表示模型的层数，W 表示模型的维度，loss 是训练样本负 log 混淆，越低越好。speed 是每秒训练的样本数。B0 是 baseline 模型，“-”表示和 B0 没有区别。所有的 E 模型的参数量大小都为 1B。

对比 E1 和 E2，E5 和 E6，我们可以看到越深的模型取得了相比越宽的模型更好的效果。然而，越深的模型需要更长的时间去训练（2352 vs3419）。对比 E1-E4 和 E5-E7，增大 encoder 的容量，相比增大 decoder 的容量，能获得更好的结果。然而，更大的 decoder 往往有更好的 training loss。E4,这个模型平均把模型容量分给宽度和深度，在这个 task 上表现得并不好，相较而言，E3 把更多地模型容量分给宽度，要表现得更好一些。最后，E8 模型，首先把模型容量，平均分给 encoder 和 decoder，然后把更多的容量分给 depth，和 E3 的性能差不多。E3 模型最终在 600k step 时收敛，大约 10 个 epoch。最终获得了大约 9.07%的平均 WER。

在这个工作中，我们研究了如何构建一个多语言端到端 ASR 系统，我们通过增大模型容量来解决这个问题。随着模型的增大，我们观察到模型的效果不断增加，我们也能建立一个单独的多语言识别的 ASR 系统，这个系统能在高资源的语言上超过不同的单语模型。

想了解更多的 AI 技术干货，欢迎上华为云的 AI 专区，目前有 AI 编程 Python 等六大实战营供大家免费学习。

点击关注，第一时间了解华为云新鲜技术~