利用NLU标签改进ASR重打分模型

5 阅读5分钟

利用自然语言理解标签改进自动语音识别重打分模型

用于对自动语音识别假设进行重打分的二阶语言模型,可从自然语言理解目标的多任务训练中获益。

作者:Yi Gu

2022年1月5日

4分钟阅读

会议

ASRU 2021

相关论文

用于改进罕见词语音识别的多任务语言建模

正文

通常,当用户与Alexa等语音助手对话时,自动语音识别模型会将语音转换为文本。随后,自然语言理解模型会解析该文本,为语音助手提供可执行的结构化数据。

传统上,ASR系统采用流水线架构,包含独立的声学模型、词典和语言模型。语言模型对词序列概率进行编码,可用于在声学信号的多种候选解读之间做出决策。由于训练数据包含公开文本,这些语言模型能够为大量词汇编码概率信息。

端到端ASR模型以声学信号为输入并直接输出词序列,其模型体积紧凑得多,整体性能与传统的流水线系统相当。但它们通常仅使用有限的音频-文本配对数据进行训练,因此在处理罕见词时效果欠佳。

解决此问题的标准方法是使用独立的语言模型对端到端模型的输出进行重打分。例如,若端到端模型在设备端运行,语言模型可在云端对其输出进行重打分。

在今年的自动语音识别与理解研讨会上,我们提出了一种训练方案:不仅使用标准的语言模型目标(计算词序列概率),还同时训练自然语言理解模型的相关任务。基本思路是,引入通常已有标注训练数据的NLU任务,可以帮助语言模型吸收更多知识,从而提升对罕见词的识别能力。实验表明,该方法可使语言模型在罕见词上的错误率相比传统训练方式的重打分模型降低约3%,相比完全不使用重打分的模型降低约5%。

此外,我们获得最佳效果的方式是:先在纯语言模型目标上预训练重打分模型,然后使用较小的NLU数据集在联合目标上进行微调。这使得我们既能利用大量无标注数据,又能获得多任务学习的好处。

多任务训练

我们的端到端ASR模型是一个循环神经网络转换器,这类网络按顺序处理输入序列。其输出是一组按概率排序的文本假设。

通常,NLU模型执行两个主要功能:意图分类和槽位填充。例如,用户说“播放Darlene Love的《Christmas》”,意图可能是“播放音乐”,槽位“歌曲名”和“艺术家名”则分别对应“Christmas”和“Darlene Love”。

语言模型通常基于给定的上文词序列来预测下一个词。模型将输入词表示为固定长度的向量(即嵌入),这些嵌入捕捉了进行准确预测所需的信息。

在我们的多任务训练方案中,同一个嵌入被同时用于意图检测、槽位填充和下一个词预测三个任务。

我们将语言模型嵌入馈送到两个额外的子网络:一个意图检测网络和一个槽位填充网络。训练过程中,模型学习生成能够同时优化词预测、意图检测和槽位填充这三个任务的嵌入。

在推理时,意图检测和槽位填充的额外子网络不被使用。ASR模型文本假设的重打分仅基于词预测任务计算得到的句子概率分数(下图中“LM分数”)。

训练过程中,我们需要同时优化三个目标,这意味着要为每个目标分配一个权重,以指示其相对于其他目标的重要程度。

我们将多任务语言模型的输出与ASR模型的原始输出相结合,馈送到解码器,由解码器对ASR假设进行重打分。

我们实验了两种权重分配方法。一种是线性方法,将NLU目标的权重从零开始逐步增加。另一种是随机权重多数算法,每个目标的权重根据特定的概率分布随机分配,并在训练过程中根据性能表现调整分布。在我们的实验中,后者效果更好。

我们的方法所带来的提升——相比基于普通语言模型构建的重打分模型,罕见词的词错误率降低了2.6%——虽然不算巨大,但确实证明了该方法的有效性。在正在进行的工作中,我们正在探索进一步降低错误率的其他方法。

例如,我们可以将NLU分类结果作为解码器的显式输入,而不仅仅作为编码器的训练目标。或者,可以使用意图分类结果来动态偏置重打分结果。我们还在探索半监督训练技术,即使用更大规模的自动标注数据来扩充用于训练NLU子网络的标注数据集。

研究领域

对话式人工智能

标签

自动语音识别, 多任务学习

会议

ASRU 2021

相关论文

用于改进罕见词语音识别的多任务语言建模

关于作者

Yi Gu 是Alexa AI部门的高级应用科学家。FINISHED