语音AI技术进展与公平性研究本文介绍了某机构在Interspeech 2022会议上展示的语音AI最新研究成果，涵盖端到

端到端神经语音识别

传统语音识别系统包含专门处理不同语言知识层面的组件：声学模型捕捉语音声音与声波波形的对应关系，发音模型将这些声音映射到单词，语言模型捕捉语法、语义和对话上下文等高级特性。这些模型都在单独数据上训练，并通过图和搜索算法组合使用，以推断最可能的单词序列。

最新系统在单个组件中使用神经网络，通常在声学和语言模型中，同时仍依赖非神经方法进行模型集成，因此被称为“混合”自动语音识别系统。

虽然混合ASR方法结构化和模块化，但也难以建模声学、语音和单词级表示的交互方式，并端到端优化识别系统。因此，最近ASR研究的许多焦点集中在所谓的端到端或全神经识别系统上，这些系统直接从声学输入推断单词序列。

端到端ASR系统使用深度多层神经架构，可以端到端优化以追求识别准确度。虽然它们确实需要大量数据和计算进行训练，但一旦训练完成，它们为推理提供了简化的计算架构以及卓越性能。

某机构的ASR采用端到端作为其核心算法，无论是在云端还是在设备上。在整个行业和学术研究中，端到端架构仍在改进，以实现更好的准确度、减少计算和/或延迟，或缓解缺乏模块性的问题，这使得在运行时注入外部知识具有挑战性。

ConvRNN-T：用于流式语音识别的卷积增强循环神经网络传感器

在“ConvRNN-T：用于流式语音识别的卷积增强循环神经网络传感器”中，Martin Radfar和合著者提出了流行的循环神经网络传感器端到端神经架构的新变体。他们的目标之一是保留因果处理的特性，这意味着模型输出仅依赖于过去和当前输入，从而实现流式ASR。同时，他们希望提高模型捕捉长期上下文信息的能力。

为了实现这两个目标，他们用两个不同的卷积前端增强了普通的RNN-T：一个标准的用于编码时间局部相关性，一个新颖的“全局CNN”编码器，旨在通过总结整个话语到当前时间步的激活来捕捉长期相关性。

作者表明，与其它提出的神经流式ASR架构相比，如基本RNN-T、Conformer和ContextNet，得到的ConvRNN-T提供了卓越的准确度。

计算成本分摊Transformer用于流式ASR

在他们的论文“计算成本分摊Transformer用于流式ASR”中，Yi Xie和同事利用直观观察，即模型执行的计算量应随任务难度变化；例如，噪声或口音导致模糊的输入可能需要比具有主流口音的清晰输入更多的计算。

研究人员通过一种非常优雅的方法实现了这一点，该方法利用了模型的集成神经结构。他们的起点是一个基于Transformer的ASR系统，由多个堆叠的多头自注意力和前馈神经块层组成。此外，他们训练了“仲裁器”网络，这些网络查看声学输入并可选地查看中间块输出，以切换单个组件的开关。

因为这些组件块具有“跳过连接”，将其输出与早期层的输出结合，所以它们对于整体计算的进行实际上是可选的。对于给定输入帧被切换关闭的块节省了通常由该块执行的所有计算，产生零向量输出。

仲裁器网络本身足够小，不会贡献显著额外的计算。然而，使该方案可行和有效的是，控制它们的Transformer组件和仲裁器可以联合训练，具有双重目标：执行准确的ASR并最小化总计算量。后者通过向训练目标函数添加一个奖励减少计算的项来实现。调整超参数选择准确度和计算之间的所需平衡。

作者表明，他们的方法可以实现计算减少60%，而ASR错误仅轻微增加。他们的成本分摊Transformer被证明比基准方法有效得多，后者约束模型仅关注输入上的滑动窗口，仅产生13%的节省和几乎三倍的错误增加。

分离器-传感器-分段器：多方向语音的流式识别和分段

在他们的论文“分离器-传感器-分段器：多方向语音的流式识别和分段”中，Ilya Sklyar和同事不仅集成了ASR和按说话人分段，而且在增量处理输入时这样做。具有低延迟的流式多说话人ASR是使语音助手能够在协作设置中与客户互动的关键技术。

Sklyar的系统通过RNN-T架构的泛化实现了这一点，该架构跟踪多个说话人之间的轮流，最多两个说话人可以同时活跃。产生改进的一个关键要素是使用专用令牌识别说话人轮次的开始和结束，用于作者称为“起点”和“终点”的功能。除了以这种符号方式表示轮流结构外，模型在训练期间也会因输出这些标记花费太长时间而受到惩罚，以改进输出的延迟和时间准确性。

语音AI性能公平性

我们想强调的第二个主题，也是语音和AI其它领域越来越受到关注的主题，是性能公平性：希望避免不同用户群体或与受保护群体相关内容准确度的巨大差异。例如，当证明某些计算机视觉算法对某些肤色表现不佳时，这种公平性问题引起了关注，部分原因是训练数据中的代表性不足。

基于语音的AI也存在类似担忧，语音属性随说话者背景和环境变化很大。训练集中的平衡表示难以实现，因为使用商业产品的说话者主要是自选的，并且由于许多原因，包括隐私，说话者属性通常不可用。该主题也是Interspeech特别会议“包容和公平语音技术”的主题，几位某机构AI科学家作为共同组织者和演讲者参与。

通过弹性权重巩固减少自动语音识别中的地理差异

其中一篇特别会议论文，“通过弹性权重巩固减少自动语音识别中的地理差异”，由Viet Anh Trinh和同事撰写，研究了美国境内的地理位置如何影响ASR准确度，以及如何调整模型以缩小表现最差地区的差距。在这里和其它地方，使用两步方法：首先，识别错误率高于平均水平的说话者子集；然后，缓解步骤尝试改进这些群体的性能。

Trinh等人的方法通过根据说话者的地理经度和纬度划分说话者来识别群体，使用类似决策树的算法最大化结果区域之间的单词错误率差异。

接下来，区域按其平均WER排名；识别来自最高错误区域的数据以进行性能改进。为了实现这一点，研究人员使用微调来优化目标区域的模型参数，同时采用称为弹性权重巩固的技术以最小化在其余区域上的性能下降。

这对于防止称为“灾难性遗忘”的现象很重要，其中神经模型在微调期间在先前训练数据上显著退化。想法是量化参数空间不同维度对整体性能的影响，然后在适应数据子集时避免沿这些维度的大变化。该方法降低了跨区域的WER均值、最大值和方差，甚至整体WER，击败了几种模型适应的基准方法。

朝向语音识别公平性：性能差异的发现和缓解

Pranav Dheram等人在他们的论文“朝向语音识别公平性：性能差异的发现和缓解”中，研究了识别表现不佳说话者群体的替代方法。一种方法是使用由邮政编码给出的人类定义地理区域，结合美国人口普查数据的人口统计信息，来划分美国地理。

邮政编码按多数人口统计属性排序为二进制分区，以最大化WER差异。然后针对具有较高WER的分区进行缓解，方法与Trinh等人论文中采用的类似。然而，这种方法不精确，并且仅限于可用的人口统计数据，因此对其它地理的泛化能力差。

或者，Dheram等人使用由神经说话者识别模型学习的语音特征来分组说话者。这些“说话者嵌入向量”被聚类，反映了听起来相似的说话者往往具有相似ASR困难的直觉。

随后，这些虚拟说话者区域可以按难度排名并针对缓解，而不依赖于人类标记、分组或说话者或属性的自我识别。如下表所示，自动方法识别出比“地理人口统计”方法更大的ASR准确度差距，同时针对更大份额的说话者进行性能缓解：

群体发现方法	WER差距 (%)	底部群体份额 (%)
地理人口统计	41.7	0.8
自动	65.0	10.0

用于说话者验证公平性的对抗重加权

我们强调的最后一篇公平性主题论文探索了另一种避免性能差异的方法，称为对抗重加权。该方法不依赖于输入空间的显式分区，而是为训练实例分配连续权重，其思想是更难的例子获得更高权重，从而对性能优化施加更大影响。

其次，ARW更紧密地交织和迭代了加权的群体识别和缓解步骤。数学上，这被形式化为最小-最大优化算法，交替通过改变样本权重最大化错误，并通过调整目标模型参数最小化加权验证错误。

ARW是为将单个数据点作为输入的分类和回归任务中的群体公平性设计的。“用于说话者验证公平性的对抗重加权”，由Minho Jin等人撰写，研究了如何将概念应用于依赖于输入样本对的分类任务，即检查两个语音样本是否来自同一说话者。解决这个问题可能有助于使基于语音的助手在个性化和其他需要知道谁在说话的功能上更可靠。

作者研究了几种使ARW适应学习说话者嵌入之间相似性的方法。最终效果最好的方法为每对输入样本分配一个对抗权重，该权重是单个样本权重的总和。单个样本权重也由样本落入说话者嵌入空间的哪个区域通知。

一旦以这种方式形式化成对对抗权重，我们可以将它们插入度量学习的损失函数中，这是训练说话者验证模型的基础。最小-最大优化然后可以轮流训练预测权重的对手网络和优化学习说话者相似性的说话者嵌入提取器。

在公共说话者验证语料库上，所得系统将整体等错误率降低了7.6%，同时还将性别之间的差距减少了17%。它还将近10%减少了不同原籍国之间的错误变异性。注意，与Trinh等人的ASR公平性论文情况一样，公平性缓解改善了性能差异和整体准确度。