智能语音唤醒词技术的新研究突破文章深入探讨了在Interspeech 2020上发表的关于智能语音助手唤醒词识别的最新研

智能语音唤醒词技术的新研究突破

每一次与智能语音助手的交互都始于唤醒词。通常，智能设备只有在确认听到唤醒词后，才会将后续的语音请求发送到云端进行深度处理。在首款智能音箱发布六年后，其背后的科学团队仍在不断创新唤醒词识别技术，致力于提升其响应速度和准确性。

在今年的Interspeech会议上，研究人员发表了五篇关于唤醒词识别新技术的论文。其中一篇题为“构建鲁棒的词级唤醒词验证网络”的论文，描述了在云端运行的、用于确认设备端唤醒词检测结果的模型。

另一篇题为“支持元数据感知的端到端关键词检测”的论文，则描述了一个新系统。该系统利用关于智能设备状态的元数据（例如设备类型以及是否正在播放音乐或发出警报）来提高设备端唤醒词检测器的准确性。

这两篇论文中报告的唤醒词检测器至少部分依赖于卷积神经网络。CNN最初为图像处理而开发，它会对输入数据的小块区域重复应用相同的“滤波器”。由于音频信号可以表示为频率随时间的二维映射，CNN也自然而然地适用于音频处理。应用于CNN输入的每个滤波器都会定义穿过CNN第一层的一个“通道”，通常情况下，随着层数的增加，通道数量也会增加。

利用元数据优化模型

“支持元数据感知的端到端关键词检测”这项研究的动机源于一个观察：如果设备正在发出声音（音乐、合成语音或警报声），会导致输入信号的“对数滤波器组能量”发生显著变化。对数滤波器组是一组不同大小的频带，其选择旨在强调人耳最敏感的频率。

为了解决这个问题，应用科学家Hongyi Liu、Apurva Abhyankar及其同事将设备元数据作为其唤醒词模型的输入。该模型会将元数据“嵌入”，即将其表示为多维空间中的点，使得空间中的位置能够传达对模型有用的信息。模型以两种不同的方式使用这些嵌入信息。

一种方式是将其作为网络最后几层的额外输入，这几层负责判断声学输入信号是否包含唤醒词。卷积层的最终输出被“展平”，即串联成一个长向量。元数据嵌入向量被输入到一个全连接层，其输出与展平的音频特征向量相连接。这个融合后的向量传递到最终的全连接层，由其判断网络是否包含唤醒词。

元数据嵌入的另一种用途是调节卷积层在处理输入信号时的输出。CNN应用于输入的滤波器是在训练过程中学习的，其大小差异可能很大。因此，通过网络各个通道传递的数值幅度也可能有所不同。对于CNN，通常会在层与层之间对通道输出进行归一化，使它们处于相似的尺度，避免任何一个通道压倒其他通道。但Liu、Abhyankar及其同事训练模型根据元数据向量来改变归一化参数，这提高了网络泛化到异构数据集的能力。

研究人员相信，当智能设备正在发声时，这个模型能更好地捕捉输入音频信号的特征。他们在论文中报告的实验表明，平均而言，使用元数据信息训练的模型相比基线CNN模型，将误拒率提升了14.6%。

云端模型的注意力机制

支持元数据感知的唤醒词检测器在设备端运行，但接下来的论文描述了在云端运行的模型。设备端模型必须具有较小的内存占用，这意味着它们会牺牲一些处理能力。如果设备端模型认为自己检测到了唤醒词，它会向云端发送一小段音频片段，供更大、更强大的模型进行确认。

设备端模型试图识别唤醒词的起点，但有时会略有偏差。为了确保云端模型接收到完整的唤醒词，设备发送的片段包含了其估计的唤醒词开始时间点之前半秒的音频。

当CNN在良好对齐的数据上训练时，专注于输入特定区域的卷积层输出可能会偏向于在这些区域寻找唤醒词特征。当对齐存在噪声时，这可能导致性能下降。

在“构建鲁棒的词级唤醒词验证网络”一文中，应用科学家Rajath Kumar及其同事通过向网络中添加循环层来处理卷积层的输出，从而解决了这个问题。循环层可以将信息作为时间序列来处理。循环层不是学习唤醒词在输入中的发生位置，而是学习当唤醒词存在时，序列如何随时间变化。这使得研究人员可以在良好对齐的数据上训练他们的网络，而在噪声数据上性能下降不大。为了进一步提高性能，研究人员还使用了“注意力层”来处理并重新加权循环层的序列输出，以强调唤醒词验证所需的输出。因此，该模型是一个卷积-循环-注意力模型。

为了评估他们的CRA模型，研究人员将其性能与几个纯CNN模型进行了比较。训练数据中的每个示例包含195个输入“帧”，即频谱的连续快照。在这195帧的跨度内，其中两个CNN模型查看76帧或100帧的滑动窗口。第三个CNN模型和CRA模型则查看全部195帧。模型的性能是相对于一个基线唤醒词检测器来评估的，该检测器结合了深度神经网络和隐马尔可夫模型，这种架构曾一度是行业标准。

在精确对齐的输入上，CRA模型仅比195帧CNN模型略有改进。与基线相比，CNN模型将误接受率降低了53%，而CRA模型降低了55%。在同一任务上，100帧CNN模型仅实现了35%的降低。

在含有噪声对齐的输入上，CRA模型的改进则要显著得多。相对于基线，它将误接受率降低了60%。195帧CNN模型仅降低了31%，100帧模型降低了44%。