Alexa新功能实现自然多轮对话交互
“对话模式”代表了语音AI领域的一个重要里程碑。该功能将让Echo Show 8和Echo Show 10的用户能够更自然地与Alexa互动,而无需重复说出唤醒词。该功能的AI通过结合视觉和声学线索,能够识别用户的语音何时是指向设备的,以及是否需要回复。用户可以说“Alexa,打开对话模式”来启用此功能,并通过说“关闭对话模式”来退出。或者,如果短时间内没有任何交互,Alexa也会自动退出该模式。
对话模式使得一个或多个用户可以同时与Alexa互动。这增加了检测设备指向性的难度,因为像“推荐一部喜剧片怎么样?”这样的问题,既可能是在问Alexa,也可能是在问另一个用户。该功能还需要具备低延迟,以准确检测设备指向性话语的开始;否则,Alexa可能无法捕捉到完整的话语。这在基于唤醒词的交互中更容易实现,因为唤醒词的检测为处理话语提供了一个明确的起点。
实现对话模式的无唤醒词交互需要在多个领域进行创新,包括视觉设备指向性检测(CVDD)、基于音频的语音活动检测(DVAD)以及视听特征融合。
视觉设备指向性检测(CVDD)
在人类交流中,判断一段话语指向谁的一个线索是说话者的身体朝向。类似地,开发了一种通过估计设备视野内每个人的头部方向来测量视觉设备指向性的方法。
解决此问题的标准方法是检测一组粗略的(通常是五个)面部特征点,然后使用一种称为透视N点(PnP)的基于几何的技术从中估计面部朝向。这种方法速度快,但在真实场景中精度较低。另一种方法是直接训练一个模型,将每个图像区域分类为设备指向或非指向,并将其应用于面部检测器的输出。但这需要一个大型、带标注的数据集,其收集成本高昂。
相反,我们将每个头部表示为具有不同属性的模板3D头部的线性组合。训练了一个深度神经网络模型,以推断给定输入图像的模板系数,并确定图像中头部的方向。然后对模型的权重进行了量化,以减少其大小和执行时间。在实验中,与PnP方法相比,这种方法将视觉设备指向性检测的错误拒绝率(FRR)降低了近80%。
基于音频的设备语音活动检测(DVAD)
除了视觉指向性,对话模式还利用音频线索来确定语音何时是指向设备的。为了处理音频信号,我们使用了一种称为可分离卷积神经网络(CNN)的模型。标准的CNN模型通过将固定大小的滤波器滑动到输入上,寻找任何位置出现的特征模式。在可分离CNN中,编码滤波器的矩阵被分解为更小的矩阵,这些小矩阵相乘以近似原始矩阵,从而减少计算负担。我们进行了实验来微调架构,并优化滤波器大小和矩阵分解,以最小化延迟。
随着对话模式在2021年的首次发布,DVAD模型的加入相较于仅使用视觉数据的模型,将FRR降低了83%。DVAD模型在减少因环境噪声或Alexa自身响应而引发的误唤醒方面尤其有效,即使用户看着设备但并未说话。与纯视觉模型相比,增加DVAD实现了因环境噪声导致的误唤醒减少80%,因Alexa自身响应触发的误唤醒减少42%,且没有增加延迟。
期待将此功能带给用户并收集反馈。正在继续致力于多项改进,例如“回指打断”功能,将允许用户在Alexa提供选项列表时,通过类似“就那个!”的语句来打断。希望通过对该功能的更新来取悦用户,同时开辟新的科学领域以实现更多可能。