深度神经网络提升语音技能理解准确率

17 阅读3分钟

在最近的Alexa Live活动中,Alexa设备与开发者副总裁Nedim Fresko宣布,某中心正采用深度神经网络来改善用户使用Alexa技能的体验。

深度神经网络由数千甚至数百万个密集连接的处理节点组成,其设计灵感松散地来源于大脑神经元。DNN通过在海量训练数据中寻找模式来学习执行任务。

“我们正在采用深度神经网络来提高Alexa对单个词语和句子的自然语言理解能力,”Fresko对Alexa Live的观众表示。“我们已经开始将这项技术应用于自定义技能,并对早期成果感到兴奋。”

Fresko预计,采用基于DNN新技术的Alexa技能,其准确率平均将提升15%。某中心将在今年晚些时候继续将DNN的应用范围扩大到在美国、英国、印度和德国的400个符合条件的技能。

此前,Alexa技能完全由最大熵和条件随机场模型驱动,这些模型通过确定话语的意图并为其中的槽位打标来实现自然语言理解。这些模型的输入特征是话语的n-gram以及一些其他特征,如话语长度和每个词元的相对位置。这些模型基于输入信号的线性组合进行预测,这使得它们轻量、易于训练且推理速度快。

DNN模型更擅长理解自然语言。DNN与无监督预训练相结合,已在多个自然语言处理领域实现了最先进的性能。

词嵌入是DNN模型的核心组成部分,它将每个词语表示为300维向量空间中的一个点,使得含义相似的词语在空间中聚集在一起。为了开发有效的词嵌入,某中心的科学家们利用了基于无监督掩码语言建模的预训练技术,并使用了多个训练语料库。

“通过预训练词嵌入,DNN可以从‘给我买个苹果’泛化到‘给我订个橙子’,因为在底层的嵌入空间中,苹果/橙子、买/订具有相似的表示,”领导该项目科学研究工作的Konstantine Arkoudas解释道。“这种机制是一种迁移学习,赋予了DNN关键优势,因为模型不再仅从开发者提供的对话示例中学习。”

然而,存储词嵌入对内存要求极高。为了使DNN能够实际应用于超过10万个技能,某中心的科学家们将大型的、共享的通用词嵌入库与小型的、技能特定的本地词嵌入库相结合。

最后,多个非线性隐藏层使DNN能够学习输入信号与目标输出之间更复杂的关联。得益于这些综合优势,DNN的性能超越了MaxEnt-CRF模型。