Alexa语音新技术:LLM驱动交互革命

0 阅读8分钟

Alexa 发布全新语音识别与文本转语音技术

利用大语言模型将使与 Alexa 的交互更加自然和引人入胜。

今天在弗吉尼亚州阿灵顿的某机构新总部,某机构高级副总裁 Dave Limp 主持了一场活动,设备与服务组织在此推出了其新产品与服务阵容。在演示环节中,某机构高级副总裁兼通用人工智能首席科学家 Rohit Prasad 加入了 Limp 的行列,预览了 Alexa 团队的一系列创新。

Prasad 的主要公告是发布了全新的 Alexa 大语言模型(LLM),这是一个更大、更通用的模型,专为语音应用进行了优化。该模型可以就任何主题与用户进行对话;它经过精细调整,能可靠地调用正确的 API,从而开启正确的灯光并调节正确房间的温度;它具备基于推理的主动个性化能力,因此可以突出显示日历事件、最近播放的音乐,甚至根据用户的杂货购买情况推荐食谱;它拥有多种知识基础机制,使其事实陈述更可靠;并且设置了保护措施以维护用户隐私。

在演示中,Prasad 讨论了 Alexa 对话式 AI 模型的其他几项升级,旨在使与 Alexa 的交互更加自然。其中一项是通过简单地看向启用摄像头的 Alexa 设备的屏幕来唤醒 Alexa 的新方法,无需在每轮对话中都说出唤醒词:设备上的视觉处理与声学模型相结合,以判断用户是在与 Alexa 交谈还是与其他人交谈。

Alexa 的自动语音识别(ASR)系统也进行了彻底改革——包括机器学习模型、算法和硬件——并且正在转向一种基于 LLM 架构的新型大型文本转语音(LTTS)模型,该模型在数千小时的多说话人、多语言、多口音和多说话风格的音频数据上进行训练。

最后,Prasad 展示了 Alexa 的新型语音到语音模型,这是一个基于 LLM 的模型,可直接从输入语音生成输出语音。通过语音到语音模型,Alexa 将展现出类似人类的对话属性,例如笑声,并且不仅能够根据自身话语内容调整韵律,还能根据说话者的韵律进行调整——例如,以兴奋回应说话者的兴奋。

ASR 更新将于今年晚些时候上线;LTTS 和语音到语音模型都将在明年部署。

语音识别

全新的 Alexa ASR 模型是一个拥有数十亿参数的模型,在简短、目标导向的指令和更长形式的对话混合数据上进行训练。训练需要仔细交替数据类型和训练目标,以确保在这两种类型的交互上都具有一流的性能。

为了适应更大的 ASR 模型,Alexa 正在从基于 CPU 的语音处理转向硬件加速处理。ASR 模型的输入是数据帧,即语音信号频谱的 30 毫秒快照。在 CPU 上,帧通常一次处理一个。但这在 GPU 上效率低下,因为 GPU 有许多并行运行的处理核心,需要足够的数据来让它们全部保持忙碌。

Alexa 的新型 ASR 引擎会累积输入的语音帧,直到拥有足够的数据来确保 GPU 中所有核心都能得到充分工作。为了最小化延迟,它还会跟踪语音信号中的停顿,如果停顿持续时间足够长,表明可能已结束讲话,它会立即发送所有累积的帧。

GPU 处理所需的语音数据批处理也使得一种新的语音识别算法成为可能,该算法使用动态预判来提高 ASR 准确性。通常,当流式 ASR 应用解释输入帧时,它使用前面的帧作为上下文:关于过去帧的信息可以以有用的方式约束其对当前帧的假设。然而,通过批量数据,ASR 模型不仅可以利用前面的帧,还可以利用后面的帧作为上下文,从而产生更准确的假设。

讲话结束的最终判定由 ASR 引擎的语音活动检测端点器做出。最早的端点器都依赖于停顿长度。自从端到端语音识别出现以来,ASR 模型已经在音频-文本对上进行训练,这些文本在每个话语的末尾包含一个特殊的结束标记。然后模型学习在 ASR 假设中输出该标记,指示语音结束。

Alexa 的 ASR 引擎已更新为一种新的两遍语音活动检测端点器,可以更好地处理在更长的对话交流中常见的句中停顿类型。第二遍由端点仲裁器执行,它将 ASR 模型对当前语音信号的转录及其信号编码作为输入。虽然编码捕获了语音识别所需的特征,但它也包含有助于识别声学和韵律线索的信息,这些线索表明用户是否已完成讲话。

端点仲裁器是一个单独训练的深度学习模型,输出关于其输入的最后一帧是否真正代表语音结束的决策。因为它综合考虑了语义和声学数据,其判断比优先考虑其中之一的模型更准确。并且因为它将 ASR 编码作为输入,它可以利用不断增长的 ASR 模型规模来持续提高准确性。

一旦新的 ASR 模型生成了一组关于输入语音对应文本的假设,这些假设将传递给一个经过精细调整以重新排序的 LLM,从而产生更准确的结果。

如果新的、改进的语音活动检测端点器过早地切断了语音,Alexa 仍然可以恢复,这要归功于一个有助于修复截断语音的模型。该模型生成输入文本中词语之间语义关系的图表示。根据该图,下游模型通常可以推断缺失的信息;当它们无法推断时,它们仍然可以经常推断缺失词语的语义角色,这有助于 Alexa 提出澄清性问题。这也使得与 Alexa 的对话更加自然。

大型文本转语音

与早期的 TTS 模型不同,LTTS 是一个端到端模型。它由一个传统的文本到文本 LLM 和一个语音合成模型组成,这两个模型协同进行精细调整,因此 LLM 的输出是为语音合成器的需求量身定制的。微调数据集包含数千小时的语音,而用于训练早期模型的语音数据约为 100 小时左右。

经过微调的 LTTS 模型学会隐式建模韵律、调性、语调、副语言及其他语音方面,其输出用于生成语音。

其结果是语音融合了人类交流中存在的全部情感元素——例如提问时的好奇心和讲笑话时的喜剧效果——以及自然的不流畅和副语言声音(如嗯、啊或喃喃自语),以创造出自然、富有表现力和类似人类的语音输出。

为了进一步增强模型的表现力,LTTS 模型可以与另一个经过微调以用"舞台指示"标记输入文本的 LLM 结合使用,指示文本应如何呈现。标记后的文本随后传递给 TTS 模型以转换为语音。

语音到语音模型

Alexa 语音到语音模型将利用专有的预训练 LLM 实现端到端语音处理:输入是用户语音信号的编码,输出是 Alexa 响应语音信号的编码。

该编码是该方法的關鍵之一。它是一种学习到的编码,同时代表语义和声学特征。语音到语音模型对输入和输出使用相同的编码;然后对输出进行解码,以 Alexa 的某种声音生成声学信号。输入和输出的共享"词汇表"使得在预训练 LLM 之上构建模型成为可能。

该 LLM 在一系列不同的任务上进行微调,例如语音识别和语音到语音翻译,以确保其通用性。

语音到语音模型具有多步骤的训练过程:

  1. 特定模态的文本和音频模型的预训练;
  2. 多模态训练和模态间对齐;
  3. 语音到语音 LLM 的初始化;
  4. 在混合了自监督损失和监督语音任务的数据上对 LLM 进行微调;
  5. 与期望的用户体验对齐。

Alexa 的新功能将在未来几个月内开始推出。FINISHED