Alexa语音新技术：LLM驱动交互革命某机构发布了基于大语言模型的新一代语音技术，包括全新的Alexa LLM、升级的

Alexa 发布全新语音识别与文本转语音技术

利用大语言模型将使与 Alexa 的交互更加自然和引人入胜。

今天在弗吉尼亚州阿灵顿的某机构新总部，某机构高级副总裁 Dave Limp 主持了一场活动，设备与服务组织在此推出了其新产品与服务阵容。在演示环节中，某机构高级副总裁兼通用人工智能首席科学家 Rohit Prasad 加入了 Limp 的行列，预览了 Alexa 团队的一系列创新。

Prasad 的主要公告是发布了全新的 Alexa 大语言模型（LLM），这是一个更大、更通用的模型，专为语音应用进行了优化。该模型可以就任何主题与用户进行对话；它经过精细调整，能可靠地调用正确的 API，从而开启正确的灯光并调节正确房间的温度；它具备基于推理的主动个性化能力，因此可以突出显示日历事件、最近播放的音乐，甚至根据用户的杂货购买情况推荐食谱；它拥有多种知识基础机制，使其事实陈述更可靠；并且设置了保护措施以维护用户隐私。

在演示中，Prasad 讨论了 Alexa 对话式 AI 模型的其他几项升级，旨在使与 Alexa 的交互更加自然。其中一项是通过简单地看向启用摄像头的 Alexa 设备的屏幕来唤醒 Alexa 的新方法，无需在每轮对话中都说出唤醒词：设备上的视觉处理与声学模型相结合，以判断用户是在与 Alexa 交谈还是与其他人交谈。

Alexa 的自动语音识别（ASR）系统也进行了彻底改革——包括机器学习模型、算法和硬件——并且正在转向一种基于 LLM 架构的新型大型文本转语音（LTTS）模型，该模型在数千小时的多说话人、多语言、多口音和多说话风格的音频数据上进行训练。

最后，Prasad 展示了 Alexa 的新型语音到语音模型，这是一个基于 LLM 的模型，可直接从输入语音生成输出语音。通过语音到语音模型，Alexa 将展现出类似人类的对话属性，例如笑声，并且不仅能够根据自身话语内容调整韵律，还能根据说话者的韵律进行调整——例如，以兴奋回应说话者的兴奋。

ASR 更新将于今年晚些时候上线；LTTS 和语音到语音模型都将在明年部署。

语音识别

全新的 Alexa ASR 模型是一个拥有数十亿参数的模型，在简短、目标导向的指令和更长形式的对话混合数据上进行训练。训练需要仔细交替数据类型和训练目标，以确保在这两种类型的交互上都具有一流的性能。

为了适应更大的 ASR 模型，Alexa 正在从基于 CPU 的语音处理转向硬件加速处理。ASR 模型的输入是数据帧，即语音信号频谱的 30 毫秒快照。在 CPU 上，帧通常一次处理一个。但这在 GPU 上效率低下，因为 GPU 有许多并行运行的处理核心，需要足够的数据来让它们全部保持忙碌。

Alexa 的新型 ASR 引擎会累积输入的语音帧，直到拥有足够的数据来确保 GPU 中所有核心都能得到充分工作。为了最小化延迟，它还会跟踪语音信号中的停顿，如果停顿持续时间足够长，表明可能已结束讲话，它会立即发送所有累积的帧。

GPU 处理所需的语音数据批处理也使得一种新的语音识别算法成为可能，该算法使用动态预判来提高 ASR 准确性。通常，当流式 ASR 应用解释输入帧时，它使用前面的帧作为上下文：关于过去帧的信息可以以有用的方式约束其对当前帧的假设。然而，通过批量数据，ASR 模型不仅可以利用前面的帧，还可以利用后面的帧作为上下文，从而产生更准确的假设。

讲话结束的最终判定由 ASR 引擎的语音活动检测端点器做出。最早的端点器都依赖于停顿长度。自从端到端语音识别出现以来，ASR 模型已经在音频-文本对上进行训练，这些文本在每个话语的末尾包含一个特殊的结束标记。然后模型学习在 ASR 假设中输出该标记，指示语音结束。

Alexa 的 ASR 引擎已更新为一种新的两遍语音活动检测端点器，可以更好地处理在更长的对话交流中常见的句中停顿类型。第二遍由端点仲裁器执行，它将 ASR 模型对当前语音信号的转录及其信号编码作为输入。虽然编码捕获了语音识别所需的特征，但它也包含有助于识别声学和韵律线索的信息，这些线索表明用户是否已完成讲话。

端点仲裁器是一个单独训练的深度学习模型，输出关于其输入的最后一帧是否真正代表语音结束的决策。因为它综合考虑了语义和声学数据，其判断比优先考虑其中之一的模型更准确。并且因为它将 ASR 编码作为输入，它可以利用不断增长的 ASR 模型规模来持续提高准确性。

一旦新的 ASR 模型生成了一组关于输入语音对应文本的假设，这些假设将传递给一个经过精细调整以重新排序的 LLM，从而产生更准确的结果。

如果新的、改进的语音活动检测端点器过早地切断了语音，Alexa 仍然可以恢复，这要归功于一个有助于修复截断语音的模型。该模型生成输入文本中词语之间语义关系的图表示。根据该图，下游模型通常可以推断缺失的信息；当它们无法推断时，它们仍然可以经常推断缺失词语的语义角色，这有助于 Alexa 提出澄清性问题。这也使得与 Alexa 的对话更加自然。

大型文本转语音

与早期的 TTS 模型不同，LTTS 是一个端到端模型。它由一个传统的文本到文本 LLM 和一个语音合成模型组成，这两个模型协同进行精细调整，因此 LLM 的输出是为语音合成器的需求量身定制的。微调数据集包含数千小时的语音，而用于训练早期模型的语音数据约为 100 小时左右。

经过微调的 LTTS 模型学会隐式建模韵律、调性、语调、副语言及其他语音方面，其输出用于生成语音。

其结果是语音融合了人类交流中存在的全部情感元素——例如提问时的好奇心和讲笑话时的喜剧效果——以及自然的不流畅和副语言声音（如嗯、啊或喃喃自语），以创造出自然、富有表现力和类似人类的语音输出。

为了进一步增强模型的表现力，LTTS 模型可以与另一个经过微调以用"舞台指示"标记输入文本的 LLM 结合使用，指示文本应如何呈现。标记后的文本随后传递给 TTS 模型以转换为语音。

语音到语音模型

Alexa 语音到语音模型将利用专有的预训练 LLM 实现端到端语音处理：输入是用户语音信号的编码，输出是 Alexa 响应语音信号的编码。

该编码是该方法的關鍵之一。它是一种学习到的编码，同时代表语义和声学特征。语音到语音模型对输入和输出使用相同的编码；然后对输出进行解码，以 Alexa 的某种声音生成声学信号。输入和输出的共享"词汇表"使得在预训练 LLM 之上构建模型成为可能。

该 LLM 在一系列不同的任务上进行微调，例如语音识别和语音到语音翻译，以确保其通用性。

语音到语音模型具有多步骤的训练过程：

特定模态的文本和音频模型的预训练；
多模态训练和模态间对齐；
语音到语音 LLM 的初始化；
在混合了自监督损失和监督语音任务的数据上对 LLM 进行微调；
与期望的用户体验对齐。

Alexa 的新功能将在未来几个月内开始推出。FINISHED