Alexa语音风格自适应：迈向概念到语音生成本文探讨了Alexa新推出的语音风格自适应技术。该技术利用神经文本到语音模型

在西雅图今日举行的活动中，某机构的设备部门高级副总裁揭晓了其组织的最新产品与服务阵容。在演示期间，某机构副总裁兼Alexa首席科学家描述了来自Alexa科学团队的三大新进展，其中之一便是语音风格自适应。Alexa的语音由文本到语音模型生成，这些模型将Alexa的自然语言理解模型和对话管理器的文本输出转换为合成语音。

近年来，Alexa一直在使用神经TTS，即基于神经网络的TTS技术，这不仅实现了更自然的语音，也带来了极大的灵活性。神经TTS使Alexa能够变化其说话风格（例如新闻播报员风格或音乐风格），并且支持将韵律（即语调模式）从一种声音迁移到另一种声音。

在人类对话中，说话风格和韵律通常取决于上下文。为使Alexa与用户的互动尽可能自然，她同样应当如此。例如，设想以下对话：用户：Alexa，播放Village People。 Alexa：您是指乐队、专辑还是歌曲？人类说话者会自然地强调“乐队”、“专辑”和“歌曲”，这些是用户指令中缺失信息最相关的词语。

通过语音风格自适应，Alexa将开始以同样的方式根据对话语境变化韵律模式。同样，她也会调整语气：欢快、激昂的语气可能适合某些场景，但如果Alexa刚刚未能成功完成用户的请求，那种语气就可能会让人厌烦。

模型韵律嵌入表示图转存失败，建议直接上传图片文件

这张图展示了模型对来自不同韵律特征数据集的语音样本的表示。相同颜色的点代表来自同一数据集的样本。相同颜色点的聚类表明模型能够准确地捕捉韵律信息。基于上下文，语音生成器会选择该空间中的一个点来定义生成语音的韵律。

支持语音风格自适应的其中一个模型能以感知上下文的方式生成替代性措辞，这样Alexa就不会反复问同一个问题。在一轮对话中，她可能会说“您是指那首歌吗？”，而在另一轮中则说“那要我播放这首歌吗？”，等等。

因此，语音风格自适应是朝着“概念到语音”生成方向迈出的一步，这是一种设想中接替文本到语音的技术。它以概念的高级表征为输入，并可根据上下文和其他信号灵活选择表达方式。例如，有时相同的内容可以通过语调、明确的语言表述或两者结合来传达。

语音风格自适应依赖于来自对话管理器的状态信息。这些信息包括用户意图（用户想要执行的操作，如播放歌曲）和槽位值（该操作涉及的具体实体，如歌曲名称）。

它还包括当前的对话状态（开启、发展中或结束）以及对话管理器对其理解的对话状态的当前置信度。

首先，状态信息传递给语音生成器的重述模块，该模块是一个基于Transformer的神经网络，在特定领域的大型语言语料库上训练。基于状态信息，该模型会生成一系列备选措辞。

随后，这些备选措辞会传递给另一个经过训练的神经网络，该网络用于识别每个句子中的“焦点词”，即适合在语音中进行特定强调的词语。

焦点词模型输出示例图转存失败，建议直接上传图片文件

焦点词模型的输出示例，为不同的输入词分配不同的权重。

对话状态信息、重述模块提出的备选措辞以及焦点词模型的输出全部传递给另一个神经网络——发音器，它负责生成最终的输出语音。

焦点词信息与槽位信息共同指示发音器应该强调输入句子中的哪些词。来自对话管理器的置信度分数则决定了语音风格，从低沉到高昂兴奋不等。

不过，这仍只是起点，研究团队正尝试利用其他上下文信息进一步定制Alexa的回应。

更多Alexa相关报道

顾客互动式教学
自然的对话轮替
Echo 10背后的科学

研究领域

对话式AI

标签

Alexa
文本到语音FINISHED