Alexa TTS在Interspeech 2022的技术突破本文详细介绍了亚马逊在Interspeech 2022上展

Alexa在Interspeech 2022上的文本转语音研究

重点论文聚焦于韵律、口音和声纹特征的迁移技术。

上周，全球规模最大、内容最全面的口语处理科技会议Interspeech 2022在韩国仁川举行，某机构作为铂金赞助商出席了会议。本文中，来自文本转语音部门的高级应用科学家重点介绍了在会议上展示的关于韵律、口音和声纹特征迁移的研究工作。

今年，文本转语音组织在Interspeech 2022上发表了十余篇论文。该团队负责为某智能语音助手提供语音能力，并致力于为其增加更多表现力和对话感知能力。以下重点介绍其中几篇具有代表性的论文。

富有表现力且符合语境的韵律

神经文本转语音技术使得系统生成的语音更加自然。为了使语音的韵律也更具表现力和语境适应性，研究人员在学习从真实语音中提取韵律表征方面做了大量工作。

论文 《CopyCat2: 一个用于多说话人TTS和多对多细粒度韵律迁移的统一模型》 提出了一种从多说话人语音中学习词级、与说话人无关的韵律表征的模型。这些表征可用于将多个源说话人的细粒度韵律迁移给多个目标说话人。此外，从文本中预测词级韵律表征，也提升了TTS模型的自然度和语境恰当性。

该模型将词级韵律表征分解为两个部分：一部分负责时序和节奏，另一部分负责其他韵律特征。如上图所示，第二部分通过条件变分自编码器学习。输入的梅尔频谱被压缩成一个向量序列（每个词对应一个向量），然后用这些向量来重构梅尔频谱。解码器以音素和说话人信息为条件，从而捕获与说话人无关的韵律信息；类似的方法也用于学习与说话人无关的时序特征。

为了将CopyCat2用作TTS模型，研究人员训练了一个额外的模型来预测这些韵律词嵌入的分布参数。在包含新闻、事实、问候等多种风格的美国英语多说话人数据集上的测试表明，该模型将合成语音与真实语音之间的自然度差距缩小了22.79%。

降低构建表现力语音所需的数据量

训练先进的TTS模型通常需要大量数据，而构建多风格、多语言的语音库更是需要海量数据。

在论文 《低数据量？没问题：通过基频条件数据增强实现低资源、语言无关的对话式文本转语音》 中，作者提出了一种仅使用目标说话人1小时表现力语音就能构建表现力TTS声线的方法。该方法需要来自另一个说话人的8-10小时中性风格语音，这比以往方法所需的数据量显著减少。

作者提出将辅助说话人的中性语音数据转换为目标说话人的声线，同时保留目标说话人的表现力风格。该方法对原始的CopyCat韵律迁移模型进行了修改。如上图所示，CopyCat并行解码器根据说话人嵌入、基频、音素表征以及参考编码器的输出，重新生成梅尔频谱。参考编码器负责捕获源梅尔频谱中未显式提供给解码器的信息（即音素及其时长、基频和说话人嵌入）。

该模型使用目标说话人的表现力语音和辅助说话人的中性语音进行训练。训练完成后，辅助数据集的梅尔频谱被转换为目标说话人的增强表现力数据。论文显示，增强数据的基频分布与目标说话人自身的分布非常相似。

多语言模型

某机构已为多种语言和说话人开发了一个共享的神经TTS模型，可以将仅用一种语言数据训练的合成声线扩展到其他语言。例如，该技术能让某智能语音助手的英语女声在美国的多语言家庭中说一口流利的西班牙语。同样，其美国英语男声在英国带有英式口音，在美国说西班牙语，在加拿大说法语，在德国说德语。

智能语音助手需要沟通各种主题，语音风格应与文本内容相匹配。然而，在保持固定说话人身份的同时跨语言迁移风格是一项挑战。

在论文 《基于条件先验VAE和风格损失的跨语言风格迁移》 中，作者提出了一种跨语言风格迁移的架构，旨在改进西班牙语在四种风格（新闻播音员、DJ、兴奋、失望）下的表现，同时仅使用英语样本维持单一的说话人身份。

如上图所示，他们通过一种名为学习条件先验变分自编码器的层次化变分自编码器方法实现了这一点。该方法引入了一个以独热编码风格信息为条件的二级VAE，形成了一个结构化的嵌入空间，将相同风格的语句（无论语言）聚合在一起。

在训练期间，风格嵌入由LCPVAE使用独热编码和参考梅尔频谱生成；在推理时，风格嵌入是特定风格所有嵌入的中心点。该模型的损失函数包含一个风格分类项，引导生成的梅尔频谱与参考频谱的风格保持一致。基于主观评估，该方法在所有四种风格的跨语言风格表征上均显示出显著改进，且未损害说话人相似度和语言内风格表征。

创造新角色

当前的TTS技术可以为训练中见过的声线生成逼真的合成语音。但对于训练中未见过的说话人，在不进行后期适应的情况下合成语音仍然是一个巨大挑战。用新声线合成语音通常意味着需要创建高质量数据来训练生成模型。

标准化流是一种具有可处理分布的生成模型，其采样和密度评估既精确又高效。在论文 《利用标准化流创造新声音》 中，作者研究了标准化流在TTS和语音转换模式下的能力，即从训练中见过的说话人外推到未见过的说话人身份，且无需这些说话人的任何录音，因此也无法进行目标说话人自适应。

该方法基于Flow-TTS模型，但并非用于生成见过的说话人的合成语音，而是对其进行了调整以创建新声线。关键贡献包括：增加了对新说话人进行采样的能力、引入了语音转换模式，并将其与TTS模式进行了比较。

该模型的架构包含一个基于标准化流的可逆变换。如上图所示，这种设计允许在给定说话人嵌入等条件下，从表征空间无损重建梅尔频谱。在TTS模式下，从先验分布中采样并在给定条件下运行逆变换，即可生成梅尔频谱。在语音转换模式下，使用源说话人嵌入将源梅尔频谱映射到潜在表征，然后再使用目标说话人的说话人嵌入将该表征转换回梅尔频谱。为了生成新声线的说话人嵌入，训练了一个独立的神经网络，为给定的地区英语变体生成合理的说话人嵌入。

大量评估表明，该方法在零样本语音合成中取得了领先性能，并且能够创造出与训练集中不同的声线。FINISHED