亚马逊TTS团队ICASSP 2022语音转换与数据增强研究本文详细介绍了某机构TTS团队在ICASSP 2022上发表

语音转换与数据增强技术新突破

文本自动转换为语音对某智能助手至关重要：这是该助手与客户沟通的方式。由某机构文本转语音（TTS）小组开发的模型也通过某云服务（AWS）的Polly服务提供给AWS客户。在今年的国际声学、语音与信号处理会议（ICASSP）上，TTS小组发表了四篇论文，全部涉及语音转换（在将一种合成语音转换为另一种语音时保留韵律特征）、数据增强，或两者兼有。

在“语音过滤器：使用语音转换作为后处理模块的少样本TTS说话人自适应”一文中，某机构TTS小组解决了少样本说话人自适应问题，即仅用少量训练样本学习一种新的合成语音。该论文将问题重新定义为学习一个语音转换模型，并将其应用于高质量TTS模型的输出上，这是对现有少样本TTS范式的概念性转变。

在“使用数据增强实现TTS的跨说话人风格迁移”中，团队展示了如何构建一个能够进行情感表达的TTS模型，即使目标语音的可用训练数据仅由中性语音组成。其思路是首先训练一个语音转换模型，将其他语音中的情感表达样本转换为目标语音，然后将转换后的语音作为TTS模型的额外训练数据。

在“低资源情感TTS的分布增强”中，TTS小组通过重组现有示例的片段以生成新示例，从而扩展了用于训练TTS模型的文本范围。关键在于保持合成示例的句法连贯性，这样TTS模型就不会浪费资源去学习不可能的音素序列。（这是唯一不依赖语音转换的数据增强论文。）

最后，在“使用标准化流的无文本非并行多对多语音转换”中，团队将广泛用于TTS的标准化流概念应用于语音转换问题。与大多数深度学习模型一样，标准化流学习产生输入数据向量表示的函数。不同之处在于这些函数是可逆的，因此可以从表示中恢复输入。团队假设从输入数据中保留更多信息将产生更好的语音转换，初步实验证实了这一假设。

语音过滤器

“语音过滤器：使用语音转换作为后处理模块的少样本TTS说话人自适应”背后的想法是，对于少样本学习，采用现有高质量TTS模型的输出（即语音频谱图）并将其适应于新的目标语音，比调整模型本身更容易。

该方法的关键在于，语音过滤器（负责将TTS模型的输出转换为新语音）是使用由TTS模型自身创建的合成数据进行训练的。

语音过滤器的训练过程： TTS模型是时长可控的，这意味着输入文本经过编码，以指示每个音素在输出语音中应持续的时长。这使得研究人员能够创建两个并行的训练语料库：一个语料库包含来自120个不同说话者的真实训练样本；另一个语料库是由TTS模型生成的合成语音，但其时长与多说话者样本的时长匹配。

语音过滤器在这两个并行语料库上进行训练。对于少样本学习，研究人员只需在新说话者的少量数据上对过滤器进行微调。实验发现，这种方法产生的语音质量，与传统模型使用30倍数据训练出来的语音质量相当。

跨说话人风格迁移

在“使用数据增强实现TTS的跨说话人风格迁移”中，研究人员使用的语音转换模型基于先前在亚马逊科学博客上报道过的CopyCat模型。转换后的情感数据被添加到中性数据中，共同构成用于训练TTS模型的数据集。

TTS模型接受两个输入：一个文本序列和一个风格向量。在训练期间，文本序列传递到TTS模型，而目标语音样本的频谱图则传递到一个参考编码器，该编码器生成风格嵌入。在推理时，没有输入频谱图。但研究人员证明，他们可以通过向模型输入预计算的风格嵌入来控制TTS模型输出的风格。

研究人员使用MUSHRA感知量表，基于人工评估对模型进行了评估。人类评估者报告称，相对于基准模型，新模型将14个不同说话者中，合成语音与真实语音之间感知风格相似度的差距平均缩小了58%。

分布增强

“低资源情感TTS的分布增强”考虑了新语音训练数据匮乏的情况。其目标是置换现有示例的文本以生成新示例，并重新组合相应语音样本的片段以产生新样本。这并未增加训练目标的声学多样性，但确实增加了训练输入的 linguistic 多样性。

为确保合成的训练示例不会变得过于句法不连贯，研究人员为输入文本构建了解析树，然后在不同的树之间交换句法等价的子树（如上图所示）。交换声学信号的相应部分需要文本与信号之间良好的对齐，这可以通过现有的强制对齐模型来实现。

训练期间，为了确保最终的TTS模型不会对合成示例产生过度偏置，研究人员还引入了一个特殊的输入token，用于标记两个现有样本融合的点。预期是模型将学习优先考虑真实样本内部的音素序列，而不是跨越融合样本边界的音素序列。在推理时，所有输入的该token值都简单地设置为0。

该模型语音输出的质量由60名人类评估者进行评估，他们在五个不同的数据集上将其与基线模型的语音输出进行比较。总体而言，新模型的输出在所有数据集上都获得了比基准模型输出更高的分数。

标准化流

标准化流学习将输入数据映射到一个表示空间，以最大化对某个先验分布的近似。“流”一词表示映射可以是数据通过一系列可逆变换的结果，而对分布的强制施加则实现了归一化。

在“使用标准化流的无文本非并行多对多语音转换”中，某机构TTS研究人员考虑了一个流，其输入包括源频谱图、音素嵌入、说话人身份嵌入、声学信号的基频以及一个表示输入音频帧是否为浊音的标志。该流将输入映射到特定应用领域中音素频率的分布。

通常，标准化流会从训练数据中同时学习分布和映射。但在这里，研究人员预先在一个标准TTS任务（其训练数据丰富）上训练该流，以预先学习分布。

由于流是可逆的，只要其他模型输入（音素嵌入、说话人ID等）可用，表示空间中的向量就可以映射回一组源输入。为了使用标准化流执行语音转换，研究人员在此反向映射过程中简单地用另一个说话者替换一个说话者。

研究人员考察了两种不同的实验设置：一种是语音转换模型同时接受文本序列和频谱图作为输入；另一种是它只接受频谱图。在第二种情况下，预训练的标准化流模型显著优于基准。直接从训练数据学习音素分布的标准化流模型表现不佳，这表明了预训练步骤的重要性。FINISHED