基于注意力机制的更简歌唱合成系统本文介绍了一种名为UTACO的歌唱合成新系统，首次将文本转语音领域的基于注意力的序列到序

更简化的歌唱合成系统

新系统首次使用基于注意力的序列到序列模型，摒弃了用于处理颤音和音素时长等特征的独立模型。

作者：Orazio Angelini 2020年10月16日 阅读时长：5分钟

歌唱合成——使用计算机模型合成人类歌声的技术——自20世纪50年代以来就有人研究。与相关的文本转语音领域类似，它最初围绕两种范式展开：统计参数合成（使用统计模型重现声音特征）和单元选择（实时重组录音片段）。最近，文本转语音领域已转向神经文本转语音，即基于深度神经网络的模型，这提高了生成语音的感知质量。一类重要的神经文本转语音模型，称为基于注意力的序列到序列模型，已成为行业标准。

在今年的Interspeech会议上发表的一篇论文中，我们介绍了一个名为UTACO的歌唱合成模型，它是使用基于注意力的序列到序列模型构建的。据我们所知，我们在2019年秋季首次做到了这一点，尽管此后歌唱合成领域已经引入了多种成功的基于注意力的序列到序列架构。

新歌唱合成系统将带有歌词的乐谱作为输入，并将其表示为一组音素，这些音素根据音高和时长等属性进行标记。

UTACO比以前的模型更简单：它不依赖于单独生成输入特征（如颤音、音符和音素时长）的子模型；相反，它仅将有标记的乐谱（带歌词）作为输入。它还能自主地唱准音调，这一点并非所有神经模型都能做到。

最重要的是，UTACO实现了高度的自然感。在论文中，我们将其与文献中最新的全神经模型进行了比较，该模型在使用MUSHRA方法的测试中获得了31分（满分100分）的自然度评分。UTACO的得分是60分，而训练所用的人类歌声样本得分为82分。

最后，由于基于注意力的序列到序列模型是一个非常活跃的研究领域，UTACO可以自然地利用文献中已经报道的许多改进和扩展。

简化歌唱合成

当我们开始研究歌唱合成时，我们注意到它与神经文本转语音之间的鲜明对比。歌唱合成模型在概念上似乎更复杂。大多数歌唱模型需要许多不同的输入，例如歌声随时间变化的音高模式（称为F0）或一些细微特征，这些特征的缺失会使歌声听起来不自然。生成这些输入中的每一个都需要一个单独的子模型。

相比之下，基于注意力的序列到序列文本转语音模型所需的唯一输入是音素序列，即构成任何口语单词的单个声音。在基于注意力的序列到序列模型出现之前，语音模型也需要指定许多其他特征，例如语速、节奏和语调。基于注意力的序列到序列模型通过训练示例自主学习所有这些内容。

我们想知道基于注意力的序列到序列模型是否也能学习合成歌声所需的一切。一个受过训练的人只需阅读乐谱就能唱出一首歌，因此我们构建了一个简单的基于注意力的序列到序列语音架构，并仅向其输入乐谱中包含的信息，同时向其展示该乐谱应如何演唱的相应示例。据我们所知，我们在2019年秋季首次做到了这一点，尽管此后歌唱合成领域已经引入了多种成功的基于注意力的序列到序列架构。

可衡量的进步

在我们的论文中，我们将UTACO与WGANSing进行了比较，后者在投稿时是文献中最新的全神经歌唱合成模型。在我们的MUSHRA测试中，40名听众被要求比较同一段短歌剪辑的三个版本，并根据感知的“自然度”对它们进行0到100分的评分。这三个版本分别是：

UTACO生成的音频；
WGANSing生成的音频；
用于训练模型的人类歌声录音。

听众不知道哪个版本是哪个，因此他们没有偏见。结果如下所示。得分的平均差异在统计上是显著的（所有配对t检验的p值均低于10-16）。

[此处应为论文中的对比结果图表]

我们将WGANSing视为2019年秋季左右神经歌唱合成领域最先进技术的代表。WGANSing具有不同的架构（它不基于注意力机制的序列到序列模型），并且在合成时，需要输入从原始录音中提取的音高模式和每个音素的时长。UTACO则自主生成所有这些特征。

一个有趣的结果是，UTACO能够自主地再现良好的颤音，甚至可以“决定”在哪里应用它：在下面的输入样本中，请注意没有颤音指示。在UTACO之前，研究人员创建了专门用于表示颤音的完整子模型。

UTACO是歌唱合成领域的一次飞跃，但它确实存在一些缺点。例如，乐谱中的休止符有时会导致其生成失败（这是基于注意力的序列到序列架构中的一个已知问题）。它的节奏也不够完美，音乐家可以立即察觉到这一点。

然而，基于注意力的序列到序列架构在文本转语音领域正在被深入研究，许多由此产生的创新可能直接适用于我们的模型。

模型架构

[此处应为UTACO设计图表]

更详细地说，为了将乐谱转化为UTACO的输入，我们使用了一种称为音符嵌入的表示方法。我们获取乐谱，并对歌词进行语言分析，以确定每个音符上必须发音的音素。

音素序列是文本转语音模型通常看到的输入。但对于每个音素，我们添加了包含它的音符的信息：八度（音高范围）、音级（音高范围内的12个音符中的哪一个）以及以秒为单位的时长。我们还添加了一个“进度”流，在音符开始时为1，结束时为0，以便UTACO知道音符的起止位置。

与典型的神经文本转语音系统一样，该模型生成一个声谱图，然后通过基于扩张因果卷积的神经声码器将其转换为波形。

我们对UTACO的实验结果感到满意。但这仅仅是歌唱合成领域重大变革的开始，这场变革将以直到几年前还无法想象的方式增强其能力。FINISHED