基于注意力机制的歌唱合成系统
歌唱合成——使用计算机模型合成人声歌唱——自20世纪50年代起便开始研究。与相关的文本转语音领域类似,它最初围绕两个范式展开:统计参数合成(使用统计模型再现声音特征)和单元选择(实时重组录音片段)。
近年来,文本转语音领域已转向神经文本转语音,即基于深度神经网络的模型,这些模型提高了生成语音的感知质量。其中基于注意力的序列到序列模型已成为行业标准。
在某国际会议上,我们提出了名为UTACO的歌唱合成模型,该模型采用AS2S架构构建。据我们所知,这是在2019年秋季首次实现该技术,尽管此后歌唱合成领域已引入多个成功的AS2S架构。
系统创新
新型歌唱合成系统以带歌词的乐谱作为输入,将其表示为一组音素,并根据音高和时长等属性进行标注。
UTACO相比先前模型更为简化:
- 不依赖分别生成振动模式和音符/音素时长等输入特征的子模型
- 仅以带歌词的记谱音乐作为输入
- 具备自主音准调节能力
最重要的是,UTACO实现了高度的自然度。在采用MUSHRA方法的测试中,最新全神经网络模型的自然度得分为31/100,而UTACO得分达到60,人类歌唱训练样本得分为82。
技术优势
AS2S模型作为活跃研究领域,UTACO可自然借鉴文献中的多项改进和扩展。系统能够自主产生良好的振动效果,甚至"决定"在何处应用振动——在样本输入中没有振动指示的情况下仍能实现此效果。
模型架构
![UTACO设计示意图]
将乐谱转换为UTACO输入时,采用称为音符嵌入的表示方法:
- 对乐谱进行歌词语言分析,确定每个音符应发音的音素
- 为每个音素添加包含音高范围和具体音高的音符信息
- 加入"进度"流,标识音符起始和结束位置
与典型NTTS系统类似,模型生成频谱图,通过基于扩张因果卷积的神经声码器转换为波形。
当前局限
UTACO在休止符处理上存在已知问题,其节奏精度尚未达到完美水平,专业音乐家可立即识别此差异。但AS2S架构在文本转语音领域的持续研究进展,将为模型改进提供直接借鉴。
这项研究标志着歌唱合成领域重大变革的开端,其能力提升将达到几年前难以想象的水平。