语音合成中的韵律建模新方法本文介绍了两种用于语音合成的新方法，通过两阶段训练流程学习音频数据中的韵律表征，并基于文本的语

会议

ICASSP 2021

相关论文

“Prosodic representation learning and contextual sampling for neural text-to-speech”
“CAMP: A two-stage approach to modelling prosody in context”

在ICASSP 2021上，某机构的文本到语音团队展示了两篇关于从文本合成具有上下文恰当韵律（即语音的节奏、重音、旋律、时长和响度）的语音的新论文。文本到语音（TTS）是一个“一对多”的问题，同一段文本可能有多种恰当的韵律演绎方式。确定一段文本的韵律是一个难题，但它可以显著提高合成语音的自然度。

这两篇论文中描述的方法遵循共同的理念，但它们解决问题的途径有根本性的不同。

Kathaka

由于TTS是一个“一对多”的问题（同一段文本可以用不同方式表达），TTS模型通常合成具有中性韵律的语音。这降低了合成语音的自然度，因为韵律与所说内容之间没有关联。Kathaka的两阶段学习方法通过利用文本的语义和句法来解决这个问题。Kathaka架构有两个编码器：一个“参考编码器”，接收语音信号的梅尔频谱图作为输入；另一个编码器接收关联的文本，表示为音素序列（语音的最小单位）。

基于梅尔频谱图，参考编码器输出一个韵律分布的参数（均值µ和方差σ），并从该分布中选取一个样本。这个样本连同音素编码一起用于合成新的梅尔频谱图。该模型是一个自编码器，意味着它的训练目标是输出与输入给参考编码器的梅尔频谱图相同的频谱图。

在推理时，当然没有梅尔频谱图作为输入（因为它们是需要合成的）。因此，在第二步中，训练“采样器”，直接根据文本预测韵律分布的参数。

为了对文本进行编码，使用了BERT模型，该模型经过预训练以提供上下文词嵌入——即多维空间中词的向量表示——用于捕获文本的语义和一些句法信息。还将图神经网络应用于文本的句法解析树，以仅生成文本句法信息的表示。根据这些表示，采样器学习预测韵律分布的参数。在推理时，使用来自该分布的样本替换来自参考编码器的采样点来合成梅尔频谱图。

为了评估Kathaka的有效性，将其与神经文本到语音（NTTS）基线进行了比较，结果显示自然度有统计学上显著的13.2%的提升。

CAMP

CAMP使用类似的两步训练方法，但它不学习韵律的分布，而是学习单个词与韵律表征之间的特定映射，该映射以文本的语义和句法特征为条件。

在第一阶段，CAMP使用词级参考编码器学习韵律的词级表征。该编码器接收梅尔频谱图作为输入，并生成语音样本韵律的词级表征。然后，这个词级表征与构成该词的音素（同样由另一个编码器编码）对齐。两组特征随后用于合成梅尔频谱图作为输出，训练目标是与参考编码器接收的输入相同的梅尔频谱图。通过这个过程，CAMP学习了词级的韵律表征。

在第二阶段，CAMP使用输入文本的语义和句法信息来预测第一阶段学习到的词级韵律表征。为了编码文本，再次使用BERT嵌入，并且还使用词级句法标签，例如：(1)词性；(2)词类（如名词或动词等可以无限增加的“开放”词类，与代词和冠词等固定且有限的“封闭”词类相对）；(3)名词结构；(4)标点结构。然后使用这些信息来预测第一阶段学习到的词级韵律表征。

与Kathaka一样，在推理过程中，将参考编码器的韵律表征替换为从输入文本的句法和语义内容预测出的表征。

与NTTS基线相比，CAMP显示出统计学上显著的26%的自然度提升。

研究领域

对话式AI

标签

文本到语音、ICASSPFINISHED