近期的文本到语音(TTS)系统主要分为自回归(AR)和非自回归两大类。自回归系统虽然能模拟发音时长,但其鲁棒性和时长控制能力较差;而非自回归系统虽通过显式对齐文本与语音并预测音素时长来提升性能,但这可能影响自然度。本文介绍了一种全新的非自回归TTS模型:MaskGCT,一种完全非自回归的TTS模型,用于解决零样本文本到语音合成的问题。无需在文本-语音之间或音素级时长预测上进行显式对齐。实验结果表明,MaskGCT在质量、相似性及可理解性方面超越了现有的最先进零样本TTS系统。(音频样本:maskgct.github.io/,代码和模型:http…
认识 MaskGCT
香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。该模型在包含10万小时多语言数据的Emilia数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语种生成能力,同时保持了较强的稳定性。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。
MaskGCT,一种完全非自回归的TTS模型,使用掩码生成变压器来消除对文本和语音对齐信息的显式需求以及音素级时长预测。具体来说,
-
非自回归掩码生成变压器:首先,定义了一个离散表示序列( X ),并通过掩码过程( X_t = X \odot M_t )将( X )中的一部分标记为特殊[MASK]标记。掩码过程使用伯努利分布来生成掩码矩阵( M_t ),其中每个( m_{t,i} )独立同分布。非自回归掩码生成变压器被训练以基于未掩码标记和条件C预测掩码标记。
-
两阶段模型:在第一阶段,模型使用文本预测从语音自监督学习(SSL)模型中提取的语义标记;在第二阶段,模型基于这些语义标记预测声学标记。MaskGCT遵循掩码预测学习范式。
-
语音语义表示编解码器:为了最小化信息损失,使用向量量化变分自编码器(VQ-VAE)模型来学习一个向量量化码本,该码本可以从SSL模型的隐藏状态中重建语音语义表示。VQ-VAE模型包括一个编码器和一个解码器,编码器将输出投影到低维潜在空间,解码器将其重建为原始语义表示。
-
文本到语义模型:使用非自回归掩码生成变压器训练文本到语义(T2S)模型,利用上下文学习能力进行训练。在推理阶段,生成任意长度的目标语义标记序列。
-
语义到声学模型:使用掩码生成编解码器变压器训练语义到声学(S2A)模型,基于提示声学标记、语义标记以及前一层的声学标记预测目标声学标记。在推理阶段,逐层生成标记。
实验设计
-
数据集:使用Emilia数据集进行训练,该数据集是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成,总计10万小时。评估数据集包括LibriSpeech、SeedTTS test-en和SeedTTS test-zh。
-
评估指标:使用客观指标(如说话人相似度SIM-O、鲁棒性WER和语音质量FSD)和主观指标(如CMOS和SMOS)来评估模型性能。
-
基线模型:与现有的最先进的零样本TTS系统进行比较,包括NaturalSpeech 3、VALL-E、VoiceBox、VoiceCraft、XTTS-v2和CosyVoice。
-
训练和推理:所有模型在8个NVIDIA A100 80GB GPU上进行训练。使用AdamW优化器,学习率为1e-4,预热步数为32K。推理阶段,T2S模型默认使用50步,S2A模型使用分层迭代并行解码。
结果与分析
-
零样本TTS:MaskGCT在所有指标上均表现出色,达到了人类水平的相似度、自然度和可懂度。与基线模型相比,MaskGCT在相似度、鲁棒性和生成质量上均有显著提升。
-
自回归与非自回归模型对比:替换T2S模型的AR+SoundStorm在相似度、鲁棒性和CMOS上均不如MaskGCT。MaskGCT在推理步骤和模型大小上的表现也优于AR模型。
-
时长长度分析:MaskGCT在不同总时长下的生成结果表现出良好的鲁棒性,最佳WER在总时长倍数为1.0时达到。
-
语音风格模仿:MaskGCT在模仿口音和情感方面也表现出色,达到了接近真实值的水平。
总结
本文提出的MaskGCT,一种基于掩码生成变压器的非自回归零样本TTS系统。通过大规模数据和模型训练,MaskGCT在语音质量、相似度和可懂度方面达到了人类水平。此外,MaskGCT在跨语言翻译、语音内容编辑、声音转换和情感控制等任务中也展示了其潜力,证明了其作为语音生成基础模型的巨大潜力。
不足与反思
1. 对齐监督和时长预测的缺失:尽管MaskGCT不需要文本到语音的对齐监督和音素级别的时长预测,但论文指出这种缺失可能会影响到模型在某些复杂场景下的性能。
2. 长时语音合成的挑战:在长时语音合成任务中,MaskGCT在不同语速下的表现显示出一定的鲁棒性,但在极端语速变化下仍需进一步优化。
3. 复杂语言结构的处理:在处理重复词汇、绕口令等复杂语言结构时,MaskGCT表现出一定的优势,但在这些场景下仍需进一步提升鲁棒性。
4. 跨语言翻译的鲁棒性:在跨语言语音翻译任务中,MaskGCT在保持说话人相似性方面表现良好,但在某些语言对之间的翻译效果仍需改进。
5. 情感控制的进一步研究:虽然MaskGCT可以通过后训练实现情感控制,但论文指出这一过程仍需进一步优化,以提高模型在零样本上下文学习场景下的情感控制能力。
问答回顾
问题1:MaskGCT在语音合成中如何减少信息损失?
MaskGCT通过使用向量量化变体自编码器(VQ-VAE)来减少语音合成中的信息损失。具体方法如下:
- VQ-VAE模型:VQ-VAE模型通过编码器将语音特征映射到低维空间,并使用量化器将编码器的输出量化为离散令牌,然后通过解码器重构语音特征。这样做可以在量化过程中保留更多的语义特征信息。
- 训练过程:在训练过程中,VQ-VAE模型优化编码器和解码器的重构损失、量化器的codebook损失以及承诺损失(commitment loss),以确保量化后的令牌尽可能保留原始语音的特征。
通过这种方式,MaskGCT能够在量化语音自监督学习嵌入时最小化信息损失,从而提高合成语音的质量和自然度。
问题2:MaskGCT在跨语言零样本TTS和多语言语音翻译任务中的表现如何?
MaskGCT在跨语言零样本TTS和多语言语音翻译任务中表现出色,具体表现如下:
- 跨语言零样本TTS:MaskGCT在四个额外语言(日语、韩语、德语和法语)上的评估结果表明,其在保持说话人相似度方面显著优于基线模型。例如,在法语测试集上,MaskGCT的SIM-O达到了0.687,WER为16.21,显示出较高的相似度和较低的词错误率。
- 多语言语音翻译:MaskGCT能够实现跨语言语音翻译,并在保持原语音频特征的同时进行翻译。实验结果显示,MaskGCT在“中文到英文”和“英文到中文”的翻译任务中表现良好,具有较高的说话人相似度和较低的词错误率。然而,在其他语言对(如“中文到日语”、“中文到德语”和“英文到法语”)中,由于发音难度和数据限制,WER相对较高。
总体而言,MaskGCT在跨语言零样本TTS和多语言语音翻译任务中展示了其强大的跨语言生成能力和较高的生成质量。
关于社区
『老贾探AI』主要关注LLM、RAG、智能文档等技术方向,并持续提供AI行业热点资讯、精选论文解读等。
- 加入方式:关注
公众号,在菜单栏加入