VoiceCraft:开源语音编辑和零样本语音合成模型,性能超过VALL-E和XTTS v2

323 阅读5分钟

引言

语音编辑和零样本语音合成是两个亟待解决的语音处理领域。前者能够帮助内容创作者更轻松地修改语音录音中的错误词或短语,使之更加流畅自然;后者则可以赋予语音合成模型处理未见过的目标说话人声音的能力,大幅提升应用场景的广泛性。然而,目前现有的方法在这些任务上仍存在诸多挑战,比如生成的语音缺乏自然性和连贯性,或者泛化性较差,难以应对复杂的真实世界数据。

VoiceCraft,是一个基于神经编码语言模型的开源模型。VoiceCraft在语音编辑和零样本语音合成两个任务上均取得了突破性进展,其性能显著超过了当前业界SOTA模型VALL-E和XTTS v2。

VoiceCraft模型介绍

VoiceCraft的核心创新在于采用了一种基于编码序列的生成方法。具体来说,它首先使用Encodec将原始语音信号量化为一系列可学习的离散编码单元,然后基于这些编码单元训练一个Transformer解码器模型来执行自回归生成。

为了支持在已有语音序列上进行填充式编辑和零样本语音合成,VoiceCraft引入了两个关键技术:

  • 因果遮蔽:在训练时,VoiceCraft会随机选择一个或多个语音编码单元进行遮蔽。与此同时,它会将这些被遮蔽的编码单元移动至序列末尾。这样一来,模型在生成这些被遮蔽的编码单元时,就能够利用前后上下文信息进行自回归预测,从而确保生成的内容更加连贯自然。
  • 延迟堆叠:Encodec将语音信号量化为来自4个不同编码簿的编码单元。VoiceCraft采用了一种将这些编码单元按编码簿进行错位堆叠的技术,以提升多编码簿建模的效率。具体而言,对于第t个时间步,第k个编码簿的编码单元被安排在第t-k+1个时间步,这样既能利用编码簿之间的依赖关系,又避免了单个时间步预测过多编码单元的计算负担。

这两项创新使得VoiceCraft能够流畅地在已有语音序列上执行插入、删除和替换操作,生成自然、连贯的编辑语音。同时,VoiceCraft也能够直接在给定目标文本的情况下,零样本地合成出相应的语音,无需针对特定说话人进行额外的fine-tuning。

实验结果

在两个重要任务上评测了VoiceCraft的性能:

  • 语音编辑:为了评估VoiceCraft在真实世界场景下的表现,构建了一个全新的、高质量且具有挑战性的语音编辑数据集REALEDIT。REALEDIT包含310个来自audiobook、YouTube和Spotify等不同来源的语音编辑样例,覆盖了插入、删除和替换等各种编辑类型,编辑长度从1个词到16个词不等。与常见的只包含audiobook数据的语音合成评测数据集(如VCTK、LJSpeech和LibriTTS)相比,REALEDIT的录音具有更加多样化的内容、口音、说话风格、录制条件和背景噪音,给模型的泛化能力提出了更高的要求。

在REALEDIT上的主观评测中,VoiceCraft显著优于现有SOTA模型FluentSpeech。具体而言,人类评审者在48%的情况下更偏好VoiceCraft生成的编辑语音,认为其自然度更高。这一结果表明,VoiceCraft能够生成几乎与原始录音无法区分的自然语音。值得一提的是,FluentSpeech在客观WER指标上优于原始录音,但在主观自然度上却明显逊色,这说明WER可能并不能完全反映语音编辑模型的实际效果。

  • 零样本语音合成:除了语音编辑,还评测了VoiceCraft在零样本语音合成任务上的性能。从LibriTTS和YouTube数据集中各选取125个样例,总计250个样例进行了测试。在这些样例上,VoiceCraft在intelligibility、自然度和说话人相似度等多个指标上均优于VALL-E、XTTS v2等SOTA模型,接近甚至超过真实语音样本的水平。例如,在intelligibility MOS指标上,VoiceCraft得分为4.23,仅略低于真实语音的4.39。而在说话人相似度MOS方面,VoiceCraft更是达到了4.34,几乎与真实语音的4.44持平。这些结果充分展示了VoiceCraft在零样本语音合成领域的出色表现。

总的来说,VoiceCraft通过创新的编码序列建模技术,在语音编辑和零样本语音合成两个具有挑战性的任务上取得了突破性进展,其性能显著超过了业界SOTA模型。

结论

总之,VoiceCraft为语音编辑和零样本语音合成带来了显著突破,将继续努力,推动这一领域的进一步发展。未来,希望能进一步提升VoiceCraft在生成质量和安全性方面的表现,并探索其在更广泛的语音处理应用中的潜力。

模型下载

Huggingface模型下载

huggingface.co/pyp1/voicec…

AI快站模型免费加速下载

aifasthub.com/models/pyp1