数据集：VoxSim 专注评估语音合成特定方面 -说话者相似性评估数据集。用于开发和基准测试能够自动预测合成语音与参考语音之间说话者相似度的模型

2024/7/26 由韩国科学技术院和三星研究院推出的VoxSim:一个感知语音相似度评分的数据集。

最近在自动化评估语音合成技术方面的努力主要集中在预测自然度的平均意见得分上，而由于缺乏大量的训练数据，说话者声音相似度相对未被充分探索。

为了解决这个问题，从VoxCeleb数据集（一个广泛用于说话者识别的语音数据集）生成了约41k对话语对，并通过听力测试收集了近70k个说话者相似度评分。VoxSim 数据集支持研究者开发能够更准确预测人类感知相似度的自动化评估工具，这对于改进和验证语音合成系统的性能至关重要。

一、先来看看数据集

数据集包含来自1,251名说话者的约70k个相似度评分，这些话语是从VoxCeleb1数据集中采样的，使评估模型在训练期间暴露于各种通道效应和噪声中，增强了跨语音领域的泛化性能。

实验采用了三种模型架构：ECAPA-TDNN、WavLM-ECAPA和SVSNet，用于说话者相似度预测实验。

添加图片注释，不超过 140 字（可选）

使用线性相关系数（LCC）、Spearman等级相关系数（SRCC）、决定系数（R2）、均方误差（MSE）和准确率（ACC）等指标评估模型。

实验结果：在VoxSim测试集上，微调后的ECAPA-TDNN和WavLM-ECAPA在VoxSim测试集上的表现优于它们在预训练状态下的表现，这表明VoxSim数据集的微调对于提高说话者相似度预测的性能是有效的。

1、语音合成自然度改进：

为了使合成语音听起来更自然，系统需要能够捕捉和再现人类语音的细微差别。VoxSim 数据集的多样性可以帮助训练模型学习这些细微差别，从而提高合成语音的自然度。

2、文本到语音转换(TTS) :

可以帮助改进文本到语音系统，使生成的语音更自然、更接近真实人类说话者的语音。通过训练模型以识别和模仿不同说话者的特征，TTS 系统可以更准确地复制目标说话者的声音。

3、语音克隆：

在语音克隆应用中，以理解和复制说话者的独特声音特征，从而实现语音克隆。

4、说话者识别和验证：

可以用来训练和改进说话者识别系统，这些系统可以应用于安全验证、个性化服务等场景。

5、多种语言和方言的语音合成系统：

未来数据集拓展包含了多种语言和方言的说话者，它还可以支持开发能够处理多种语言和方言的语音合成系统。