每日AI知识-语音数据集

651 阅读2分钟

语音数据集

@dataset

关于中文语音识别的数据集,以下是一些公开可用的资源:

  1. THCHS-30:这是由清华大学发布的中文语音数据集,包含30小时的普通话语音数据,适用于语音识别和语音合成研究。
  2. Aishell:这是由北京希尔贝壳科技有限公司发布的大型中文语音数据集,包含178小时的普通话语音数据,广泛应用于语音识别和语音合成领域。
  3. Free ST Chinese Mandarin Corpus:这是一个免费的中文普通话语音数据集,包含大约10小时的语音数据,适用于语音识别和语音合成研究。
  4. Primewords:这是一个由上海交通大学发布的中文普通话语音数据集,包含约100小时的语音数据,适用于语音识别和语音合成研究。
  5. Voxforge:虽然这是一个面向英文语音的数据集,但它也包含了部分中文普通话语音数据,可以用于语音识别研究。
  6. OpenSLR:这是一个由约翰霍普金斯大学维护的开源语音数据集仓库,包含了多种语言的语音数据,其中包括中文普通话。 这些数据集通常包含了大量的语音录音和相应的转录文本,可以用于训练和测试语音识别模型。在选择数据集时,研究者需要考虑数据集的大小、语音质量、转录准确性等因素。

有这么一个网址,列出了很多语音数据集,几个最新免费开源的中文语音数据集 | AI柠檬

大家按需获取,里面介绍的更多。