语音数据集
@dataset
关于中文语音识别的数据集,以下是一些公开可用的资源:
- THCHS-30:这是由清华大学发布的中文语音数据集,包含30小时的普通话语音数据,适用于语音识别和语音合成研究。
- Aishell:这是由北京希尔贝壳科技有限公司发布的大型中文语音数据集,包含178小时的普通话语音数据,广泛应用于语音识别和语音合成领域。
- Free ST Chinese Mandarin Corpus:这是一个免费的中文普通话语音数据集,包含大约10小时的语音数据,适用于语音识别和语音合成研究。
- Primewords:这是一个由上海交通大学发布的中文普通话语音数据集,包含约100小时的语音数据,适用于语音识别和语音合成研究。
- Voxforge:虽然这是一个面向英文语音的数据集,但它也包含了部分中文普通话语音数据,可以用于语音识别研究。
- OpenSLR:这是一个由约翰霍普金斯大学维护的开源语音数据集仓库,包含了多种语言的语音数据,其中包括中文普通话。 这些数据集通常包含了大量的语音录音和相应的转录文本,可以用于训练和测试语音识别模型。在选择数据集时,研究者需要考虑数据集的大小、语音质量、转录准确性等因素。
有这么一个网址,列出了很多语音数据集,几个最新免费开源的中文语音数据集 | AI柠檬
大家按需获取,里面介绍的更多。