每日AI知识-语音数据集语音数据集 @dataset 关于中文语音识别的数据集，以下是一些公开可用的资源： THCHS-

语音数据集

@dataset

关于中文语音识别的数据集，以下是一些公开可用的资源：

THCHS-30：这是由清华大学发布的中文语音数据集，包含30小时的普通话语音数据，适用于语音识别和语音合成研究。
Aishell：这是由北京希尔贝壳科技有限公司发布的大型中文语音数据集，包含178小时的普通话语音数据，广泛应用于语音识别和语音合成领域。
Free ST Chinese Mandarin Corpus：这是一个免费的中文普通话语音数据集，包含大约10小时的语音数据，适用于语音识别和语音合成研究。
Primewords：这是一个由上海交通大学发布的中文普通话语音数据集，包含约100小时的语音数据，适用于语音识别和语音合成研究。
Voxforge：虽然这是一个面向英文语音的数据集，但它也包含了部分中文普通话语音数据，可以用于语音识别研究。
OpenSLR：这是一个由约翰霍普金斯大学维护的开源语音数据集仓库，包含了多种语言的语音数据，其中包括中文普通话。这些数据集通常包含了大量的语音录音和相应的转录文本，可以用于训练和测试语音识别模型。在选择数据集时，研究者需要考虑数据集的大小、语音质量、转录准确性等因素。

大家按需获取，里面介绍的更多。