语音识别-数据收集(普通话、方言)

438 阅读2分钟

为了避免上线后,语音识别能力拉垮,我们要前置语音识别准确度测试。如何进行上线前测试呢,收集录音,然后端上播放识别,判断准确度。

语音制造数据

tool.shdbrj.com/#/Azuretts 文字转语音 支持部分方言转化。

tts.byylook.com/ai/text-to-… 文字转语音,支持主播等各种播音

xiangyuecn.github.io/Recorder/ 支持iOS 、Android实现录制语音能力

image.png

噪音数据+语音训练数据

数据集是storage.googleapis.com/download.te… 每个音频文件1s,一个单词。每个单词都有1000个录音。

四川话识别数据集收集

github.com/cjh-huihui/…

链接:pan.baidu.com/s/1F7HBjl3n… 提取码:lvud

普通话语音识别数据集

github.com/ranchlai/ma…

github.com/ranchlai/ma…

image.png

数据的训练与结果收敛

TensorFlow 作为一个相对底层的系统,它创造了许多全新的概念,用户近似需要学习一门新的语言。TensorFlow 最令人诟病的是它混乱且频繁更新的接口设计:同样的功能提供了多种实现,对接口的设计没有考虑向后兼容性等。虽然有关 TensorFlow的文档、教程很多,但是整体而言层次性不强,用户很难快速地使用 TensorFlow 完成具体的任务。

而 PyTorch 更多地从算法工程师的角度考虑,它的接口风格与 NumPy 类似,Python用户可以便捷地使用 PyTorch 搭建模型,并进行调试。同时,PyTorch 提供了完整的文档、循序渐进的指南以及作者亲自维护的论坛供用户交流问题。

总体而言,TensorFlow 是一个十分完备的系统,在开发它时主要从系统设计的角度出发,目标十分宏大,力求成为最强大的深度学习框架。然而,作为一个还在快速发展探索的领域,人工智能研发人员实际需要的可能并没有这么复杂,他们更加希望快速地实现和尝试自己的想法,这也是为什么半路出家的 PyTorch 能够异军突起,一举成为最受欢迎的深度学习框架之一(可能没有“之一”)

看各人喜好,目前使用PyTorch进行数据分析训练。