环境
- 通过nvm安装node.js v14.21.3:
nvm install v14.21.3
,node.js高版本不支持deepspeech - 安装sox:
sudo apt-get instal sox
准备文件
# 模型文件
wget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models-zh-CN.tflite
wget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models-zh-CN.scorer
自己录制的wav文件,和whisper用的音频文件是一样的
参考官网例子
识别文件
node index.js audio/2830-3980-0043.wav
音频内容:我是中国人,来自北京
识别结果: 它是中国人湖南自北京
TensorFlow: v2.3.0-6-g23ad988
DeepSpeech: v0.9.3-0-gf2e9c85
audio length 3.136
result: 它是中国人湖南自北京
相差很大,和模型有很大的关系