怎么搭建自己的语音识别模型

399 阅读3分钟

怎么搭建自己的语音识别模型

github地址 github.com/xuejiazhi/v…

VOSK Kali-CN 语音识别模型

Vosk是基于Kaldi集成的一个轻量级平台服务器,它可以实现和多种服务器端协议集成 国内感觉没法直接在Docker Hub上面下载,特提供了一个下载的Docker镜像包百度网盘的下载

docker load -i kali-cn.tar
docker run -d -p 2700:2700 alphacep/kaldi-cn:latest

下载镜像文件到自己的服务器,装好docker,然后把镜像load到本地,再run镜像,就可以将VOSK Kali中文语音识别模型搭建好了, 具体怎么应用看这里

VOSK Offline Speech Recognition API

安装好后测试如下

image.png

image.png

阿里的FunASR 语音识别模型

FunASR是阿里达摩院提供一个基础的语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复(PR)、语言模型(LM)、说话人分离 提供一个Docker 的镜像包百度网盘下载

链接:funasr.tar_免费高速下载|百度网盘-分享无限制 请输入提取码 提取码:sjnc 复制这段内容后打开百度网盘手机App,操作更方便哦

docker load -i funasr.tar

当前文件路径下创建目录 用于挂载模型

mkdir -p ./funasr-runtime-resources/models

启动镜像 sudo docker run -p 10095:10095 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6 服务端启动,docker启动之后,进入到docker里边

docker exec -it <imageid> /bin/bash

启动funasr-wss-server服务程序(有16K 和 8K模型可选择):

cd FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
--model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
--itn-dir thuduj12/fst_itn_zh \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

#查看打印日志

tail -f log.txt

如果您想关闭SSL,增加参数:--certfile 0 如果您想部署8k的模型,请使用如下命令启动服务:

cd FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-8k-common-onnx \
--model-dir damo/speech_paraformer_asr_nat-zh-cn-8k-common-vocab8358-tensorflow1-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst-token8358 \
--itn-dir thuduj12/fst_itn_zh \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

使用客户端测试 官方提供了:html页面、java、python、cpp 将docker镜像中的html页面下载到宿主机,然后下载到本机

docker cp <容器 ID 或名称>:/workspace/FunASR/runtime/html5 /funasr-runtime-resources
在浏览器中打开html/static/index.html,即可出现如下页面,支持麦克风输入与文件上传,直接进行体验。

image.png 语音识别测试wav数据 再给大家提供一个语音识别测试wav数据集(中文250条英文150条)

image.png

image.png 链接:asr_data.zip_免费高速下载|百度网盘-分享无限制 请输入提取码 提取码:rih9 复制这段内容后打开百度网盘手机App,操作更方便哦