我愿称之为最强开源语音模型

424 阅读1分钟

在WAIC大会举办的那几天,就发现了这个开源项目!经过了这几天的使用,确实很强,在语音相关的领域,真的是一骑绝尘的存在。

screenshot-20240715-113847.png

语音识别

SenseVoice-Small是一种仅编码器的语音基础模型,专为快速语音理解而设计。它包含多种功能,包括语音识别(ASR)、口语识别(LID)、语音情感识别(SER)和音频事件检测(AED)。SenseVOT-Small支持中文、英文、粤语、日语和韩语的多语言识别。此外,它还提供极低的推理延迟,比Whisper-Small快7倍,比Whisper-大快17倍。

image.png

上传了各种语言的音频进行了试验,都可以很好的识别出来,关键是速度很快。

image.png

在GPU机器上,2分钟的音频大概只需要1秒-2秒就完成了语言的检测和语音识别结果的完整输出。

SenseVoice-small模型采用非自回归端到端架构,推理延迟极低。在参数量与Whisper-Small模型相当的情况下,比Whisper-Small模型推理速度快5倍,比Whisper-Large模型快15倍。同时SenseVoice-small模型在音频时长增加的情况下,推理耗时也无明显增加。

image.png

安装步骤

安装步骤也非常简单

pip install -r requirements.txt

webui

修改webui最后的运行代码,指定IP和运行的端口即可,直接运行这个python脚本就可以看到gradio的界面,项目里面缺少examples文件夹,因此展示出来的一些例子是无法直接使用的。

image.png

但是可以手动上传一个音频文件让它识别。

下一篇,我们介绍一下同时开源的语音合成模型!