我愿称之为最强开源语音模型在WAIC大会举办的那几天，就发现了这个开源项目！经过了这几天的使用，确实很强，在语音相关的领

在WAIC大会举办的那几天，就发现了这个开源项目！经过了这几天的使用，确实很强，在语音相关的领域，真的是一骑绝尘的存在。

语音识别

SenseVoice-Small是一种仅编码器的语音基础模型，专为快速语音理解而设计。它包含多种功能，包括语音识别（ASR）、口语识别（LID）、语音情感识别（SER）和音频事件检测（AED）。SenseVOT-Small支持中文、英文、粤语、日语和韩语的多语言识别。此外，它还提供极低的推理延迟，比Whisper-Small快7倍，比Whisper-大快17倍。

上传了各种语言的音频进行了试验，都可以很好的识别出来，关键是速度很快。

在GPU机器上，2分钟的音频大概只需要1秒-2秒就完成了语言的检测和语音识别结果的完整输出。

SenseVoice-small模型采用非自回归端到端架构，推理延迟极低。在参数量与Whisper-Small模型相当的情况下，比Whisper-Small模型推理速度快5倍，比Whisper-Large模型快15倍。同时SenseVoice-small模型在音频时长增加的情况下，推理耗时也无明显增加。

安装步骤

安装步骤也非常简单

pip install -r requirements.txt

webui

修改webui最后的运行代码，指定IP和运行的端口即可，直接运行这个python脚本就可以看到gradio的界面，项目里面缺少examples文件夹，因此展示出来的一些例子是无法直接使用的。

但是可以手动上传一个音频文件让它识别。

下一篇，我们介绍一下同时开源的语音合成模型！