端到端语音识别框架-WeNet调研

346 阅读2分钟

先说结论,包体积太大,没使用。

1. 背景

鉴于语音指令要求唤醒率越高越好,误唤醒率越低越好,百度语音指令免费版本,只支持3个关键热词,无法满足日后的扩展需求。技术上的难题是绕不过去的。

唤醒关键词通过语音转文字匹配的方式处理,匹配到了就触发对应Action,会存在一些误转无法匹配的问题,比如关闭热力图->日历图,自动->机动等,用户体验不是很好。遂考虑收费版本,然而调研百度,讯飞、腾讯之后,收费版本单机成本在4~5块。所以不再考虑收费版本。

2. WeNet

经过调研,先前使用是基于Kaldi,准确率相较于发现一款工业级的语音识别开源工具WeNet偏低。

WeNet作为目前最流行的端到端语音识别框架开源工具之一,该工具既可以在模型训练上达到SOTA的效果,也可以给出比较完善的工业应用方案。

WeNet框架同时提供了基于python/pytorch的训练脚本和基于c++/libtorch的工程化部署方案,是真正面向工业界的ASR工具。

其他介绍文档如下:

zhuanlan.zhihu.com/p/349586567

zhuanlan.zhihu.com/p/410281764

zhuanlan.zhihu.com/p/573133117

zhuanlan.zhihu.com/p/375811757

github.com/wenet-e2e/w…

mp.weixin.qq.com/s/OP5nWz2aS…

mp.weixin.qq.com/s/owUZAguxq…

mp.weixin.qq.com/mp/appmsgal…

coding.imooc.com/class/699.h…

##3. iOS 项目集成方式

github.com/wenet-e2e/w…

4. Android项目集成方式

github.com/wenet-e2e/w…

5. 后端如何支持长语音识别

除了端上支持语音识别能力之外,服务端也要支持下语音的流式识别。

wenet.org.cn/wenet/

www.bilibili.com/video/BV1jW…

www.bilibili.com/video/BV1rV…

www.bilibili.com/video/BV1SS…

6. 规划

如果我们想要在业务中实现特别高的准确率,离不开自己训练出行行业模型。场景模型能规避很多异常case。 www.bilibili.com/video/BV1Jt…

其次在语音识别率高的情况下,我们可以自己实现一套类似科大讯飞语音指令动作交互Api文档,通过语音识别来匹配关键词,触发唤醒交互流程。具体参照如下

www.xfyun.cn/doc/asr/awa…

www.xfyun.cn/doc/asr/AIk…

  1. 推荐阅读

语音唤醒

zhuanlan.zhihu.com/p/617687780