先说结论,包体积太大,没使用。
1. 背景
鉴于语音指令要求唤醒率越高越好,误唤醒率越低越好,百度语音指令免费版本,只支持3个关键热词,无法满足日后的扩展需求。技术上的难题是绕不过去的。
唤醒关键词通过语音转文字匹配的方式处理,匹配到了就触发对应Action,会存在一些误转无法匹配的问题,比如关闭热力图->日历图,自动->机动等,用户体验不是很好。遂考虑收费版本,然而调研百度,讯飞、腾讯之后,收费版本单机成本在4~5块。所以不再考虑收费版本。
2. WeNet
经过调研,先前使用是基于Kaldi,准确率相较于发现一款工业级的语音识别开源工具WeNet偏低。
WeNet作为目前最流行的端到端语音识别框架开源工具之一,该工具既可以在模型训练上达到SOTA的效果,也可以给出比较完善的工业应用方案。
WeNet框架同时提供了基于python/pytorch的训练脚本和基于c++/libtorch的工程化部署方案,是真正面向工业界的ASR工具。
其他介绍文档如下:
zhuanlan.zhihu.com/p/349586567
zhuanlan.zhihu.com/p/410281764
zhuanlan.zhihu.com/p/573133117
zhuanlan.zhihu.com/p/375811757
##3. iOS 项目集成方式
4. Android项目集成方式
5. 后端如何支持长语音识别
除了端上支持语音识别能力之外,服务端也要支持下语音的流式识别。
6. 规划
如果我们想要在业务中实现特别高的准确率,离不开自己训练出行行业模型。场景模型能规避很多异常case。 www.bilibili.com/video/BV1Jt…
其次在语音识别率高的情况下,我们可以自己实现一套类似科大讯飞语音指令动作交互Api文档,通过语音识别来匹配关键词,触发唤醒交互流程。具体参照如下
-
推荐阅读
语音唤醒