端到端语音识别框架-WeNet调研先说结论，包体积太大，没使用。 1. 背景鉴于语音指令要求唤醒率越高越好，误唤醒率越

先说结论，包体积太大，没使用。

1. 背景

鉴于语音指令要求唤醒率越高越好，误唤醒率越低越好，百度语音指令免费版本，只支持3个关键热词，无法满足日后的扩展需求。技术上的难题是绕不过去的。

唤醒关键词通过语音转文字匹配的方式处理，匹配到了就触发对应Action，会存在一些误转无法匹配的问题，比如关闭热力图->日历图，自动->机动等，用户体验不是很好。遂考虑收费版本，然而调研百度，讯飞、腾讯之后，收费版本单机成本在4～5块。所以不再考虑收费版本。

经过调研，先前使用是基于Kaldi，准确率相较于发现一款工业级的语音识别开源工具WeNet偏低。

WeNet作为目前最流行的端到端语音识别框架开源工具之一，该工具既可以在模型训练上达到SOTA的效果，也可以给出比较完善的工业应用方案。

WeNet框架同时提供了基于python/pytorch的训练脚本和基于c++/libtorch的工程化部署方案，是真正面向工业界的ASR工具。

其他介绍文档如下：

##3. iOS 项目集成方式

除了端上支持语音识别能力之外，服务端也要支持下语音的流式识别。

如果我们想要在业务中实现特别高的准确率，离不开自己训练出行行业模型。场景模型能规避很多异常case。 www.bilibili.com/video/BV1Jt…

其次在语音识别率高的情况下，我们可以自己实现一套类似科大讯飞语音指令动作交互Api文档，通过语音识别来匹配关键词，触发唤醒交互流程。具体参照如下

语音唤醒