语音识别ASR方案及供应商调研梳理离线语音识别ASR原理与行业现状，重点关注硬件本地实现专用芯片方案。离线语音识别，技术

一、语音识别技术的原理

定义：语音识别技术（ASR Automatic Speech Recognition)，让智能设备听懂人类的语音。

语音识别的工作流程，可以分为三大部分：前端语音处理、模型训练、后端识别处理

语音识别的基本工作流程

以下是详细语音识别技术的原理分支整理：

（一）传统型

传统型语音识别方案，采用特定人语音识别技术，又称为模型匹配或者语音标签，以及随后有进阶版的概率统计型的语音算法，例如GMM+HMM。识别率相对较低，但胜在成本低廉，适用于同样低廉的应用中。

传统型语音识别芯片，配置等同于通用的低端MCU，出于成本考量，各家芯片都有不同的"性能短板"：无AP处理器、需外挂存储、成本低的OTP存储、词条数少、接口单一、识别距离近等。

厂商分析：台湾新塘传统型最具代表的厂商就是台湾新塘，新塘Nuvoton作为行业较为知名的MCU厂家，2011年推出了ARM架构的MCU芯片-ISD9160，之后结合台湾赛维的语音算法，在2016年前后该组合的语音识别方案，受到了家电圈的广泛关注。在当时还没有智能音箱和手机语音助手的时代，新塘推出的ISD9160语音识别方案，属于名副其实的黑科技。所以，几乎大部分知名家电厂家，都纷纷推出了声控类产品。然而受限于技术不成熟，出现语音的识别率较低、降噪效果差、误识别率高等问题，造成品牌客户的语音产品销路反响很差，甚至导致终端客户丢失的情况，厂商损失惨重，这也是很多厂商对于离线语音比较排斥的原因之一。在家电以外的应用中，新塘\凌阳等台湾MCU+赛维算法的语音识别方案，以相对低廉的价格，以及支持多国语言等特性，在对体验较为宽松的玩具行业和低端照明行业，仍然有一定的出货。广州九芯\深圳唯创\深圳盛矽\深圳捷通玩具、家电等行业，除了台系厂商，国内也涌现了很多同类厂商，其中以九芯和唯创较为知名。该类厂商主要经营的是播音芯片，即能播放少量音频的专用MCU（烧录小容量的音频数据，以及支持驱动喇叭的功放）。后来该类厂商，也在尝试试水语音识别芯片，但更多是以低成本为主，例如常用低成本和低容量的OTP（一次性烧录）作为数据存储，而很少考虑Flash。 PS：电子玩具行业，国内产地集中于广东汕头澄海，我家给小孩买的玩具10件有9件都是这个产地的；外销出口的电子玩具，方案源于深圳，例如美泰电子等，有部分大型玩具大工厂在广东韶关。 ICRoute 上海音航音航LD3320 除了不具备微处理器的控制功能（外挂MCU），其余语音识别功能都比较完整，识别率达到95%和命令词50条。官网（www.icroute.com/) 的工具链也很完善，有方便用户定制指令的软件工具，以及各类软件定制开发的工具。该公司的大股东孙放，是北京雷动云合的联合创始人，雷动云合是做视觉识别产品的。

（二）互联网型

厂商性质偏互联网属性，专攻在线语音技术，包括语音识别\TTS合成\语言翻译等，在手机\平板\电脑\车载\可穿戴\电视等应用上已经广泛使用，例如苹果手机“Hi Siri”、天猫音箱等。通常是以软体Liscense授权为主要营收来源，可以灵活运行于不同的CPU和MCU平台，支持丰富的语音交互和线上内容获取。

或许出于扩大市场范围的考量，或许出于完善物联网端侧语音交互功能，互联网型的厂商从线上语音技术，开始衍生出线下\本地\离线的语音识别方案，芯片通常是外部采购而非自主设计，芯片配置较为多样且成本相对合理，其中云知声和华镇在该领域较为活跃，推出了不同配置和功能的离线语音芯片方案。

最近几年，互联网型的企业，已经开始涉足芯片设计，推出离线语音的专用芯片。例如讯飞于2019年收购穹天，该公司现改名为聆思；思必驰于2018年成立芯片设计公司-深聪；阿里巴巴2018年收购中天微，随后更名为平头哥，纳入阿里云集团，近期在联合多家芯片厂商，推出了离线语音的芯片；百度AIG部门推出语音芯片鸿鹄。

采用传统MCU和DSP跑语音识别算法和模型，往往会出现硬件配置和算法需求不匹配的情况，导致语音识别的表现不如预期。如果选用性能较好的CPU级芯片，跑语音算法倒是足够了，但成本又太高让客户无法接受。所以基于性能和成本的考量，互联网型公司会考虑自开语音识别专用芯片，就在预料中的事情了。

厂商分析：

互联网巨头：阿里巴巴和百度

阿里天猫精灵和百度小度音箱，均为影响较广的智能音箱产品，离线更多是作为生态外围端侧的功能补充。

阿里，与多家芯片厂商深度合作，一方面推广旗下平头哥的RISC-V IP，另一方面也在确保生态的丰富性

百度，购买成熟的Candence HiFi4 IP，也跟乐鑫深度合作，推出WiFi+语音产品。

在线语音识别厂商：科大讯飞、思必驰、云知声

三家在线语音识别厂商，原本专攻云端在线语音技术，之后下沉到端侧的离线语音识别芯片

云知声自定义生成工具非常高效，但误识别率相对较高、降噪效果差，可能在要求不高的领域比较适用

讯飞很早推出过离线语音模组，算法自研但芯片外采。之后收购芯片设计团队，品牌和技术能力强

思必驰前期聚焦于车载语音应用，之后也收购了深聪自研芯片

语音算法公司：互问、华镇

互问和华镇在规模上相对较小，芯片外采，自研算法，在线下市场比较活跃

（三）芯算一体型

芯算一体型，大部分厂商属于芯片国产化浪潮下，诞生的初创企业。综合了芯片设计和算法开发的能力，相较于传统型和互联网型，推出的离线语音芯片和方案更适合于终端应用，且厂商更聚焦于离线语音识别，在后续的技术服务和量产后的优化能力上，明显更具备优势。

算法模型上会采用DNN\HOMM\DNN\RNN等技术，这与互联网型厂商的技术路径是一致。为了最大化发挥算法的先进性，芯算一体型往往会采用NPU网络神经芯片，或者其他AI专用芯片架构，在语音处理上相比DSP会具有很大的性能优势。该类芯片出了语音识别算法，还能真正做到硬件端的降噪、远场、回声消除等附带的功能，加上声学模型和语料定制服务，识别率通常在95%以上（5米范围 50~60dB环境下），同时兼顾了很低的误识别率。

厂商分析：

探境 & 清微 & 知存三家北京系的公司，在NPU(网络神经处理器)上有各自的技术特点和优势，语音识别的处理能力最优，能耗比很高。探境核心处理器采用先进SFA架构，算法上降噪效果和远场拾音上非常优异，成本上控制得很好，当前双麦语音识别技术成熟，且成本很低。 PS：另外还有一家北京公司：承芯卓越，暂未查到资料。 成都启英 & 深圳人麦两家是最早一批进入3.0时代的厂商，产品均已迭代至第二代，产品经过几年的市场验证较为成熟，也有一定的客户群体。其中启英2016年即已开始推广，在市场上知名度较高，行业经验较为充足。杭州国芯国芯成立于2001年，芯片行业的老兵。业务分为两大块：卫星数字电视方案和AI语音识别方案。语音识别业务，与互联网公司联合开发，其中刚推出的GX8002A主打"高集成度和小体积"特点，主攻TWS耳机和可穿戴应用。普林芯驰推出的芯片支持触控功能，可以替代部分家电应用原有MCU控制。

未来，语音识别技术的挑战与机遇

2016年，笔者参与过台湾新塘语音芯片-ISD9160的产品研讨会，当时各大家电厂商积极度很高，各类应用陆续推出，包括语音电饭煲、语音风扇、语音空调等等，彼时智能音箱还未推出，属于绝对的最新黑科技。但受限於技术的不完善，实际的消费者体验差，整体识别率低，最终惨淡收场，至今仍对行业造成较大的负面影响。

2017年，天猫精灵上市，让更多的国内消费者开始熟悉语音识别技术。百度\华为\小米\腾讯等厂商入局，进一步推动该技术的发展，而手机和电脑的语音小助手也越发普及。时至今日，语音识别技术，已经成为智能硬件生产中不可或缺的技术。

如今的离线语音识别，技术上逐步趋于完善，无论是算法、硬件还是配备的开发工具链，都基本满足市场的要求。但相对在线而言，离线在消费者的普及率仍然较低，国内厂商也比以往更为挑剔，最大的挑剔点主要是相比于在线，离线语音识别的人机交互方式比较单一，做不到像在线那样自然。

关于离线和在线的优缺点比较，个人主要观点有：

1、离线语音技术，更适合看作为替代物理按键、红外遥控和手机APP的新技术，属于功能性的革新技术。它解决了用户不愿走过去、寻找遥控器和繁琐APP操作的问题，真正实现解放双手的便捷使用体验。至于熟悉命令词的过程，跟以往用户购买新的电子产品，需要熟悉按钮或遥控器的功能一样，都属于短暂学习就能很快上手的过程，建立行为习惯后操控变得更简单。

2、在线语音，看似更低的硬件成本，实际开发周期长，后期APP和售后维护成本高，远不像离线上电即可使用来的简单。更为关键的是，在线属于大厂的生态之争，厂商失去对技术和用户的自主权，完全将用户数据共享给第三方。而用户的隐私失去保护，而且需要再不同厂商的智能硬件上选择站队。

3、离线语音正在逐步突破单一场景的自然语言功能，实现雷同于在线的自然控制命令。但支持该功能，同样需要回归成本的问题，NLP自然语言功能实现起来，所需要的硬件资源很大，成本必然会上升很多。

语音识别芯片对比