语音识别ASR方案及供应商调研

928 阅读11分钟

一、语音识别技术的原理

定义:语音识别技术(ASR Automatic Speech Recognition),让智能设备听懂人类的语音。

语音识别的工作流程,可以分为三大部分:前端语音处理、模型训练、后端识别处理

image

语音识别的基本工作流程

以下是详细语音识别技术的原理分支整理:

image

(一)传统型

传统型语音识别方案,采用特定人语音识别技术,又称为模型匹配或者语音标签,以及随后有进阶版的概率统计型的语音算法,例如GMM+HMM。识别率相对较低,但胜在成本低廉,适用于同样低廉的应用中。

传统型语音识别芯片,配置等同于通用的低端MCU,出于成本考量,各家芯片都有不同的"性能短板": 无AP处理器、需外挂存储、成本低的OTP存储、词条数少、接口单一、识别距离近等。

image

厂商分析: 台湾 新塘 传统型最具代表的厂商就是台湾新塘,新塘Nuvoton作为行业较为知名的MCU厂家,2011年推出了ARM架构的MCU芯片-ISD9160,之后结合台湾赛维的语音算法,在2016年前后该组合的语音识别方案,受到了家电圈的广泛关注。在当时还没有智能音箱和手机语音助手的时代,新塘推出的ISD9160语音识别方案,属于名副其实的黑科技。所以,几乎大部分知名家电厂家,都纷纷推出了声控类产品。然而受限于技术不成熟,出现语音的识别率较低、降噪效果差、误识别率高等问题,造成品牌客户的语音产品销路反响很差,甚至导致终端客户丢失的情况,厂商损失惨重,这也是很多厂商对于离线语音比较排斥的原因之一。 在家电以外的应用中,新塘\凌阳等台湾MCU+赛维算法的语音识别方案,以相对低廉的价格,以及支持多国语言等特性,在对体验较为宽松的玩具行业和低端照明行业,仍然有一定的出货。 广州九芯\深圳唯创\深圳盛矽\深圳捷通 玩具、家电等行业,除了台系厂商,国内也涌现了很多同类厂商,其中以九芯和唯创较为知名。该类厂商主要经营的是播音芯片,即能播放少量音频的专用MCU(烧录小容量的音频数据,以及支持驱动喇叭的功放)。后来该类厂商,也在尝试试水语音识别芯片,但更多是以低成本为主,例如常用低成本和低容量的OTP(一次性烧录)作为数据存储,而很少考虑Flash。 PS:电子玩具行业,国内产地集中于广东汕头澄海,我家给小孩买的玩具10件有9件都是这个产地的;外销出口的电子玩具,方案源于深圳,例如美泰电子等,有部分大型玩具大工厂在广东韶关。 ICRoute 上海音航 音航LD3320 除了不具备微处理器的控制功能(外挂MCU),其余语音识别功能都比较完整,识别率达到95%和命令词50条。官网(www.icroute.com/) 的工具链也很完善,有方便用户定制指令的软件工具,以及各类软件定制开发的工具。 该公司的大股东孙放,是北京雷动云合的联合创始人,雷动云合是做视觉识别产品的。

(二)互联网型

厂商性质偏互联网属性,专攻在线语音技术,包括语音识别\TTS合成\语言翻译等,在手机\平板\电脑\车载\可穿戴\电视等应用上已经广泛使用,例如苹果手机“Hi Siri”、天猫音箱等。通常是以软体Liscense授权为主要营收来源,可以灵活运行于不同的CPU和MCU平台,支持丰富的语音交互和线上内容获取。

或许出于扩大市场范围的考量,或许出于完善物联网端侧语音交互功能,互联网型的厂商从线上语音技术,开始衍生出线下\本地\离线的语音识别方案,芯片通常是外部采购而非自主设计,芯片配置较为多样且成本相对合理,其中云知声和华镇在该领域较为活跃,推出了不同配置和功能的离线语音芯片方案。

最近几年,互联网型的企业,已经开始涉足芯片设计,推出离线语音的专用芯片。例如讯飞于2019年收购穹天,该公司现改名为聆思;思必驰于2018年成立芯片设计公司-深聪;阿里巴巴2018年收购中天微,随后更名为平头哥,纳入阿里云集团,近期在联合多家芯片厂商,推出了离线语音的芯片;百度AIG部门推出语音芯片鸿鹄。

采用传统MCU和DSP跑语音识别算法和模型,往往会出现硬件配置和算法需求不匹配的情况,导致语音识别的表现不如预期。如果选用性能较好的CPU级芯片,跑语音算法倒是足够了,但成本又太高让客户无法接受。所以基于性能和成本的考量,互联网型公司会考虑自开语音识别专用芯片,就在预料中的事情了。

image

厂商分析:

互联网巨头:阿里巴巴和百度

阿里 天猫精灵和百度小度音箱,均为影响较广的智能音箱产品,离线更多是作为生态外围端侧的功能补充。

阿里,与多家芯片厂商深度合作,一方面推广旗下平头哥的RISC-V IP,另一方面也在确保生态的丰富性

百度,购买成熟的Candence HiFi4 IP,也跟乐鑫深度合作,推出WiFi+语音产品。

在线语音识别厂商:科大讯飞、思必驰、云知声

三家在线语音识别厂商,原本专攻云端在线语音技术,之后下沉到端侧的离线语音识别芯片

云知声 自定义生成工具非常高效,但误识别率相对较高、降噪效果差,可能在要求不高的领域比较适用

讯飞 很早推出过离线语音模组,算法自研但芯片外采。之后收购芯片设计团队,品牌和技术能力强

思必驰 前期聚焦于车载语音应用,之后也收购了深聪 自研芯片

语音算法公司:互问、华镇

互问和华镇在规模上相对较小,芯片外采,自研算法,在线下市场比较活跃

(三)芯算一体型

芯算一体型,大部分厂商属于芯片国产化浪潮下,诞生的初创企业。综合了芯片设计和算法开发的能力,相较于传统型和互联网型,推出的离线语音芯片和方案更适合于终端应用,且厂商更聚焦于离线语音识别,在后续的技术服务和量产后的优化能力上,明显更具备优势。

算法模型上会采用DNN\HOMM\DNN\RNN等技术,这与互联网型厂商的技术路径是一致。为了最大化发挥算法的先进性,芯算一体型往往会采用NPU网络神经芯片,或者其他AI专用芯片架构,在语音处理上相比DSP会具有很大的性能优势。该类芯片出了语音识别算法,还能真正做到硬件端的降噪、远场、回声消除等附带的功能,加上声学模型和语料定制服务,识别率通常在95%以上(5米范围 50~60dB环境下),同时兼顾了很低的误识别率。

image

厂商分析:

探境 & 清微 & 知存 三家北京系的公司,在NPU(网络神经处理器)上有各自的技术特点和优势,语音识别的处理能力最优,能耗比很高。探境 核心处理器采用先进SFA架构,算法上降噪效果和远场拾音上非常优异,成本上控制得很好,当前双麦语音识别技术成熟,且成本很低。 PS:另外还有一家北京公司:承芯卓越,暂未查到资料。 成都启英 & 深圳人麦 两家是最早一批进入3.0时代的厂商,产品均已迭代至第二代,产品经过几年的市场验证较为成熟,也有一定的客户群体。其中启英2016年即已开始推广,在市场上知名度较高,行业经验较为充足。 杭州国芯 国芯成立于2001年,芯片行业的老兵。业务分为两大块:卫星数字电视方案和AI语音识别方案。语音识别业务,与互联网公司联合开发,其中刚推出的GX8002A主打"高集成度和小体积"特点,主攻TWS耳机和可穿戴应用。 普林芯驰 推出的芯片支持触控功能,可以替代部分家电应用原有MCU控制。


未来,语音识别技术的挑战与机遇

2016年,笔者参与过台湾新塘语音芯片-ISD9160的产品研讨会,当时各大家电厂商积极度很高,各类应用陆续推出,包括语音电饭煲、语音风扇、语音空调等等,彼时智能音箱还未推出,属于绝对的最新黑科技。但受限於技术的不完善,实际的消费者体验差,整体识别率低,最终惨淡收场,至今仍对行业造成较大的负面影响。

2017年,天猫精灵上市,让更多的国内消费者开始熟悉语音识别技术。百度\华为\小米\腾讯等厂商入局,进一步推动该技术的发展,而手机和电脑的语音小助手也越发普及。时至今日,语音识别技术,已经成为智能硬件生产中不可或缺的技术。

如今的离线语音识别,技术上逐步趋于完善,无论是算法、硬件还是配备的开发工具链,都基本满足市场的要求。但相对在线而言,离线在消费者的普及率仍然较低,国内厂商也比以往更为挑剔,最大的挑剔点主要是相比于在线,离线语音识别的人机交互方式比较单一,做不到像在线那样自然。

关于离线和在线的优缺点比较,个人主要观点有:

1、离线语音技术,更适合看作为替代物理按键、红外遥控和手机APP的新技术,属于功能性的革新技术。它解决了用户不愿走过去、寻找遥控器和繁琐APP操作的问题,真正实现解放双手的便捷使用体验。至于熟悉命令词的过程,跟以往用户购买新的电子产品,需要熟悉按钮或遥控器的功能一样,都属于短暂学习就能很快上手的过程,建立行为习惯后操控变得更简单。

2、在线语音,看似更低的硬件成本,实际开发周期长,后期APP和售后维护成本高,远不像离线上电即可使用来的简单。更为关键的是,在线属于大厂的生态之争,厂商失去对技术和用户的自主权,完全将用户数据共享给第三方。而用户的隐私失去保护,而且需要再不同厂商的智能硬件上选择站队。

3、离线语音正在逐步突破单一场景的自然语言功能,实现雷同于在线的自然控制命令。但支持该功能,同样需要回归成本的问题,NLP自然语言功能实现起来,所需要的硬件资源很大,成本必然会上升很多。

语音识别芯片对比