一、前言
作为一个java开发程序员,最近在做一个语音识别相关的功能:工人利用我们的APP进行语音报工,就是用户说出:我要报工xxx多少个,后台根据语音解析出关键信息,进一步进行报工的操作。那该怎么将语音转化为文字呢?我们自己写程序?哎哟,拜托,这个岂是我这个小小程序员能写的出来的吗,还是从市面上找现成的语音识别产品吧。我只管用就行,其他的业务逻辑我自己写。
那么问题来了,市面上那么多款语音识别产品,该用哪一款呢?接下里我将从市场占有率、功能完善程度、收费情况、语种支持、自训练情况、识别准确率这六个方便进行分析,最后得出哪一家的产品更适合我们开发。
二、产品对比
| 产品 | 百度语音识别 | 科大讯飞语音识别 | 阿里语音识别 | 最优结果 |
|---|---|---|---|---|
| 市场占有率 | 一般 | 最高 | 较高 | 科大 |
| 功能完善程度 | 一般 | 最高 | 较高 | 科大 |
| 收费情况(只针对短语音识别服务) | 短语音标准版:100万次/2400元 短语音极速版:100万次/3000元 也可以按次数收费,包含多种语言 | 语音听写功能按照 服务量收费。 100万次,价格4000元,有效期1年; 500万次,价格1.8万元,有效期1年; 2000万次,价格 6万元,有效期1年 其他语言包需单独购买,2万/年 | 只针对一句话识别一个功能: 3万次/100元、 100万次/1800元 也可以按次数收费 ,包含多种语言 | 百度或阿里 |
| 语种的支持 | 普通话(进场)、普通话(远场)、英文、粤语、四川话 | 除中文普通话和英文外,支持65个语种、24种方言和1个民族语言,提供四川话、广东话与普通话的混合识别 | 支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别 | 科大或阿里 |
| 自训练情况(作者重庆人,比较关注四川话) | 只支持普通话模型训练,训练速度较慢,训练效果一般,审核速度较慢 | 支持普通话+四川话模型训练 | 支持普通话模型训练 支持四川话模型训练等,主要通过热词训练,训练效果比较明显 | 科大或阿里 |
| 识别准确率 | 一般 | 最高 | 较高 | 科大 |
三、产品选择结果
通过产品的调研比较,科大讯飞语音识别产品应该是最优的选择,但是呢,科大讯飞是在是太贵了,最终综合考虑,选择阿里的语音识别。接下来就是对接口了。
那么java如何对接阿里语音识别接口,作者正在努力码字中 O(∩_∩)O