科大讯飞/阿里/百度短语音识别产品对比

1,752 阅读3分钟

一、前言

作为一个java开发程序员,最近在做一个语音识别相关的功能:工人利用我们的APP进行语音报工,就是用户说出:我要报工xxx多少个,后台根据语音解析出关键信息,进一步进行报工的操作。那该怎么将语音转化为文字呢?我们自己写程序?哎哟,拜托,这个岂是我这个小小程序员能写的出来的吗,还是从市面上找现成的语音识别产品吧。我只管用就行,其他的业务逻辑我自己写。

那么问题来了,市面上那么多款语音识别产品,该用哪一款呢?接下里我将从市场占有率、功能完善程度、收费情况、语种支持、自训练情况、识别准确率这六个方便进行分析,最后得出哪一家的产品更适合我们开发。

二、产品对比

产品百度语音识别科大讯飞语音识别阿里语音识别最优结果
市场占有率一般最高较高科大
功能完善程度一般最高较高科大
收费情况(只针对短语音识别服务)短语音标准版:100万次/2400元 短语音极速版:100万次/3000元 也可以按次数收费,包含多种语言语音听写功能按照 服务量收费。 100万次,价格4000元,有效期1年; 500万次,价格1.8万元,有效期1年; 2000万次,价格 6万元,有效期1年 其他语言包需单独购买,2万/年只针对一句话识别一个功能: 3万次/100元、 100万次/1800元 也可以按次数收费 ,包含多种语言百度或阿里
语种的支持普通话(进场)、普通话(远场)、英文、粤语、四川话除中文普通话和英文外,支持65个语种、24种方言和1个民族语言,提供四川话、广东话与普通话的混合识别支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别科大或阿里
自训练情况(作者重庆人,比较关注四川话)只支持普通话模型训练,训练速度较慢,训练效果一般,审核速度较慢支持普通话+四川话模型训练支持普通话模型训练 支持四川话模型训练等,主要通过热词训练,训练效果比较明显科大或阿里
识别准确率一般最高较高科大

三、产品选择结果

通过产品的调研比较,科大讯飞语音识别产品应该是最优的选择,但是呢,科大讯飞是在是太贵了,最终综合考虑,选择阿里的语音识别。接下来就是对接口了。

那么java如何对接阿里语音识别接口,作者正在努力码字中 O(∩_∩)O