使用微信免费的OCR接口,来开发图片文字自动识别功能,酸歪歪

384 阅读6分钟

大家好,我是小悟。

在这个数字化、信息化飞速发展的时代,我们每天都在与文字打交道。有时候,为了获取一张图片中的文字信息,我们可能得费尽周折。但是有了文字识别技术,这使我们能够更方便快捷的获取图片上的文字,提高工作效率。

在说正文前,我们先来大致了解一下OCR。文字识别OCR(Optical Character Recognition,光学字符识别)

是一种技术,它可以将图片中的文字信息转换成可编辑、可搜索的文本格式。

图片

这种技术通过分析和识别图像中的字符形状,将其转换为计算机可理解的文本数据,从而实现文字信息的数字化。

OCR技术的应用非常广泛,包括但不限于以下几个方面:

1、 文档数字化

将纸质文档扫描成电子文档,并提取其中的文字内容,方便存储和检索。

2、车牌识别

在交通监控系统中,通过摄像头捕捉车牌图像,快速识别车牌号码。

3、银行支票处理

自动读取支票上的信息,如收款人、金额等,提高处理效率。

4、手机输入法

在智能手机上,通过拍照识别文字,快速输入信息。

5、历史文献保护

对古老文献进行数字化处理,保护文化遗产。

图片

以往做项目有涉及到图片文字自动识别的功能,不是去腾讯云就是去阿里云购买套餐包。但是原来微信有提供一定额度免费的文字识别接口。

支持已认证的订阅号、服务号、企业号、小程序可直接调用,免费次数限制为100次/天,连续发放36500天。

图片

目前已支持通用印刷体识别、行驶证识别、银行卡识别、营业执照识别、驾驶证识别、身份证识别。基本涵盖了几种常用的图片文字识别。

可基于自有业务承载情况,搭配小程序的拍照、相册选照等一起使用,即可完成身份证照片的采集、上传、识别、信息返回等流程,用于需要基于身份证、银行卡等实体卡或证,采集照片或文字信息等的业务场景。

图片

请求参数包括 URL 参数access_token、body参数img_url、img。access_token是接口调用凭证,img_url是要检测的图片 url,传这个则不用传 img 参数,img是form-data 中媒体文件标识,有filename、filelength、content-type等信息,传这个则不用传 img_url。

1、通用印刷体识别

使用通用文字识别技术,可以完成大量的文档整理工作,从书籍、纸质论文、档案、PPT 课件等印刷资料,到课堂笔记、作业作文等手写内容,均可实现拍照自动识别文字,方便用户进行文本录入和文档管理,提高产品易用性和用户体验。

图片

图片

返回参数
{
    "errcode": 0,
    "errmsg": "ok",
    "items": [ //识别结果
        {
            "text": "腾讯",
            "pos": {
                "left_top": {
                    "x": 575,
                    "y": 519
                },
                "right_top": {
                    "x": 744,
                    "y": 519
                },
                "right_bottom": {
                    "x": 744,
                    "y": 532
                },
                "left_bottom": {
                    "x": 573,
                    "y": 532
                }
            }
        },
        {
            "text": "微信团队",
            "pos": {
                "left_top": {
                    "x": 670,
                    "y": 516
                },
                "right_top": {
                    "x": 762,
                    "y": 517
                },
                "right_bottom": {
                    "x": 762,
                    "y": 532
                },
                "left_bottom": {
                    "x": 670,
                    "y": 531
                }
            }
        }
    ],
    "img_size": { //图片大小
        "w": 1280,
        "h": 720
    }
}

2、行驶证识别

在汽车保险理赔、二手车交易、车辆租借和年审等场景,帮助用户快速录入车辆相关信息,提高业务人员的办公效率和服务准确性。

图片

图片

返回参数

{

    "errcode": 0,

    "errmsg": "ok",

    "vhicle_type": "小型普通客⻋",

    "owner": "东莞市xxxxx机械厂",

    "addr": "广东省东莞市xxxxx号",

    "use_character": "非营运",

    "model": "江淮牌HFCxxxxxxx",

    "vin": "LJ166xxxxxxxx51",

    "engine_num": "J3xxxxx3",

    "register_date": "2018-07-06",

    "issue_date": "2018-07-01",

    "plate_num_b": "粤xxxxx",

    "record": "441xxxxxx3",

    "passengers_num": "7人",

    "total_quality": "2700kg",

    "prepare_quality": "1995kg"

}

3、银行卡识别

应用于电商、外卖、运输服务等场景下的商户身份认证、资质文件审核,提高平台服务质量,规避恶意违规等业务风险。

图片

图片

返回参数

{

    "errcode": 0,

    "errmsg": "ok",

    "id": "622213XXXXXXXXX"

}

4、营业执照识别

准确识别营业执照的关键字段,快速核验企业资质,完成企业信息的快速录入,提升企业信息化管理水平,有效节约人力成本 。

图片

图片

返回参数

{

    "errcode": 0,

    "errmsg": "ok",

    "reg_num": "123123",                                                     //注册号

    "serial": "123123",                                                      //编号

    "legal_representative": "张三",                                          //法定代表人姓名

    "enterprise_name": "XX饮食店",                                           //企业名称

    "type_of_organization": "个人经营",                                      //组成形式

    "address": "XX市XX区XX路XX号",                                           //经营场所/企业住所

    "type_of_enterprise": "xxx",                                             //公司类型

    "business_scope": "中型餐馆(不含凉菜、不含裱花蛋糕,不含生食海产品)。",  //经营范围

    "registered_capital": "200万",                                           //注册资本

    "paid_in_capital": "200万",                                              //实收资本

    "valid_period": "2019年1月1日",                                          //营业期限

    "registered_date": "2018年1月1日",                                       //注册日期/成立日期

    "cert_position": {                                                       //营业执照位置

        "pos": {

            "left_top": {

                "x": 155,

                "y": 191

            },

            "right_top": {

                "x": 725,

                "y": 157

            },

            "right_bottom": {

                "x": 743,

                "y": 512

            },

            "left_bottom": {

                "x": 164,

                "y": 525

            }

        }

    },

    "img_size": {                                                            //图片大小

        "w": 966,

        "h": 728

    }

}

5、驾驶证识别

可快速上传本人证件信息,帮助车主快速完成身份认证,降低车主输入成本,广泛应用于 ETC 办理、打车、租车、车险投保理赔等场景。

图片

图片

返回参数

{

 "errcode": 0,

 "errmsg": "ok",

 "id_num": "660601xxxxxxxx1234",

 "name": "张三",

 "sex": "男",

 "nationality": "中国",

 "address": "广东省东莞市xxxxx号",

 "birth_date": "1990-12-21",

 "issue_date": "2012-12-21",

 "car_class": "C1",

 "valid_from": "2018-07-06",

 "valid_to": "2020-07-01",

 "official_seal": "xx市公安局公安交通管理局"

}

6、身份证识别

应用于政务、金融、企业服务等应用下的远程用户身份认证,自动识别并录入各字段信息,降低用户输入 成本,有效提升用户体验。

图片

图片

正面返回参数

{

  "errcode": 0,

  "errmsg": "ok",

  "type": "Front",

  "name": "张三",

  "id": "123456789012345678",

  "addr": "广东省广州市",

  "gender": "男",

  "nationality": "汉"

}

反面返回参数

{

 "errcode": 0,

 "errmsg": "ok",

 "type": "Back",

 "valid_date": "20070105-20270105"

}

OCR技术的工作原理通常包括以下几个步骤:

1、图像预处理:对输入的图像进行去噪、二值化等处理,以提高后续识别的准确性。

2、特征提取:分析图像中的字符形状和结构,提取出关键特征。

3、字符分类与识别:利用机器学习算法将提取的特征与已知的字符模板进行匹配,最终识别出相应的字符。

4、后处理:对识别结果进行校验和修正,以提高准确率。

OCR技术极大地提高了信息处理的效率和准确性,成为现代办公和生活中的重要工具。

图片

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海