大家好,我是小悟。
在这个数字化、信息化飞速发展的时代,我们每天都在与文字打交道。有时候,为了获取一张图片中的文字信息,我们可能得费尽周折。但是有了文字识别技术,这使我们能够更方便快捷的获取图片上的文字,提高工作效率。
在说正文前,我们先来大致了解一下OCR。文字识别OCR(Optical Character Recognition,光学字符识别)
是一种技术,它可以将图片中的文字信息转换成可编辑、可搜索的文本格式。
这种技术通过分析和识别图像中的字符形状,将其转换为计算机可理解的文本数据,从而实现文字信息的数字化。
OCR技术的应用非常广泛,包括但不限于以下几个方面:
1、 文档数字化
将纸质文档扫描成电子文档,并提取其中的文字内容,方便存储和检索。
2、车牌识别
在交通监控系统中,通过摄像头捕捉车牌图像,快速识别车牌号码。
3、银行支票处理
自动读取支票上的信息,如收款人、金额等,提高处理效率。
4、手机输入法
在智能手机上,通过拍照识别文字,快速输入信息。
5、历史文献保护
对古老文献进行数字化处理,保护文化遗产。
以往做项目有涉及到图片文字自动识别的功能,不是去腾讯云就是去阿里云购买套餐包。但是原来微信有提供一定额度免费的文字识别接口。
支持已认证的订阅号、服务号、企业号、小程序可直接调用,免费次数限制为100次/天,连续发放36500天。
目前已支持通用印刷体识别、行驶证识别、银行卡识别、营业执照识别、驾驶证识别、身份证识别。基本涵盖了几种常用的图片文字识别。
可基于自有业务承载情况,搭配小程序的拍照、相册选照等一起使用,即可完成身份证照片的采集、上传、识别、信息返回等流程,用于需要基于身份证、银行卡等实体卡或证,采集照片或文字信息等的业务场景。
请求参数包括 URL 参数access_token、body参数img_url、img。access_token是接口调用凭证,img_url是要检测的图片 url,传这个则不用传 img 参数,img是form-data 中媒体文件标识,有filename、filelength、content-type等信息,传这个则不用传 img_url。
1、通用印刷体识别
使用通用文字识别技术,可以完成大量的文档整理工作,从书籍、纸质论文、档案、PPT 课件等印刷资料,到课堂笔记、作业作文等手写内容,均可实现拍照自动识别文字,方便用户进行文本录入和文档管理,提高产品易用性和用户体验。
返回参数
{
"errcode": 0,
"errmsg": "ok",
"items": [ //识别结果
{
"text": "腾讯",
"pos": {
"left_top": {
"x": 575,
"y": 519
},
"right_top": {
"x": 744,
"y": 519
},
"right_bottom": {
"x": 744,
"y": 532
},
"left_bottom": {
"x": 573,
"y": 532
}
}
},
{
"text": "微信团队",
"pos": {
"left_top": {
"x": 670,
"y": 516
},
"right_top": {
"x": 762,
"y": 517
},
"right_bottom": {
"x": 762,
"y": 532
},
"left_bottom": {
"x": 670,
"y": 531
}
}
}
],
"img_size": { //图片大小
"w": 1280,
"h": 720
}
}
2、行驶证识别
在汽车保险理赔、二手车交易、车辆租借和年审等场景,帮助用户快速录入车辆相关信息,提高业务人员的办公效率和服务准确性。
返回参数
{
"errcode": 0,
"errmsg": "ok",
"vhicle_type": "小型普通客⻋",
"owner": "东莞市xxxxx机械厂",
"addr": "广东省东莞市xxxxx号",
"use_character": "非营运",
"model": "江淮牌HFCxxxxxxx",
"vin": "LJ166xxxxxxxx51",
"engine_num": "J3xxxxx3",
"register_date": "2018-07-06",
"issue_date": "2018-07-01",
"plate_num_b": "粤xxxxx",
"record": "441xxxxxx3",
"passengers_num": "7人",
"total_quality": "2700kg",
"prepare_quality": "1995kg"
}
3、银行卡识别
应用于电商、外卖、运输服务等场景下的商户身份认证、资质文件审核,提高平台服务质量,规避恶意违规等业务风险。
返回参数
{
"errcode": 0,
"errmsg": "ok",
"id": "622213XXXXXXXXX"
}
4、营业执照识别
准确识别营业执照的关键字段,快速核验企业资质,完成企业信息的快速录入,提升企业信息化管理水平,有效节约人力成本 。
返回参数
{
"errcode": 0,
"errmsg": "ok",
"reg_num": "123123", //注册号
"serial": "123123", //编号
"legal_representative": "张三", //法定代表人姓名
"enterprise_name": "XX饮食店", //企业名称
"type_of_organization": "个人经营", //组成形式
"address": "XX市XX区XX路XX号", //经营场所/企业住所
"type_of_enterprise": "xxx", //公司类型
"business_scope": "中型餐馆(不含凉菜、不含裱花蛋糕,不含生食海产品)。", //经营范围
"registered_capital": "200万", //注册资本
"paid_in_capital": "200万", //实收资本
"valid_period": "2019年1月1日", //营业期限
"registered_date": "2018年1月1日", //注册日期/成立日期
"cert_position": { //营业执照位置
"pos": {
"left_top": {
"x": 155,
"y": 191
},
"right_top": {
"x": 725,
"y": 157
},
"right_bottom": {
"x": 743,
"y": 512
},
"left_bottom": {
"x": 164,
"y": 525
}
}
},
"img_size": { //图片大小
"w": 966,
"h": 728
}
}
5、驾驶证识别
可快速上传本人证件信息,帮助车主快速完成身份认证,降低车主输入成本,广泛应用于 ETC 办理、打车、租车、车险投保理赔等场景。
返回参数
{
"errcode": 0,
"errmsg": "ok",
"id_num": "660601xxxxxxxx1234",
"name": "张三",
"sex": "男",
"nationality": "中国",
"address": "广东省东莞市xxxxx号",
"birth_date": "1990-12-21",
"issue_date": "2012-12-21",
"car_class": "C1",
"valid_from": "2018-07-06",
"valid_to": "2020-07-01",
"official_seal": "xx市公安局公安交通管理局"
}
6、身份证识别
应用于政务、金融、企业服务等应用下的远程用户身份认证,自动识别并录入各字段信息,降低用户输入 成本,有效提升用户体验。
正面返回参数
{
"errcode": 0,
"errmsg": "ok",
"type": "Front",
"name": "张三",
"id": "123456789012345678",
"addr": "广东省广州市",
"gender": "男",
"nationality": "汉"
}
反面返回参数
{
"errcode": 0,
"errmsg": "ok",
"type": "Back",
"valid_date": "20070105-20270105"
}
OCR技术的工作原理通常包括以下几个步骤:
1、图像预处理:对输入的图像进行去噪、二值化等处理,以提高后续识别的准确性。
2、特征提取:分析图像中的字符形状和结构,提取出关键特征。
3、字符分类与识别:利用机器学习算法将提取的特征与已知的字符模板进行匹配,最终识别出相应的字符。
4、后处理:对识别结果进行校验和修正,以提高准确率。
OCR技术极大地提高了信息处理的效率和准确性,成为现代办公和生活中的重要工具。
您的一键三连,是我更新的最大动力,谢谢
山水有相逢,来日皆可期,谢谢阅读,我们再会
我手中的金箍棒,上能通天,下能探海