提取图片文字,python三行代码足矣!

159 阅读3分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

在这里插入图片描述 身处数据爆炸增长的信息时代,各种各样的数据都飞速增长,以图片的形式出现的数据更是数不胜数。有时候,我们想要提取图片中的文字,需要一个一个地敲打键盘输入。但如果你使用python,三行代码足矣!

一、提取图片文字

1、代码及运行成果

在这里插入图片描述 以这张图片为例:

import easyocr
reader = easyocr.Reader(['ch_sim', 'en'])
print(reader.readtext('D:/1.png', detail=0))

在这里插入图片描述 这样的结果是把文字识别出来后,以列表的形式展示出来。我们可以做进一步的处理,把这些形成一个段落展示出来,具体如下:

import easyocr
reader = easyocr.Reader(['ch_sim', 'en'])
result = reader.readtext('D:/1.png', detail=0)
article = ''  # 定义一个空的字符串
for i in range(len(result)):
    article += result[i]  # 将列表中的字符串依次拼接在一起
print(article)

结果如下:

妖族中至高无上的存在被称之为大圣 !宗门世家。妖魔异族。万年前上古大劫绝地天通修行界秩序崩塌。有人族小国供奉妖魔, 充当伪神。有修行宗门驱使妖魔作乱。只为香火供奉。黑山老妖踏阴风。九尾妖狐敢压龙。北明妖壬颂梵音。妖圣覆海换阴阳。李玄宗手持能升级功法的玄法戒两度穿趑,从纵横江湖的一代邪壬到依附妖魔苦苦求生的底层修士。乱世之中。李玄宗为求超脱踏入巅峰。以人身成为那搅动天下风云的混天大圣 !

2、库的安装及一些问题的解决方案

  • GitHub地址:

github.com/ushelp/Easy…

  • EasyOCR 中文主页:

传送门

库的安装

pip install easyocr

安装完库,进行代码的运行,可能出现的问题:

  • 错误提示1: OSError: [WinError 126] 找不到指定的模块。 Error loading "D:\Python\lib\site-packages\torch\lib\asmjit.dll" or one of its dependencies.

  • 解决方案: 根据提示网址,下载相应的模块。

  • 错误提示2: 网络连接超时或者连接断开

  • 解决方案 可以直接下载字体模型,放到指定的路径中。 常见字体模型

字体检测模型链接
文字检测模型(CRAFT)(必须)pythondict.com/go/?url=htt…
中文(简体)模型(识别中文必须)pythondict.com/go/?url=htt…
中国(传统)模型pythondict.com/go/?url=htt…
拉丁模型pythondict.com/go/?url=htt…
日文模型pythondict.com/go/?url=htt…
韩文模型pythondict.com/go/?url=htt…
泰文模型pythondict.com/go/?url=htt…
阿拉伯文模型pythondict.com/go/?url=htt…
  • 模型所放路径
Windows:C:\Users\用户名\.EasyOCR\model

其实也可以偷懒,直接搜.EasyOCR,然后点击model,把字体模型放在这里。然后就解决问题了!

二、Blogger’s speech

如有不足,还请大佬评论区留言或私信我,我会进行补充。

感谢您的支持,希望可以点赞,关注,收藏,一键三连哟。

作者:远方的星 CSDN:blog.csdn.net/qq_44921056 腾讯云:cloud.tencent.com/developer/c… 本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。