最近摸索着使用python识别图片转文字,一些经验记录在这里

233 阅读1分钟

0. pytesseract和PIL的安装

pip install PIL

pip install pytesseract

1.tesseract依赖下载

首先下载Tesseract OCR:pan.baidu.com/s/1F_PlKCby…
语言包的下载:github.com/tesseract-o…

2.安装tesseract-ocr

解压安装tesseract-ocr后做如下操作,就可以支持中文识别了。因为tesseract-ocr默认不支持中文识别。

2.1 配置系统环境变量

  1. 将下载的语言包替换在tesseract-ocr安装目录下的C:\Program Files (x86)\Tesseract-OCR\tessdata
  2. 配置环境变量

TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR\tessdata image.png

OCR_HOME:C:\Program Files (x86)\Tesseract-OCR image.png

在path变量下加入:

%TESSDATA_PREFIX%

%OCR_HOME% image.png 在路径C:\Users\Thinkpad\Anaconda3\Lib\site-packages\pytesseract下找到pytesseract.py打开后做如下修改 tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe' image.png 在命令行窗口可以运行tesseract -v测试,如果报版本信息则安装成功。

如果已经打开pycharm建议重启pycharm,使用以下代码可以测试

from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('test.jpg'),lang='chi_sim')
print(text)