0. pytesseract和PIL的安装
pip install PIL
pip install pytesseract
1.tesseract依赖下载
首先下载Tesseract OCR:pan.baidu.com/s/1F_PlKCby…
语言包的下载:github.com/tesseract-o…
2.安装tesseract-ocr
解压安装tesseract-ocr后做如下操作,就可以支持中文识别了。因为tesseract-ocr默认不支持中文识别。
2.1 配置系统环境变量
- 将下载的语言包替换在tesseract-ocr安装目录下的C:\Program Files (x86)\Tesseract-OCR\tessdata
- 配置环境变量
TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR\tessdata
OCR_HOME:C:\Program Files (x86)\Tesseract-OCR
在path变量下加入:
%TESSDATA_PREFIX%
%OCR_HOME%在路径C:\Users\Thinkpad\Anaconda3\Lib\site-packages\pytesseract下找到pytesseract.py打开后做如下修改
tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'在命令行窗口可以运行tesseract -v测试,如果报版本信息则安装成功。
如果已经打开pycharm建议重启pycharm,使用以下代码可以测试
from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('test.jpg'),lang='chi_sim')
print(text)