最近摸索着使用python识别图片转文字，一些经验记录在这里0. pytesseract和PIL的安装 1.tesser

0. pytesseract和PIL的安装

pip install PIL

pip install pytesseract

1.tesseract依赖下载

首先下载Tesseract OCR：pan.baidu.com/s/1F_PlKCby…
语言包的下载：github.com/tesseract-o…

2.安装tesseract-ocr

解压安装tesseract-ocr后做如下操作，就可以支持中文识别了。因为tesseract-ocr默认不支持中文识别。

2.1 配置系统环境变量

将下载的语言包替换在tesseract-ocr安装目录下的C:\Program Files (x86)\Tesseract-OCR\tessdata
配置环境变量

TESSDATA_PREFIX：C:\Program Files (x86)\Tesseract-OCR\tessdata

OCR_HOME：C:\Program Files (x86)\Tesseract-OCR

在path变量下加入：

%TESSDATA_PREFIX%

%OCR_HOME% 在路径C:\Users\Thinkpad\Anaconda3\Lib\site-packages\pytesseract下找到pytesseract.py打开后做如下修改 tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe' 在命令行窗口可以运行tesseract -v测试，如果报版本信息则安装成功。

如果已经打开pycharm建议重启pycharm，使用以下代码可以测试

from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('test.jpg'),lang='chi_sim')
print(text)