问题描述
做爬虫时,遇到二维码\
\
解决方法
使用tesseract识别二维码。
安装Tesseract-OCR引擎
1 . 给出以下我的链接跳转。
github.com/tesseract-o…
github.com/UB-Mannheim…
下载并安装tesseract-ocr-setup-3.05.01.exe
如果只是简单的识别数字,默认安装相关language data即可
2 .
命令行安装pip包:
pip install pytesseract
cmd方式 使用
如下,D:\SoftInsert\Tesseract-OCR\为我的安装位置,d:\ValidateCode.jpg为图片,d:\out为存放输出的文件。
D:\SoftInsert\Tesseract-OCR\tesseract.exe d:\ValidateCode.jpg d:\out
python代码识别
(编程或其他语言也可以通过调用cmd命令的方式识别):
如下,D:/SoftInsert/Tesseract-OCR/为安装文件夹。
from PIL import Image
import pytesseract
def VarifyCode():
pytesseract.pytesseract.tesseract_cmd = 'D:/SoftInsert/Tesseract-OCR/tesseract.exe'
tessdata_dir = '--tessdata-dir "D:/SoftInsert/Tesseract-OCR/tessdata"'
print(pytesseract.image_to_string(Image.open('D:/ValidateCode.jpg'), lang='eng', config=tessdata_dir))
VarifyCode();