使用tesseract识别二维码

467 阅读1分钟

问题描述

做爬虫时,遇到二维码\


这里写图片描述\

解决方法

使用tesseract识别二维码。

安装Tesseract-OCR引擎

1 . 给出以下我的链接跳转。
github.com/tesseract-o…
github.com/UB-Mannheim…

下载并安装tesseract-ocr-setup-3.05.01.exe
如果只是简单的识别数字,默认安装相关language data即可
2 .
命令行安装pip包:

pip install pytesseract

cmd方式 使用

如下,D:\SoftInsert\Tesseract-OCR\为我的安装位置,d:\ValidateCode.jpg为图片,d:\out为存放输出的文件。

D:\SoftInsert\Tesseract-OCR\tesseract.exe d:\ValidateCode.jpg d:\out

这里写图片描述

python代码识别

(编程或其他语言也可以通过调用cmd命令的方式识别):

如下,D:/SoftInsert/Tesseract-OCR/为安装文件夹。

from PIL import Image
import pytesseract

def VarifyCode():
    pytesseract.pytesseract.tesseract_cmd = 'D:/SoftInsert/Tesseract-OCR/tesseract.exe'
    tessdata_dir = '--tessdata-dir "D:/SoftInsert/Tesseract-OCR/tessdata"'
    print(pytesseract.image_to_string(Image.open('D:/ValidateCode.jpg'), lang='eng', config=tessdata_dir))
VarifyCode();

这里写图片描述