Linux 安装Tesseract-OCR 避坑版(springboot 集成Tesseract-OCR)

1,968 阅读1分钟

由于tess4j不是跨平台的,在windows环境下直接打 架包有win32-x86-64 下的dll,可以直接运行。但在linux环境下不行,所以需要在linux环境安装Tesseract引擎。

注意:代码中的架包要与linux环境的Tesseract版本一致

1、安装gcc g++ 环境

yum install gcc gcc-c++ make

2、安装 autoconf automake libtool和libjpeg-devel libpng-devel libtiff-devel zlib-devel

yum install autoconf automake libtool  yum install libjpeg-devellibpng-devel libtiff-devel zlib-devel

3、安装依赖的Leptonica库,依次执行以下命令安装,leptonca版本可以根据实际情况更换,资源地址,这里使用1.80.0,高版本报错,目前服务器不支持

wget https://github.com/DanBloomberg/leptonica/releases/download/1.80.0/leptonica-1.80.0.tar.gz

tar -xzvf leptonica-1.80.0.tar.gz

cd leptonica-1.80.0

./configure --prefix=/home/tess4j/leptonica-1.80.0  && make && make install

4、将Leptonica加入环境变量

vim /etc/profile

在最后插入

export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/home/tess4j/leptonica-1.80.0/lib

export LIBLEPT_HEADERSDIR=/home/tess4j/leptonica-1.80.0/include

export PKG_CONFIG_PATH=/home/tess4j/leptonica-1.80.0/lib/pkgconfig

保存退出后执行下面命令 让配置生效

source /etc/profile

5、安装Tesseract-OCR,依次执行以下命令完成安装,这里使用4.1.1的,高版本需要c++17,目前服务器不支持,一般来说,文件夹内出现了bin文件夹就算安装成功了

wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/4.1.1.tar.gz

重名名下压缩包

mv 4.1.1.tar.gz tesseract-4.1.1.tar.gz
  
tar -xzvf tesseract-4.1.1.tar.gz 

cd tesseract-4.1.1/

./autogen.sh

./configure --prefix=/home/tess4j/tesseract-4.1.1  && make && make install

sudo ldconfig

6、配置Tesseract环境变量

vim /etc/profile

PATH=$PATH:/home/tess4j/tesseract-4.1.1/bin
export PATH
export TESSDATA_PREFIX=/home/temp/tessData  ##注意:该位置是训练库所在文件目录
export PATH=$PATH:$TESSDATA_PREFIX

source /etc/profile

7、测试安装是否成功

tesseract --version

8、确定maven引入的tess4或这tess4j的版本是否与服务器上的版本一致。参考链接?tess4j.sf.net/docs/,有没有把s…

cp /home/tess4j/tesseract-4.1.1/lib/*.so.* /usr/lib64/

9、运行测试,没问题后需要重启jar服务,重新加载so链接