Tesseract.js使用纯js实现的OCR文字识别

2,165 阅读2分钟

Tesseract.js 介绍

Tesseract.js是一个javascript库,可以从图像中获取几乎任何语言的单词。

最新Tesseract v5.1.0版本需要Node.js v14或更高版本。

官网:Tesseract npm:Tesseract

官网案例 image.png

缺点:

  • 只支持图片,不支持word、pdf等格式文件识别。
  • 识别率差强人意(可能是我哪里没配好)。

好,下面我们进入主题。

首先安装插件

npm install tesseract.js tesseract.js-core

配置CDN

  • 两个文件
  • 两个语言模型

为什么要配置自己的CDN呢,因为根据Tesseract.js的案例测试时,案例获取js资源是从npm的CDN中获取,而我的网络时常不稳定,导致获取不到文件报错。所以我干脆把文件下载下来,搭建自己的CDN。

另外使用create-react-app搭建项目,可以将tesseractJS放在public中,效果是一样的。

下载文件

1、从node_modules目录的tesseract.js-core中获取tesseract-core-simd.wasm.js。

2、从node_modules目录的tesseract.js/dist 中获取worker.min.js。

也可以直接下载 worker.min.jstesseract-core-simd.wasm.js

下载语言包

打开语言模型 官网 ,可以看到支持的语言有很多。

我们需要两个 英文(eng.traineddata.gz)中文(chi_sim.traineddata.gz)

ok,将获取到的文件放到Nginx服务器中

创建根目录tesseractJS,放入worker.min.js、tesseract-core-simd.wasm.js。

在tesseractJS中新建文件夹lang-data放入eng.traineddata.gz、chi_sim.traineddata.gz。

核心代码

import { createWorker } from 'tesseract.js';

componentDidMount(){
    this.onDiscern();
}
async onDiscern() {
        const worker = await createWorker(['chi_sim','eng'], 1, {
            legacyCore: true,// 设置为true以确保下载的任何代码都支持Legacy模型(除了LSTM模型)
            legacyLang: true,// 设置为true,以确保下载的任何语言数据都支持Legacy模型(除了LSTM模型)
            gzip: true,// 定义来自远程的训练数据是否经过gzip压缩,默认值:true
            workerPath: "http://xxx.xxx.xxx.xxx:3000/tesseractJS/worker.min.js",
            corePath: "http://xxx.xxx.xxx.xxx:3000/tesseractJS/tesseract-core-simd.wasm.js",
            langPath: "http://xxx.xxx.xxx.xxx:3000/attachment/cdn/tesseractJS/lang-data",
            cacheMethod: "write",// write(读取缓存并写回-默认) | readOnly(读取缓存,不回写) | refresh(不读取缓存并写回) | none(不读取缓存,也不回写)
        });
        const url = "https://tesseract.projectnaptha.com/img/eng_bw.png"
        const res = await worker.recognize(url);// 支持传入图片地址、Base64编码
        console.log("res.data.text")
        // 终止并清理
        await worker.terminate();
    }
    

识别目标

image.png

识别效果

image.png

哈哈,识别率不到百分之五十~

很奇怪,官方案例识别率是很高的。

结束语

如果有能人发现是我配置有问题,谢谢指出问题。

另外官网文档在npm下载的包里就有哦。不用费劲去找了,网上案例很少。

路径在:node_modules\tesseract.js\docs,里边都有介绍API参数的。 image.png