Tesseract.js 介绍
Tesseract.js是一个javascript库,可以从图像中获取几乎任何语言的单词。
最新Tesseract v5.1.0版本需要Node.js v14或更高版本。
官网案例
缺点:
- 只支持图片,不支持word、pdf等格式文件识别。
- 识别率差强人意(可能是我哪里没配好)。
好,下面我们进入主题。
首先安装插件
npm install tesseract.js tesseract.js-core
配置CDN
- 两个文件
- 两个语言模型
为什么要配置自己的CDN呢,因为根据Tesseract.js的案例测试时,案例获取js资源是从npm的CDN中获取,而我的网络时常不稳定,导致获取不到文件报错。所以我干脆把文件下载下来,搭建自己的CDN。
另外使用create-react-app搭建项目,可以将tesseractJS放在public中,效果是一样的。
下载文件
1、从node_modules目录的tesseract.js-core中获取tesseract-core-simd.wasm.js。
2、从node_modules目录的tesseract.js/dist 中获取worker.min.js。
也可以直接下载 worker.min.js、 tesseract-core-simd.wasm.js。
下载语言包
打开语言模型 官网 ,可以看到支持的语言有很多。
我们需要两个 英文(eng.traineddata.gz)、 中文(chi_sim.traineddata.gz)
ok,将获取到的文件放到Nginx服务器中
创建根目录tesseractJS,放入worker.min.js、tesseract-core-simd.wasm.js。
在tesseractJS中新建文件夹lang-data放入eng.traineddata.gz、chi_sim.traineddata.gz。
核心代码
import { createWorker } from 'tesseract.js';
componentDidMount(){
this.onDiscern();
}
async onDiscern() {
const worker = await createWorker(['chi_sim','eng'], 1, {
legacyCore: true,// 设置为true以确保下载的任何代码都支持Legacy模型(除了LSTM模型)
legacyLang: true,// 设置为true,以确保下载的任何语言数据都支持Legacy模型(除了LSTM模型)
gzip: true,// 定义来自远程的训练数据是否经过gzip压缩,默认值:true
workerPath: "http://xxx.xxx.xxx.xxx:3000/tesseractJS/worker.min.js",
corePath: "http://xxx.xxx.xxx.xxx:3000/tesseractJS/tesseract-core-simd.wasm.js",
langPath: "http://xxx.xxx.xxx.xxx:3000/attachment/cdn/tesseractJS/lang-data",
cacheMethod: "write",// write(读取缓存并写回-默认) | readOnly(读取缓存,不回写) | refresh(不读取缓存并写回) | none(不读取缓存,也不回写)
});
const url = "https://tesseract.projectnaptha.com/img/eng_bw.png"
const res = await worker.recognize(url);// 支持传入图片地址、Base64编码
console.log("res.data.text")
// 终止并清理
await worker.terminate();
}
识别目标
识别效果
哈哈,识别率不到百分之五十~
很奇怪,官方案例识别率是很高的。
结束语
如果有能人发现是我配置有问题,谢谢指出问题。
另外官网文档在npm下载的包里就有哦。不用费劲去找了,网上案例很少。
路径在:node_modules\tesseract.js\docs,里边都有介绍API参数的。