最近处理OCR图片识别,获取图片上的文字需求,找来找去,发现这个挺有意思,轻量级,好用,可以本地直接执行,也可以部署到window或Linux,通过Http去调用。
Umi-OCR
免费:本项目所有代码开源,完全免费。方便:解压即用,离线运行,无需网络。高效:自带高效率的离线OCR引擎,内置多种语言识别库。灵活:支持命令行、HTTP接口等外部调用方式。功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别
批量识别
文档识别
- 支持格式:
pdf, xps, epub, mobi, fb2, cbz。 - 对扫描件进行OCR,或提取原有文本。可输出为 双层可搜索PDF 。
- 支持设定 忽略区域 ,可用于排除页眉页脚的文字。
- 可设置任务完成后 自动关机/休眠 。
开源:
https://github.com/hiroi-sora/Umi-OCR
Umi-OCR Linux 运行环境
主机部署:Ubuntu 22.04Debian 12.5Kali 2023.3Docker 部署:CentOS 7Umi-OCR Linux 兼容情况 好,最后如果想看源码可以到上面给的github上去了解,github那边也可以下载。如果不方便访问github,可以到我的网盘里,转存、下载。
通过网盘分享的文件:Umi-OCR
链接: pan.baidu.com/s/19DC8e7qk… 提取码: 7bv7
https://pan.baidu.com/s/19DC8e7qkQT047YRqJNPigw?pwd=7bv7
补充说明:1、window下,如果执行OCR时报错 0xc0000142、[Error] OCR init fail,大概率是CPU不兼容Paddle,请换用Rapid版本。2、不同版本仅OCR引擎插件不同,其它功能完全一致,附带多国语言识别库。.7z.exe为自解压包,可以用压缩软件打开,也可以在没有安装压缩软件的电脑上直接双击解压。