轻量级OCR 文字识别工具 ,win/Linux都可以本地使用

98 阅读1分钟

最近处理OCR图片识别,获取图片上的文字需求,找来找去,发现这个挺有意思,轻量级,好用,可以本地直接执行,也可以部署到window或Linux,通过Http去调用。

Umi-OCR

免费:本项目所有代码开源,完全免费。方便:解压即用,离线运行,无需网络。高效:自带高效率的离线OCR引擎,内置多种语言识别库。灵活:支持命令行、HTTP接口等外部调用方式。功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别批量识别文档识别

  • 支持格式:pdf, xps, epub, mobi, fb2, cbz
  • 对扫描件进行OCR,或提取原有文本。可输出为 双层可搜索PDF 。
  • 支持设定 忽略区域 ,可用于排除页眉页脚的文字。
  • 可设置任务完成后 自动关机/休眠 。

开源:

https://github.com/hiroi-sora/Umi-OCR

Umi-OCR Linux 运行环境

主机部署:Ubuntu 22.04Debian 12.5Kali 2023.3Docker 部署:CentOS 7Umi-OCR Linux 兼容情况 好,最后如果想看源码可以到上面给的github上去了解,github那边也可以下载。如果不方便访问github,可以到我的网盘里,转存、下载。

通过网盘分享的文件:Umi-OCR

链接: pan.baidu.com/s/19DC8e7qk… 提取码: 7bv7

https://pan.baidu.com/s/19DC8e7qkQT047YRqJNPigw?pwd=7bv7

补充说明:1、window下,如果执行OCR时报错 0xc0000142、[Error] OCR init fail,大概率是CPU不兼容Paddle,请换用Rapid版本。2、不同版本仅OCR引擎插件不同,其它功能完全一致,附带多国语言识别库。.7z.exe为自解压包,可以用压缩软件打开,也可以在没有安装压缩软件的电脑上直接双击解压。