文字识别工作实践:OCR 与 LLM

36 阅读7分钟

软件工具推荐:

  • Mathpix Snipping Tool:Image To Latex,专业数学公式 OCR 工具
  • PDF Reader Pro:功能齐全且强大的 PDF 阅读器,但非免费(可破解)

前言

OCR(Optical Character Recognition,光学字符识别)是计算机视觉领域的一项基础应用技术,它允许从图像文件中识别和提取文字。

这项技术可以处理各种类型的图像,包括扫描的文档、照片、屏幕截图等,并将图像中的文字转换成可编辑、可搜索的文本数据

云服务厂商都推出了专门领域的商业级文字识别服务。

  1. 交通与停车管理,车牌号识别
  2. 金融机构,识别银行支票、信用卡申请表和其他金融文件上的信息
  3. 科研机构,纸质文字转化为电子文档,方便传播

如果你从事上述专业领域,或许 OCR 早就已经在公司广泛使用。

在大语言模型(LLM)出现之前,使用 Linux 的 grep、awk、sed 等工具(我更习惯使用 Python)可以对结构化或半结构化的文本进行数据处理,网络爬虫走的就是这条路子。

然而,对无结构化的数据往往束手无策,或者效果较差。

作为普通打工人,一些事务性的手工操作类工作可以思考使用 OCR、LLM 提效。

一、快速介绍

1.1 OCR 使用示例

图片信息:

OCR 输出:

Page 1
大大威
化
那有可能,有个nvidia ×会影响图形
鲤醜
的?
但是我看实例配置是支持驱动升级
13:18
大大威
是支持
大大威:
但要看你卸载或者安装的有部分东西
弄没弄干净了
大大威
通常 yum源安装很少会有这个问题
鲤醜
好吧
鲤醜
谢谢

1.2 文本处理

将上述文本进行格式优化,需进行手工操作。或许还有其他方法!

在 Kimi 上传附件识别图片内容:

这张图片是一个聊天记录的截图,显示了两个人之间的对话。对话内容如下:

1. **大大威✨** 提到可能有个问题,nvidia x 可能会影响图形化。
2. **鲤醜** 回应说,他看到实例配置是支持驱动升级的。
3. **大大威✨** 确认说,是支持的,但需要检查卸载或安装过程中是否有部分内容没有清理干净。
4. **鲤醜** 表示理解,并感谢对方的帮助。
整个对话似乎是在讨论与nvidia显卡驱动升级相关的问题。

二、场景一:IM 群聊签到

2.1 背景

公司使用内部 IM 软件进行沟通,每天需要在群聊中发送“1”消息以工作签到。

领导安排我每周一统计上周各同事的签到情况,作为考核依据。

因公司内部软件截图都有水印,因此不方便附图。

工作特征:

  • 重复性:每周一都要做的工作,且工作内容不变
  • 繁琐性:依靠手工统计每次耗费 3 小时左右,且耗费心力

2.2 方法一:手工操作

最朴素的方式,大多数人出于本能经验的首选方案。

2.3 方法二:OCR + 手工操作

步骤概述:

  1. 使用电脑、手机、App 内置功能的选择、截图等获取原数据;
  2. 使用 OCR 工具将文件或图像转化为可编辑文本 Txt;
  3. 🌟在电脑上使用复制粘贴,将数据汇总到 Excel 表格或 Word 表格。

步骤 1 和步骤 2 即便是非常大的数据量,耗费时间也很短,而步骤 3 依赖于手工操作,耗时费力。

2.4 方法三:LLM

现在遇到任何问题,都建议先问一下 LLM

步骤概述:

  1. 使用手机或 App 内置功能的多选、截图等获取原数据;
  2. 上传附件到 Kimi、豆包等功能较丰富的 LLM,表达意图获取目标输出。

可考虑在 Coze 中搭建一个工作流可以是值得尝试的,进一步提高自动化程度。

三、场景二:金额票据归纳汇总

3.1 背景

客户提供 103 页的金额票据文档,格式为 pdf,每页表示一张金额票据。发票格式多种多样,主要包括标准打印发票、收款收据。

现需将票据信息项包括时间、商品名称、金额、签收人、备注等,汇总为一个表格。

图片示例:

汇总表格示例:

序号开票日期商品名称及规格金额(元)签收人备注
12023/1/3机制砂(6方)1440丁贾

3.2 方法一:手工操作

适用场景:票据数量较少或格式极其复杂

创建 Excel 表格,肉眼查看数据信息,汇总。

3.3 方法二:OCR + LLM

适用场景: 票据数量多

103 页的文档使用方法一,耗时 2 天勉强可行,但如果是 1000 页的 pdf 呢?如果纯手工操作实在心累。

直接上传附件到 Kimi 或者豆包,存在两个缺陷:第一计算过程是黑盒子,识别情况完全不可知;第二处理海量数据困难,无法输出预期目标。

考虑使用 OCR 工具先对文件进行预处理。

步骤概述:

  1. 使用 OCR 工具将 pdf 文件转化为可编辑 Txt 文件,简单预处理;
  2. 将 Txt 文件上传给 Kimi、豆包,输入提示词获取目标样式;
  3. 校验:
    • 人工抽检
    • 多工具互相对抗,查漏补缺

有必要简单介绍校验过程。

3.3.1 人工抽检

使用 OCR、LLM 获得了预期目标,但是数据的可信度有多少呢?

OCR 和 LLM 底层实现都依赖于算法,而算法性能效果或高或低,且对不同数据展现出不同的适应性。

对 103 张 pdf 金额票据随机抽取 10 张,手工校验确认,如果 10 张都是正确的,那么我们可以断定效果是不错的。

如果在手工校验中发现效果不理想,那么意味着数据不可信。

3.3.2 多工具对抗

类比你作为领导做一件事,分配给多个人同时去做。最后基于多来源信息,站在全局角度做自己的判断,是获得掌控力,避免被下属牵着鼻子走的有效手段。

缺点是:资源冗余。

OCR、LLM 工具很多。

使用一组工具而不是一个来获取预期目标,然后让输出结果进行对抗学习,以达到“公认”的目标。

3.4 方法三:外包出去或购买高阶商业软件服务

适用场景: 票据数量多且格式复杂,OCR 与 LLM 难以应付。

我们应将有效的时间放在更值得关注、更有创造力的工作中去。

推荐优先购买商业服务,因为性价比是更高的。

四、思考感悟

面对重复、繁琐的工作内容,应该主动思考是否有提效的方法?有这个想法或意识是生产力提高的前提。

将 LLM 作为你的生活、工作秘书,遇到任何问题,都推荐先去问问 LLM 解决思路。

小红书、抖音、百度是不错的中文领域问题解决方案搜索平台,但知乎、Google、GitHub(需要科学上网)往往会获得更高质量的资料信息。

或许,你在工作中遇到的问题或困难,是一个非常具有价值的创业灵感!

附件

  1. 百度网盘:

通过网盘分享的文件:PDF_Reader_Pro_5.0.0_TNT__xclient.info.zip

链接: pan.baidu.com/s/1Ifgfl203…

提取码: wttg

  1. 夸克网盘:

我用夸克网盘分享了「PDF_Reader_Pro_5.0.0_TNT__xclient.info.zip」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。

链接:pan.quark.cn/s/955b1909a…

提取码:BXhT