作者:铂金小猪
在工业和医疗等领域的设备管理中,设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等,对于资产管理、维护记录和故障排除至关重要。然而,实际拍摄的照片往往存在以下难题:
- 角度与透视问题:由于拍摄角度各异,上传的照片中设备铭牌可能出现严重的透视变形,导致文字倾斜或扭曲。
- 光线与反射干扰:现场光线条件复杂,强光反射或阴影遮挡使得铭牌上的文字难以清晰辨认。
- 背景杂乱:周围环境复杂,背景中的其他物体可能干扰文本区域的识别。
这些问题直接使用视觉语言(VL)模型进行识别时,会导致极低的准确率和可靠性。为了解决这些问题,最近和 Gitee AI 团队进行了深度友好的沟通,最终得到了一套完整的解决方案,通过 UVDoc 图像校正工具预处理图片,再利用 QwenVL 进行信息识别,并最终使用大型语言模型(LLM)实现结构化数据提取,显著提升了铭牌文字的提取效果。
技术方法
UVDoc 图像校正工具:提升输入质量
针对上述难题,我们首先采用 GiteeAI 团队最新发布的 UVDoc 图像校正工具对原始照片进行预处理。该工具利用先进的计算机视觉算法,自动检测并纠正图像中的透视变形,恢复铭牌的真实形状。
同时,它还可以调整图像的亮度和对比度,减少光线和反射带来的干扰。经过 UVDoc 校正后的图像不仅提高了文本的可读性,还为后续的文字识别提供了更佳的基础。
QwenVL:强大的信息识别引擎
完成图像预处理后,接下来是关键的信息识别阶段。我们选择了 QwenVL 作为核心识别引擎,其融合了最新的视觉语言模型技术,能够在复杂背景条件下精准定位并识别出文本内容。QwenVL 不仅可以处理常规印刷体文字,还能应对手写体以及多种语言混合的情况,极大地拓宽了应用范围。
此外,QwenVL 还支持多模态输入,可以同时解析图像中的其他非文本元素,如图标、表格等,为用户提供更加全面的信息提取服务。
LLM 结构化数据提取:智能化处理结果
最后一步是将 QwenVL 输出的结果进一步转化为结构化的数据格式。这一步骤依赖于 Qwen2.5-72B-Instruct,它具备强大的自然语言理解能力,可以从非结构化的文本中抽取出有价值的结构化信息。
例如,在设备铭牌识别场景中,Qwen2.5-72B-Instruct 可以自动识别并分类不同的字段,如型号、序列号、制造日期等;同时生成易于检索和分析的结构化数据,极大地方便了后续的数据管理和应用。
结果展示
为了验证我们的方案的有效性,我们进行了实验,共同处理了 30 张具有不同角度和光线条件的设备铭牌照片。
实验分为两组:一组直接使用 QwenVL 进行识别(直接 VL 组),另一组先使用 UVDoc 工具预处理后再使用 QwenVL 识别(联合处理组)。以下是两组的数据对比及更深入的统计分析:
数据对比表
进一步统计分析
最近我在做科研项目,所以简单按照科研项目的分析逻辑做了一下进一步的数据分析。
准确率提升
-
正确识别率:
- 直接 VL 组:8/30 = 26.7%
- 联合处理组:28/30 = 93.3%
-
部分识别率:
- 直接 VL 组:12/30 = 40%
- 联合处理组:2/30 = 6.7%
-
完全不能识别率:
- 直接 VL 组:10/30 = 33.3%
- 联合处理组:0/30= 0%
平均准确度
平均准确度定义为每个样本被正确识别的比例。计算方法如下:
- 直接 VL 组平均准确度:8/30 = 26.7%
- 联合处理组平均准确度:28/30 = 93.3%
Kappa 系数(Cohen’s Kappa)
Kappa 系数用于衡量分类系统的可靠性,考虑了偶然一致性。其公式为:
其中 是观察到的一致性比例,是预期的一致性比例。
假设随机猜测情况下,所有类别的概率相等,则:
- 对于直接 VL 组:
- 对于联合处理组:
Kappa 系数表明联合处理组的一致性远高于直接 VL 组,说明前者在实际应用中更为可靠。
结论
从以上数据分析可以看出,联合处理组的表现显著优于直接 VL 组:
- 准确性大幅提升:联合处理组的正确识别率从 26.7% 提高到了 93.3%,几乎达到了完全正确识别。
- 部分识别减少:联合处理组部分识别的比例从 40% 降低到 6.7%,表明大多数情况下都能实现完全正确的识别。
- 无法识别消除:联合处理组实现了零失败,所有照片均能至少部分识别,而直接 VL 组有 10 张照片完全不能识别。
- 可靠性更高:Kappa 系数显示联合处理组的一致性远高于直接 VL 组,证明了其在实际应用中的优越性能。
综上所述,在高精度的图文识别场景中,通过 UVDoc 图像校正工具预处理图片、QwenVL 进行信息识别以及 LLM 进行结构化数据提取,成功解决了设备铭牌识别中的难题,构建了一个高效且精确的文字提取系统。