视觉语言开发实践:另辟蹊径打造高精度的 VL 文字提取工具

305 阅读5分钟

作者:铂金小猪

在工业和医疗等领域的设备管理中,设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等,对于资产管理、维护记录和故障排除至关重要。然而,实际拍摄的照片往往存在以下难题:

  • 角度与透视问题:由于拍摄角度各异,上传的照片中设备铭牌可能出现严重的透视变形,导致文字倾斜或扭曲。
  • 光线与反射干扰:现场光线条件复杂,强光反射或阴影遮挡使得铭牌上的文字难以清晰辨认。
  • 背景杂乱:周围环境复杂,背景中的其他物体可能干扰文本区域的识别。

这些问题直接使用视觉语言(VL)模型进行识别时,会导致极低的准确率和可靠性。为了解决这些问题,最近和 Gitee AI 团队进行了深度友好的沟通,最终得到了一套完整的解决方案,通过 UVDoc 图像校正工具预处理图片,再利用 QwenVL 进行信息识别,并最终使用大型语言模型(LLM)实现结构化数据提取,显著提升了铭牌文字的提取效果。

技术方法

UVDoc 图像校正工具:提升输入质量

针对上述难题,我们首先采用 GiteeAI 团队最新发布的 UVDoc 图像校正工具对原始照片进行预处理。该工具利用先进的计算机视觉算法,自动检测并纠正图像中的透视变形,恢复铭牌的真实形状。

同时,它还可以调整图像的亮度和对比度,减少光线和反射带来的干扰。经过 UVDoc 校正后的图像不仅提高了文本的可读性,还为后续的文字识别提供了更佳的基础。

地址:ai.gitee.com/serverless-…

QwenVL:强大的信息识别引擎

完成图像预处理后,接下来是关键的信息识别阶段。我们选择了 QwenVL 作为核心识别引擎,其融合了最新的视觉语言模型技术,能够在复杂背景条件下精准定位并识别出文本内容。QwenVL 不仅可以处理常规印刷体文字,还能应对手写体以及多种语言混合的情况,极大地拓宽了应用范围。

此外,QwenVL 还支持多模态输入,可以同时解析图像中的其他非文本元素,如图标、表格等,为用户提供更加全面的信息提取服务。

地址:ai.gitee.com/serverless-…

LLM 结构化数据提取:智能化处理结果

最后一步是将 QwenVL 输出的结果进一步转化为结构化的数据格式。这一步骤依赖于 Qwen2.5-72B-Instruct,它具备强大的自然语言理解能力,可以从非结构化的文本中抽取出有价值的结构化信息。

例如,在设备铭牌识别场景中,Qwen2.5-72B-Instruct 可以自动识别并分类不同的字段,如型号、序列号、制造日期等;同时生成易于检索和分析的结构化数据,极大地方便了后续的数据管理和应用。

地址:ai.gitee.com/serverless-…

结果展示

为了验证我们的方案的有效性,我们进行了实验,共同处理了 30 张具有不同角度和光线条件的设备铭牌照片。

实验分为两组:一组直接使用 QwenVL 进行识别(直接 VL 组),另一组先使用 UVDoc 工具预处理后再使用 QwenVL 识别(联合处理组)。以下是两组的数据对比及更深入的统计分析:

数据对比表

进一步统计分析

最近我在做科研项目,所以简单按照科研项目的分析逻辑做了一下进一步的数据分析。

准确率提升

  • 正确识别率:

    • 直接 VL 组:8/30 = 26.7%
    • 联合处理组:28/30 = 93.3%
  • 部分识别率:

    • 直接 VL 组:12/30 = 40%
    • 联合处理组:2/30 = 6.7%
  • 完全不能识别率:

    • 直接 VL 组:10/30 = 33.3%
    • 联合处理组:0/30= 0%

平均准确度

平均准确度定义为每个样本被正确识别的比例。计算方法如下:

平均准确度=正确识别数总样本数平均准确度=\frac{正确识别数}{总样本数}

  • 直接 VL 组平均准确度:8/30 = 26.7%
  • 联合处理组平均准确度:28/30 = 93.3%

Kappa 系数(Cohen’s Kappa)

Kappa 系数用于衡量分类系统的可靠性,考虑了偶然一致性。其公式为:

k=p0pe1pek=\frac{p_0-p_e}{1-p_e}

其中 p0p_0 是观察到的一致性比例,pep_e是预期的一致性比例。

假设随机猜测情况下,所有类别的概率相等,则:

  • 对于直接 VL 组:

  • 对于联合处理组:

Kappa 系数表明联合处理组的一致性远高于直接 VL 组,说明前者在实际应用中更为可靠。

结论

从以上数据分析可以看出,联合处理组的表现显著优于直接 VL 组:

  • 准确性大幅提升:联合处理组的正确识别率从 26.7% 提高到了 93.3%,几乎达到了完全正确识别。
  • 部分识别减少:联合处理组部分识别的比例从 40% 降低到 6.7%,表明大多数情况下都能实现完全正确的识别。
  • 无法识别消除:联合处理组实现了零失败,所有照片均能至少部分识别,而直接 VL 组有 10 张照片完全不能识别。
  • 可靠性更高:Kappa 系数显示联合处理组的一致性远高于直接 VL 组,证明了其在实际应用中的优越性能。

综上所述,在高精度的图文识别场景中,通过 UVDoc 图像校正工具预处理图片、QwenVL 进行信息识别以及 LLM 进行结构化数据提取,成功解决了设备铭牌识别中的难题,构建了一个高效且精确的文字提取系统。