视觉语言开发实践：另辟蹊径打造高精度的 VL 文字提取工具

2025-01-02 369 阅读5分钟

作者：铂金小猪

在工业和医疗等领域的设备管理中，设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等，对于资产管理、维护记录和故障排除至关重要。然而，实际拍摄的照片往往存在以下难题：

角度与透视问题：由于拍摄角度各异，上传的照片中设备铭牌可能出现严重的透视变形，导致文字倾斜或扭曲。
光线与反射干扰：现场光线条件复杂，强光反射或阴影遮挡使得铭牌上的文字难以清晰辨认。
背景杂乱：周围环境复杂，背景中的其他物体可能干扰文本区域的识别。

这些问题直接使用视觉语言（VL）模型进行识别时，会导致极低的准确率和可靠性。为了解决这些问题，最近和 Gitee AI 团队进行了深度友好的沟通，最终得到了一套完整的解决方案，通过 UVDoc 图像校正工具预处理图片，再利用 QwenVL 进行信息识别，并最终使用大型语言模型（LLM）实现结构化数据提取，显著提升了铭牌文字的提取效果。

技术方法

UVDoc 图像校正工具：提升输入质量

针对上述难题，我们首先采用 GiteeAI 团队最新发布的 UVDoc 图像校正工具对原始照片进行预处理。该工具利用先进的计算机视觉算法，自动检测并纠正图像中的透视变形，恢复铭牌的真实形状。

同时，它还可以调整图像的亮度和对比度，减少光线和反射带来的干扰。经过 UVDoc 校正后的图像不仅提高了文本的可读性，还为后续的文字识别提供了更佳的基础。

地址：ai.gitee.com/serverless-…

QwenVL：强大的信息识别引擎

完成图像预处理后，接下来是关键的信息识别阶段。我们选择了 QwenVL 作为核心识别引擎，其融合了最新的视觉语言模型技术，能够在复杂背景条件下精准定位并识别出文本内容。QwenVL 不仅可以处理常规印刷体文字，还能应对手写体以及多种语言混合的情况，极大地拓宽了应用范围。

此外，QwenVL 还支持多模态输入，可以同时解析图像中的其他非文本元素，如图标、表格等，为用户提供更加全面的信息提取服务。

地址：ai.gitee.com/serverless-…

LLM 结构化数据提取：智能化处理结果

最后一步是将 QwenVL 输出的结果进一步转化为结构化的数据格式。这一步骤依赖于 Qwen2.5-72B-Instruct，它具备强大的自然语言理解能力，可以从非结构化的文本中抽取出有价值的结构化信息。

例如，在设备铭牌识别场景中，Qwen2.5-72B-Instruct 可以自动识别并分类不同的字段，如型号、序列号、制造日期等；同时生成易于检索和分析的结构化数据，极大地方便了后续的数据管理和应用。

地址：ai.gitee.com/serverless-…

结果展示

为了验证我们的方案的有效性，我们进行了实验，共同处理了 30 张具有不同角度和光线条件的设备铭牌照片。

实验分为两组：一组直接使用 QwenVL 进行识别（直接 VL 组），另一组先使用 UVDoc 工具预处理后再使用 QwenVL 识别（联合处理组）。以下是两组的数据对比及更深入的统计分析：

数据对比表

进一步统计分析

最近我在做科研项目，所以简单按照科研项目的分析逻辑做了一下进一步的数据分析。

准确率提升

正确识别率：
- 直接 VL 组：8/30 = 26.7%
- 联合处理组：28/30 = 93.3%
部分识别率：
- 直接 VL 组：12/30 = 40%
- 联合处理组：2/30 = 6.7%
完全不能识别率：
- 直接 VL 组：10/30 = 33.3%
- 联合处理组：0/30= 0%

平均准确度

平均准确度定义为每个样本被正确识别的比例。计算方法如下：

$平均准确度=\frac{正确识别数}{总样本数}$

直接 VL 组平均准确度：8/30 = 26.7%
联合处理组平均准确度：28/30 = 93.3%

Kappa 系数（Cohen’s Kappa）

Kappa 系数用于衡量分类系统的可靠性，考虑了偶然一致性。其公式为：

$k=\frac{p_0-p_e}{1-p_e}$

其中 $p_0$ 是观察到的一致性比例， $p_e$ 是预期的一致性比例。

假设随机猜测情况下，所有类别的概率相等，则：

对于直接 VL 组：

对于联合处理组：

Kappa 系数表明联合处理组的一致性远高于直接 VL 组，说明前者在实际应用中更为可靠。

结论

从以上数据分析可以看出，联合处理组的表现显著优于直接 VL 组：

准确性大幅提升：联合处理组的正确识别率从 26.7% 提高到了 93.3%，几乎达到了完全正确识别。
部分识别减少：联合处理组部分识别的比例从 40% 降低到 6.7%，表明大多数情况下都能实现完全正确的识别。
无法识别消除：联合处理组实现了零失败，所有照片均能至少部分识别，而直接 VL 组有 10 张照片完全不能识别。
可靠性更高：Kappa 系数显示联合处理组的一致性远高于直接 VL 组，证明了其在实际应用中的优越性能。

综上所述，在高精度的图文识别场景中，通过 UVDoc 图像校正工具预处理图片、QwenVL 进行信息识别以及 LLM 进行结构化数据提取，成功解决了设备铭牌识别中的难题，构建了一个高效且精确的文字提取系统。