基于深度学习的手写数学公式识别研究进展

918 阅读1分钟

Spearker:胡贤良 浙江大学

本篇解释权归属胡教授和王硕士

背景:

OCR技术发展到今天,对于常规文本的识别已经达到了较高的准确率。但是对于在自动阅卷、数字图书馆建设、办公自动化等领域经常出现的手写数学公式,现有OCR算法的识准确率依然不太理想。不同于常规文本,手写数学公式有着复杂的空间结构以及多样化的书写风格。其中复杂的空间结构主要是由数学公式独特的分式、上下标、根号等结构造成的。虽然目前的OCR算法能较好地识别水平排布的常规文本,甚至对于一些多方向以及弯曲文本也能够有不错的识别效果,但是依然不能很好地识别具有复杂空间结构的数学公式。(——摘自CSDN)

手写识别的难点在于:

1、复杂的二维结构 2、多样的书写风格 3、手写符号的歧义性

骨架模型1:CAN-基于CNN

2023-04-27 19 30 01.png

骨架模型2:CoMER-BTTR改良

2023-04-27 19 31 36.png

模型改进1:PC-CAN

2023-04-27 19 33 06.png

模型改进2:PC-CoMER

2023-04-27 19 33 20.png

计算结果展示

(基本流程图) 2023-04-27 19 34 22.png 实验的结果展示了改进后的模型效能,首先可以看出对于预测符号1-a,CAN模型有98.9%的成功预测率,反之预测2-q的则只有0.9%的预测率;PC-CAN模型对1-q有49.4%的成功率,对于预测符号2-a有48.4%的概率值。

2023-04-27 19 35 06.png

Python API接口应用展示

2023-04-27 19 35 48.png

由于后续开组会原因,没能继续听完全程。