Spearker:胡贤良 浙江大学
本篇解释权归属胡教授和王硕士
背景:
OCR技术发展到今天,对于常规文本的识别已经达到了较高的准确率。但是对于在自动阅卷、数字图书馆建设、办公自动化等领域经常出现的手写数学公式,现有OCR算法的识准确率依然不太理想。不同于常规文本,手写数学公式有着复杂的空间结构以及多样化的书写风格。其中复杂的空间结构主要是由数学公式独特的分式、上下标、根号等结构造成的。虽然目前的OCR算法能较好地识别水平排布的常规文本,甚至对于一些多方向以及弯曲文本也能够有不错的识别效果,但是依然不能很好地识别具有复杂空间结构的数学公式。(——摘自CSDN)
手写识别的难点在于:
1、复杂的二维结构 2、多样的书写风格 3、手写符号的歧义性
骨架模型1:CAN-基于CNN
骨架模型2:CoMER-BTTR改良
模型改进1:PC-CAN
模型改进2:PC-CoMER
计算结果展示
(基本流程图)
实验的结果展示了改进后的模型效能,首先可以看出对于预测符号1-a,CAN模型有98.9%的成功预测率,反之预测2-q的则只有0.9%的预测率;PC-CAN模型对1-q有49.4%的成功率,对于预测符号2-a有48.4%的概率值。
Python API接口应用展示
由于后续开组会原因,没能继续听完全程。