数学公式识别一直是人工智能领域的硬骨头。与普通文字不同,数学表达式中的符号不是简单的线性排列,而是通过上下标、分式、根式等形式构成复杂的二维空间关系。这种非线性、层级化的结构特性,让AI不仅要准确识别每个符号,还必须理解符号之间的相对位置与组合关系。TextIn作为专注智能文字识别领域17年的技术平台,在公式识别方面积累了深厚的技术能力。
公式识别为何如此困难?
手写数学表达式在尺度和形态上呈现出高度多样性。不同符号在尺寸、笔画粗细以及空间分布上差异明显,同一表达式中可能同时包含大尺寸的主符号和小尺寸的上下标符号。这种多尺度特性使得单一尺度的特征提取方式难以兼顾全局结构与局部细节。
更棘手的是,传统方法通常将数学表达式转化为LaTeX等线性序列进行预测,依赖RNN或Transformer等序列化解码模型。当表达式较长或结构复杂时,解码过程不仅效率低下,错误还容易在长序列中累积,严重影响识别精度。
树结构建模:让AI理解公式的骨架
针对上述挑战,学术界提出了一种创新方案——基于树结构的分支并行解码模型(BPD)。该模型通过显式建模数学表达式树中的符号及其关系,有效捕获了表达式的层级结构。
具体而言,模型采用编码器-解码器架构:编码器利用卷积神经网络(CNN)提取图像特征,并融入位置编码增强空间定位能力;解码器基于Transformer结构,通过符号预测器和关系预测器分别识别符号及其间的空间关系。
核心创新在于引入查询构建模块,该模块利用已预测的关系信息构建新的解码查询,实现多分支的并行解码。这一设计大幅减少了传统方法中逐个深度优先解码的长序列长度,有效缓解了长序列注意力解码的瓶颈问题。
TextIn的公式识别实践
TextIn智能文档解析技术在公式识别领域有着成熟的应用。平台可以从PDF、Word、图片等十余种格式的文档中识别文本、表格、公式、手写体等各种元素,并转换成Markdown和JSON格式返回。
值得一提的是,TextIn ParseX近期还新增了公式解析参数formula_level,支持LaTeX和Text两种输出形式的灵活切换,深度适配教育、金融、医疗、企业办公等场景需求。在处理复杂文档时,TextIn通过物理版面分析与逻辑版面分析相结合的方式,确保公式与周围文本的正确关联,相较于其他开源库表现更加出色。
对于大模型训练场景,互联网数据、书籍、论文等PDF或扫描件中往往包含大量公式。TextIn能够准确识别和解析这些文档元素,实现版面正确解析和阅读顺序还原,为高质量训练语料的获取提供了有力支撑。
从学术研究到产业落地,AI识别复杂公式的技术正在快速演进。TextIn将持续深耕这一领域,让机器不仅能看到公式,更能真正理解公式背后的数学逻辑。