在智能文档理解领域,如何让模型既能「看懂」复杂排版,又能「理清」逻辑结构,一直是技术难题。传统 OCR 系统往往只能识别文字,却无法处理包含公式、表格、图像等复杂内容,导致信息碎片化、上下文丢失,结构化程度有限。
MonkeyOCR 的出现打破了这一瓶颈。它由华中科技大学联合金山办公于 2025 年 6 月推出,是一款专注于文档结构化解析的高性能模型。系统基于创新的结构–识别–关系(SRR)三元组范式,通过布局分析、内容识别与逻辑重建三步协同,实现了从 PDF、图像等非结构化文档到机器可读信息的高精度转换。与传统方法相比,MonkeyOCR 在处理复杂文档时表现尤为突出——平均性能提升 5.1%,在公式与表格解析上分别提升 15.0% 和 8.6%,多页文档推理速度达到 0.84 页/秒。
背后支撑这一能力的是 MonkeyDoc 数据集——目前最全面的文档解析数据集,包含 390 万个实例,覆盖论文、教材、报纸等十余种中英文文档类型。MonkeyOCR 在此基础上结合 AdamW 优化器 与余弦学习率调度进行大规模训练,确保了在精度与效率之间的平衡。得益于 LMDeploy 推理框架,模型可在单个 NVIDIA 3090 GPU 上流畅运行,支持快速部署与扩展。
换句话说,MonkeyOCR 不只是识别文字的 OCR,它更像一个能「读懂文档逻辑」的智能解析引擎——让 AI 从看得见文字,迈向看得懂结构。如今,其 GitHub stars 数量已达 6.2k。
使用云平台: OpenBayes
openbayes.com/console/sig…
首先点击「公共教程」,找到「MonkeyOCR:基于结构-识别-关系三元组范式的文档解析」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「API 地址」,即可进入模型界面。
使用步骤如下:
以下是各类型文档使用效果展示:
公式文档示例
表格文档示例
报纸示例
财务报告示例