教程上新丨华中科大与小红书 hi lab 开源 dots.mocr,SOTA 级 OCR 模型完美还原文档结构,图形也能转 SVG

0 阅读2分钟

面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,难以满足高质量信息提取与重建需求。

针对于此,华中科技大学和小红书 hi lab联合开源了 dots.mocr ,其能将文档中的文字、图表、表格等所有视觉元素,共同解析为统一的结构化数据,甚至能将图形直接转换为可编辑的 SVG 代码。 它不仅极大地提升了文档理解的深度和广度,更在复杂文档的自动化处理方面达到了行业领先水平。

目前,OpenBayes 官网的教程版块已上线「dots.mocr 多模态文档解析教程」, 在线体验多模态文档解析新范式。

在线运行链接:

go.openbayes.com/anjRI

Demo 运行

01

Demo 运行阶段

1.登录 OpenBayes.com,在「公共教程」页面,选择「dots.mocr 多模态文档解析」教程。

图片

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

图片

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,点击「继续执行」。新用户使用下方邀请链接注册,即可获得满 ¥10 赠 ¥10 优惠券,更有机会获得 ¥15 赠金!

小贝总专属邀请链接(直接复制到浏览器打开):

go.openbayes.com/9S6D******r

图片

图片

4.等待分配资源,当状态变为「运行中」后,点击「打开工作空间」进入 Jupyter Workspace。

图片

02

效果演示

页面跳转后,点击左侧 README 页面,进入后点击上方「运行」。

图片

图片

待运行完成,即可点击右侧 API 地址跳转至 demo 页面。

图片

图片

效果演示

图片

图片

图片

教程链接:

go.openbayes.com/anjRI