RolmOCR 是 Reducto AI 团队于 2025 年 4 月开发的开源 OCR 工具,基于 Qwen2.5-VL-7B 视觉语言模型。它能快速且低内存地从图片和 PDF 中提取文字,优于同类工具 olmOCR。RolmOCR 无需依赖 PDF 元数据,简化流程并支持多种文档类型,如手写笔记和学术论文。 Reducto 团队通过模型更新和训练数据优化,旨在提升文档数字化效率。
使用云平台:OpenBayes
openbayes.com/console/sig…
登录 OpenBayes.com,在「公共教程」页面,选择键部署 「RolmOCR 跨场景极速 OCR 开源识别新基准」教程。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!
待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
进入模型后上传一张图片,在「Prompt words」中添加提示词提取图片中的文字,最后点击「Submit」识别。可以看到原始图片中字都被准确的提取了出来。