8.4K Star!本地化高精度OCR神器!GPT驱动,零样本即可识别!

1,091 阅读4分钟

随着信息化的推进,越来越多的企业和个人在工作上需要处理大量的文档。

然而,这些文档形式多样,可能包括PDF、扫描文件、图片等,且布局复杂,包含表格、图表等信息。

手动处理这些文档不仅耗时耗力,还容易出错。这时,一款功能强大的OCR工具就显得尤为重要。

今天为大家推荐一款本地化、高精度、复杂布局识别的开源 OCR 工具:Zerox

图片

它同时还集成了 GPT-4o-mini 模型,图像识别更加精准。不仅能本地运行,还支持复杂布局的文档处理,极大提升了文档信息提取的效率和准确性。

图片

项目简介

Zerox 采用了 GPT-4o-mini 模型,通过将PDF等文件转换为图像,再进行OCR识别,最终输出Markdown格式的文档。

图片

不仅支持零样本OCR,用户无需提供大量样本进行训练即可直接使用,还能处理包含复杂布局的文件,包括扫描版的PDF和DOCX等格式。

这种工作流程优化了文档的视觉呈现和信息提取,使得用户能够快速获取和整理文档内容。

核心亮点

  •  零样本OCR:无需提前训练,Zerox OCR能直接识别和处理各种类型的文档,提供高精度的文本提取。

  •  多格式支持:支持PDF、DOCX、图片等多种格式,尤其是扫描版文档,灵活应对不同类型的文件。

  •  Markdown输出:将识别结果转换为Markdown格式,方便用户编辑和使用,同时保持文档的视觉和结构完整性。

  •  复杂布局处理:可以处理包含表格、图表等复杂布局的文件,为用户提供更全面的文档信息提取能力。

  •  API接口:提供API接口,方便开发者集成到自己的应用中,实现自动化文档处理。

基本工作流程

核心:从文件到 Markdown 的高效转化。

  •  提交文件:用户可以提交PDF、DOCX、图片等格式的文件。

  •  文件转换:工具将文件转换为一系列图像,准备进行OCR识别。

  •  OCR识别:每个图像通过 GPT-4o-mini 模型进行OCR识别,转换成Markdown格式。

  •  汇总结果:所有页面的Markdown结果被汇总在一起,形成一个完整的Markdown文档,供用户使用和编辑。

快速使用

使用Zerox OCR非常简单,无论是技术人员还是普通用户都能轻松上手。

对于不想自行部署的用户(想省事、小白用户),可以通过 在线试用 体验Zerox的强大功能。

图片

对于有部署能力的(程序员等互联网从业者),你可以安装Zerox OCR包,轻松安装并在本地运行。

官方提供了 NodePython 包,可供前后端直接调用。

Node 包下载:

npm install zerox

Node 代码调用:

import { zerox } from "zerox";

const result = await zerox({
  filePath"https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
  openaiAPIKey: process.env.OPENAI_API_KEY,
});

Python包下载:

pip install py-zerox

Python 代码调用:

from pyzerox import zerox
import os
import json
import asyncio

async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported

    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)

    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, **kwargs)
    return result


# run the main function:
result = asyncio.run(main())

# print markdown result
print(result)

代码调用,识别结果展示:

图片

应用场景

  •  企业文档管理:帮助企业快速处理和整理大量的PDF和扫描文档,提高办公效率。

  •  学术研究:为研究人员提供高效的文档信息提取工具,方便整理和引用文献资料。

  •  法律和金融行业:快速处理合同、报告等复杂文档,确保信息的准确提取和整理。

  •  教育领域:为教育工作者和学生提供方便的文档转换和整理工具,提升学习效率。

写在最后

Zerox 通过结合 GPT-4o-mini 模型和高效的工作流程,为用户提供了一种简单、快捷的文档信息提取工具。

它不仅支持多种格式和复杂布局的文档处理,还能输出简洁的Markdown格式,为用户提供了更灵活的文档编辑和使用方式。

无论你是企业用户、学术研究者,还是内容创作者,Zerox OCR都能为你的工作带来巨大的便利和提升。

如果你正在寻找一个功能强大、操作简便的OCR工具,Zerox无疑是一个值得尝试的选择。

GitHub 项目地址:github.com/getomni-ai/…

在线体验地址:getomni.ai/ocr-demo