8.4K Star！本地化高精度OCR神器！GPT驱动，零样本即可识别！随着信息化的推进，越来越多的企业和个人在工作上需

随着信息化的推进，越来越多的企业和个人在工作上需要处理大量的文档。

然而，这些文档形式多样，可能包括PDF、扫描文件、图片等，且布局复杂，包含表格、图表等信息。

手动处理这些文档不仅耗时耗力，还容易出错。这时，一款功能强大的OCR工具就显得尤为重要。

今天为大家推荐一款本地化、高精度、复杂布局识别的开源 OCR 工具：Zerox。

它同时还集成了 GPT-4o-mini 模型，图像识别更加精准。不仅能本地运行，还支持复杂布局的文档处理，极大提升了文档信息提取的效率和准确性。

项目简介

Zerox 采用了 GPT-4o-mini 模型，通过将PDF等文件转换为图像，再进行OCR识别，最终输出Markdown格式的文档。

不仅支持零样本OCR，用户无需提供大量样本进行训练即可直接使用，还能处理包含复杂布局的文件，包括扫描版的PDF和DOCX等格式。

这种工作流程优化了文档的视觉呈现和信息提取，使得用户能够快速获取和整理文档内容。

核心亮点

零样本OCR：无需提前训练，Zerox OCR能直接识别和处理各种类型的文档，提供高精度的文本提取。
多格式支持：支持PDF、DOCX、图片等多种格式，尤其是扫描版文档，灵活应对不同类型的文件。
Markdown输出：将识别结果转换为Markdown格式，方便用户编辑和使用，同时保持文档的视觉和结构完整性。
复杂布局处理：可以处理包含表格、图表等复杂布局的文件，为用户提供更全面的文档信息提取能力。
API接口：提供API接口，方便开发者集成到自己的应用中，实现自动化文档处理。

基本工作流程

核心：从文件到 Markdown 的高效转化。

提交文件：用户可以提交PDF、DOCX、图片等格式的文件。
文件转换：工具将文件转换为一系列图像，准备进行OCR识别。
OCR识别：每个图像通过 GPT-4o-mini 模型进行OCR识别，转换成Markdown格式。
汇总结果：所有页面的Markdown结果被汇总在一起，形成一个完整的Markdown文档，供用户使用和编辑。

快速使用

使用Zerox OCR非常简单，无论是技术人员还是普通用户都能轻松上手。

对于不想自行部署的用户（想省事、小白用户），可以通过 在线试用 体验Zerox的强大功能。

对于有部署能力的（程序员等互联网从业者），你可以安装Zerox OCR包，轻松安装并在本地运行。

官方提供了 Node 和 Python 包，可供前后端直接调用。

Node 包下载：

npm install zerox

Node 代码调用：

import { zerox } from "zerox";

const result = await zerox({
  filePath: "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
  openaiAPIKey: process.env.OPENAI_API_KEY,
});

Python包下载：

pip install py-zerox

Python 代码调用：

from pyzerox import zerox
import os
import json
import asyncio

async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported

    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)

    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, **kwargs)
    return result


# run the main function:
result = asyncio.run(main())

# print markdown result
print(result)

代码调用，识别结果展示：

应用场景

企业文档管理：帮助企业快速处理和整理大量的PDF和扫描文档，提高办公效率。
学术研究：为研究人员提供高效的文档信息提取工具，方便整理和引用文献资料。
法律和金融行业：快速处理合同、报告等复杂文档，确保信息的准确提取和整理。
教育领域：为教育工作者和学生提供方便的文档转换和整理工具，提升学习效率。

写在最后

Zerox 通过结合 GPT-4o-mini 模型和高效的工作流程，为用户提供了一种简单、快捷的文档信息提取工具。

它不仅支持多种格式和复杂布局的文档处理，还能输出简洁的Markdown格式，为用户提供了更灵活的文档编辑和使用方式。

无论你是企业用户、学术研究者，还是内容创作者，Zerox OCR都能为你的工作带来巨大的便利和提升。

如果你正在寻找一个功能强大、操作简便的OCR工具，Zerox无疑是一个值得尝试的选择。

GitHub 项目地址：github.com/getomni-ai/…

在线体验地址：getomni.ai/ocr-demo