文档图像文本提取技术与OCR应用解析本文介绍了基于Marker和OCR的文档解析技术，能够将PDF、DOCX、PPTX及

使用Marker和OCR从文档和图像中提取文本

Datalab先进的文档解析和文本提取模型现已上线某平台。

模型功能

Marker可将PDF、DOCX、PPTX、图像等格式转换为Markdown或JSON。它能够格式化表格、数学公式和代码，提取图像，并在传入JSON Schema时提取特定字段。

OCR支持从图像和文档中检测90种语言的文本，并返回阅读顺序和表格网格。

Marker模型基于流行的开源Marker项目（29k GitHub星标），OCR基于Surya（19k GitHub星标）。

使用示例

运行Marker

import replicate

output = replicate.run(
    "datalab-to/marker",
    input={
        "file": open("report.pdf", "rb"),
        "mode": "balanced",  # fast / balanced / accurate
        "include_metadata": True,  # 返回页面级JSON元数据
    },
)
print(output["markdown"][:400])

运行OCR

import replicate

output = replicate.run(
    "datalab-to/ocr",
    input={
        "file": open("receipt.jpg", "rb"),
        "visualize": True,  # 返回带有检测文本红色多边形标注的输入图像
        "return_pages": True,  # 返回布局数据
    },
)
print(output["text"][:200])

结构化提取

Marker的一个强大功能是结构化提取。例如，可以从发票中提取特定字段：

import json
import replicate

schema = {
    "type": "object",
    "properties": {
        "vendor": {"type": "string"},
        "invoice_number": {"type": "string"},
        "date": {"type": "string"},
        "total": {"type": "number"}
    }
}

output = replicate.run(
    "datalab-to/marker",
    input={
        "file": "https://multimedia-example-files.replicate.dev/replicator-invoice.1page.pdf",
        "page_schema": json.dumps(schema),
    }
)
structured_data = json.loads(output["extraction_schema_json"])
print(structured_data)

性能表现

使用olmOCR-Bench基准测试评估Marker性能，该数据集包含1,403个PDF文件和7,010个测试用例，评估OCR系统将PDF文档准确转换为Markdown格式的能力。

Marker在所有测试模型中表现最佳，超越了GPT-4o、Deepseek OCR、Mistral OCR和olmOCR。

模型	ArXiv	旧扫描文档数学	表格	旧扫描文档页眉页脚	多列	长小文本	基础	总体
Datalab Marker (平衡模式)	81.4	80.3	89.4	50.0	88.3	81.0	91.6	99.9	82.7 ± 0.9
Datalab Marker (快速模式)	83.8	69.7	74.8	32.3	86.6	79.4	85.7	99.6	76.5 ± 1.0
Mistral OCR API	77.2	67.5	60.6	29.3	93.6	71.3	77.1	99.4	72.0 ± 1.1
Deepseek OCR	75.2	67.9	79.1	32.9	96.1	66.3	78.5	97.7	74.2 ± 1.0
Nanonets OCR	67.0	68.6	77.7	39.5	40.7	69.9	53.4	99.3	64.5 ± 1.1
GPT-4o (锚定)	53.5	74.5	70.0	40.7	93.8	69.3	60.6	96.8	69.9 ± 1.1
Gemini Flash 2 (锚定)	54.5	56.1	72.1	34.2	64.7	61.5	71.5	95.6	63.8 ± 1.2
Qwen 2.5 VL (无锚定)	63.1	65.7	67.3	38.6	73.6	68.3	49.1	98.3	65.5 ± 1.2
olmOCR v0.3.0	78.6	79.9	72.9	43.9	95.1	77.3	81.2	98.9	78.5 ± 1.1

价格信息

Marker定价：

快速和平衡模式下，不使用page_schema时每1000页4美元
使用page_schema进行结构化提取时每1000页6美元
精确模式下每1000页6美元

OCR定价为每1000页2美元。