从“像素”到“语义”：大模型驱动下的文档抽取新范式在企业的日常运营中，海量的非结构化文档——合同、订单、票据、法律文书、

在企业的日常运营中，海量的非结构化文档——合同、订单、票据、法律文书、企业证照等承载着核心业务信息。然而，这些文档格式各异、布局多变，传统基于固定模板或规则引擎的OCR（光学字符识别）技术难以应对。近年来，OCR技术与大语言模型（Large Language Model, LLM）的深度结合，诞生了智能文档抽取系统。这类系统仅需用户上传少量样本并自定义配置抽取字段，即可自动将任意文档转化为结构化数据，极大提升了信息处理效率。本文将从核心原理、技术架构及应用场景三个维度，剖析文档抽取系统的内在机制。

技术原理：OCR与大模型的协同进化

文档抽取系统采用 “视觉感知（OCR）+ 语义理解（LLM）” 的双阶段混合架构，旨在兼顾精度与效率。

1.核心架构流程

第一阶段：高精度视觉预处理 (OCR Layer)

利用高性能OCR引擎进行图像到文本的转换，并保留空间坐标信息。

功能：去除噪点、倾斜校正、表格线检测、印章遮挡修复。
输出：带有{text, bbox(x,y,w,h), page_id}结构的JSON数据。
关键点：不仅输出文字内容，还输出每个字符/单词在文档中的相对位置，这是后续定位的关键。

第二阶段：大模型语义解析 (LLM Layer)

将OCR输出的结构化文本块（含位置信息）作为Prompt输入给大语言模型。

角色设定：定义模型为“专业文档分析师”。
Few-Shot Prompting：用户上传少量样本（如3-5份合同），系统自动分析样本特征，生成动态Prompt，指导模型关注特定字段。
思维链（CoT）：引导模型先分析文档类型，再定位关键字段，最后校验逻辑一致性（如“合计金额”是否等于“单价×数量”）。

第三阶段：后处理与验证

结构化输出：将LLM生成的自然语言描述转换为标准JSON Schema。
置信度过滤：结合OCR置信度与LLM生成概率，对低置信度字段标记人工复核。
空间校验：利用OCR的坐标信息，验证提取字段是否符合物理布局逻辑（例如：发票代码通常位于左上角）。

2.关键技术亮点

少样本学习（Few-Shot Learning）

用户无需训练模型，只需上传少量样本并标注期望抽取的字段（如“合同编号”、“签署日期”），系统通过RAG（检索增强生成）或动态Prompt工程，瞬间适配新业务场景。

位置感知的上下文窗口

在Prompt中嵌入文本块的坐标信息（如 [x:100, y:200] "甲方名称"），帮助大模型区分不同位置的相同词汇（如“金额”可能出现在标题、正文或备注栏），显著提升准确率。

自适应字段配置

支持自定义Schema定义。用户可配置字段类型（字符串、日期、货币）、必填项、正则校验规则，系统自动在抽取后执行校验。

应用场景

金融与保险

信贷审批：自动从银行流水、收入证明中提取关键财务指标，辅助风控决策。
理赔处理：识别医疗发票、事故认定书，自动计算赔付金额，缩短理赔周期。

法律与合规

合同管理：批量扫描历史合同，提取签约方、有效期、违约金比例等条款，建立合规数据库。
诉讼文书：从判决书中提取案由、判决结果、涉案金额，辅助律师进行类案检索。

供应链与物流

订单自动化：从PDF/图片订单中提取SKU、数量、收货地址，直接对接ERP/WMS系统。
发票验真：自动识别增值税发票全票面信息，并与税务平台比对，防止重复报销。

政务与企业服务

证照办理：自动提取营业执照、身份证、护照信息，实现“秒级”开户或认证。
招投标分析：从招标文件中提取技术参数、评分标准，辅助投标策略制定。

基于OCR与大模型的文档抽取系统，融合了计算机视觉、自然语言处理与知识推理，打破了传统模板化抽取的桎梏。用户仅需上传少量样本并自定义字段，即可将堆积如山的非结构化文档转化为可计算、可分析的结构化数据。这一技术正在重塑合同审核、财务处理、法务管理等多个领域的工作模式，为企业释放出巨大的效率红利。