我们把5000份合同交给AI审查：结果比想象的要复杂我们用5000份真实合同测试AI审查效果，发现AI在标准化条款识别上

一、为什么做这件事

去年年底，公司内部有一个争论：法务团队想采购AI合同审查工具，但IT团队对效果存疑，认为“演示环境和真实场景是两回事”。

谁也说服不了谁。最后决定：直接用真实数据测。

我们整理了2023-2024年的5000份历史合同，涵盖采购、销售、NDA、劳动合同等8个品类。这些合同都有最终签署版本和法务在审查过程中留下的修改记录。

测试方法：用AI对5000份合同做审查，把AI输出的问题和修改建议，与法务实际提出的修改建议做比对。

项目周期6周，参与方包括法务团队、IT团队、外部厂商。

这篇文章不吹不黑，还原我们看到的真实结果。

二、我们怎么测的

测试范围

合同数量：5000份
合同品类：采购合同、销售合同、NDA、劳动合同、服务协议、租赁合同、代理协议、授权书
合同状态：已签署、有完整法务修订记录
审查范围：风险条款识别、标准条款偏差、关键信息提取、修改建议生成

评估标准

精确率：AI标记的问题中，多少确实是问题
召回率：法务标记的问题中，AI找出了多少
修改建议采纳率：AI提出的修改建议，法务实际采用的占比

三、整体数据

合规性审查

指标	结果
精确率	72%
召回率	61%
修改建议采纳率	53%

结论：AI在合规性审查上的表现，勉强达到初级法务水平，但错误率偏高，不能直接用于生产。

关键信息提取

对合同主体、金额、期限、管辖法院等标准化信息的提取准确率超过94%。

结论：AI在这类“不需要判断、只需要抽取”的任务上表现稳定。

风险条款识别

对典型高风险条款（无限责任、单方终止、自动续约等）的识别率接近89%。

结论：常见风险条款的识别能力已具备实用价值。

四、三类“AI搞不定”的场景

测试过程中，我们遇到了三类AI表现特别差的场景，暴露的不仅是模型能力问题，更是合同审查这个场景的特殊性。

类型一：判断标准模糊

某份合同的违约责任条款写着“卖方应承担因此给买方造成的全部损失”。AI标记为“风险：无限责任，建议限定为直接损失”。

但法务复核后认为：这笔交易金额小、风险可控，且对方是头部客户，不接受修改。保留此条款的谈判价值大于修改价值。

AI能识别“条款有风险”，但无法判断“这个风险要不要承担”。这个判断依赖谈判策略、客户关系、交易背景——AI看不到这些信息。

类型二：需要上下文的“矛盾检测”

两份关联合同：主合同约定争议由上海仲裁，补充协议写了北京法院。

单独审任何一份都看不出来。AI没有能力跨文档做矛盾检测。

另一个例子：付款条款写“验收后30天付款”，但验收标准在另一份技术附件里，AI没看到就默认通过。

类型三：格式不规范导致AI“失明”

扫描版PDF，图片模糊，表格内容OCR识别后错位。AI在处理这类文档时效果极差。

还有一类：合同里引用的法规条款，AI能识别到，但无法判断引用是否正确（法规已废止或条款号对应不上）。

五、AI做得好和做得不好的地方

AI做得好的地方

条款缺失检查：对比标准模板，快速找出“缺了什么”（管辖条款缺失、保密期限未约定、违约金比例未填）
常见风险识别：对行业通用的高风险条款（无限责任、单方解约、自动续约）识别率接近89%
信息提取：对合同主体、金额、日期等标准化信息的提取准确率超过94%
不一致发现：同一份合同前后矛盾的地方（甲方乙方写反、金额大写小写不一致）

AI做不好的地方

判断“要不要改”：AI不知道交易的商业背景、对方强势程度、谈判空间
关联合同矛盾检测：跨文档检测，100%失败（文本案例：主合同和补充协议的争议解决条款互相矛盾）
格式不规范场景：扫描件、手写修改版、盖章重叠区域的识别准确率低于60%
法规时效性判断：AI依赖训练数据，不知道法规是否已废止

六、我们学到的三件事

教训一：AI审查的结果需要“分级标注”

AI输出的问题不能混在一起，必须分级：

硬伤（条款确实错了）→ 自动标记，直接返回
建议项（可改可不改）→ 需要人工判断
信息项（提取结果）→ 人工复核

把三类混在一起，法务要逐条判断“这个AI说的对不对”，效率反而下降。

具体做法：修改建议返回时带置信度标签。置信度>90%的硬伤直接通过，低于阈值的推给人工。

教训二：合同审查不只是“看这一份”

单份合同审查只是第一步。真正的风险往往出现在关联合同之间的不一致，以及合同与业务事实之间的偏差。

这次测试中跨文档矛盾检测全部失败，说明处理这类复杂任务需要Agentic方案：AI先审单份合同，发现潜在问题后，主动去关联文档中验证。

教训三：前期条件不满足时，AI无法替代人工

法务在正式审核前，通常会先确认：格式是否规范、版本是否最新、附件是否完整。如果前期条件不满足，AI给出的结果就是错的。

建议：工作流前置一个规则检查节点，确保文档质量满足AI处理的最低标准后再送审。

七、我们现在怎么做

测试结束后，我们没有直接上线“AI自动审合同”，而是调整了策略：

AI辅助审查，人工做最终判断。AI负责找出潜在问题点，法务判断哪些需要修改
审查报告分级：自动生成“风险清单”，每项标注级别和建议，法务按优先级处理
建立反馈闭环：法务对AI标记的每个问题做“确认/否决/修正”标注，数据回流持续优化模型
跨文档检测和法规时效性判断等复杂任务，采用专门的Agentic方案处理

在具体实现上，我们采用 ZGI 作为合同审查工作流的编排平台，将文档解析、规则引擎、人工复核串联为一个完整的半自动化流程。

八、写在最后

5000份合同测下来，核心结论：

AI在合同审查这个场景里，有一定价值，但距离替代人工还很远。它是个不错的辅助工具，但不是解决方案。

它做不了法务做的判断：这个风险要不要承担？这个条款对方会不会接受？这个交易背景允不允许这样改？

这些不完全是AI的问题，是合同审查这个场景本质上是“法律判断+商业判断+关系判断”的综合体。AI在“法律判断”上能帮忙，在“商业判断”和“关系判断”上几乎没有能力。

本文基于合同审查AI测试实践整理。