我们把5000份合同交给AI审查:结果比想象的要复杂

0 阅读7分钟

一、为什么做这件事

去年年底,公司内部有一个争论:法务团队想采购AI合同审查工具,但IT团队对效果存疑,认为“演示环境和真实场景是两回事”。

谁也说服不了谁。最后决定:直接用真实数据测。

我们整理了2023-2024年的5000份历史合同,涵盖采购、销售、NDA、劳动合同等8个品类。这些合同都有最终签署版本和法务在审查过程中留下的修改记录。

测试方法:用AI对5000份合同做审查,把AI输出的问题和修改建议,与法务实际提出的修改建议做比对。

项目周期6周,参与方包括法务团队、IT团队、外部厂商。

这篇文章不吹不黑,还原我们看到的真实结果。

二、我们怎么测的

测试范围

  • 合同数量:5000份
  • 合同品类:采购合同、销售合同、NDA、劳动合同、服务协议、租赁合同、代理协议、授权书
  • 合同状态:已签署、有完整法务修订记录
  • 审查范围:风险条款识别、标准条款偏差、关键信息提取、修改建议生成

评估标准

  • 精确率:AI标记的问题中,多少确实是问题
  • 召回率:法务标记的问题中,AI找出了多少
  • 修改建议采纳率:AI提出的修改建议,法务实际采用的占比

三、整体数据

合规性审查

指标结果
精确率72%
召回率61%
修改建议采纳率53%

结论:AI在合规性审查上的表现,勉强达到初级法务水平,但错误率偏高,不能直接用于生产。

关键信息提取

对合同主体、金额、期限、管辖法院等标准化信息的提取准确率超过94%。

结论:AI在这类“不需要判断、只需要抽取”的任务上表现稳定。

风险条款识别

对典型高风险条款(无限责任、单方终止、自动续约等)的识别率接近89%。

结论:常见风险条款的识别能力已具备实用价值。

四、三类“AI搞不定”的场景

测试过程中,我们遇到了三类AI表现特别差的场景,暴露的不仅是模型能力问题,更是合同审查这个场景的特殊性。

类型一:判断标准模糊

某份合同的违约责任条款写着“卖方应承担因此给买方造成的全部损失”。AI标记为“风险:无限责任,建议限定为直接损失”。

但法务复核后认为:这笔交易金额小、风险可控,且对方是头部客户,不接受修改。保留此条款的谈判价值大于修改价值。

AI能识别“条款有风险”,但无法判断“这个风险要不要承担”。这个判断依赖谈判策略、客户关系、交易背景——AI看不到这些信息。

类型二:需要上下文的“矛盾检测”

两份关联合同:主合同约定争议由上海仲裁,补充协议写了北京法院。

单独审任何一份都看不出来。AI没有能力跨文档做矛盾检测。

另一个例子:付款条款写“验收后30天付款”,但验收标准在另一份技术附件里,AI没看到就默认通过。

类型三:格式不规范导致AI“失明”

扫描版PDF,图片模糊,表格内容OCR识别后错位。AI在处理这类文档时效果极差。

还有一类:合同里引用的法规条款,AI能识别到,但无法判断引用是否正确(法规已废止或条款号对应不上)。

五、AI做得好和做得不好的地方

AI做得好的地方

  • 条款缺失检查:对比标准模板,快速找出“缺了什么”(管辖条款缺失、保密期限未约定、违约金比例未填)
  • 常见风险识别:对行业通用的高风险条款(无限责任、单方解约、自动续约)识别率接近89%
  • 信息提取:对合同主体、金额、日期等标准化信息的提取准确率超过94%
  • 不一致发现:同一份合同前后矛盾的地方(甲方乙方写反、金额大写小写不一致)

AI做不好的地方

  • 判断“要不要改”:AI不知道交易的商业背景、对方强势程度、谈判空间
  • 关联合同矛盾检测:跨文档检测,100%失败(文本案例:主合同和补充协议的争议解决条款互相矛盾)
  • 格式不规范场景:扫描件、手写修改版、盖章重叠区域的识别准确率低于60%
  • 法规时效性判断:AI依赖训练数据,不知道法规是否已废止

六、我们学到的三件事

教训一:AI审查的结果需要“分级标注”

AI输出的问题不能混在一起,必须分级:

  • 硬伤(条款确实错了)→ 自动标记,直接返回
  • 建议项(可改可不改)→ 需要人工判断
  • 信息项(提取结果)→ 人工复核

把三类混在一起,法务要逐条判断“这个AI说的对不对”,效率反而下降。

具体做法:修改建议返回时带置信度标签。置信度>90%的硬伤直接通过,低于阈值的推给人工。

教训二:合同审查不只是“看这一份”

单份合同审查只是第一步。真正的风险往往出现在关联合同之间的不一致,以及合同与业务事实之间的偏差。

这次测试中跨文档矛盾检测全部失败,说明处理这类复杂任务需要Agentic方案:AI先审单份合同,发现潜在问题后,主动去关联文档中验证。

教训三:前期条件不满足时,AI无法替代人工

法务在正式审核前,通常会先确认:格式是否规范、版本是否最新、附件是否完整。如果前期条件不满足,AI给出的结果就是错的。

建议:工作流前置一个规则检查节点,确保文档质量满足AI处理的最低标准后再送审。

七、我们现在怎么做

测试结束后,我们没有直接上线“AI自动审合同”,而是调整了策略:

  1. AI辅助审查,人工做最终判断。AI负责找出潜在问题点,法务判断哪些需要修改
  2. 审查报告分级:自动生成“风险清单”,每项标注级别和建议,法务按优先级处理
  3. 建立反馈闭环:法务对AI标记的每个问题做“确认/否决/修正”标注,数据回流持续优化模型
  4. 跨文档检测和法规时效性判断等复杂任务,采用专门的Agentic方案处理

在具体实现上,我们采用 ZGI 作为合同审查工作流的编排平台,将文档解析、规则引擎、人工复核串联为一个完整的半自动化流程。

八、写在最后

5000份合同测下来,核心结论:

AI在合同审查这个场景里,有一定价值,但距离替代人工还很远。它是个不错的辅助工具,但不是解决方案。

它做不了法务做的判断:这个风险要不要承担?这个条款对方会不会接受?这个交易背景允不允许这样改?

这些不完全是AI的问题,是合同审查这个场景本质上是“法律判断+商业判断+关系判断”的综合体。AI在“法律判断”上能帮忙,在“商业判断”和“关系判断”上几乎没有能力。

本文基于合同审查AI测试实践整理。