一、为什么做这件事
去年年底,公司内部有一个争论:法务团队想采购AI合同审查工具,但IT团队对效果存疑,认为“演示环境和真实场景是两回事”。
谁也说服不了谁。最后决定:直接用真实数据测。
我们整理了2023-2024年的5000份历史合同,涵盖采购、销售、NDA、劳动合同等8个品类。这些合同都有最终签署版本和法务在审查过程中留下的修改记录。
测试方法:用AI对5000份合同做审查,把AI输出的问题和修改建议,与法务实际提出的修改建议做比对。
项目周期6周,参与方包括法务团队、IT团队、外部厂商。
这篇文章不吹不黑,还原我们看到的真实结果。
二、我们怎么测的
测试范围
- 合同数量:5000份
- 合同品类:采购合同、销售合同、NDA、劳动合同、服务协议、租赁合同、代理协议、授权书
- 合同状态:已签署、有完整法务修订记录
- 审查范围:风险条款识别、标准条款偏差、关键信息提取、修改建议生成
评估标准
- 精确率:AI标记的问题中,多少确实是问题
- 召回率:法务标记的问题中,AI找出了多少
- 修改建议采纳率:AI提出的修改建议,法务实际采用的占比
三、整体数据
合规性审查
| 指标 | 结果 |
|---|---|
| 精确率 | 72% |
| 召回率 | 61% |
| 修改建议采纳率 | 53% |
结论:AI在合规性审查上的表现,勉强达到初级法务水平,但错误率偏高,不能直接用于生产。
关键信息提取
对合同主体、金额、期限、管辖法院等标准化信息的提取准确率超过94%。
结论:AI在这类“不需要判断、只需要抽取”的任务上表现稳定。
风险条款识别
对典型高风险条款(无限责任、单方终止、自动续约等)的识别率接近89%。
结论:常见风险条款的识别能力已具备实用价值。
四、三类“AI搞不定”的场景
测试过程中,我们遇到了三类AI表现特别差的场景,暴露的不仅是模型能力问题,更是合同审查这个场景的特殊性。
类型一:判断标准模糊
某份合同的违约责任条款写着“卖方应承担因此给买方造成的全部损失”。AI标记为“风险:无限责任,建议限定为直接损失”。
但法务复核后认为:这笔交易金额小、风险可控,且对方是头部客户,不接受修改。保留此条款的谈判价值大于修改价值。
AI能识别“条款有风险”,但无法判断“这个风险要不要承担”。这个判断依赖谈判策略、客户关系、交易背景——AI看不到这些信息。
类型二:需要上下文的“矛盾检测”
两份关联合同:主合同约定争议由上海仲裁,补充协议写了北京法院。
单独审任何一份都看不出来。AI没有能力跨文档做矛盾检测。
另一个例子:付款条款写“验收后30天付款”,但验收标准在另一份技术附件里,AI没看到就默认通过。
类型三:格式不规范导致AI“失明”
扫描版PDF,图片模糊,表格内容OCR识别后错位。AI在处理这类文档时效果极差。
还有一类:合同里引用的法规条款,AI能识别到,但无法判断引用是否正确(法规已废止或条款号对应不上)。
五、AI做得好和做得不好的地方
AI做得好的地方
- 条款缺失检查:对比标准模板,快速找出“缺了什么”(管辖条款缺失、保密期限未约定、违约金比例未填)
- 常见风险识别:对行业通用的高风险条款(无限责任、单方解约、自动续约)识别率接近89%
- 信息提取:对合同主体、金额、日期等标准化信息的提取准确率超过94%
- 不一致发现:同一份合同前后矛盾的地方(甲方乙方写反、金额大写小写不一致)
AI做不好的地方
- 判断“要不要改”:AI不知道交易的商业背景、对方强势程度、谈判空间
- 关联合同矛盾检测:跨文档检测,100%失败(文本案例:主合同和补充协议的争议解决条款互相矛盾)
- 格式不规范场景:扫描件、手写修改版、盖章重叠区域的识别准确率低于60%
- 法规时效性判断:AI依赖训练数据,不知道法规是否已废止
六、我们学到的三件事
教训一:AI审查的结果需要“分级标注”
AI输出的问题不能混在一起,必须分级:
- 硬伤(条款确实错了)→ 自动标记,直接返回
- 建议项(可改可不改)→ 需要人工判断
- 信息项(提取结果)→ 人工复核
把三类混在一起,法务要逐条判断“这个AI说的对不对”,效率反而下降。
具体做法:修改建议返回时带置信度标签。置信度>90%的硬伤直接通过,低于阈值的推给人工。
教训二:合同审查不只是“看这一份”
单份合同审查只是第一步。真正的风险往往出现在关联合同之间的不一致,以及合同与业务事实之间的偏差。
这次测试中跨文档矛盾检测全部失败,说明处理这类复杂任务需要Agentic方案:AI先审单份合同,发现潜在问题后,主动去关联文档中验证。
教训三:前期条件不满足时,AI无法替代人工
法务在正式审核前,通常会先确认:格式是否规范、版本是否最新、附件是否完整。如果前期条件不满足,AI给出的结果就是错的。
建议:工作流前置一个规则检查节点,确保文档质量满足AI处理的最低标准后再送审。
七、我们现在怎么做
测试结束后,我们没有直接上线“AI自动审合同”,而是调整了策略:
- AI辅助审查,人工做最终判断。AI负责找出潜在问题点,法务判断哪些需要修改
- 审查报告分级:自动生成“风险清单”,每项标注级别和建议,法务按优先级处理
- 建立反馈闭环:法务对AI标记的每个问题做“确认/否决/修正”标注,数据回流持续优化模型
- 跨文档检测和法规时效性判断等复杂任务,采用专门的Agentic方案处理
在具体实现上,我们采用 ZGI 作为合同审查工作流的编排平台,将文档解析、规则引擎、人工复核串联为一个完整的半自动化流程。
八、写在最后
5000份合同测下来,核心结论:
AI在合同审查这个场景里,有一定价值,但距离替代人工还很远。它是个不错的辅助工具,但不是解决方案。
它做不了法务做的判断:这个风险要不要承担?这个条款对方会不会接受?这个交易背景允不允许这样改?
这些不完全是AI的问题,是合同审查这个场景本质上是“法律判断+商业判断+关系判断”的综合体。AI在“法律判断”上能帮忙,在“商业判断”和“关系判断”上几乎没有能力。
本文基于合同审查AI测试实践整理。