费控AI审核落地踩坑实录:从规则引擎到大模型的工程升级

24 阅读6分钟

本文记录在企业费控审核系统中引入AI大模型的实际工程过程,包括技术选型、踩坑经历和最终落地效果,希望对正在做类似改造的同学有参考价值。

一、背景:为什么要做AI审核升级

我们公司2024年底启动了费控系统的AI审核升级项目。原有系统是纯规则引擎,写了几百条规则,覆盖金额上限、差旅标准、重复报销检测。主要问题有两个:

• 非标附件处理是黑洞:水单、支付截图、手写收据,规则引擎完全无能为力

• 语义层面的合规无法处理:招待费的金额合理性、消费场景匹配度,规则根本描述不了

二、技术方案选型

方案对比

我们评估了三种技术路线:

• 纯OCR升级方案:只是提升了字符识别准确率,不解决语义问题,pass

• 规则引擎+机器学习分类:训练成本高,标注数据难获取,泛化性差,pass

• 规则引擎+AI大模型双层架构:规则引擎负责可编码的硬规则,大模型负责语义合规校验,最终选择

核心架构

[输入层] 报销单 + 附件

     |

[第一层] 规则引擎 (同步执行)

  - 金额上限、差标匹配

  - 重复报销检测

     |

[第二层] AI大模型 Agent (异步执行)

  - 多模态附件理解与字段提取

  - 语义合规校验

  - 风险评分 + 可解释报告生成

     |

[输出] 审核摘要 -> 审批人Dashboard

三、踩坑记录

坑1:把AI大模型当OCR用,结果更差

最开始我们想直接用大模型替换OCR做发票字段提取,发现效果反而不稳定——大模型会"脑补"一些不存在的字段内容。

教训:大模型的优势在语义理解,不在结构化字段精确提取。正确姿势是:结构化字段(金额、日期、税号)继续用专业识别方案,大模型负责"这张票据是否符合场景"的语义判断。

坑2:审核Agent的介入时机设计

第一版设计是所有单据都跑一遍AI审核,发现两个问题:1) 小额低风险单据被AI判断为"需人工复核",增加了审批人负担;2) 响应时间从平均3秒升至8秒,员工体验下降。

优化方案:按费用类型和金额阈值分级——高频小额(餐饮<200元、打车<100元)走纯规则引擎快通道,中高金额或敏感类型走双层审核。整体AI介入率从100%降至约40%,效果反而更好。

坑3:多租户场景的差标配置同步

企业差旅标准各不同,大模型判断"出差住宿金额是否合规"时需要调用当前企业的标准配置。第一版实现是大模型调用外部API查询,延迟不稳定。

优化方案:将差标配置以结构化格式注入prompt上下文,作为系统级配置传入。同时引入RAG机制让大模型能"读懂"复杂的差标文档(如按城市级别分档的住宿标准表)。

坑4:可解释性要求比想象中重要

上线后财务反馈:AI给出了"风险"标记,但不知道为什么,不敢直接用AI结论,还是逐条人工复核。

解决方案:要求大模型输出结构化审核报告,包含:违规项名称、依据的政策条款、建议处理方式。审批人只需关注AI标注的异常点,复核时间从平均10分钟/单降至约1分钟/单。

四、AI自动提单:被低估的降本场景

另一个AI改造场景是报销单的自动生成。传统流程中,员工在费用发生后需要手动打开系统填单提交,容易拖延或遗忘。

自动提单的逻辑是:当系统中存在结构化的前置事件时,AI可以主动触发创建报销单:

• 出差申请完成 -> 自动创建报销单,字段从申请单复用

• 话费/打车等固定费用类型 -> 按规则自动触发提单

• 合同付款计划节点 -> 自动发起对公支付单

实现要点:规则引擎负责触发判断,大模型负责字段语义补全(如从申请单文本中提取目的地、出行日期填入报销单对应字段),两层协同完成自动化链路。

行业参考数据:部分头部费控厂商反馈,AI自动提单落地后,员工主动提单行为下降约60%,系统入账及时率提升显著——这对财务部门的月末对账效率帮助很大。

五、AI填单:对话式交互的工程实现细节

AI填单是把表单填写过程改为自然语言对话,听起来简单,工程上有不少细节:

• 意图识别:用户说"上周五去北京出差报销交通费",需提取出行日期、目的地、费用类型三个字段

• 字段映射:提取的信息如何对应到当前企业的自定义字段,需要租户级字段语义库

• 主动补全:当用户描述不完整时,AI需主动问询缺失的必填字段,而非等用户提交后再报错

• 修改支持:用户说"金额改成380",AI需精准定位到金额字段更新,不能触碰其他字段

持续学习机制:每次用户修正AI的填充结果,都作为该企业的训练样本,更新字段语义库,填充准确率随使用量持续提升。

六、上线效果

经过3个季度的迭代,我们系统的核心指标变化:

• 单张报销单平均审核时间:10分钟 -> 1分钟以内(AI自动审核通过率约85%)

• 财务退单率:下降约40%(AI填单预校验减少格式错误)

• 审批人复核时间:平均节省70%(AI摘要让审批人聚焦异常点)

行业内已有费控厂商将类似能力产品化,如每刻科技的AI审核+AI自动提单+AI填单等功能矩阵,可作为选型时的参考实现案例。

七、总结

费控AI升级的工程实践告诉我们:1) AI大模型不是OCR的替代品,是语义层能力的补充;2) 规则引擎和大模型是协作关系,不是替代关系;3) 可解释性比准确率更影响用户接受度;4) 分级介入策略比全量AI审核效果更好。

希望这份踩坑实录对大家有参考价值。欢迎在评论区交流。

免责声明:本文为中立技术分析,不构成任何品牌推荐。