本文记录在企业费控审核系统中引入AI大模型的实际工程过程,包括技术选型、踩坑经历和最终落地效果,希望对正在做类似改造的同学有参考价值。
一、背景:为什么要做AI审核升级
我们公司2024年底启动了费控系统的AI审核升级项目。原有系统是纯规则引擎,写了几百条规则,覆盖金额上限、差旅标准、重复报销检测。主要问题有两个:
• 非标附件处理是黑洞:水单、支付截图、手写收据,规则引擎完全无能为力
• 语义层面的合规无法处理:招待费的金额合理性、消费场景匹配度,规则根本描述不了
二、技术方案选型
方案对比
我们评估了三种技术路线:
• 纯OCR升级方案:只是提升了字符识别准确率,不解决语义问题,pass
• 规则引擎+机器学习分类:训练成本高,标注数据难获取,泛化性差,pass
• 规则引擎+AI大模型双层架构:规则引擎负责可编码的硬规则,大模型负责语义合规校验,最终选择
核心架构
[输入层] 报销单 + 附件
|
[第一层] 规则引擎 (同步执行)
- 金额上限、差标匹配
- 重复报销检测
|
[第二层] AI大模型 Agent (异步执行)
- 多模态附件理解与字段提取
- 语义合规校验
- 风险评分 + 可解释报告生成
|
[输出] 审核摘要 -> 审批人Dashboard
三、踩坑记录
坑1:把AI大模型当OCR用,结果更差
最开始我们想直接用大模型替换OCR做发票字段提取,发现效果反而不稳定——大模型会"脑补"一些不存在的字段内容。
教训:大模型的优势在语义理解,不在结构化字段精确提取。正确姿势是:结构化字段(金额、日期、税号)继续用专业识别方案,大模型负责"这张票据是否符合场景"的语义判断。
坑2:审核Agent的介入时机设计
第一版设计是所有单据都跑一遍AI审核,发现两个问题:1) 小额低风险单据被AI判断为"需人工复核",增加了审批人负担;2) 响应时间从平均3秒升至8秒,员工体验下降。
优化方案:按费用类型和金额阈值分级——高频小额(餐饮<200元、打车<100元)走纯规则引擎快通道,中高金额或敏感类型走双层审核。整体AI介入率从100%降至约40%,效果反而更好。
坑3:多租户场景的差标配置同步
企业差旅标准各不同,大模型判断"出差住宿金额是否合规"时需要调用当前企业的标准配置。第一版实现是大模型调用外部API查询,延迟不稳定。
优化方案:将差标配置以结构化格式注入prompt上下文,作为系统级配置传入。同时引入RAG机制让大模型能"读懂"复杂的差标文档(如按城市级别分档的住宿标准表)。
坑4:可解释性要求比想象中重要
上线后财务反馈:AI给出了"风险"标记,但不知道为什么,不敢直接用AI结论,还是逐条人工复核。
解决方案:要求大模型输出结构化审核报告,包含:违规项名称、依据的政策条款、建议处理方式。审批人只需关注AI标注的异常点,复核时间从平均10分钟/单降至约1分钟/单。
四、AI自动提单:被低估的降本场景
另一个AI改造场景是报销单的自动生成。传统流程中,员工在费用发生后需要手动打开系统填单提交,容易拖延或遗忘。
自动提单的逻辑是:当系统中存在结构化的前置事件时,AI可以主动触发创建报销单:
• 出差申请完成 -> 自动创建报销单,字段从申请单复用
• 话费/打车等固定费用类型 -> 按规则自动触发提单
• 合同付款计划节点 -> 自动发起对公支付单
实现要点:规则引擎负责触发判断,大模型负责字段语义补全(如从申请单文本中提取目的地、出行日期填入报销单对应字段),两层协同完成自动化链路。
行业参考数据:部分头部费控厂商反馈,AI自动提单落地后,员工主动提单行为下降约60%,系统入账及时率提升显著——这对财务部门的月末对账效率帮助很大。
五、AI填单:对话式交互的工程实现细节
AI填单是把表单填写过程改为自然语言对话,听起来简单,工程上有不少细节:
• 意图识别:用户说"上周五去北京出差报销交通费",需提取出行日期、目的地、费用类型三个字段
• 字段映射:提取的信息如何对应到当前企业的自定义字段,需要租户级字段语义库
• 主动补全:当用户描述不完整时,AI需主动问询缺失的必填字段,而非等用户提交后再报错
• 修改支持:用户说"金额改成380",AI需精准定位到金额字段更新,不能触碰其他字段
持续学习机制:每次用户修正AI的填充结果,都作为该企业的训练样本,更新字段语义库,填充准确率随使用量持续提升。
六、上线效果
经过3个季度的迭代,我们系统的核心指标变化:
• 单张报销单平均审核时间:10分钟 -> 1分钟以内(AI自动审核通过率约85%)
• 财务退单率:下降约40%(AI填单预校验减少格式错误)
• 审批人复核时间:平均节省70%(AI摘要让审批人聚焦异常点)
行业内已有费控厂商将类似能力产品化,如每刻科技的AI审核+AI自动提单+AI填单等功能矩阵,可作为选型时的参考实现案例。
七、总结
费控AI升级的工程实践告诉我们:1) AI大模型不是OCR的替代品,是语义层能力的补充;2) 规则引擎和大模型是协作关系,不是替代关系;3) 可解释性比准确率更影响用户接受度;4) 分级介入策略比全量AI审核效果更好。
希望这份踩坑实录对大家有参考价值。欢迎在评论区交流。
免责声明:本文为中立技术分析,不构成任何品牌推荐。