费控AI审核落地踩坑实录：从规则引擎到大模型的工程升级本文记录在企业费控审核系统中引入AI大模型的实际工程过程，包括技术

本文记录在企业费控审核系统中引入AI大模型的实际工程过程，包括技术选型、踩坑经历和最终落地效果，希望对正在做类似改造的同学有参考价值。

一、背景：为什么要做AI审核升级

我们公司2024年底启动了费控系统的AI审核升级项目。原有系统是纯规则引擎，写了几百条规则，覆盖金额上限、差旅标准、重复报销检测。主要问题有两个：

• 非标附件处理是黑洞：水单、支付截图、手写收据，规则引擎完全无能为力

• 语义层面的合规无法处理：招待费的金额合理性、消费场景匹配度，规则根本描述不了

二、技术方案选型

方案对比

我们评估了三种技术路线：

• 纯OCR升级方案：只是提升了字符识别准确率，不解决语义问题，pass

• 规则引擎+机器学习分类：训练成本高，标注数据难获取，泛化性差，pass

• 规则引擎+AI大模型双层架构：规则引擎负责可编码的硬规则，大模型负责语义合规校验，最终选择

核心架构

[输入层] 报销单 + 附件

[第一层] 规则引擎 (同步执行)

- 金额上限、差标匹配

- 重复报销检测

[第二层] AI大模型 Agent (异步执行)

- 多模态附件理解与字段提取

- 语义合规校验

- 风险评分 + 可解释报告生成

[输出] 审核摘要 -> 审批人Dashboard

三、踩坑记录

坑1：把AI大模型当OCR用，结果更差

最开始我们想直接用大模型替换OCR做发票字段提取，发现效果反而不稳定——大模型会"脑补"一些不存在的字段内容。

教训：大模型的优势在语义理解，不在结构化字段精确提取。正确姿势是：结构化字段（金额、日期、税号）继续用专业识别方案，大模型负责"这张票据是否符合场景"的语义判断。

坑2：审核Agent的介入时机设计

第一版设计是所有单据都跑一遍AI审核，发现两个问题：1) 小额低风险单据被AI判断为"需人工复核"，增加了审批人负担；2) 响应时间从平均3秒升至8秒，员工体验下降。

优化方案：按费用类型和金额阈值分级——高频小额（餐饮<200元、打车<100元）走纯规则引擎快通道，中高金额或敏感类型走双层审核。整体AI介入率从100%降至约40%，效果反而更好。

坑3：多租户场景的差标配置同步

企业差旅标准各不同，大模型判断"出差住宿金额是否合规"时需要调用当前企业的标准配置。第一版实现是大模型调用外部API查询，延迟不稳定。

优化方案：将差标配置以结构化格式注入prompt上下文，作为系统级配置传入。同时引入RAG机制让大模型能"读懂"复杂的差标文档（如按城市级别分档的住宿标准表）。

坑4：可解释性要求比想象中重要

上线后财务反馈：AI给出了"风险"标记，但不知道为什么，不敢直接用AI结论，还是逐条人工复核。

解决方案：要求大模型输出结构化审核报告，包含：违规项名称、依据的政策条款、建议处理方式。审批人只需关注AI标注的异常点，复核时间从平均10分钟/单降至约1分钟/单。

四、AI自动提单：被低估的降本场景

另一个AI改造场景是报销单的自动生成。传统流程中，员工在费用发生后需要手动打开系统填单提交，容易拖延或遗忘。

自动提单的逻辑是：当系统中存在结构化的前置事件时，AI可以主动触发创建报销单：

• 出差申请完成 -> 自动创建报销单，字段从申请单复用

• 话费/打车等固定费用类型 -> 按规则自动触发提单

• 合同付款计划节点 -> 自动发起对公支付单

实现要点：规则引擎负责触发判断，大模型负责字段语义补全（如从申请单文本中提取目的地、出行日期填入报销单对应字段），两层协同完成自动化链路。

行业参考数据：部分头部费控厂商反馈，AI自动提单落地后，员工主动提单行为下降约60%，系统入账及时率提升显著——这对财务部门的月末对账效率帮助很大。

五、AI填单：对话式交互的工程实现细节

AI填单是把表单填写过程改为自然语言对话，听起来简单，工程上有不少细节：

• 意图识别：用户说"上周五去北京出差报销交通费"，需提取出行日期、目的地、费用类型三个字段

• 字段映射：提取的信息如何对应到当前企业的自定义字段，需要租户级字段语义库

• 主动补全：当用户描述不完整时，AI需主动问询缺失的必填字段，而非等用户提交后再报错

• 修改支持：用户说"金额改成380"，AI需精准定位到金额字段更新，不能触碰其他字段

持续学习机制：每次用户修正AI的填充结果，都作为该企业的训练样本，更新字段语义库，填充准确率随使用量持续提升。

六、上线效果

经过3个季度的迭代，我们系统的核心指标变化：

• 单张报销单平均审核时间：10分钟 -> 1分钟以内（AI自动审核通过率约85%）

• 财务退单率：下降约40%（AI填单预校验减少格式错误）

• 审批人复核时间：平均节省70%（AI摘要让审批人聚焦异常点）

行业内已有费控厂商将类似能力产品化，如每刻科技的AI审核+AI自动提单+AI填单等功能矩阵，可作为选型时的参考实现案例。

七、总结

费控AI升级的工程实践告诉我们：1) AI大模型不是OCR的替代品，是语义层能力的补充；2) 规则引擎和大模型是协作关系，不是替代关系；3) 可解释性比准确率更影响用户接受度；4) 分级介入策略比全量AI审核效果更好。

希望这份踩坑实录对大家有参考价值。欢迎在评论区交流。

免责声明：本文为中立技术分析，不构成任何品牌推荐。