在数字化浪潮席卷千行百业的今天,烟草行业行政执法领域正经历着一场深刻的变革。当大多数企业还在追逐风口的时候,有一群人选择了一条不同的路——他们沉下心来,用近两年的时间只做一件事:打造一款真正属于烟草行业的普适性产品。他们不是在做”能用”的产品,而是在做”好用、耐用、让人离不开”的产品。
这就是北京中烟创新科技有限公司(简称:中烟创新)的选择,也是烟草专卖执法案卷评查系统诞生的初心。
在产品研发之初,我们的团队就立下了一个铁律:不到一线去,就不配谈需求;不了解执法人员的一天,就做不出让他们”用得好、离不开”的工具。
为确保系统每一处设计都精准呼应一线执法的真实逻辑与复杂场景,跨越二十余省份,深入六十多个城市的各级执法单位,亲身解构从文书制作到归档的全流程,从而确保解决方案是行业最佳实践的数字化结晶,而非脱离实际的技术空想。正是这些来自一线的真实声音,成为了我们产品设计的指南针。
在产品开发过程中,团队始终秉持“前沿而不冒进,稳定而不守旧”的技术理念,明确制定了“三最”原则——采用最新的技术框架、设计最友好的交互方法、实现最高的安全运维标准,以保障平台在技术先进性、用户体验与系统可靠性方面的领先优势。
在这一理念与原则的落地过程中,技术架构与产品方案并非一蹴而就。团队围绕核心模块的设计与协同,OCR精度与版式适应性、NLP泛化与规则约束、大模型分析总结等关键问题,组织了数二十余次专项技术评审与业务对齐会议,通过持续、务实的推敲与迭代,最终让每项技术都扎根业务场景。
01.多模态图像预处理
针对执法案卷扫描件存在的倾斜、光照不均、印章覆盖、装订遮挡及复杂背景等问题。我们构建了多模态图像预处理流水线,集成基于深度学习的文档图像矫正网络、自适应阈值分割与去噪算法,并针对印章和手写批注区域采用实例分割网络进行区域识别与隔离处理。通过生成对抗网络进行低质量图像增强,确保不同来源的卷宗图像在OCR前达到最优标准化状态,为后续分析提供高质量输入。
02.DeepSeek-OCR增强引擎
通用OCR在执法文书专用字体、模糊手写及表格混合场景下误差率高。我们基于前沿视觉-语言大模型架构,进行了深入的领域适应训练。通过构建百万级烟草执法文书文本图像对进行监督微调,对复杂版面的整体识别准确率超过95.5%,并具备强大的抗干扰能力。
03. MinerU结构化解析技术
执法案卷为多页、多元素复合文档,需理解其逻辑结构。我们借鉴并深度定制了文档智能解析框架,利用视觉特征与文本语义的多模态融合模型,自动识别文档中的标题、段落、表格、签名区、附件等逻辑单元。通过图神经网络建模各单元间的层级与顺序关系,将非结构化图像/PDF还原为符合业务认知的、带层级标签的结构化JSON,实现从“图像文件”到“可理解文档对象”的关键转化。
04. 智能子文书分割技术
一个案卷常包含《询问笔录》《证据先行登记保存通知书》等多种子文书,需精确切分与归类。基于内容与版式双驱动的分割算法:首先利用预训练的版面分割模型进行物理切割;进而通过微调的文本分类模型对每个分割区块进行语义识别,判定其所属子文书类型。该方法解决了因文书模板跨区域换页、排版多样导致的割裂难题,实现了案卷内容的精准自动化重组。
05. 领域化NLP实体抽取
从法律文书中精准抽取关键字段是核心挑战,我们摒弃通用NLP模型,采用领域预训练+任务微调范式。首先在大量烟草法律法规、历史案卷文本上继续预训练法律领域语言模型,注入领域知识。随后采用序列标注(如BiLSTM-CRF)和阅读理解(MRC)等多种范式进行实体与关系联合抽取,并通过主动学习策略持续优化模型在罕见案件类型上的表现,F1值稳定在96%以上。
06. Schema范式约束与校验
为保障抽取数据的质量与一致性,规定了各字段的数据类型、取值范围、依赖关系及业务规则。在NLP抽取后,数据立即通过基于Schema的校验层,进行格式合规性、逻辑一致性(如时间线顺序)及必填项检查。此机制不仅即时过滤低置信度结果、触发人工复核,更为下游分析提供高质量、标准化的数据基础,是实现自动化评查的关键前提。
07. RAG知识库精准赋能
为解决法律法规条款繁多、查询不便及记忆不准确问题,我们构建了基于检索增强生成(RAG)的智能知识库。将法律法规、案例判例、裁量基准等文件向量化存储。当系统处理案卷或用户提问时,先通过语义检索召回相关条款,再驱动本地部署的领域大模型生成精准、有据可依的参考结论或答案。此架构将知识查询准确率提升至95%以上,并确保所有输出皆有法可依、有例可循。
08. 动态可配置规则引擎
面对法律条文更新和地域性裁量差异,硬编码规则无法适应。我们采用高性能规则引擎作为核心推理机,将评查规则(如处罚程序是否完整、证据形式是否合法)抽象为可配置的逻辑规则。业务专家可通过可视化界面,无需编码即可编辑、启用、停用或组合规则。引擎支持复杂事件处理,能对跨多个子文书的证据链进行时序与逻辑推理,实现评查规则的敏捷响应与业务化维护。
09. 模型与规则协同校验机制
单一依赖AI模型或规则引擎均有局限,我们创新性地设计了“AI初判-规则精筛-交叉验证”的协同工作流。NLP模型首先进行信息抽取与初步合规判断;随后规则引擎对结果进行逻辑严密度校验;最后,通过一个轻量级的校验模型对规则引擎的结果进行二次评估,识别潜在的逻辑冲突或规则盲区。融合了AI的灵活性与规则的确定性,将整体评查的覆盖率和准确率推向极致。
10. 全流程闭环管理与持续进化
为实现系统能力的持续提升,我们构建了覆盖数据标注、模型训练、上线监控、反馈学习的全流程大模型平台。关键设计在于“数据飞轮”:系统将人工复核结果与模型预测的差异,自动转化为高质量的标注数据,并触发模型迭代训练。同时,规则引擎的执行日志被用于分析规则的有效性与冲突,驱动规则库的优化。此闭环确保了系统能够从日常使用中不断学习,适应新出现的案件类型和法律法规变化。
真正的价值,终将被看见。烟草专卖执法案卷评查系统先后获评 “2025年度数字化创新最佳实践奖” 、 “技术创新探索先锋案例” ,入选2025全球数字经济大会“北京市人工智能赋能行业发展典型案例” ,并在2025世界人工智能大会上获评 “AI Solutions for SME”全球推荐案例;同时,被中国信息通信研究院认定为 “2025年商业产品及企业典型案例” ,并荣膺第十届中国国际人工智能大会“中国人工智能行业十大创新力产品” 。
这一系列高规格荣誉,既是对该系统技术能力与应用价值的权威认可,也充分印证了其在推动人工智能技术与执法监督深度融合方面的先进性与行业标杆意义。证书,是我们技术实力的注脚,但绝非终点。
做更难、却更有价值的事。我们始终怀揣一个信念:打造一款真正属于烟草行业的普适性产品。正是这份信念,让我们选择去做那件更难、却更有价值的事。创新从来不是一句轻松的口号,它往往意味着更高的资源投入、更复杂的问题排查、更漫长的研发周期。
然而,正是在这样的挑战之下,才能真正检验出一家企业是否具备持续创新的韧劲,是否始终秉持推动行业进步的初心。我们立下三年之约:用创新之力将行业采购成本削减70%以上,让每分投入都迸发更大价值。 这不仅是商业目标,更是技术向善的承诺。
回顾这段研发历程,我们深深感到:优秀的产品自己会说话。以专业立标杆,以实干赢尊重。这,就是中烟创新的深耕与领先之路。中烟创新也用实际行动诠释了一家科技企业的理想与担当。