UIE_Slim满足工业应用场景,解决推理部署耗时问题,提升效能。

75 阅读1分钟

项目链接:fork一下即可
UIE Slim满足工业应用场景,解决推理部署耗时问题,提升效能!
如果有图片缺失查看原项目

UIE Slim满足工业应用场景,解决推理部署耗时问题,提升效能

在UIE强大的抽取能力背后,同样需要较大的算力支持计算。在一些工业应用场景中对性能的要求较高,若不能有效压缩则无法实际应用。因此,基于数据蒸馏技术构建了UIE Slim数据蒸馏系统。其原理是通过数据作为桥梁,将UIE模型的知识迁移到封闭域信息抽取小模型,以达到精度损失较小的情况下却能达到大幅度预测速度提升的效果。

FasterTokenizer是一款简单易用、功能强大的跨平台高性能文本预处理库,集成业界多个常用的Tokenizer实现,支持不同NLP场景下的文本预处理功能,如文本分类、阅读理解,序列标注等。结合PaddleNLP Tokenizer模块,为用户在训练、推理阶段提供高效通用的文本预处理能力。use_faster: 使用C++实现的高性能分词算子FasterTokenizer进行文本预处理加速

UIE数据蒸馏三步

  • Step 1: 使用UIE模型对标注数据进行finetune,得到Teacher Model。
  • Step 2: 用户提供大规模无标注数据,需与标注数据同源。使用Taskflow UIE对无监督数据进行预测。
  • Step 3: 使用标注数据以及步骤2得到的合成数据训练出封闭域Student Model。

效果展示