基线提升至96.45%:2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习

93 阅读1分钟

本项目给出本次法研杯详细的技术方案,从UIE-base开始到UIE数据蒸馏以及主动学习的建议,欢迎大家尝试,ps:主动学习标注需要自行实现,参考项目,楼主就不标注了。

项目链接:aistudio.baidu.com/aistudio/pr…

0.法研杯 LAIC2022 司法人工智能挑战赛犯罪事实实体识别

0.1比赛简介

任务介绍

本赛道由中国司法大数据研究院承办。

犯罪事实实体识别是司法NLP应用中的一项核心基础任务,能为多种下游场景所复用,是案件特征提取、类案推荐等众多NLP任务的重要基础工具。本赛题要求选手使用模型抽取出犯罪事实中相关预定义实体。

与传统的实体抽取不同,犯罪事实中的实体具有领域性强、分布不均衡等特性。

官网:data.court.gov.cn/pages/laic.…

数据介绍

  • (1) 本赛题数据来源于危险驾驶罪的犯罪事实,分为有标注样本和无标注样本,供选手选择使用;
  • (2) 数据格式:训练集数据每一行表示为一个样本,context表示犯罪事实,entities表示实体对应的标签(label)及其位置信息(span);entities_text表示每个标签label对应的实体内容;
  • (3) 两条标注样本之间以换行符为分