CLC-UKET数据集：由剑桥大学发布-全面高质量法律注释的就业法庭案件数据集2024-09-12，由剑桥大学发布CL

2024-09-12，由剑桥大学发布CLC-UKET，该数据集包含大约19,000个就业法律案件（UKET）案件及其元数据。包括案件事实、主张、法律引用、先例引用、案件结果、原因和管辖代码等全面的法律注释。

目前遇到的困难和挑战：

1、手动注释大量案件数据的工作量巨大，耗时且成本高，同时法律文本的复杂性和专业性可能导致自动提取的信息不准确。

2、预测模型可能无法准确捕捉到法律案件的所有细微差别，导致预测性能不足。

3、缺乏一个公认的基准来评估和比较不同模型在预测UKET案件结果上的性能，以及法律领域的知识快速更新可能导致数据集和模型的过时。

CLC-UKET数据集：采用大型语言模型（LLM）进行自动注释。通过迭代开发过程优化LLM的提示（prompt），提高信息提取的准确性，并结合法律专家的质量检查，确保数据集的法律注释质量。

数据集地址：CLC-UKET|法律预测数据集|就业纠纷数据集

让我们来看一下CLC-UKET数据集

1、CLC-UKET数据集

采用了大型语言模型（LLM）进行自动标注，从而创建了CLC-UKET数据集。

该数据集包含约19,000个UKET案件及其元数据。全面的法律标注涵盖了事实、主张、判例引用、法定引用、案件结果、理由和管辖权代码。

2、UKET中的多类案件结果预测任务

在大规模数据集的推动下，近年来深度学习模型在 LJP 中的应用激增。

使用 CLC-UKET 数据来构建预测任务，以根据事实和索赔的顺序对案件结果进行分类。

在两个数据集上进行了实验：CLC-UKETanno 和 CLC-UKETpred。

CLC-UKETanno：

数据标注：标注者根据每个 UKET 案件提供的事实和主张预测最可能的案件结果。
人工预测：标注者根据用于预测模型评估的相同事实和主张分别进行预测。
预测任务的数据准备：该数据集包含 11,838 个训练案例、1,373 个验证案例和 1,371 个测试案例，事实和主张陈述的平均长度。

CLC-UKETpred：

数据统计：从 19,090 个案例中，基于 GPT-4 提取的事实和主张过滤出 14,582 个 UKET 案件，形成预测数据集。
预测任务的数据准备：该数据集被划分为训练集、验证集和测试集，事实和主张自动提取用于训练和验证，而案件结果标签则手动标注用于测试。
实验与结果：基线模型包括基于 Transformer 的模型，如 BERT 和 T5，以及在零-shot 和少-shot 设置下测试的 GPT-3.5 和 GPT-4，均未进行微调。微调模型在 CLC-UKETpred 的训练集上使用特定的优化器和学习率进行训练。

数据集在不同阶段（训练、验证、测试）的案件数量和案件陈述长度的统计信息

不同模型在英国就业法庭（UKET）案件结果预测任务上的性能评估结果

针对的是“partly”（部分胜诉）、“other”（其他）、“wins”（胜诉）和“loses”（败诉）这几个预测类别

我们来看一下CLC-UKET数据集的应用：

案例：Amy 最近很烦恼。她在伦敦的一家知名广告公司工作，职位是创意总监。

Amy在这家公司工作了快十年，一直表现优异，拿过不少行业奖项。但是，突然有一天，公司以“重组”为由，宣布要裁员，Amy也在被裁名单上。公司的说法是，这是为了适应数字化转型的需要，必须精简团队。Amy虽然拿到了一笔不错的遣散费，但她觉得这事儿不对劲，因为她怀疑自己被裁是因为她休了几个月的产假，回来后公司就变了态度。

Amy不想就这么算了，她决定把公司告到英国就业法庭，说她遭遇了不公平解雇。她找到了律师，提供了一系列的证据，包括她的工作评价、产假前后的邮件往来、以及公司其他员工的情况。

如果我们用CLC-UKET数据集训练的助手，

把信息输入到模型中，模型会分析这些信息，然后和数据集中的类似案例进行比较。如果数据集中有很多类似的案例，比如其他员工因为休产假回来后被不公平对待，那么模型就能预测Amy赢得官司的可能性。

但如果Amy的案件信息和数据集中的案例相似度不高，模型的预测准确性可能就会打折扣。不过，即使预测结果不是那么精确，根据现有的信息，Amy的案件大概是什么情况，可能面临的挑战有哪些。这样也能更好地准备案件，决定是继续打官司，还是和公司和解。

CLC-UKET数据集：由剑桥大学发布-全面高质量法律注释的就业法庭案件数据集

数据集地址：CLC-UKET|法律预测数据集|就业纠纷数据集

让我们来看一下CLC-UKET数据集

1、CLC-UKET数据集

2、UKET中的多类案件结果预测任务

我们来看一下CLC-UKET数据集的应用：

更多免费的数据集，请打开：遇见数据集