Deep or Simple Models for Semantic Tagging? It Depends on your Data

380 阅读4分钟

Jinfeng Li, Y uliang Li, Xiaolan Wang, Wang-Chiew Tan Megagon Labs

研究背景

语义标注在文本挖掘中有着广泛的应用,它预测给定的文本是否表达了给定语义标签的含义。语义标注的问题很大程度上是通过监督学习来解决的,如今,深度学习模型被广泛认为更适合语义标注。然而,没有全面的研究支持这一流行观点。相关从业者通常必须为每个语义标记任务训练不同类型的模型,以识别最佳模型。这个过程既昂贵又低效。

什么是语义标注问题?

许多用于处理文本的应用依赖于用语义信息标签来标记单词、短语或句子。例如,情感分析用一个情感标签来注释句子或短语,该标签指示该句子是否具有积极或消极的情感。下游应用程序利用这些情感标签来确定适当的动作。另一个例子是实体标记,它确定文本中的跨度是否指向现实世界的对象。一般来说,用语义标签标注文本的任务可以称为语义标签问题。更准确地说,语义标记器将一段文本和一个预定义的标记作为输入,并输出该文本是否传达了标记的语义。在这篇论文中,我们关注的是短文,它可以是一句话,或者一段话。我们也把短文笼统地称为句子。

为什么要研究此方向?

语义标注构成了许多任务的核心,包括情感分类、建议挖掘和幽默检测。然而,现有的研究仅在单个任务上比较深度和简单的模型。此外,它们没有提供数据集特征如何影响不同模型性能的见解。因此,很难将其模型选择标准推广到新任务或同一任务的新数据集。因此,给定一个新的数据集,仍然不清楚选择深度模型是否会带来最佳的标记性能。因此,本文要回答深度模型是所有语义标注任务的最佳执行模型吗?给定一个新的数据集,应该选择什么模型?

研究方案

Step 1(调查了一些应用中的标签)

Step 2(选定的深度模型和简单模型的设计)

Step 3(收集的数据集及其特征)

本文从各种语义标签应用程序中收集了21个文本数据集来评估语义标注任务中不同模型的质量。本文关注对模型性能至关重要的数据集的三个特征:大小、标签比率和标签清洁度。

Step 4(进行实验评估和比较)

下图显示了每个模型在按照分类法分组的数据集上的宏观和微观平均F1得分

Step 5(分析数据集特征的影响,介绍主要发现)

本文接下来研究了尺寸、标签比率和标签清洁度对模型性能的影响。将根据数据集类型比较深度和简单模型,研究了数据集特征对模型选择的影响。

研究成果

本文比较最佳深度模型(即BERT,表示为deep)和最佳简单模型(即SVM,表示为simple)。在下表中报告了每种数据集的平均F1和平均训练时间

通过检索热点图,从业者可以估计他们的数据集的近似标记F1,并选择合适的标记模型来获得更好的标记F1。除了选择合适的标注模型,从业者在准备数据集时要谨慎,尽量获取大规模、高正标签率、干净(如无遗漏标注)的数据集。

研究总结

本文调查了许多应用程序来激励我们的学习。我们选择了三个有代表性的深度模型和两个广泛用于开发这些应用程序的简单模型。我们收集了21个不同特征的数据集进行综合研究。

本文进行了广泛的评估,以获得五个选定模型在所有数据集上的语义标注性能。我们发现,在大数据集上,深度模型不一定比简单模型表现更好。

本文评估了数据集特征对语义标注质量的影响。我们发现训练规模、标签比率和标签清洁度影响语义标注的质量。

本文生成了一个全面的热图,可以指导相关从业决定是采用深度模型还是简单模型,并预测语义标注对其数据集的性能。

我对本论文的见解

从论文结果来看,加上现实世界数据集的复杂性,要为特定数据集选择合适的标记模型,而不是坚持使用深度模型。

本文在文字处理上的研究取得了很好的结果,那是否能迁移到图像后者其他数据类型,这个想法值得探讨。