技术文章

3 阅读2分钟

在本次演讲中,我将展示一种快速、灵活甚至有些趣味的命名实体标注方法。使用我们的方法,从一个未标注的文本流和少量种子词开始,只需几个小时就能为一个新的实体类型训练出一个模型。

拿到种子词后,首先执行一个交互式的词汇学习阶段,使用一个可以通过诸如 word2vec 等算法从原始文本中训练出来的语义相似度模型。通过对文本进行预处理,可以使相似度模型学习到更长短语的向量,并且可以创建引用词性标签等属性的抽象模式。

然后使用模式文件向标注者呈现一系列候选短语,从而可以将标注作为二元选择来进行。标注者的眼睛保持在屏幕中心附近,可以通过点击、滑动或单次按键来做出决定,并且任务会被缓冲以防止延迟。使用此界面,每分钟 10-30 个决策的标注率很常见。如果决策特别容易(例如,确认某个短语的实例都是有效的实体),速度可能会快几倍。

当标注者接受或拒绝建议的短语时,这些响应会被用来开始训练一个统计模型。然后,来自统计模型的预测会被混合到标注队列中。尽管信号稀疏(每个句子中一个短语的二元答案),但模型开始学习的速度惊人地快。我们使用了一个全局神经网络模型,并采用束搜索来实现一种噪声对比估计训练。模式匹配器和实体识别模型在我们的开源库 spaCy 中提供,而界面、任务队列和工作流管理则在我们的标注工具 Prodigy 中实现。FINISHED