技术文章本文介绍了一种快速、灵活的命名实体标注方法。通过种子词、语义相似模型和主动学习，仅需数小时即可完成新实体类型的模

在本次演讲中，我将展示一种快速、灵活甚至有些趣味的命名实体标注方法。使用我们的方法，从一个未标注的文本流和少量种子词开始，只需几个小时就能为一个新的实体类型训练出一个模型。

拿到种子词后，首先执行一个交互式的词汇学习阶段，使用一个可以通过诸如 word2vec 等算法从原始文本中训练出来的语义相似度模型。通过对文本进行预处理，可以使相似度模型学习到更长短语的向量，并且可以创建引用词性标签等属性的抽象模式。

然后使用模式文件向标注者呈现一系列候选短语，从而可以将标注作为二元选择来进行。标注者的眼睛保持在屏幕中心附近，可以通过点击、滑动或单次按键来做出决定，并且任务会被缓冲以防止延迟。使用此界面，每分钟 10-30 个决策的标注率很常见。如果决策特别容易（例如，确认某个短语的实例都是有效的实体），速度可能会快几倍。

当标注者接受或拒绝建议的短语时，这些响应会被用来开始训练一个统计模型。然后，来自统计模型的预测会被混合到标注队列中。尽管信号稀疏（每个句子中一个短语的二元答案），但模型开始学习的速度惊人地快。我们使用了一个全局神经网络模型，并采用束搜索来实现一种噪声对比估计训练。模式匹配器和实体识别模型在我们的开源库 spaCy 中提供，而界面、任务队列和工作流管理则在我们的标注工具 Prodigy 中实现。FINISHED