卫报如何用NLP实现引用抽取与模块化新闻本文介绍了英国卫报数据科学团队使用NLP和Prodigy标注工具进行新闻文章引用

本文介绍了媒体公司如何利用自然语言处理（NLP）和信息抽取（IE）技术，将长文内容模块化为可复用的元素（如播客、信息图或博客），这一趋势被称为模块化新闻学。卫报探索了引用抽取技术，旨在从长文章中提取引用，复用于播客或信息图等不同媒体形式。

为实现人机协同工作流，卫报数据科学团队决定使用Prodigy——一种现代标注工具，用于创建训练和评估数据。在一次采访中，卫报数据科学团队负责人Anna Vissens讨论了团队如何定制Prodigy来提取新闻文章中的引用模块，并通过迭代式小组讨论建立了利益相关者的信任，形成了清晰的标注指南和团队学习机制。

引用抽取的三个组成部分
团队与法新社合作，使用Prodigy手动标注了超过800篇新闻文章，识别引用的三个部分：

来源：说话者（人或组织）
提示语：通常表示说话或表达行为的动词短语
内容：引号内的引用文本

最终步骤包括共指消解，以明确模糊指代（如“他”或“她”）。基于这些信息，模型可以结构化引用数据，实现在不同媒体格式中的复用。

混合规则与模型的标注工作流
团队首先使用正则表达式规则和spaCy的依存句法分析器来匹配引用模式，但发现纯规则系统在处理非标准引用（如表示非标准英语术语的引号）时存在困难，且无法识别来源或提示语。因此，团队采用Prodigy的工作流训练命名实体识别（NER）模型。

在标注前，团队基于卫报风格指南制定了初始标注指南，明确引用的定义及其三个子组件。经过多轮标注，团队形成了清晰的指南和多个示例。

四种自定义Prodigy流程

quotes.manual：手动标记文本中的实体跨度，使用规则作为初始模式以加快修正，并训练初始模型。
quotes.correct：使用初始模型验证和修正模型预测，生成黄金标准标注。
quotes.teach（主动学习）：使用黄金标注重新训练模型后，通过主动学习聚焦于模型得分最不确定的样本。
quotes.mark（审查）：审查已标注样本，用于裁决存在标签冲突的标注。

定制化界面提升信任与体验
团队对Prodigy配置和自定义流程进行了修改：

添加标记功能（flag），供标注人员标记需要进一步审查的内容。
通过帮助图标显示标注指南的自定义HTML。
使用块组合不同Prodigy任务，添加自由格式文本框以提供可选反馈。
修改颜色、按钮和添加快捷键以提升标注速度。

团队协同与模型迭代
团队面临的主要障碍是处理不同新闻风格的多样性，通过小组讨论处理诗歌、消息甚至内心独白中的引用案例。他们使用云端文档维护指南，并通过Slack进行动态沟通。最终，模型对引用三个部分的预测正确率达到89%。通过忽略早期标注（因后期标注者之间的一致性提高），模型性能得到进一步提升。

长期目标
团队已开始测试模块化新闻学的初步试点，例如带有命名实体识别过滤器的实时博客（Live Blog），允许用户按NER识别的实体实时过滤内容。更长期的目标是使用Prodigy微调spaCy NER模型，针对更大规模的新闻语料库优化组织和人物等实体类型。此外，Explosion与卫报正合作开发NLP系统，用于检测和链接人物与公司名称及其关系，以支持调查记者工作。FINISHED