本文介绍了媒体公司如何利用自然语言处理(NLP)和信息抽取(IE)技术,将长文内容模块化为可复用的元素(如播客、信息图或博客),这一趋势被称为模块化新闻学。卫报探索了引用抽取技术,旨在从长文章中提取引用,复用于播客或信息图等不同媒体形式。
为实现人机协同工作流,卫报数据科学团队决定使用Prodigy——一种现代标注工具,用于创建训练和评估数据。在一次采访中,卫报数据科学团队负责人Anna Vissens讨论了团队如何定制Prodigy来提取新闻文章中的引用模块,并通过迭代式小组讨论建立了利益相关者的信任,形成了清晰的标注指南和团队学习机制。
引用抽取的三个组成部分
团队与法新社合作,使用Prodigy手动标注了超过800篇新闻文章,识别引用的三个部分:
- 来源:说话者(人或组织)
- 提示语:通常表示说话或表达行为的动词短语
- 内容:引号内的引用文本
最终步骤包括共指消解,以明确模糊指代(如“他”或“她”)。基于这些信息,模型可以结构化引用数据,实现在不同媒体格式中的复用。
混合规则与模型的标注工作流
团队首先使用正则表达式规则和spaCy的依存句法分析器来匹配引用模式,但发现纯规则系统在处理非标准引用(如表示非标准英语术语的引号)时存在困难,且无法识别来源或提示语。因此,团队采用Prodigy的工作流训练命名实体识别(NER)模型。
在标注前,团队基于卫报风格指南制定了初始标注指南,明确引用的定义及其三个子组件。经过多轮标注,团队形成了清晰的指南和多个示例。
四种自定义Prodigy流程
- quotes.manual:手动标记文本中的实体跨度,使用规则作为初始模式以加快修正,并训练初始模型。
- quotes.correct:使用初始模型验证和修正模型预测,生成黄金标准标注。
- quotes.teach(主动学习):使用黄金标注重新训练模型后,通过主动学习聚焦于模型得分最不确定的样本。
- quotes.mark(审查):审查已标注样本,用于裁决存在标签冲突的标注。
定制化界面提升信任与体验
团队对Prodigy配置和自定义流程进行了修改:
- 添加标记功能(flag),供标注人员标记需要进一步审查的内容。
- 通过帮助图标显示标注指南的自定义HTML。
- 使用块组合不同Prodigy任务,添加自由格式文本框以提供可选反馈。
- 修改颜色、按钮和添加快捷键以提升标注速度。
团队协同与模型迭代
团队面临的主要障碍是处理不同新闻风格的多样性,通过小组讨论处理诗歌、消息甚至内心独白中的引用案例。他们使用云端文档维护指南,并通过Slack进行动态沟通。最终,模型对引用三个部分的预测正确率达到89%。通过忽略早期标注(因后期标注者之间的一致性提高),模型性能得到进一步提升。
长期目标
团队已开始测试模块化新闻学的初步试点,例如带有命名实体识别过滤器的实时博客(Live Blog),允许用户按NER识别的实体实时过滤内容。更长期的目标是使用Prodigy微调spaCy NER模型,针对更大规模的新闻语料库优化组织和人物等实体类型。此外,Explosion与卫报正合作开发NLP系统,用于检测和链接人物与公司名称及其关系,以支持调查记者工作。FINISHED