使用Prodigy与迁移学习训练命名实体识别模型

3 阅读1分钟

Prodigy 是一款现代化的标注工具,用于收集机器学习模型的训练数据,由 spaCy 的开发者构建。本视频展示了如何利用 Prodigy,通过半自动标注和现代迁移学习技术,从零开始训练一个命名实体识别模型。

分步流程

  • 03:24 – 为食材创建短语列表和匹配模式
  • 09:24 – 利用匹配模式,对来自 r/Cooking 的文本样本中的所有食材进行标注
  • 19:25 – 训练并评估第一个模型,以验证方向是否正确
  • 24:44 – 通过修正模型的预测结果,标注更多示例
  • 31:56 – 训练一个精度更高的新模型
  • 34:11 – 在超过 200 万条 Reddit 评论上运行模型,并统计随时间变化的提及次数
  • 37:00 – 筛选有趣的結果并进行可视化

本教程相关资源

  • 代码与数据:github.com/explosion/projects/...
  • 可视化:public.flourish.studio/visual...
  • 下载 Reddit 评论:files.pushshift.io/reddit/com...
  • spaCy 文档:spacy.ioFINISHED