Prodigy 是一款现代化的标注工具,用于收集机器学习模型的训练数据,由 spaCy 的开发者构建。本视频展示了如何利用 Prodigy,通过半自动标注和现代迁移学习技术,从零开始训练一个命名实体识别模型。
分步流程
- 03:24 – 为食材创建短语列表和匹配模式
- 09:24 – 利用匹配模式,对来自 r/Cooking 的文本样本中的所有食材进行标注
- 19:25 – 训练并评估第一个模型,以验证方向是否正确
- 24:44 – 通过修正模型的预测结果,标注更多示例
- 31:56 – 训练一个精度更高的新模型
- 34:11 – 在超过 200 万条 Reddit 评论上运行模型,并统计随时间变化的提及次数
- 37:00 – 筛选有趣的結果并进行可视化
本教程相关资源
- 代码与数据:
github.com/explosion/projects/... - 可视化:
public.flourish.studio/visual... - 下载 Reddit 评论:
files.pushshift.io/reddit/com... - spaCy 文档:
spacy.ioFINISHED