使用Prodigy与迁移学习训练命名实体识别模型

用户576110558132

2026-04-28 3 阅读1分钟

Prodigy 是一款现代化的标注工具，用于收集机器学习模型的训练数据，由 spaCy 的开发者构建。本视频展示了如何利用 Prodigy，通过半自动标注和现代迁移学习技术，从零开始训练一个命名实体识别模型。

分步流程

03:24 – 为食材创建短语列表和匹配模式
09:24 – 利用匹配模式，对来自 r/Cooking 的文本样本中的所有食材进行标注
19:25 – 训练并评估第一个模型，以验证方向是否正确
24:44 – 通过修正模型的预测结果，标注更多示例
31:56 – 训练一个精度更高的新模型
34:11 – 在超过 200 万条 Reddit 评论上运行模型，并统计随时间变化的提及次数
37:00 – 筛选有趣的結果并进行可视化

本教程相关资源

代码与数据：github.com/explosion/projects/...
可视化：public.flourish.studio/visual...
下载 Reddit 评论：files.pushshift.io/reddit/com...
spaCy 文档：spacy.ioFINISHED