使用Jupyter和Prodigy查找文本分类中的错误标签

32 阅读2分钟

引言

Prodigy是一款由spaCy开发团队创建的现代化标注工具,专门用于为机器学习模型收集训练数据。在本视频中,将展示如何设置并使用Prodigy来发现文本分类任务中的错误标签。虽然许多技术应用于文本分类,但它们同样适用于一般的分类任务。

内容概览

  • [00:00] 错误标签
    • 介绍错误标签问题的背景及其对模型性能的影响。
  • [03:03] 谷歌情绪数据集
    • 以“Google Emotions”论文及其数据集为例,展示一个可能存在标签噪声的真实场景。
  • [07:46] 启发式方法
    • 探讨使用简单的规则和启发式方法来初步筛选可能标错的数据点。
  • [09:12] Jupyter实践
    • 在Jupyter Notebook中演示如何应用启发式规则来检查数据。
  • [12:16] 识别错误标签的模型方法
    • 介绍如何利用已训练的模型或其内部表示(如预测置信度、嵌入向量)来发现潜在的错误标签。
  • [15:26] Jupyter实践
    • 在Jupyter中展示基于模型预测(例如,使用doubtlab库)来识别可疑标签的步骤。
  • [21:43] 嵌入技巧
    • 讲解如何利用文本嵌入空间(例如,通过whatlies库)进行可视化或相似度分析,以发现标签不一致的样本。
  • [25:38] Jupyter实践
    • 在Jupyter中演示使用嵌入技巧来探索和识别异常数据点。
  • [29:29] 怀疑的理由
    • 总结并整合各种技术给出的“怀疑”信号,为人工复核提供优先级列表。
  • [31:20] 设置Prodigy
    • 逐步讲解如何配置Prodigy服务器和创建针对错误标签发现的自定义标注流程。
  • [32:56] 在Prodigy中标注
    • 展示如何在Prodigy的Web界面中高效地复核被标记出的可疑样本,并更正其标签。
  • [38:01] 标注者分歧
    • 讨论如何处理多名标注者之间的意见分歧,以确保标注质量的一致性。
  • [42:16] 经验总结
    • 回顾整个流程的关键要点和最佳实践。

资源链接