Prodigy与spaCy的NLP标注训练技巧

4 阅读1分钟

FAQ #1: 关于NLP、标注与训练使用Prodigy和spaCy的技巧与窍门

Prodigy是一款为机器学习模型创建训练数据的标注工具。在本视频中,将讨论一些常见问题,并分享关于如何构建NLP标注项目、如何设计标签方案以及如何解决常见问题的一般性技巧和窍门。

视频内容提要

[0:46] 手动标注的二分选择?

  • ner.teach 对比 ner.match
  • 验证集的最佳实践

[3:34] 接受还是拒绝部分正确的建议?

  • 如何为未完全高亮显示的实体打分
  • 应该拒绝还是接受部分正确的预测

[5:35] 拒绝示例还是跳过它?

  • 文本分类器标注中的拒绝或跳过示例
  • 文本分类中被忽略的句子

[7:30] 如果需要标注长文本怎么办?

  • 处理稀疏数据
  • 文档级的文本分类

[9:24] 微调预训练模型还是从头开始训练?

  • 预训练模型对比从头开始训练模型
  • 收益新闻的事实提取
  • 从个人简介中提取当前和以往的公司隶属关系
  • NER与PhraseMatcher的选择