FAQ #1: 关于NLP、标注与训练使用Prodigy和spaCy的技巧与窍门
Prodigy是一款为机器学习模型创建训练数据的标注工具。在本视频中,将讨论一些常见问题,并分享关于如何构建NLP标注项目、如何设计标签方案以及如何解决常见问题的一般性技巧和窍门。
视频内容提要
[0:46] 手动标注的二分选择?
- ner.teach 对比 ner.match
- 验证集的最佳实践
[3:34] 接受还是拒绝部分正确的建议?
- 如何为未完全高亮显示的实体打分
- 应该拒绝还是接受部分正确的预测
[5:35] 拒绝示例还是跳过它?
- 文本分类器标注中的拒绝或跳过示例
- 文本分类中被忽略的句子
[7:30] 如果需要标注长文本怎么办?
- 处理稀疏数据
- 文档级的文本分类
[9:24] 微调预训练模型还是从头开始训练?
- 预训练模型对比从头开始训练模型
- 收益新闻的事实提取
- 从个人简介中提取当前和以往的公司隶属关系
- NER与PhraseMatcher的选择