概述
Prodigy (prodi.gy) 是一个现代化的标注工具,用于为机器学习模型收集训练数据,由 spaCy 的开发者构建。版本 1.10 包含大量新功能,包括手动依赖和关系标注、音频和视频标注、全新改进的图像用户界面、新的 recipe 回调、更多手动 NER 设置,以及各种新的配置选项和设置。
主要更新内容
01:42 – 依赖与关系标注
新增了对文本中词语间依赖关系和语义关系的手动标注功能,支持构建更精细的语言模型。
02:45 – 依存句法分析
强化了依存句法分析的标注能力,允许用户修正或创建句子结构的句法树。
03:02 – 共指消解
支持标注文本中的共指关系,即将指向同一实体的不同表述(如“张三”和“他”)关联起来。
03:23 – 联合片段与关系标注
允许在同一界面上同时标注文本片段(如实体)以及它们之间的复杂关系。
04:56 – 生物医学事件抽取
展示了在生物医学领域的应用,支持标注复杂的嵌套事件和关系。
06:07 – 音频与视频标注
新增对多媒体文件的支持,可以对音频和视频内容进行标注。
07:03 – 转录与自定义界面
支持音频转录任务,并允许为特定的标注任务定制用户界面。
07:32 – 模型在环的说话人日志
结合 pyannote.audio 等模型,实现模型在环的说话人日志标注。模型预先划分说话人,再由人工进行审核和修正。
09:10 – 改进的手动图像标注
图像标注界面得到改进,操作更流畅,支持更精细的标注。
10:57 – 用于微调 Transformer 的 NER 标注
针对基于 Transformer 的模型(如 BERT)优化了**命名实体识别(NER)**标注体验,包括对子词(token)的精确处理。
12:57 – 基于字符的片段标注
新增字符级别的片段标注,适用于需要精确字符边界或处理非英文语言的任务。
13:26 – before_db recipe 回调
新增 Recipe 回调函数 before_db,允许在将数据保存到数据库之前执行自定义的 Python 代码进行预处理或过滤。
14:25 – validate_answer recipe 回调
新增 validate_answer 回调,允许在标注者提交答案时运行自定义验证逻辑,确保数据质量。
15:13 – UI 配置:翻译、按钮、侧边栏
增强了用户界面的可配置性,包括支持界面文本翻译、自定义按钮行为以及侧边栏布局。FINISHED