Prodigy v1.10:支持依赖、关系、音视频与图像标注

5 阅读2分钟

概述

Prodigy (prodi.gy) 是一个现代化的标注工具,用于为机器学习模型收集训练数据,由 spaCy 的开发者构建。版本 1.10 包含大量新功能,包括手动依赖和关系标注、音频和视频标注、全新改进的图像用户界面、新的 recipe 回调、更多手动 NER 设置,以及各种新的配置选项和设置。

主要更新内容

01:42 – 依赖与关系标注

新增了对文本中词语间依赖关系语义关系的手动标注功能,支持构建更精细的语言模型。

02:45 – 依存句法分析

强化了依存句法分析的标注能力,允许用户修正或创建句子结构的句法树。

03:02 – 共指消解

支持标注文本中的共指关系,即将指向同一实体的不同表述(如“张三”和“他”)关联起来。

03:23 – 联合片段与关系标注

允许在同一界面上同时标注文本片段(如实体)以及它们之间的复杂关系。

04:56 – 生物医学事件抽取

展示了在生物医学领域的应用,支持标注复杂的嵌套事件和关系。

06:07 – 音频与视频标注

新增对多媒体文件的支持,可以对音频和视频内容进行标注。

07:03 – 转录与自定义界面

支持音频转录任务,并允许为特定的标注任务定制用户界面。

07:32 – 模型在环的说话人日志

结合 pyannote.audio 等模型,实现模型在环的说话人日志标注。模型预先划分说话人,再由人工进行审核和修正。

09:10 – 改进的手动图像标注

图像标注界面得到改进,操作更流畅,支持更精细的标注。

10:57 – 用于微调 Transformer 的 NER 标注

针对基于 Transformer 的模型(如 BERT)优化了**命名实体识别(NER)**标注体验,包括对子词(token)的精确处理。

12:57 – 基于字符的片段标注

新增字符级别的片段标注,适用于需要精确字符边界或处理非英文语言的任务。

13:26 – before_db recipe 回调

新增 Recipe 回调函数 before_db,允许在将数据保存到数据库之前执行自定义的 Python 代码进行预处理或过滤。

14:25 – validate_answer recipe 回调

新增 validate_answer 回调,允许在标注者提交答案时运行自定义验证逻辑,确保数据质量。

15:13 – UI 配置:翻译、按钮、侧边栏

增强了用户界面的可配置性,包括支持界面文本翻译、自定义按钮行为以及侧边栏布局。FINISHED