进入单细胞多元宇宙:生物医学文本流程知识提取的端到端数据集
许多最常探索的自然语言处理信息提取任务可以被视为对声明性知识的评估,或基于事实的信息提取。流程知识提取,即将描述的过程分解为一系列步骤,受到的关注要少得多,部分原因可能是缺乏能够端到端捕捉知识提取过程的结构化数据集。
为满足这一未满足的需求,我们提出了FlaMBé(多元宇宙生物实体流程标注),这是一个跨多个互补任务的专家策划数据集集合,用于捕捉生物医学文本中的流程知识。该数据集的灵感来源于一个观察:描述流程知识的一个普遍来源是学术论文中描述其方法学的非结构化文本。
FlaMBé中标注的工作流程来自快速发展的单细胞研究领域的文本,这是一个因软件工具数量和工作流程复杂性而闻名的研究领域。此外,据我们所知,FlaMBé提供了最大规模的手动策划的组织/细胞类型命名实体识别和消歧数据集,这是生物医学研究领域知识提取的关键基础生物实体。
除了提供有价值的数据集以促进流程知识提取的自然语言处理模型的进一步开发外,自动化工作流程挖掘过程还对推进生物医学研究的可重复性具有重要意义。