电子病历中神经症状标注的一致性研究

2 阅读11分钟

电子病历中神经症状标注的一致性研究

从电子健康记录中提取以自由文本形式记录的患者体征和症状对于精准医学至关重要。一旦提取出来,通过映射到本体中的体征和症状,可以使这些信息变得可计算。从自由文本中提取体征和症状是繁琐且耗时的。先前的研究表明,临床概念提取的标注者间一致性较低。本研究检验了在电子健康记录临床笔记中标注神经学概念的标注者间一致性。

在接受了关于标注流程、标注工具和支持性神经学本体的培训后,三名标注员分三轮标注了15份临床笔记。三名标注员在文本片段和类别标签上表现出高度一致性。一个基于卷积神经网络的机器标注器与人类标注员的一致性也较高,但低于人类标注员之间的一致性。结论是,经过适当的培训和标注工具,人类标注员之间可以实现高度一致性。此外,更多的训练样本,结合神经网络和自然语言处理的改进,应该能使机器标注器实现高通量的自动化临床概念提取,并与人类标注员保持高度一致性。

引言

从电子健康记录中提取医学概念是精准医学的关键。患者的体征和症状是患者表型的一部分,通常以自由文本形式记录在病程记录、入院记录和出院小结中。对患者进行临床表型分析涉及将自由文本映射到本体中定义的术语。这是一个两步过程:识别叙述中适当的文本片段,然后将这些文本片段转换为本体中的目标概念。将自由文本映射到本体中定义类的过程被称为规范化。

例如: 患者运动共济失调共济失调UMLS 代码: C0004134

这是一个缓慢且容易出错的过程。临床文本标注的人类标注者间一致性通常较低。一项关于三家专业编码公司编码员之间SNOMED CT编码一致性的研究显示,完全匹配的一致性约为50%,经近匹配调整后略高。另一项对眼科笔记进行SNOMED CT编码的研究显示,标注者间一致性较低,范围在33%到64%之间。已识别的不一致性来源包括人为错误、标注指南缺陷、本体缺陷、接口术语问题和语言问题。

高通量表型分析的目标是利用自然语言处理来自动化标注过程。高通量临床概念提取的方法包括基于规则的系统、传统机器学习算法、深度学习算法以及结合算法的混合方法。基于规则、语言分析和统计模型的概念提取工具,通常准确率和召回率在0.38到0.66之间。神经网络正被越来越成功地用于概念识别。Arbabi等人开发了一个卷积神经网络,能够以高精度将输入短语与人类表型本体中的概念匹配。其他深度学习方法,包括基于BERT的神经网络,在自动化临床概念提取方面显示出前景。

本文研究了电子健康记录笔记中神经学概念文本片段识别的标注者间一致性。除了人类标注者之间的一致性,还研究了人类标注者与基于卷积神经网络的机器标注器之间的一致性。

方法

标注工具

使用Prodigy(Explosion AI, Berlin, Germany)来标注电子健康记录医师笔记中的神经学概念。Prodigy在Python环境下运行,可在macOS、Windows或Linux的终端模式下使用。它在本地创建一个Web界面。作为输入,Prodigy要求将自由文本转换为JSON格式。

例如: {"text": "患者有乏力和感觉丧失"}

JSON文件中的每一行文本在Prodigy中显示为一个单独的标注界面。标注存储在SQLite数据库中,并可以标注和文本片段的形式导出为JSON文件。Prodigy与spaCy自然语言处理工具包集成,可以训练用于命名实体识别和文本分类的神经网络。

标注者培训和说明

三名标注者参与了研究。标注者1(A1)是一名资深神经科医生,标注者2(A2)是一名主修神经科学的医学预科生,标注者3(A3)是一名三年级医学生。标注者首先审查了神经学概念神经学本体中的神经学体征和症状,然后被指示在神经科笔记中找出所有神经学概念。体征和症状被标注,但疾病实体不被标注。标注者标注神经学概念,并忽略偏侧性等修饰语。此外,标注者用类别标签标记每个文本片段。类别标签包括:单字词、双字词、三字词、四字词、扩展文本片段、复合概念和表格形式概念。

机器标注器

机器标注器(NN)是一个神经网络,经过训练可以识别电子健康记录医师笔记中包含神经学概念的文本片段。NN是spaCy默认的命名实体识别模型,基于一个四层卷积神经网络,使用tok2vec查看每个标记两侧的四个词,初始学习率为1×10⁻³。使用Prodigy提供的默认参数进行训练。NN在11000个手动标注的句子上进行了训练,这些句子来自神经科教科书、在线神经疾病描述和电子健康记录笔记。

标注

每轮标注五份患者电子健康记录笔记。用于研究目的的电子健康记录临床笔记标注获得了某机构审查委员会的批准。通过某机构生物样本库项目获得了所有受试者使用临床笔记的知情同意。三名人类标注者和机器标注器对每份笔记进行了标注。每轮之后,标注者会面并审查标注中的任何不一致之处。每位标注者的标注存储在SQLite数据库中,并导出为JSON文件,用于在Python中计算标注者间一致性。文本片段通过一个包含3500个目标短语的查找表和spaCy的相似性方法,映射到神经学本体中的概念。使用SPSS进行单因素方差分析和Cohen's Kappa统计量计算。

结果

标注者从电子健康记录的医师笔记中识别出神经学体征和症状。每位标注者识别与每个体征或症状相关的文本片段,并为每个标注分配一个类别标签。计算了三名人类标注者与机器标注器之间的一致性和Kappa统计量。

尽管每轮标注了五份电子健康记录笔记,但笔记长度各不相同。电子健康记录笔记中的每一行都被转换为JSON文件中的单独一行,并在Prodigy标注器中生成一个标注界面。第一轮有625个标注界面和139个体征/症状需要标注,第二轮有674个界面和205个,第三轮有523个界面和138个。由于体征/症状的数量少于标注界面的数量,许多标注界面没有需要标注的体征或症状。

文本片段任务的人类标注者间一致性为88.9% ± 3.2,人类与机器标注器间一致性为83.9% ± 4.6。类别标签任务的人类标注者间一致性为87.7% ± 4.4,人类与机器标注器间一致性为84.6% ± 5.5。

Cohen's Kappa统计量对于文本片段任务(0.715至0.893)和类别标签任务(0.72至0.89)都很高。在文本片段识别任务上,人类标注者对的Kappa值(0.85 ± 0.05)高于人机对(0.76 ± 0.06)。在类别标签任务上,人类标注者对的Kappa值(0.83 ± 0.05)与人机对(0.82 ± 0.06)相似。文本片段任务和类别标签任务的Kappa值在各轮之间没有显著差异。

讨论

体征和症状是患者表型的重要组成部分。从电子健康记录中提取这些表型特征并将其转换为机器可读代码,使其可计算。这些可计算的表型对于精准医学计划至关重要。临床实体提取可被概念化为文本片段识别和临床实体规范化两个步骤。文本片段识别是在自由文本中识别体征和症状;实体规范化是将此文本映射到本体中的规范体征和症状。本研究聚焦于文本片段标注的标注者间一致性。对于实体规范化,依赖于一个将文本片段映射到神经学本体中概念的查找表。

研究发现人类标注者间具有较高的未调整一致性,而人机一致性较低。类别标签的未调整一致性低于文本片段的标注者间一致性。人类标注者间的调整后Kappa值在0.77至0.91之间,人机一致性Kappa值在0.69至0.87之间。与训练有素的神经科医生获取患者体征和症状的一致性相比,本研究中的标注者间一致性被认为是良好的。

研究未发现人类标注者在各轮之间存在训练效应。尽管标注者在每轮后会面并讨论标注差异,但标注者间的一致性和Kappa值在各轮之间没有显著改善。这表明文本片段标注的标注者间一致性可能存在上限,大约在Kappa值0.80到0.90之间,由于任务的复杂性和无法通过额外培训或经验解决的随机因素,更高的同意度可能无法实现。

文本片段任务的人类标注者对的平均调整后一致性高于人机对。增加训练样本可能会提高机器标注器在文本片段和类别标签任务上的性能。此外,其他神经网络可能优于作为Prodigy基准的卷积神经网络。研究发现,基于BERT的神经网络可以将文本片段任务的性能提高5%到10%。其他人也发现,基于BERT的深度学习方法在概念识别和提取任务上优于基于CNN的方法。

考虑到医生沉重的文档负担以及电子健康记录导致的职业倦怠,医生对体征和症状的文档记录很可能继续以自由文本形式存在。在当前环境下,将体征和症状作为结构化文档记录来替代自由文本负担过重。每天产生的大量临床笔记使得手动标注体征和症状不切实际。为精准医学计划提取体征和症状将依赖于自然语言处理和自然语言理解的进步。

尽管通过手动方法对电子健康记录进行高通量表型分析是不切实际的,但电子健康记录中自由文本的手动标注可用于训练神经网络进行表型分析。神经网络也可以加速手动标注过程。Prodigy标注器有一种称为ner.correct的标注模式,它使用经过训练的神经网络来加速体征和症状的手动标注。

通过适当的培训和指南,人类标注者之间在体征和症状上实现高水平的标注者间一致性是可行的。将标注限制在有限的领域并限定使用的本体可以简化手动标注。尽管人机标注器间的一致性低于人类标注者之间,但自然语言处理的进步应该能使人机一致性更接近,并使电子健康记录的高通量表型分析成为可能。

数据可用性声明

支持本文结论的原始数据将由作者在合理要求下提供。

伦理声明

涉及人类参与者的研究已获得某机构审查委员会的审查和批准。患者/参与者提供了参与本研究的书面知情同意书。

作者贡献

概念和设计由DH完成。数据收集由DH、CO和QH-P完成。数据分析由CO和DH完成。数据解释由DH、MC、QH-P和CO完成。初稿由DH和CO撰写。修改、重写和最终批准由DH、CO、QH-P和MC完成。所有作者都对文章做出了贡献并批准了提交的版本。

资金

MC承认获得某机构研究经费的支持。

利益冲突

MC承认过去获得过某机构的支持。其余作者声明,本研究不存在任何可能被解释为潜在利益冲突的商业或财务关系。