2025-05-29,由加州大学伯克利分校和加州大学旧金山分校的研究团队创建了名为ER-Reason的数据集,目的评估大型语言模型在急诊室中的临床推理能力。该数据集包含3,984名患者的25,174份去标识化临床笔记,覆盖急诊室工作流程的各个阶段,并提供了72份专家撰写的推理过程。该数据集的创建为评估LLM在真实世界临床决策中的表现提供了新的视角,揭示了LLM生成的临床推理与临床医生撰写的推理之间存在差距,为未来的研究指明了方向。
一、研究背景
大型语言模型(LLM)在医学领域的应用前景广阔,尤其是在医学考试问题回答任务中表现出色。然而,真实世界的临床决策过程复杂且充满不确定性,需要综合患者病史、选择适当的检查并整合临床指南,同时还需在信息不完整的情况下快速做出判断。现有的基准数据集大多基于医学考试的多项选择题,无法真实反映临床决策的复杂性和模糊性。
目前遇到的困难和挑战:
1、现有基准数据集的局限性:大多数现有基准数据集基于医学考试的多项选择题,缺乏对真实世界临床工作流程和决策场景的全面覆盖。
2、临床推理的复杂性:真实世界的临床推理需要在信息不完整、噪声干扰和时间压力下进行,而现有的LLM评估方法往往无法模拟这些条件。
3、缺乏详细的临床推理记录:临床推理通常依赖于隐性知识和专业判断,这些内容很少被明确记录在电子健康记录中,导致现有数据集难以用于评估LLM的推理能力。
数据集地址:ER-REASON|医学临床推理数据集|自然语言处理数据集
二、让我们一起来看一下ER-Reason
ER-Reason是一个专门用于评估大型语言模型在急诊室临床推理和决策能力的基准数据集。
ER-Reason数据集包含3,984名患者的25,174份去标识化纵向临床笔记,涵盖出院总结、病程记录、病史和体格检查、会诊、超声心动图报告、影像学报告以及急诊室医生记录等多种文档类型。
数据集覆盖急诊室工作流程的关键阶段,包括分诊、初步评估、治疗选择、处置计划和最终诊断。此外,数据集还包含72份由急诊科主治医生和住院医师撰写的详细推理过程,模拟住院医师培训中使用的教学过程。
数据集构建:
基于2022年3月1日至2024年3月31日期间某大型学术医疗中心急诊室的患者数据。研究团队从患者的多次就诊记录中提取了多种类型的临床笔记,并对其进行了去标识化处理以保护患者隐私。此外,为了弥补临床推理记录的不足,研究团队还收集了72份专家撰写的推理过程,这些推理过程详细记录了医生在急诊室中的核心临床推理步骤。
数据集特点:
1、多阶段覆盖:数据集涵盖了急诊室工作流程的各个阶段,包括分诊、初步评估、治疗选择、处置计划和最终诊断。
2、丰富的文档类型:包含多种类型的临床笔记,如出院总结、病程记录、病史和体格检查、会诊、超声心动图报告和影像学报告等。
3、详细的推理过程:包含72份由急诊科医生撰写的详细推理过程,这些推理过程模拟了住院医师培训中的教学过程。
4、真实世界数据:数据来源于真实世界的急诊室患者记录,反映了急诊室临床决策的真实场景。
基准测试总结:
在对四种最新的LLM(包括LLaMA 3.2–3B Instruct、GPT-3.5、GPT-4o和o3-mini)进行评估时,结果显示o3-mini在急诊室急性度评估任务中表现最佳,但存在过度保守的问题,例如将大量患者错误分类为“紧急”(预测73.62% vs 实际54.83%),且未能识别任何“较不紧急”或“非紧急”病例。在治疗规划任务中,LLM在识别医疗决策因素方面表现相对较好,但在整体临床推理能力上仍存在显著差距。例如,GPT-4o生成的推理过程与医生的推理过程在疾病实体和诊断程序方面有较高重叠度,但在患者症状方面存在明显缺失。
ER-Reason 基准数据集概述。该基准数据集包含去识别化的纵向临床记录,涵盖多种文档类型,包括出院记录、病程记录、病史和体格检查、会诊记录、影像报告和急诊科医师记录。该数据集覆盖了急诊科工作流程的关键阶段——分诊接待、初步评估、治疗选择、处置计划以及最终诊断。
临床 LLMs 基准数据集的比较
前十大主诉的分布(左)和 ER-Reason 中记录类型的分布(右)。
前十大主诉分布:
腹痛(Abdominal Pain):这是最常见的主诉,有超过300次的患者就诊记录。
呼吸急促(Shortness of Breath):大约有250次的患者就诊记录。
胸痛(Chest Pain):大约有200次的患者就诊记录。
跌倒(Fall):大约有150次的患者就诊记录。
发热(Fever):大约有120次的患者就诊记录。
虚弱(Weakness):大约有100次的患者就诊记录。
精神状态改变(Altered Mental Status):大约有90次的患者就诊记录。
精神评估(Psychiatric Evaluation):大约有80次的患者就诊记录。
头晕(Dizziness):大约有70次的患者就诊记录。
头痛(Headache):大约有60次的患者就诊记录。
不同类型临床笔记的数量分布
出院总结(Discharge Summary):这是最常见的笔记类型,有超过3500份笔记。
病程记录(Progress Note):大约有3000份笔记。
病史和体格检查(H&P):大约有2500份笔记。
影像学报告(Imaging):大约有2000份笔记。
会诊记录(Consult):大约有1500份笔记。
超声心动图报告(Echo):大约有1000份笔记。
心电图(ECG):大约有2500份笔记。
急诊室医生记录(ED Provider Note):这是第二常见的笔记类型,有超过3500份笔记。
ER 病情严重程度评估
基线 LLMs 在患者病例总结上的表现
基线 LLMs 在治疗计划中的表现:(平均 cTAKES CUI 重叠率)
医生对 20 个 GPT-4o 推理的平均幻觉严重程度和临床效用评分
GPT-4o 生成与医师标注的晕厥病例鉴别诊断推理对比。cTakes 用于提取两个案例中的临床概念。颜色高亮表示重叠的疾病实体(红色)、诊断程序和实验室检查(蓝色)以及患者症状(绿色)。
LLM 在最终诊断上的表现
LLM 在最终处理上的表现
三、让我们一起展望ER-Reason数据集应用场景
案例名称:急性腹痛患者的快速诊断
在急诊室,时间就是生命。医生们经常需要在几分钟内做出关键决策。以急性腹痛为例,这可能是由多种原因引起的,从轻微的食物中毒到严重的阑尾炎或心脏病发作。在没有ER-Reason之前,医生们主要依赖他们的经验、直觉和一些基础的检查来快速诊断。
在过去,当一个患者因为急性腹痛来到急诊室时,医生会首先进行快速的体检,询问病史,然后可能会安排一些基本的血液检查和影像学检查,如X光或超声波。这个过程可能需要一段时间,而且在等待检查结果的时候,医生可能无法完全确定下一步该如何治疗。
ER-Reason数据集带来的改变:
现在,有了ER-Reason数据集,那可不一样了。这个数据集包含了大量的临床笔记和专家的推理过程,可以帮助开发一种新的工具,我们称之为“智能诊断助手”(IDH)。
1、实时决策支持:当患者到达时,IDH可以迅速分析他们的电子健康记录,结合他们的症状和病史,提供可能的诊断列表。这就像是有一个经验丰富的医生在旁边,随时提供第二意见。
2、优化检查流程:IDH还可以建议哪些检查是最紧迫的,哪些可以稍后进行。这样,医生可以更快地得到关键信息,从而更快地做出治疗决策。
3、个性化治疗计划:基于分析结果,IDH可以帮助医生制定个性化的治疗计划。例如,如果系统预测患者可能患有阑尾炎,它可能会建议立即进行CT扫描,并准备手术团队。
4、减少误诊和漏诊:通过提供详细的推理过程,IDH可以帮助医生考虑到可能被忽略的诊断,从而减少误诊和漏诊的情况。
5、提高患者满意度:因为诊断和治疗过程更加迅速和准确,患者可以更快地得到他们需要的护理,这无疑提高了他们的满意度。
通过使用ER-Reason数据集开发的IDH,急诊室的工作效率得到了显著提升。医生们现在可以在更短的时间内做出更准确的诊断,患者也因为得到了更快和更个性化的护理而感到更加满意。这个工具不仅帮助医生节省了宝贵的时间,还提高了整个急诊室的护理质量。生活如此美好!