NVIDIA Clara Reason在放射学中推进可解释AI技术

5 阅读13分钟

医学AI已到达一个转折点。虽然视觉语言模型在医学影像领域显示出潜力,但它们一直缺乏临床医生信任AI辅助诊断所需的系统性、透明推理。改变这一现状的是NVIDIA Clara,这是一个为加速科学发现、分析医学影像以及提供对人类健康、生物学和化学基础理解而构建的模型、工具和方案系列。

具体而言,Clara Reason引入了模仿放射科医师思维的多模态思维链模型,提供临床医生可以验证和信任的、带有解释的逐步诊断推理。

某中心正在超越传统的图像分析,创建一个结合基础数据集与多模态模型的医学AI推理生态系统,以提供可解释的决策支持。

本文详细介绍了Clara NV-Reason-CXR-3B的技术实现,这是一个专门用于胸部X光分析的30亿参数视觉语言模型。内容涵盖通过语音标注捕获放射科医师思维过程的数据集创建方法、结合监督微调与梯度强化策略优化的两阶段训练流水线,以及来自临床机构的验证结果。

传统医学AI方法缺乏透明推理

当今的医学AI模型通常作为黑箱运行,提供诊断而不解释其推理过程。这对需要在将AI建议纳入患者护理决策之前理解和验证它们的临床医生构成了信任障碍。

传统的医学AI方法侧重于提高准确性指标,而没有解决对可解释性的根本需求。放射科医师不只是识别异常——他们会系统地审查解剖结构、考虑鉴别诊断并阐述其思维过程。最终的诊断不仅仅是一个标签,更是基于多年经验、导致该诊断的放射科医师的内部思维过程。

推理AI模型在解决数学、编程和逻辑问题方面已展现出显著改进。通过在回答前逐步思考,它们能够将任务分解为子目标以解决复杂的多步骤问题。类似地,在医学AI中,放射科医师的思维过程使得模型能够深入每个步骤并处理复杂的医学问题。

Clara Reason如何提供透明的医学AI推理?

Clara Reason通过一种结合多模态感知与结构化推理能力的架构来应对可解释性挑战。

某中心的研究人员通过Clara NV-Reason-CXR-3B模型为Clara Reason贡献了推理能力。该模型专门用于胸部X光分析,旨在像放射科医师一样思考,并提供模仿医师内部思维的完整思维链过程。

这使得AI能够解释其诊断推理并提供详细的知识性思考。它旨在以教师、资深放射科医师的风格进行回应,解释问题和解决方案并提供:

思维链处理

  • 推理引擎生成逐步诊断分析
  • 系统性解剖学审查
  • 识别正常和异常发现
  • 鉴别诊断考量

临床输出生成

  • 主要发现
  • 逐步推理路径
  • 鉴别诊断及其可能性
  • 随访或临床关联建议
  • 澄清性多步骤后续对话
  • 结构化报告生成

根据某儿童医院助理教授Mariam Aboian博士的说法,“这是生成式AI首次描述放射科医师在研究过程中的思维过程,他们通过思维链思考,识别发现,并组织它们以确定诊断。这在可解释性方面提供了创新,这对于AI的临床实施以及与医疗保健领域医生和医疗提供者的沟通至关重要。”

创建捕获放射科医师思维的数据集

通过与某国家卫生研究院、某儿童医院和某机构的合作,某中心的研究人员创建了第一个捕获放射科医师思维过程的数据集。与专注于标签或报告的传统数据集不同,这些收集的数据包括每张图像1-2页由放射科医师口述的详细放射学思维,以捕捉他们的思维过程。

系统性检查方案 放射科医师被要求口述他们在阅读胸部X光时的所有想法、考量以及不确定性,大致遵循以下顺序: 质量评估 → 医疗设备 → 气道 → 肺(右/左) → 纵隔 → 心脏 → 腹部 → 骨骼 → 总结 每次标注需要7-15分钟,并分解为10-20个详细的不同观察和想法,例如:“我看到右下叶有模糊影,这让我考虑……”

创新数据收集 团队开发了一种捕获真实放射科医师思维的标注工具。关键见解在于实现的简洁性,包括:

  • 语音记录与语音转文字功能捕获自然的临床推理
  • 基本感兴趣区域工具将观察结果与图像区域关联
  • 多语言转录支持全球协作(转录并翻译成英文)
  • 原始音频/文本文件可格式化用于训练——无需专有工具

团队可以使用具有基本标注功能的现有查看器,或者简单地在图像审查时收集语音记录来实现类似的方法。这里的主要目标是捕获放射科医师的思维过程,而不是特定的工具。

标注关注领域包括:

  • 鉴别诊断:包含不确定性和临床推理
  • 阴性发现:明确说明正常/缺失的内容以提供完整的临床图像

此外,训练数据集已通过基于胸部X光报告(MIMIC-CXR, Open-I)从GPT-OSS 120B蒸馏出的合成数据进行了扩展,其中放射科医师推理数据作为示例。合成数据集大约包含10万个数据点。

NV-Reason-CXR-3B训练流水线

NV-Reason-CXR-3B模型以Qwen2.5-VL-3B-Instruct视觉语言模型为起点,并遵循DeepSeek-R1推广的方法。

阶段1:监督微调 初始阶段使用大约10万个结合原始标注与合成数据的专家放射科医师推理示例来训练模型。训练在四个节点上运行,每个节点有八个某中心H100 GPU(共32个GPU),持续4小时。目标是教会模型生成遵循真实放射科医师思维模式的结构化诊断推理。

阶段2:组相对策略优化 第二阶段使用强化学习在更大的数据集上优化推理质量,而不需要显式的推理标注。训练使用一个扩展的、带有已验证诊断标签的胸部X光数据集,并使用基于正确识别异常和诊断百分比的奖励函数。这与通常使用二元奖励的传统GRPO在数学和逻辑任务中的应用不同。

训练使用与阶段1相同的基础设施,运行4天。这种方法使模型能够从更广泛的数据集中学习,同时保留在监督微调阶段建立的结构化思维模式。

Clara Reason的临床验证和影响是什么?

Clara Reason充当放射科医师的AI副驾驶,通过透明推理节省时间并增强诊断信心。该模型展示了与临床思维的强烈一致性,已通过委员会认证的放射科医师验证。

主要优势包括:

  • 节省时间:充当副驾驶,解释决策,必要时可撰写结构化报告
  • 提高准确性:遵循放射科医师的内部思维过程有助于复杂的医学决策
  • 内置信任:推理路径的透明解释
  • 教学辅助:决策的可解释性提供了信心和教育价值

核心能力包括:

  • 与放射科医师对齐的思维链:捕获实际的内部思维过程,而非通用的AI推理
  • 系统性检查模式:遵循临床方案
  • 透明决策制定:每个诊断都包含可解释的推理路径
  • 置信度估计:带有临床背景的校准不确定性

“CXR推理模型不仅是辅助转诊医生的绝佳机会,也是帮助希望了解更多关于使用视野内所有解剖结构的影像发现、结合患者临床信息和症状来建立鉴别诊断思维过程的患者的绝佳机会,”某国家卫生研究院高级临床医师Ismail Baris Turkbey博士表示。“此外,这一新颖工具具有作为放射学和医学领域学员教育助理的巨大潜力。”

Clara Reason如何改变临床工作流程?

Clara Reason设计用于以下主要用例:

  • 临床决策支持:放射科医师使用Clara Reason作为“第二读者”,提供他们可以快速验证的详细推理。透明的思维过程使临床医生能够识别他们同意或不同意AI评估的地方,从而增强诊断信心。
  • 医学教育:医学院和住院医师项目整合Clara Reason,帮助学员发展系统性诊断思维。模型的详细推理作为一个始终可用的教学助手,展示专家级的分析。
  • 研究应用:研究人员使用Clara Reason以一致的、有记录的推理分析大型影像数据集——从而能够对疾病模式和跨人群的诊断变异获得新的见解。

如何将Clara Reason集成到医学AI应用程序中

使用以下快速入门示例将Clara Reason集成到您的医学AI应用程序中:

import torch
from transformers import AutoModelForImageTextToText, AutoProcessor
from PIL import Image

# 加载Clara Reason模型
model_name = "nvidia/NV-Reason-CXR-3B"
model = AutoModelForImageTextToText.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
).eval().to("cuda")

processor = AutoProcessor.from_pretrained(model_name)

# 加载胸部X光图像
image = Image.open("chest_xray.png")

# 准备带有临床背景的输入
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": image,
            },
            {
                "type": "text",
                "text": "查找异常并支持设备。"
            }
        ]
    }
]

# 使用聊天模板创建提示
text = processor.apply_chat_template(
    messages,
    add_generation_prompt=True)

# 处理输入
inputs = processor(
    text=text,
    images=[image],
    return_tensors="pt").to(model.device)

# 生成带思维链的推理
generated_ids = model.generate(
    **inputs,
    max_new_tokens=2048)

# 修剪生成的ID以移除输入ID
trimmed_generated_ids = [
    out_ids[len(in_ids):]
    for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]

# 解码响应
generated_text = processor.batch_decode(
    trimmed_generated_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False)[0]

print("输出:")
print(generated_text)

示例输出:

思考:我们将从这张AP位胸部X光片的质量评估开始。正如您所见,肺野相对清晰可见,尽管患者体位以及这是便携式AP位视图这一事实可能在某种程度上限制了评估。我认为对于这种类型的检查,质量是可以接受的。

现在,我们正在查看医疗设备和器械。我没有看到任何医疗设备,如中心静脉导管、气管插管或胸管。然而,我注意到患者可能处于临床环境中,考虑到检查的便携性。

中央气道看起来通畅。气管可见且无偏移,左右主支气管未见异常。我在中央气道中没有看到任何异物或异常。

接下来检查右肺。我们首先评估右上叶。右上叶的通气似乎减少,这可能提示存在一些容积减少或肺不张。我没有看到明显的肿块或结节,但有一些细微的阴影可能代表浸润或水肿。

接下来,我们将评估右中叶和右下叶。肺容积似乎较低,这可能提示存在一些肺不张或容积减少。我在右下叶看到一些斑片状阴影,可能代表肺水肿或浸润。肋膈角略变钝,这可能提示少量胸腔积液。

现在,让我们检查左肺。左上叶与右肺相似,通气减少,并有一些细微的阴影可能代表浸润或水肿。左下叶也显示一些斑片状阴影和略变钝的肋膈角,提示少量胸腔积液。

我们现在正在查看胸膜,如前所述,双侧肋膈角略变钝,这提示存在少量双侧胸腔积液。我没有看到气胸的证据。

纵隔似乎增宽,这可能提示心脏扩大。心影轮廓突出,我认为这一发现可能意味着中度心脏扩大。

肺门未见异常,无显著的淋巴结肿大或肿块。肺血管纹理增粗,可能提示肺水肿。

心脏,如前所述,似乎扩大,心胸比例升高。这一发现提示心脏扩大。

现在,我们正在查看上腹部,我看到一些正常表现的肠气模式。膈下未见游离气体,这一点很重要。

最后,我们正在查看骨骼结构。锁骨、肩胛骨和肋骨未见异常,无局灶性病变或骨折。椎体清晰可见且表现正常。

总结一下,该患者最重要的发现是存在轻度肺水肿、少量双侧胸腔积液和中度心脏扩大。这些发现可能代表一系列临床状况,包括心力衰竭或其他心肺疾病。

答案:心脏扩大,水肿,心纵隔影增宽,肺内阴影,胸腔积液

开始使用Clara Reason

Clara Reason引入了模仿放射科医师思维的思维链模型——提供临床医生可以验证和信任的、带有解释的逐步诊断推理。更具体地说:

  • NV-Reason-CXR-3B为胸部X光分析生成逐步诊断推理,产生详细的思维过程而不仅仅是诊断标签。
  • 数据集方法通过图像分析过程中的语音记录捕获放射科医师的思维过程,为每张胸部X光片创建1-2页的详细推理。
  • 使用GRPO的两阶段训练通过首先从专家推理示例中学习,然后使用强化学习在更大的数据集上优化推理质量而不需要推理标注,从而实现用最少标注数据进行推理。

医学AI的这一突破由合作驱动。

准备好开始了吗?

  • 从Hugging Face下载NV-Reason-CXR-3B检查点以进行本地开发
  • 访问GitHub上的NVIDIA-Medtech/NV-Reason-CXR获取训练和推理示例

通过订阅某中心新闻,并在LinkedIn、X和YouTube上关注某中心医疗保健部门保持最新信息。