CPath基础模型
在计算病理学领域,构建更精准模型的一个核心理念是:与其在单一组织类型和单一任务(例如在乳腺组织中识别癌症)上训练模型,不如使用来自多个不同器官(如乳腺、淋巴结、肺、前列腺、心脏等)的组织图像,并在多个不同任务(如识别癌症、确定癌症分期和亚型、细胞分割以及预测治疗效果)上对模型进行训练。从一个数据集或一个任务中学习到的模式,很可能推广应用到其他任务上。
这类模型被称为CPath基础模型。一般来说,基础模型是在足够多样化的大规模数据集上训练的机器学习模型,可以适应一系列下游任务。这一理念在语言模型领域(如Chat-GPT和Claude.ai)被普遍采用。语言基础模型在多种语言任务上进行训练,旨在泛化到不同的文本语料库(例如维基百科、Reddit帖子、学术论文、在线对话、新闻文章等)。同样,经过训练能够识别大量不同图片的ImageNet模型,通常也充当着图像领域的基础模型。基础模型在语言和通用图像领域的成功,是预期病理学基础模型也能发挥重要作用的关键原因。
学习术语
医学领域充斥着行话和专业词汇。病理学指的是对疾病的研究,是一个广泛的领域,涵盖从尸体解剖到血液分析等各个方面。计算病理学的一个关键焦点是分析和解读全切片图像(WSI),在某些情况下还会结合患者的元数据进行分析。全切片图像指的是完整的显微镜载玻片图像,尽管在许多情况下,感兴趣区域(ROI)(例如特定的癌变或发炎细胞)可能小得多,仅占切片的一部分。
**机器学习(ML)**是人工智能(AI)的一个子领域,涉及从过往数据中学习,并且正越来越多地成功应用于病理学领域。大多数计算病理学机器学习模型的焦点都集中在显微镜载玻片上的组织图像上。这也是本文将要重点讨论的内容。
繁多的任务
有许多不同的基准测试可以用来评估CPath模型。这些测试涉及大量数据集:这些数据集与身体的不同区域相关,具有不同的规模,并且服务于不同的目的。它们还包含各种任务,包括二元分类、图像分割和结果预测。Prov-GigaPath在它被评估的26项任务中,有25项达到了最先进的性能;UNI则在34项不同的任务上取得了最先进的成果。下面将仅介绍其中的3个任务实例。
任务:前列腺癌细胞分级
20世纪60年代,病理学家Donald Gleason博士提出了一种分级量表,用于评估细胞从正常状态发展为前列腺癌的过程。Gleason分级系统至今仍被广泛使用,被认为是预测前列腺癌患者预后的有力指标。一个重要的医学图像会议(MICCAI)在2022年举办了一场竞赛,旨在让研究人员创建能够根据前列腺组织图像确定Gleason分级的算法。
任务:识别心脏移植后的早期排斥反应
排斥反应是接受心脏移植患者死亡的主要原因。由于排斥反应的早期阶段可能无症状,患者移植后接受1-2年的定期活检是标准做法。这被称为心内膜心肌活检(EMB)。准确解读这些活检结果是一个关键问题。低估排斥风险可能导致治疗延误,带来危险;而高估风险则可能导致不必要的恐慌、后续检查或治疗。与许多其他任务(如癌症诊断)相比,经验丰富的病理学家对取样组织的评估存在更高的变异性。深度学习正被用于解决这个问题,例如在Cardiac Rejection Assessment Neural Estimator(CRANE)和CPath基础模型UNI等模型中。
任务:癌症基因突变
对于肿瘤中几种常见的基因突变,已有针对这些突变的特定药物。这对临床治疗有直接的应用价值。由于基因突变可以改变细胞的形态和功能,因此有理由认为这些信息可以从癌细胞的图像中推断出来。目前已构建了深度学习模型,用于从组织切片中识别基因突变。使用计算方法的好处在于,随着越来越多的相关基因突变和分子生物标志物被发现,这种方法可以扩展规模。针对此任务,已经构建了特定任务的模型,这也是基础模型可以接受的测试任务之一。
我们需要更多数据
CPath基础模型领域的一个关键挑战是收集足够的训练数据。**癌症基因组图谱(TCGA)**是美国国家癌症研究所于2006年启动的一项雄心勃勃的项目。在12年的时间里,该项目从超过11,000名患者身上收集了33种不同癌症类型的样本,并且所有这些数据都已公开。虽然这是一个丰富的数据集和有用的资源,但我们所看到的三篇论文都得出了结论:TCGA的规模不足以支撑有效的基础模型训练。除了数据规模有限,TCGA的多样性也有限,它主要由来自癌症原发部位的切片组成,不包括转移癌或其他类型的组织。
某机构的研究人员测试了扩大模型规模和扩大训练数据集规模所产生的影响。虽然他们发现模型规模超过某一点后提升有限,但发现更大的数据集会持续带来性能的提升。他们得出结论,TCGA的规模可能不够大,并分享了他们构建更大训练集的计划。目前他们正与欧洲各地的癌症中心合作,为他们的模型创建一个数据集。
另外两个CPath基础模型的研究人员也得出了关于数据集规模的相同结论,并收集了海量数据集来训练他们的模型。这需要与医疗中心合作。Prov-GigaPath是一个由某中心研究院和某机构创建的模型,涉及来自28个癌症中心(属于某医疗保健公司)的30,000名患者的数据。UNI是一个由某高校、某机构和某研究所团队创建的cPath模型,他们创建了Mass-100K数据集:该数据集包含来自某总医院、某妇女医院和某联盟的20多种组织类型的超过10万张全切片图像。
这些合作伙伴关系和对训练数据集的精心筛选,目前是构建CPath基础模型的关键组成部分。精心筛选数据集也带来了许多挑战。整合来自不同来源的数据(这些来源通常使用不同的切片采样和制备方案)可能会引入显著的偏差。
不同的尺度
CPath基础模型面临着捕捉局部模式(出现在切片内一个小图块中)和整个切片全局模式的双重挑战。一张切片内包含许多微小的图块。一些模型,例如Hierarchical Image Pyramid Transformer(由与UNI相同的几位作者提出),使用分层方法来处理这些多尺度信息。其他模型,如Prov-GigaPath,则将图块视为标记,将图块和整个切片都编码为模型输入。Prov-GigaPath同时使用了切片编码器和图块编码器,以考虑到这两种不同的尺度。
在病理学临床实践中,诊断和治疗决策通常在患者层面做出,而CPath模型通常高度聚焦于感兴趣区域。适应病理学相关的多个尺度(小图块、整个切片和患者层面)是CPath模型需要权衡的一个考量因素。
未来展望
CPath领域仍处于早期阶段,存在许多发展机遇,包括持续需要大规模和多样化的数据集、进一步优化模型训练的方法、以往关注较少的任务,以及将模型整合到临床工作中的困难。正如某机构论文作者所写:“我们仍处于开发真正基础性的病理学基础模型的起步阶段。”这些模型在数十个基准测试中取得了最先进的成果,这是一个充满希望的信号,但它们何时以及如何应用于临床环境,仍有待观察。FINISHED