基于成对学习的甲基化年龄与疾病风险预测框架

6 阅读39分钟

摘要

传统的表观遗传时钟在泛化能力上面临挑战,尤其是在训练集和测试集之间存在显著批次效应时,这限制了其在衰老评估方面的临床应用。本文提出了MAPLE,一个基于成对学习的甲基化年龄与疾病风险预测的鲁棒性计算框架。MAPLE利用成对学习来辨别两个DNA甲基化图谱在年龄或疾病风险方面的相对关系,能有效识别与衰老或疾病相关的生物学信号,同时减轻数据中的技术偏差。在来自不同研究、测序平台、数据预处理方法和组织类型的31项基准测试中,MAPLE优于五种对比方法,中位绝对误差达到1.6年。此外,MAPLE在评估与衰老相关的疾病风险方面表现良好,识别疾病的平均曲线下面积为0.97,检测疾病前状态的为0.85。总体而言,研究表明MAPLE在临床评估表观遗传年龄和衰老相关疾病风险方面具有巨大潜力。

正文

引言

衰老的特征是发病率增加和生活质量下降,这给社会和经济带来了巨大负担。近几十年的突破性研究表明,通过热量限制和部分表观遗传重编程等干预措施延长寿命和健康寿命是可行的。然而,衰老干预的临床应用需要精确测量生物学年龄和衰老速率。

DNA甲基化是甲基基团共价连接到胞嘧啶残基的第五个碳原子上的过程,通常发生在哺乳动物的胞嘧啶-鸟嘌呤二核苷酸上。DNA甲基化改变是衰老的标志之一。例如,在某些CpG岛上,特别是多梳靶基因和肿瘤抑制基因的启动子区域,DNA甲基化水平往往随年龄增长而增加。这些累积的DNA甲基化变化可能建立了一个与年龄相关的转录程序。因此,全基因组DNA甲基化可以作为生物学年龄的估算器。然而,当前表观遗传时钟的性能可能受到多种因素的影响,包括测序平台、数据预处理方法、组织类型和人群,这给它们的临床应用带来了挑战。这些时钟,如Horvath时钟和HannumAge,主要依赖于线性模型,这限制了它们对表观遗传年龄的预测能力。另一类研究,如AltumAge,使用深度学习模型,但在建模过程中未能充分解决不同数据集之间的批次效应。因此,这些时钟可能将与衰老无关的技术偏差整合到模型中,阻碍了它们在复杂的临床环境中有效泛化到未见数据的能力。此外,在用于训练的DNA甲基化数据集中,特征的数量通常远超样本的数量,这增加了过拟合的风险,损害了模型的泛化能力。这种现象在机器学习中通常被称为高维小样本问题。因此,迫切需要一种可泛化的DNA甲基化时钟,能够消除技术偏差,同时保留与衰老相关的生物学信号,从而实现对人体衰老过程的精确测量。

尽管表观遗传时钟为表观遗传年龄提供了有价值的度量,但仅依靠表观遗传年龄不足以推荐针对性的抗衰老干预措施。2型糖尿病和心血管疾病在全球范围内普遍存在,且衰老被确定为这两种疾病的主要风险因素。早期诊断和干预可以延缓T2D和心血管疾病的发病,提高高危人群的生活质量,并可能降低相关死亡率。因此,利用DNA甲基化图谱对T2D和心血管疾病等衰老相关疾病进行风险评估,对于个性化衰老干预和健康管理至关重要。与表观遗传时钟类似,现有的T2D和心血管疾病风险评估模型通常基于线性模型,在不同研究和测序平台间应用时,会遇到明显的泛化难题。

深度成对学习,通常被称为孪生网络,是一类包含两个共享相同参数和权重的子网络的神经网络架构。该方法已广泛应用于人脸识别、语音识别和视觉跟踪等多个领域。成对学习在解决上述高维小样本问题和训练数据集过拟合风险方面展现出巨大潜力。在本文中,我们提出了MAPLE——一个基于成对学习的甲基化年龄和疾病风险预测的鲁棒性计算框架。MAPLE通过比较任意两个样本的DNA甲基化图谱,预测它们在表观遗传年龄或疾病风险上的差异,从而将来自不同来源的DNA甲基化数据编码到一个统一的潜在空间中。这种方法能够有效区分具有不同衰老或疾病状态的样本。因此,MAPLE在不同的研究、测序平台、预处理方法和组织中,能够持续优于传统的表观遗传时钟。此外,MAPLE能够为衰老相关疾病提供精确的风险评估,并准确识别疾病前状态。它在表观遗传年龄和疾病风险评估方面的稳健和精确表现为DNA甲基化测序在衰老评估和干预中的临床应用铺平了道路。

结果

MAPLE概述

表观遗传时钟临床应用中的一个关键挑战是,无论测序平台、数据预处理方法、人群或组织类型如何变化,都能对未见过的DNA甲基化数据集进行稳健且准确的表观遗传年龄预测。MAPLE通过成对学习来减轻数据集间固有的批次效应,从而应对这一挑战。尽管由于数据来源或数据预处理方法不同,DNA甲基化图谱的分布可能存在差异,但不同数据集中样本的年龄仍然具有可比性。通过预测任意两个DNA甲基化图谱之间的年龄差异,MAPLE将DNA甲基化数据编码到一个统一的潜在空间中,该空间保留了与衰老相关的信息,同时消除了由数据异质性引起的批次效应。此外,样本的配对构建导致训练样本数量呈二次方增长,使MAPLE能够被充分训练,降低了过拟合的风险。

图1:MAPLE概述。 a. DNA甲基化数据的异质性。在临床环境中,甲基化图谱来自不同的人群、测序平台和组织类型。 b. MAPLE的训练流程。首先使用成对学习训练一个编码器,将来自不同来源的训练甲基化图谱映射到一个统一的嵌入空间中。随后,在生成的嵌入上训练一个预测器,以估算表观遗传年龄或疾病状态。该嵌入空间保留了与年龄或疾病相关的表观遗传信号,同时最小化了混杂因素的影响。 c. MAPLE的推理过程。训练好的模型接收测试集的甲基化数据作为输入,预测相应的表观遗传年龄和疾病风险评分。 d,e. 用于训练的成对学习策略:对于表观遗传年龄预测,应用成对学习来预测来自不同数据集的两个样本之间的实足年龄差异(d);对于疾病风险预测,应用成对学习来预测同一数据集内两个样本之间的疾病风险差异(e)。

MAPLE能够通过在训练数据上完全执行的两步训练程序来预测表观遗传年龄。首先,MAPLE使用成对学习训练一个孪生网络作为编码器,该编码器将来自不同来源的DNA甲基化图谱整合到一个统一的潜在空间中。具体来说,从训练数据中随机选择两个样本,将其DNA甲基化图谱输入同一个编码器,在潜在空间中生成嵌入。这些嵌入随后被用于预测两个样本之间的实足年龄差异。一旦编码器被充分训练,就会构建一个年龄预测器,根据样本对应的嵌入来估算其年龄。在推理过程中,测试样本(训练中未使用)的DNA甲基化图谱通过训练好的编码器和年龄预测器,生成其预测的表观遗传年龄。

在疾病风险预测模型的训练中,利用传统的线性模型生成疾病风险评分,作为成对学习的学习目标。由于这些评分仅在相同数据集中具有可比性,我们提出使用成对学习来学习同一数据集内两个样本的风险评分差异。与表观遗传年龄预测类似,在训练数据上训练一个编码器以提取与疾病相关的表观遗传信号。随后,构建一个疾病预测器,根据生成的嵌入对疾病类型进行分类,从而将监督式的疾病标签信息整合到模型中。在推理过程中,训练期间未见的测试样本通过训练好的编码器生成其嵌入。然后,基于嵌入空间中的距离计算疾病风险评分。

系统性基准测试:研究MAPLE在表观遗传年龄预测中的性能

一个有临床价值的表观遗传时钟必须能在不同的平台、预处理流程和组织中,准确可靠地预测未见过的DNA甲基化数据的表观遗传年龄。为了评估MAPLE的泛化能力,我们设计了两种比较场景,涵盖在不同生物学和技术条件下的31项基准测试。

在第一种比较场景中,我们评估了在包含技术偏差的血液DNA甲基化数据集上的性能。六个独立的测试数据集来自Illumina Infinium Methylation450和EPIC芯片,并使用三种常用方法进行预处理,生成了24项基准测试。在第二种比较场景中,我们专注于非血液样本中的表观遗传年龄估计,这对于不同组织的衰老生物学研究至关重要。性能通过预测年龄与实足年龄之间的中位绝对误差和皮尔逊相关系数来量化。

为了研究成对学习的贡献,我们将MAPLE与一个多层感知机基线模型进行比较,后者共享相同的架构,但训练目标是预测绝对年龄而不是相对年龄。在第一种场景中,MAPLE的平均MAE为1.45,平均PCC为0.97,而MLP基线的平均MAE为4.14,平均PCC为0.88。MAPLE在非血液数据集上也优于MLP基线。这些结果强调了成对学习在改进表观遗传年龄预测方面的重要性。

图2:MAPLE与六种对比方法在31项基准测试中的性能。 a. 热图展示了血液来源测试数据集上表观遗传年龄预测的MAE。数据集按其在GEO数据库中的登录号索引。数据集GSE196696和GSE210255使用EPIC芯片生成;其他所有数据集均使用450K芯片分析。左侧标明了甲基化数据预处理方法。七种方法按平均MAE升序从左至右排列。 b. 热图展示了七种非血液组织类型上年龄预测的MAE。测试数据集按组织类型表示,方法按平均MAE升序从左至右排列。

我们将MAPLE与五种最先进的表观遗传时钟进行了比较,包括HorvathAge、HannumAge、PhenoAge、AltumAge和cAge。在第一个比较场景中,六个原始数据集上,MAPLE表现最佳,平均MAE为1.40,平均PCC为0.97;而HorvathAge和PhenoAge表现最差,因为它们无法适应EPIC芯片数据。MAPLE在不同的预处理流程中保持高度稳定,SWAN、BMIQ和GMQN方法的MAE分别为1.61、1.47和1.29。相比之下,当预处理方法改变时,HannumAge、AltumAge和HorvathAge的性能大幅下降。在第二个比较场景中,MAPLE在非血液数据集上再次取得了优越的性能,平均MAE为2.30,平均PCC为0.95。相比之下,AltumAge和HorvathAge记录的平均MAE为5.22和5.75,而cAge、HannumAge和PhenoAge的平均MAE超过10.0。在所有31项基准测试中,MAPLE实现了最低的平均MAE,优于排名第二和第三的方法,证实了其在不同数据集、预处理方法和组织类型上的优越准确性和鲁棒性。

为了评估批次效应的减轻情况,我们进行了主成分分析和主方差成分分析。对MAPLE派生的嵌入进行PCA分析,显示出清晰的与年龄相关的梯度,来自不同组织和研究的样本充分混合。相比之下,对原始DNA甲基化数据的PCA分析显示,聚类主要由批次效应驱动。PVCA进一步证实,经过MAPLE整合后,可归因于批次效应的方差比例显著下降,而年龄解释的方差比例大幅增加。总之,这些结果表明MAPLE有效地减轻了批次效应,同时增强了有生物学意义的年龄相关信号,确保了在异质性数据集上的稳健性能。

MAPLE识别的与衰老相关的CpG位点

表观基因组-wide关联研究的目的是检查全基因组的表观遗传变异,以检测与感兴趣表型统计学相关的差异。EWAS有助于破译疾病病因和识别疾病特异性生物标志物。传统上,与年龄相关的CpG位点可以通过EWAS来识别。我们选择了两个独立的衰老相关研究,并通过EWAS Atlas数据库获得了它们相应的年龄相关CpG集。尽管这两个CpG集显示出显著的重叠,但与重叠CpG共定位的基因仅在与细胞粘附相关的通路中富集。

相比之下,将MAPLE与积分梯度方法应用于相同的两个数据集,从每个数据集中获得的前2000个最具信息量的CpG位点之间显示出显著更大的重叠。与这些重叠CpG共定位的基因,在与细胞粘附、器官发育和形态发生、认知、细胞因子产生等相关的基因本体论术语中显著富集。这些通路富集结果与衰老生物学的文献一致。总之,这些发现表明,MAPLE通过优先考虑在机制上参与衰老过程的、具有生物学意义的CpG位点,实现了准确的表观遗传年龄预测。

图3:使用MAPLE捕获与衰老相关的生物学过程并检测加速衰老。 a. 柱状图展示了由MAPLE识别的与年龄相关的CpG所共定位的基因的富集通路。使用单侧超几何检验评估通路富集,P值使用Benjamini-Hochberg方法进行调整。灰色虚线表示调整后的显著性阈值0.05。 b. 点图展示了整个生命周期中,表观遗传年龄与实足年龄之间绝对误差的100样本滚动平均轨迹。每个点代表一个包含100个样本的滚动窗口内的平均绝对误差,颜色表示性别。实线表示对数据的局部加权回归散点平滑拟合,灰色阴影区域表示95%置信区间。 c-g. 箱线图展示了唐氏综合征(c)、HIV感染(d)、吸烟(e)、肥胖(f)和阿尔茨海默病(g)人群与其各自对照人群相比的年龄加速水平。每个点代表来自一个独立生物学样本的年龄加速估计值,定义为来自单个个体的DNA甲基化图谱。箱线图代表中位数(中心线)以及第25和75百分位数(箱体边界),须线延伸到1.5倍四分位距。使用单侧t检验评估统计学显著性。

MAPLE识别的性别特异性衰老轨迹和与疾病状态相关的加速衰老

先前的研究报道了衰老轨迹中的性别特异性差异。特别是,更年期与血液组织中的表观遗传加速衰老有关,并且已知50岁左右的女性会经历与衰老相关的实质性生理变化。这种现象可能反映了更年期期间表观遗传衰老的更急剧转变,与实足年龄相对稳定的进展形成对比。因此,预计处于更年期年龄的女性个体在表观遗传年龄和实足年龄之间会表现出更大的不一致性。

为了验证这一假设,我们使用MAPLE在保留的血液组织数据集上预测表观遗传年龄,并计算预测的表观遗传年龄与实足年龄之间绝对误差的滚动平均值,以量化不一致程度。如图3b所示,52岁左右的女性个体表现出绝对误差的显著增加,而在男性亚组中没有观察到类似的模式。注意,大多数女性的更年期发生在45至55岁之间,平均年龄约为52岁。这种性别特异性趋势表明MAPLE有效地捕捉了与更年期衰老动态相关的关键生物学过程。

此外,人们普遍假设,通过表观遗传时钟估计的年龄可用于计算年龄加速度,定义为估计年龄与实际实足年龄之间的差异,它反映了过去衰老速率的变化。年龄加速度值越高,表示衰老速率越快,死亡风险和年龄相关疾病的风险也越高。

为了评估由MAPLE预测的表观遗传年龄是否准确反映了衰老速率,我们使用了几个生物学上公认的加速衰老例子。患有唐氏综合征、HIV感染、有吸烟习惯、肥胖和阿尔茨海默病的人群,均被认为经历加速衰老和更高的死亡率。与衰老生物学的发现一致,MAPLE预测这些患有唐氏综合征、HIV感染、吸烟习惯、肥胖和阿尔茨海默病的人群,与对照组相比,表现出显著更高的年龄加速度。值得注意的是,MAPLE在阿尔茨海默病患者的大脑组织中检测到显著的年龄加速,但在他们的血液样本中却没有。这一发现表明,非血液组织可以揭示独特的、生物学上相关的衰老信号,而这些信号仅通过血液分析可能会被遗漏,这进一步强调了跨组织表观遗传年龄预测对于推进衰老生物学研究的重要性。

使用MAPLE进行心血管疾病风险评估

复杂的慢性疾病,如心血管疾病和2型糖尿病,通常受遗传和环境因素影响。DNA甲基化是一种重要的表观遗传修饰,遗传变异和环境暴露通过它影响疾病风险,为个体的疾病风险提供了动态的预测信息。

在心血管疾病的进展过程中,年龄是一个强大的不可改变的风险因素。动脉粥样硬化是一种病理状态,其特征是动脉壁内斑块积聚,导致血流减少,心脏病发作和中风的风险增加。冠状动脉扩张是一种以冠状动脉异常扩张为特征的疾病,主要由AS引起,并与较差的预后相关。中风是一种严重的疾病,被定义为由于血管原因导致的中枢神经系统急性局灶性损伤引起的神经功能缺损,主要是由于动脉粥样硬化斑块栓塞所致。

MAPLE有效地整合了来自多项研究的数据,并能预测心血管疾病风险。在其嵌入空间的PCA图中,年轻的对照样本聚集在左下角,而患有中风、冠状动脉扩张或AS的年长和不健康样本出现在右上角。来自不同研究的样本充分混合,表明MAPLE将异质性批次映射到一个统一的嵌入中,捕获了心血管疾病相关的表观遗传信号。利用这些嵌入,MAPLE为每个样本计算一个心血管疾病风险评分。在七个测试组中,中风样本的评分最高,而18-40岁样本的评分最低。相比之下,Cox模型在不同数据集上产生的风险评分不一致,未能泛化到独立的队列中。

图4:使用MAPLE从DNA甲基化数据估算心血管疾病风险。 a,b. 训练和测试样本的甲基化嵌入的PCA可视化。在a中,点的颜色代表样本年龄,而在b中,点的颜色表示与心血管疾病相关的疾病状态。 c. 箱线图比较了MAPLE和Cox模型为不同测试样本组预测的心血管疾病风险评分。每个点代表一个独立生物学样本的预测风险评分,定义为来自单个个体的DNA甲基化图谱。图中显示了每组样本的样本量。箱线图描绘了中位数、第25和第75百分位数以及须线。 d,e. 柱状图展示了区分中风、CAE和AS样本与对照样本的AUROC和AUPRC值。数据以平均值表示,误差线表示从1000次自助法重采样中估计的95%置信区间。灰点代表每次自助迭代中获得的AUROC或AUPRC值,说明了自助估计的完整分布。 f. 柱状图展示了由MAPLE识别的心血管疾病相关CpG所共定位的基因的富集通路。使用单侧超几何检验评估通路富集,P值使用Benjamini-Hochberg方法进行调整。灰色虚线表示调整后的显著性阈值0.05。

此外,我们通过评估MAPLE和Cox模型的风险评分在区分疾病和疾病前人群与对照组方面的能力,对两者进行了比较。对于中风识别,MAPLE达到了0.98的AUROC和0.90的AUPRC,显著优于Cox模型。对于包括CAE和AS在内的疾病前状态的识别,MAPLE产生了比Cox模型更高的AUPRC。值得注意的是,即使在正负样本之间的年龄分布平衡时,MAPLE仍能保持优越的性能。我们进一步评估了两种模型的风险评分是否能区分三种非健康状态与健康对照。对于中风分类,MAPLE的AUPRC超过0.99,而Cox模型仅达到0.80,表明MAPLE能更有效地减少假阳性分类。总体而言,MAPLE在检测与心血管疾病相关的疾病和疾病前状态方面,始终优于Cox模型。

对由MAPLE识别的心血管疾病相关CpG位点所共定位的基因进行富集分析,突显了其捕获涉及心血管疾病发病机制的CpG位点的能力。这些基因在与细胞粘附、水解酶活性的正向调节、髓系白细胞活化、α-β T细胞活化等相关的术语中富集。这些富集结果与先前关于心血管疾病病理生理学分子机制的报道一致。

使用MAPLE进行2型糖尿病风险评估

T2D的风险评估可以使用与心血管疾病模型相同的方法进行。年龄和肥胖都是T2D进展过程中的强力风险因素。全身性胰岛素抵抗是一种身体对胰岛素无反应、无法将葡萄糖转化为能量的病理状态,而糖尿病前期是一种以血糖水平高于正常但尚未高到足以被视为T2D为特征的状况。患有SIR和PreD的个体更有可能进展为T2D。T2D是一种以碳水化合物、脂质和蛋白质代谢失调为特征的疾病。

对于T2D风险预测,MAPLE将DNA甲基化图谱编码到一个统一的嵌入空间中,该空间捕获了T2D相关的变异,同时最小化了技术偏差。在PCA图中,年轻的对照样本聚集在左下角,而年长和不健康的样本则位于右上角。来自不同研究的样本充分混合,表明跨数据集的稳健整合。MAPLE为每个样本计算一个T2D风险评分,T2D样本的评分最高,PreD次之。在按年龄分层的对照组中,评分随年龄增长而增加,肥胖个体显示出比正常体重个体更高的评分。SIR样本也显示出相对于年龄匹配对照组的更高风险评分。相比之下,Cox模型在不同数据集上产生的评分不一致且不可比。

图5:使用MAPLE从DNA甲基化数据估算T2D风险。 a,b. 训练和测试样本的甲基化嵌入的PCA可视化。在a中,点的颜色代表样本年龄,而在b中,点的颜色表示与T2D相关的疾病状态。 c. 箱线图比较了MAPLE和Cox模型为不同测试样本组预测的T2D风险评分。每个点代表一个独立生物学样本的预测风险评分,定义为来自单个个体的DNA甲基化图谱。图中显示了每组样本的样本量。箱线图描绘了中位数、第25和第75百分位数以及须线。 d,e. 柱状图展示了区分T2D、PreD和SIR样本与对照样本的AUROC和AUPRC值。数据以平均值表示,误差线表示从1000次自助法重采样中估计的95%置信区间。灰点代表每次自助迭代中获得的AUROC或AUPRC值,说明了自助估计的完整分布。 f. 柱状图展示了由MAPLE识别的T2D相关CpG所共定位的基因的富集通路。使用单侧超几何检验评估通路富集,P值使用Benjamini-Hochberg方法进行调整。灰色虚线表示调整后的显著性阈值0.05。

使用这些风险评分进行分类,MAPLE对T2D的AUROC达到0.96,AUPRC达到0.71,优于Cox模型。对于PreD和SIR,MAPLE的AUROC分别达到0.89和0.82,AUPRC分别达到0.48和0.39,而Cox模型的表现低于随机水平。即使在平衡正负样本之间的年龄分布后,MAPLE仍能保持这一优势。MAPLE和Cox模型都能有效分类T2D和健康样本;然而,对于PreD和SIR,MAPLE表现出比Cox模型更优越的性能。这些结果突显了MAPLE在跨数据集泛化和最小化健康个体中假阳性分类方面的优越能力。

进一步的富集分析表明,MAPLE有效地识别了由T2D引起的CpG位点。这些CpG位点定位在富含细胞粘附相关术语、学习、胰岛素分泌、典型糖酵解、葡萄糖稳态、运动行为、胰岛素受体信号通路等的基因上。这些富集结果与先前关于T2D发病机制的报道一致。

讨论

开发临床适用的表观遗传时钟仍然具有挑战性,原因有两个关键因素:DNA甲基化数据的高维性(CpG位点数量远超样本数量),以及由测序平台、预处理流程和组织来源差异引入的异质性。MAPLE通过成对学习解决了这两个挑战。使用成对输入大大扩展了有效训练样本的数量,减轻了过拟合。MAPLE不是预测绝对年龄,而是预测两个样本之间的相对年龄差异,使其能够专注于真实的衰老相关信号,同时忽略如组织类型或平台等混杂因素。这种设计也使MAPLE在疾病风险预测方面优于传统的Cox模型。

大型队列研究通常会收集大量的DNA甲基化数据和纵向临床数据,为构建慢性病风险预测模型提供了机会。然而,由于担心参与者隐私,这些研究通常只发布风险评估模型,而不发布底层的DNA甲基化和临床数据集,限制了更先进预测框架的开发。在这项研究中,MAPLE通过整合公开的DNA甲基化数据和已发布的风险模型来预测两种慢性病的风险,克服了这一挑战,展示了保护隐私的基于甲基化的风险预测的实用性。

此外,多种疾病(包括神经系统和自身免疫性疾病)的进展与DNA甲基化的改变密切相关。作为一个通用的计算框架,MAPLE可以被扩展用于为更广泛的健康结果开发预测模型。因此,MAPLE在保护参与者隐私的同时,推进了基于甲基化评估的临床实用性。

计算表观基因组学的最新进展引入了一些有价值的DNA甲基化分析方法,包括基于序列的预测算法和基础模型。这些方法为MAPLE提供了互补的方向。基于序列的方法直接从DNA序列推断DNA甲基化模式,侧重于甲基化的内在基因组决定因素。相比之下,MAPLE以DNA甲基化图谱作为输入,整合遗传和环境影响来评估衰老和疾病风险。在未来的工作中,配对的DNA甲基化和序列数据可以在MAPLE框架内共同使用。例如,DNA序列特征可以通过基于序列的模型处理,生成预测的DNA甲基化图谱,然后可以与经验测量的DNA甲基化数据整合,以改进下游预测。这种整合将有助于理清遗传决定与环境诱导的DNA甲基化变化,为理解个体健康轨迹背后的机制提供更深入的见解。

像MethylGPT这样的基础模型,可以从大规模数据中学习上下文感知的DNA甲基化表示,也可以与MAPLE结合。在这种混合架构中,MethylGPT将提供单个样本的生物学信息表示,而MAPLE将建模样本间变异,以产生表观遗传年龄或疾病风险的准确预测。这种协同作用可以显著提高基于甲基化的预测建模的精确性和鲁棒性。

方法

MAPLE的架构

我们构建了MAPLE并将其应用于两个任务:表观遗传年龄预测和疾病风险预测。这种方法解决了DNA甲基化数据集之间批次效应的挑战,并将预测能力推广到未见过的数据。下面,我们描述这两个任务的工作流程,以阐明如何使用成对学习来处理数据集间固有的不兼容性。

年龄预测任务 年龄预测任务涉及在DNA甲基化数据集P上训练一个模型,以预测保留的测试数据集Q中样本的表观遗传年龄。在年龄预测任务中,MAPLE的训练遵循两步程序,在此期间仅使用训练数据集P。保留的测试数据集Q在整个训练过程中完全不可见,以确保无偏评估。 第一步是使用成对学习生成统一的DNA甲基化嵌入。MAPLE旨在利用成对学习将DNA甲基化图谱编码到一个统一的嵌入空间中,其中保留了与衰老相关的信号,但移除了批次效应。它采用孪生网络架构,输入是一对DNA甲基化图谱,预测目标是它们之间的年龄差异。给定第i个样本的DNA甲基化图谱和第j个样本的DNA甲基化图谱,MAPLE使用一个具有共享参数的MLP作为编码器,将两个DNA甲基化图谱编码到相应的潜在表示向量中。然后,另一个MLP作为解码器,接收两个潜在向量的组合,以预测第i个和第j个样本之间的年龄差异。 第一步的损失函数是预测年龄差与真实年龄差之间的Huber损失。Huber损失有效地结合了MAE和MSE损失函数的优点。对于小误差,它类似于MSE损失,与MAE相比,有助于在训练期间更快收敛。然而,对于较大的误差,它更像MAE,相对于MSE损失,对异常值的敏感性降低。 第二步是训练年龄预测器。MAPLE旨在基于第一步训练好的编码器直接预测年龄。给定第i个样本的DNA甲基化图谱,年龄预测器以编码器的输出作为输入来预测年龄。 第二步的损失函数是预测年龄与真实年龄之间的Huber损失。 在推理阶段,第i个测试样本的表观遗传年龄通过以下计算过程预测得到。

疾病风险预测任务 在疾病风险预测任务中,模型在DNA甲基化数据集P上训练,并在保留的测试数据集Q上进行评估。 疾病风险预测模型的训练过程由两个连续的步骤组成,这两个步骤都仅在训练数据集P上执行,保留的测试数据集Q在整个过程中被严格排除。 第一步是使用成对学习生成统一的DNA甲基化嵌入。MAPLE旨在利用成对学习将DNA甲基化图谱编码到一个统一的嵌入空间中,其中保留了与疾病风险相关的信号,但移除了批次效应。给定第i个样本的DNA甲基化图谱和第j个样本的DNA甲基化图谱,MAPLE使用一个具有共享参数的编码器将两个DNA甲基化图谱编码到相应的潜在表示向量中,然后使用一个解码器将这两个潜在向量的组合转换为第i个和第j个样本之间的风险评分差异。与年龄预测相比,此处使用支持向量回归提出的ε-不敏感损失函数,因为它对噪声具有鲁棒性,并能减轻过拟合。 第二步是训练疾病分类器。给定第i个样本的DNA甲基化图谱,分类器以编码器的输出作为输入,预测疾病状态的可能性分布。 第二步的损失函数是预测疾病状态与真实疾病状态之间的交叉熵。 在推理阶段,我们在嵌入空间中计算疾病风险评分,因为分类器只能提供疾病状态,而不能提供连续的疾病风险指标。训练和测试数据集的DNA甲基化图谱被映射成嵌入。从训练数据集中,选择年龄小于20岁的个体作为健康组,选择被诊断为中风或T2D的个体作为疾病组。 对于每个测试样本,我们计算两个平均欧几里得距离:到健康组的距离和到疾病组的距离。接下来,我们基于训练数据的四分位数统计对这些距离进行归一化。最后,每个测试样本的疾病风险评分被计算出来。

实现细节

对于本文中的所有MLP,dropout概率设置为0.2,激活函数为ReLU。在年龄预测任务中,编码器由9层MLP组成,输入大小为285,898,隐藏层大小分别为1,024、1,024、512、512、256、256、64、64,输出大小为32。解码器是一个5层MLP,输入大小为96(通过拼接来自编码器的三个输出形成),隐藏层大小分别为32、32、16、16,输出大小为1。年龄预测器也是一个5层MLP,输入大小为32,隐藏层大小分别为32、32、16、16,输出大小为1。模型参数使用Adam优化器更新,第一步的初始学习率为1×10⁻⁴,第二步的初始学习率为2×10⁻⁵。Huber损失函数的参数δ设为5。在疾病风险预测任务中,编码器是一个7层MLP,输入大小为307,457,隐藏层大小分别为1,024、1,024、256、256、64、64,输出大小为32。解码器架构与年龄预测任务中使用的相同。疾病分类器是一个5层MLP,输入大小为32,隐藏层大小分别为32、32、16、16,输出大小为2。优化器设置与年龄预测任务中的一致。疾病风险预测器中使用的降维后的特征数量设置为10。ε-不敏感损失函数的ε设置为0.05。

超参数选择

为了评估超参数δ对表观遗传年龄预测的影响,我们计算了MAPLE在不同δ值下跨越31项基准测试的平均MAE。结果表明,δ值在3-7范围内提供了收敛速度和预测精度之间的最佳权衡,这与理论预期非常吻合。从理论上讲,已知Huber损失能有效平衡MAE和MSE的优点。当δ较小时,损失函数的行为类似于MAE,对异常值更鲁棒,但由于在零点不可微,收敛速度较慢。相反,较大的δ使Huber损失类似于MSE,这会加速收敛,但对异常值更敏感,可能降低泛化能力。

为了评估MAPLE对疾病风险预测任务中松弛变量ε的敏感性,我们在0-0.3范围内改变ε,并评估模型在心血管疾病任务的测试数据中对中风和疾病前状态分类的性能。我们的实验表明,将ε设置在0.05-0.15范围内可以产生最有利的分类结果。这些实证结果得到了理论分析的有力支持。在ε-不敏感损失函数中,超参数ε定义了一个“无惩罚区”,在该区域内,预测误差不受惩罚。这种机制引入了一个容忍边界,通过忽略微小偏差来改善泛化能力。然而,太小的ε会导致过度严格的约束,使模型过拟合噪声并对微小变化过于敏感。相反,太大的ε会导致过于宽松的约束,使模型对有意义的信号不敏感,并容易欠拟合。

为了论证MAPLE中MLP架构选择的合理性,我们以表观遗传年龄预测任务为例进行了消融研究。我们基于MAPLE在31个基准数据集上的平均MAE评估了不同架构配置的影响。系统地变化了三个关键超参数:编码器层数、解码器层数和网络宽度。考虑到准确性、训练速度和内存消耗,发现最佳范围是编码器层5-9层,解码器层4-7层,网络宽度为当前设置的0.75到2倍。因此,MAPLE中当前的架构选择落在经验最优范围内。

数据预处理

DNA甲基化芯片通常包含两种探针,即Infinium I型和II型探针,它们产生的β值分布非常不同,影响DNA甲基化数据的分析。在本文中,我们使用三种常用方法对DNA甲基化芯片数据进行归一化。

我们利用GMQN来校正训练数据中的批次效应和探针偏差。移除了在训练样本中超过10%值缺失的低质量CpG位点。对于年龄、心血管疾病风险和T2D风险预测任务,分别保留了285,898、307,457和303,212个CpG位点。对于训练阶段使用的CpG位点,每个CpG位点的缺失值用该CpG在其他样本中的平均β值进行填充。

为了训练疾病分类器,我们对疾病样本进行数据增强,以平衡正负样本的数量。中风和T2D样本的数量从217和29增加到2152和2059。数据增强的方法是,掩盖20%的β值,并通过用每个CpG在其他样本中的平均β值填充掩盖的值来生成新的阳性样本。

为了评估数据增强对疾病风险预测的影响,我们在心血管疾病风险预测任务上比较了以下几种模型变体:MAPLE、MAPLE_w/o augmentation、MAPLE_SMOTE、MAPLE_SVMSMOTE、MAPLE_ADASYN。结果表明,掩盖/填充方法、ADASYN和SVMSMOTE在各项任务中持续产生最强的性能。虽然SMOTE提供了适度的改进,但所有增强方法都优于没有进行任何数据增强训练的基线模型。

对比方法

在年龄预测任务中,MAPLE与五种表观遗传时钟进行了比较:HorvathAge、HannumAge、PhenoAge、AltumAge和cAge。

我们还对两个用于疾病风险预测的Cox比例风险模型进行了基准测试。Cheng等人开发了一个用于T2D风险预测的模型,该模型使用基于Cox比例风险的弹性网络回归模型,并在Generation Scotland队列上进行训练。Westerman等人使用Cox比例风险回归模型构建心血管疾病风险预测模型,该模型分别在Women's Health Initiative、Framingham Heart Study和Lothian Birth Cohorts队列上进行训练。

在本研究中,HorvathAge、HannumAge和PhenoAge通过ENmix包执行。AltumAge通过GitHub下载,cAge通过GitHub下载,基于Cox模型的心血管疾病和T2D风险预测工具也分别通过GitHub下载。

评估指标

在年龄预测任务中,我们使用MAE和PCC来评估表观遗传时钟的性能。MAE定义为预测年龄与真实年龄之间绝对误差的中位数。PCC是衡量预测年龄与真实年龄之间线性相关性的相关系数。

我们利用AUROC和AUPRC来衡量心血管疾病或T2D风险评分区分正负样本的能力。鉴于在临床背景下,负样本的数量通常远超正样本的数量,我们将负样本的数量设为正样本数量的10倍来计算这两个指标。设计了三个评估场景:负样本从整个对照组人群中抽取、从年龄匹配的对照组人群中抽取、以及从健康人群中抽取。这些场景反映了模型在对照组、年龄匹配个体和健康参与者中识别疾病或疾病前状态的能力。在此背景下,健康人群由年龄在30岁以下且体重指数低于25 kg m⁻²的对照样本组成。

由于某些疾病队列的样本量有限,我们采用基于自助法的方法来提高模型性能评估的可靠性。该方法用于计算AUROC和AUPRC。具体来说,对于每个分类任务,我们对正负测试样本的合并集进行1,000轮有放回的自助采样。在每一轮中,我们计算AUC,最终报告的值是1,000个AUC的平均值。所得分布的第2.5和第97.5百分位数作为95%置信区间的边界。这种方法使我们能够量化小样本量带来的不确定性,并提供更稳健的模型性能估计。

为了定量评估MAPLE在减轻批次效应方面的有效性,我们采用了PVCA。具体来说,我们首先对原始DNA甲基化数据和MAPLE派生的潜在表示应用PCA,保留前20个主成分用于下游分析。对于每个主成分,我们通过拟合线性模型进行方差分析,其中Age和Batch是分别代表生物学和技术变异的协变量。每个因子的平方和量化了PCi中可归因于Age和Batch的方差比例。为了获得Age和Batch的最终PVCA分数,我们使用每个PC在总PCA分解中解释的方差比例作为权重,聚合了所有20个主成分的方差贡献。

CpG位点的GO分析

我们首先识别与衰老或疾病风险最密切相关的CpG位点。这些选定的CpG位点的基因注释从450K芯片和EPIC芯片的注释文件中获得。最后,我们使用ClusterProfiler对与选定CpG位点共定位的基因集进行GO富集分析,并使用Benjamini-Hochberg方法进行多重检验校正,显著性水平设为0.05。

为了识别信息丰富的CpG位点,我们使用了一种称为IG的属性方法INCOMPLETE