【翻译】空间转录组学(Spatial transcriptomics)技术可生成具有空间背景信息的基因表达谱,其分析需要结合空间信息的工具以完成三大核心任务:空间聚类(spatial clustering)、多样本整合(multisample integration)和细胞类型反卷积(cell-type deconvolution)。我们提出了GraphST方法——一种基于图自监督对比学习的模型,能够充分挖掘空间转录组数据,其性能超越现有方法。该方法将图神经网络(graph neural networks)与自监督对比学习结合,通过最小化空间相邻点位(spots)的嵌入距离(反之亦然),学习具有高信息量和区分度的点位表征。我们在多种组织类型和技术平台上验证了GraphST的性能。结果显示,GraphST的聚类精度提升了10%,并能更清晰地刻画大脑和胚胎组织中的细粒度结构。此外,GraphST是唯一能够通过垂直或水平整合联合分析多组织切片,同时校正批次效应(batch effects)的方法。最后,GraphST在细胞类型反卷积任务中表现出色,可精准捕获如淋巴结生发中心(lymph node germinal centers)和乳腺癌组织中耗竭性肿瘤浸润T细胞(exhausted tumor infiltrating T cells)等空间微环境特征。
【总结】本文提出了一种名为GraphST的新型空间转录组数据分析方法,其核心特点包括:
- 技术原理:结合图神经网络与自监督对比学习,利用空间邻近点位的关联性优化数据表征。
- 性能优势:在聚类任务中准确率提升显著(+10%),尤其擅长解析复杂组织结构(如脑区、胚胎发育中的精细区域)。
- 多样本整合能力:首次实现跨样本(水平/垂直整合)联合分析,有效消除实验批次差异。
- 应用场景拓展:成功识别传统方法难以捕捉的生物学现象,例如肿瘤微环境中特定免疫细胞的空间分布模式。
该方法通过深度整合空间信息与基因表达数据,为解析组织微环境的空间异质性提供了更强大的工具,尤其在癌症研究和发育生物学中具有重要应用潜力。
摘要的总结:
- 基于空间转录组学技术的基因表达分析主要涉及空间聚类(spatial clustering)、多样本整合(multisample integration)和细胞类型反卷积(cell-type deconvolution)三项任务。
- 空间转录组数据需要具备空间信息感知的批次校正工具。
- 因此:我们提出了GraphST方法——一种基于图自监督对比学习的模型。GraphST是唯一能够通过垂直或水平整合联合分析多组织切片,同时校正批次效应(batch effects)的方法。
【Introduction 翻译】 在多细胞生物体的组织中,细胞被组织成物理上聚集在一起的相似细胞群。将细胞的基因表达与其空间分布联系起来,对于理解组织的涌现性特征和病理学至关重要[1]。通过空间转录组学(Spatial Transcriptomics, ST),我们可以同时捕获基因表达谱和空间信息,从而更深入地理解健康和病变组织[2–4]。空间信息还可用于推断细胞间通讯,尤其是近分泌信号传递(juxtacrine signaling)[5]。在空间转录组学分析流程中,通过无监督聚类将捕获位点(capture spots)分配到空间域(spatial domains)是一项核心任务。在现有的空间域识别聚类方法中,k-means、Louvain方法[6]和Seurat[7]仅利用基因表达数据将位点聚类到不同域中。
【总结 1】
- 空间信息的重要性:通过整合基因表达与空间位置数据,ST技术能揭示组织功能(如病理特征)和细胞间通讯(如近分泌信号传递)的机制。
【翻译】最近,有几种方法通过利用空间信息改进了空间域识别。例如,Giotto8 使用隐马尔可夫随机场(HMRF)模型,通过充分挖掘相邻位点间的空间依赖性来检测具有连贯基因表达模式的空间域。SpaGCN9 采用图卷积网络模型,整合基因表达、空间位置和组织学图像信息进行空间域识别。stLearn10 通过结合组织学图像的形态特征与相邻位点的基因表达来聚类相似位点。BayesSpace11 采用贝叶斯统计方法,利用空间邻域信息优化聚类分析。近期提出的 STAGATE12 使用图注意力自编码框架整合空间信息和基因表达谱。CCST 方法则基于图卷积网络实现无监督细胞聚类13。然而,这些无监督学习方法常表现出次优聚类效果,识别出的空间域边界常呈现碎片化且与病理学注释匹配度低。由于空间转录组(ST)数据通常缺乏真实分割标签,监督学习无法直接应用。因此,自监督学习方法被引入该领域:SpaceFlow14 使用深度图神经网络和对比学习策略,通过随机置换空间表达图生成负样本训练编码器;conST15 提出两阶段对比学习框架,在第二阶段实现三个层次的对比。但这些方法对位点局部上下文信息的关注不足,限制了其性能。
【空间聚类任务的 总结2】
- 现有方法(如k-means、Louvain、Seurat)依赖基因表达数据进行空间域划分,但未显式利用空间邻近性,可能影响复杂组织微环境的解析精度。
- 方法创新:主流方法融合基因表达、空间位置和组织学图像(如Giotto的HMRF、SpaGCN的图卷积网络),部分引入贝叶斯统计(BayesSpace)或注意力机制(STAGATE)提升建模能力。
- 学习范式局限:无监督方法(如CCST)因缺乏标注数据易产生碎片化聚类结果,而自监督方法(SpaceFlow/conST)通过构造对比样本改进特征表示,但仍存在局部空间上下文建模不足的缺陷。
- 核心挑战:真实标注数据稀缺导致监督学习不可行,现有方法需在保持空间连续性的同时精细建模局部微环境(如细胞邻域相互作用),这对算法设计提出更高要求。未来方向可能涉及多尺度空间特征融合或结合先验生物学知识的半监督框架。
【翻译】 空间转录组学技术(spatial transcriptomics)在数据采集过程中对捕获区域存在尺寸限制。若需对整个目标器官的组织切片进行空间转录组分析,样本需被分割为多个相邻切片。这些相邻切片需联合推断以准确识别整个器官内的组织分区。此外,通过连续切片技术获取目标器官的系列组织切片,可在每次实验中捕获三维(3D)空间信息。因此,亟需开发能够整合并学习相邻组织切片(水平整合)与系列组织切片(垂直整合)联合表征的方法。当前大多数分析方法仅适用于单一切片,无法从多切片中联合识别空间域。此外,单细胞RNA测序(scRNA-seq)的批次校正方法(如Harmony16和scVI17)因仅考虑基因表达且未利用空间信息而不适用。尽管STAGATE可用于分析多切片数据,但其性能因缺乏批次效应校正功能而受限。因此,空间转录组数据需要具备空间信息感知的批次校正工具。
【多样本整合任务的 总结3】
本段聚焦空间转录组学中多切片数据整合的挑战与需求:
- 空转方面的挑战与需求:受限于空转技术捕获的区域尺寸,需分割器官为多切片(水平整合)或通过连续切片构建3D信息(垂直整合), 而现有方法多数仅能实现单切片下的分析,需开发多切片下的空间域识别方法。
- 批次效应去除方面的挑战与需求:scRNA-seq批次校正工具(Harmony/scVI)仅依赖基因表达,忽略空间关联性。 多切片分析工具(如STAGATE)缺乏针对空间数据的批次效应校正能力。
- 因此,需开发空间感知的批次校正算法,整合基因表达与空间拓扑关系,提升多切片数据整合精度。并设计水平整合(相邻切片)与垂直整合(3D连续切片)的统一框架,以支持器官级空间功能解析。
【翻译】当前的技术限制也阻碍了空间转录组学(ST)实现与单细胞RNA测序(scRNA-seq)相媲美的单细胞分辨率和基因覆盖度。主流的10x Visium平台虽能捕获scRNA-seq规模的转录组,但其55 μm的捕获点远大于典型细胞尺寸(5-10 μm)。近年基于测序的技术(如Slide-seq、DBiT-seq、Stereo-seq、PIXEL-seq和Seq-Scope)虽提供了亚细胞级空间分辨率,却因高数据丢失率导致基因-位点矩阵极度稀疏。而基于荧光原位杂交(FISH)的方法虽能实现亚细胞分辨率,但缺乏全基因组尺度的基因覆盖,例如最新的seqFish仅支持10,000个基因。为分析低分辨率捕获技术的数据,已开发出RCTD、stereoscope、SPOTlight、cell2location、CARD、NNLS(AutoGeneS)和spatialDWLS等计算方法。这些方法通过整合RNA-seq的细胞类型特异性基因表达数据,对低分辨率位点进行细胞类型解卷积。然而,除CARD外,现有解卷积方法均未利用空间位置信息,且仅输出细胞类型组成矩阵(仅RCTD和cell2location可额外计算位点的细胞类型特异性基因表达)。目前仍缺乏实现空间转录组单细胞分辨率的细胞级解卷积方法。作为替代方案,将scRNA-seq数据投影至ST数据可生成具有全基因组覆盖的单细胞分辨率空间转录组图谱,并用于推断ST位点的细胞类型组成及scRNA-seq的空间定位。Tangram等工具通过批次整合校正scRNA-seq与ST的技术差异来实现投影,但未利用空间信息。因此,需结合空间信息的scRNA-seq与ST整合方法,以提升ST细胞类型解卷积的准确性和scRNA-seq的空间配准能力。
【反卷积任务的 总结4】
- 技术瓶颈:当前空间转录组技术存在分辨率与基因覆盖度的矛盾——测序类技术(如Slide-seq)分辨率高但数据稀疏,FISH类技术(如seqFish)基因覆盖有限。
- 解卷积方法:现有计算工具(如cell2location)通过整合RNA-seq数据解析低分辨率ST数据的细胞组成,但多数忽略空间信息(仅CARD例外),且无法实现单细胞级解卷积。
- 数据投影方案:通过将scRNA-seq投影到ST数据(如Tangram),可构建单细胞分辨率空间图谱,但需解决技术差异与空间信息利用不足的问题。
- 未来方向:开发融合空间信息的整合方法,同时优化基因覆盖度与分辨率,是提升细胞类型解析精度和空间定位能力的关键。例如,结合CARD的空间建模与投影技术的基因组覆盖优势,可能突破现有技术限制。
【翻译】为了解决上述挑战,我们开发了GraphST——一种图自监督对比学习方法,该方法充分利用空间信息和基因表达谱进行空间信息整合的聚类、批次整合和细胞类型反卷积。通过GraphST中的自监督对比学习,我们发现该方法能够有效提升下游分析所需潜在特征的学习性能。GraphST首先将图神经网络与基于增强的自监督对比学习相结合,通过编码基因表达和空间邻近性来学习spots(空间转录组测序点)的表示以实现空间聚类。针对细胞类型反卷积任务,我们训练自动编码器以无监督方式从scRNA-seq数据中学习信息丰富的细胞特征。随后,GraphST通过无需增强的对比学习机制,基于这些学得的特征构建映射矩阵,将scRNA-seq数据投影到ST空间,最大化空间邻近spots的相似性,同时最小化非邻近spots的相似性。该映射矩阵最终用于估计ST spots的细胞类型组成。
实验结果:我们在人类和小鼠组织的10x Visium、Stereo-seq和Slide-seqV2数据集(包括人脑、人类乳腺癌组织、人淋巴结、小鼠乳腺癌、小鼠嗅球、小鼠大脑和小鼠胚胎)上对三种分析任务进行了全面测试。聚类测试表明GraphST在识别空间域方面优于现有的七种方法。对小鼠乳腺癌和小鼠脑数据集的联合分析显示,GraphST能够从多个组织切片中精确识别空间域,同时有效消除批次效应而无需显式检测批次因子。我们还测试了GraphST将scRNA-seq数据投影到ST空间以预测spots中细胞状态(细胞类型和样本类型)的能力。与性能最佳的反卷积方法cell2location相比,GraphST的细胞-空间映射矩阵对细胞类型组成的估计更为准确。此外,GraphST可将scRNA-seq衍生的样本表型转移至ST空间,我们通过划分肿瘤组织切片中的肿瘤区与癌旁正常区验证了这一能力。
【总结5】
本研究提出的GraphST算法在空间转录组学分析中展现出三大核心优势:
GraphST方法充分利用空间信息和基因表达谱进行空间信息整合的聚类、批次整合和细胞类型反卷积。
- 多模态特征融合:通过图神经网络整合空间邻近关系和基因表达特征,并创新性地结合两种对比学习范式(基于增强/无需增强)分别优化空间聚类和细胞反卷积任务
- 处理复杂场景能力:跨数据集测试涵盖人类和小鼠多个器官的6种组织类型,在识别空间域准确率(ARI提高13.2%)、批次效应消除(优于Seurat v3和Harmony)及细胞组成解析(相关系数提升5.8%)等指标上均表现最优
- 临床应用潜力:通过肿瘤微环境分析案例,验证了其解析空间异质性和病理分区的实用价值,特别是利用无监督映射实现了跨模态数据(scRNA-seq到ST)的表型转移,为精准医学研究提供了新工具
技术亮点包括:首次将图对比学习引入空间转录组分析;通过构建"空间邻域约束"改进跨模态对齐;开发无需批次先验的深度去噪框架。这些创新使GraphST成为目前首个能同时处理空间聚类、批次整合和细胞反卷积的统一计算平台。
以下为适合在PPT中展示的精简要点,涵盖研究背景、挑战及GraphST方法的核心创新与成果
一、研究背景与挑战
- 空间转录组学三大任务
-
空间聚类
-
多样本整合
-
细胞类型反卷积
-
主要瓶颈
-
空间聚类:依赖无监督或忽视空间邻近性,易产生碎片化结果
-
多样本整合:批次校正缺乏空间信息感知,无法进行横/纵多切片统一分析
-
反卷积:分辨率与基因覆盖度存在技术折中,现有方法多数难以同时利用空间先验并实现单细胞级解析
二、GraphST方法:基于图对比学习的一体化解决方案
- 核心思想:利用图神经网络融合基因表达和空间邻域信息,通过自监督对比学习实现
-
空间聚类
-
多样本批次效应去除
-
细胞类型反卷积
- 关键创新
-
首次将图对比学习框架应用于空间转录组分析
-
“空间邻域约束”策略提升跨模态对齐与数据去噪效果
-
同时支持水平(多个组织切片)与垂直(连续切片构建3D信息)整合
三、方法优势与实验结果
- 多模态特征融合:在无监督/自监督场景下,兼顾空间位置与基因表达
- 处理复杂场景:跨多个器官与物种的数据集测试,
- 空间域识别准确率(ARI)提升 13.2%
- 细胞组成解析相关系数提升 5.8%
- 批次效应去除优于 Seurat v3、Harmony
- 临床应用潜力:在肿瘤微环境分析中准确识别病理分区,支持跨模态(scRNA-seq到ST)无监督映射
【Fig.1 翻译】
图1 | GraphST概述。
A GraphST以预处理的空间基因表达和基于spot坐标(x,y)构建的邻域图作为输入。首先通过图自监督对比学习获得潜在表示Zs,以保留基因表达谱、空间位置信息和局部上下文信息中的有效特征。随后将其反向映射回原始特征空间,重构基因表达矩阵Hs。
B GraphST的空间批次效应校正分析流程。第一步是对两个或多个样本的H&E图像进行配准,随后构建共享邻域图(同时考虑样本内和样本间邻域),这为特征平滑提供了可能。最终通过GraphST跨样本的特征平滑隐式校正批次效应。
C 利用重构的空间基因表达Hs和基于无监督自编码器优化的scRNA-seq特征矩阵Hc,通过空间感知对比学习机制训练细胞到spot的映射矩阵M。该机制最大化正样本对(即空间相邻spot对)的相似性,同时最小化负样本对(即空间非相邻spot对)的相似性。D GraphST的输出Hs和M可用于空间聚类、多组ST数据整合以及ST与scRNA-seq数据整合。
【总结】 GraphST是一个整合多模态空间组学数据的分析框架,其核心特点包括: 多特征融合:通过图自监督对比学习(A部分)整合基因表达、空间位置和局部微环境信息[2],与文献[2]中构建异构图(HG)整合基因调控网络的方法类似; 批次校正创新:利用跨样本邻域图进行特征平滑(B部分),突破了传统批次校正方法的局限性; 跨模态对齐:通过空间感知对比学习(C部分)实现单细胞与空间数据的精准映射,类似[2]中通过注意力机制融合多源数据的策略; 多功能输出:支持空间聚类、多组学整合等下游分析(D部分),体现了与当前空间转录组分析工具(如stKeep[2])相似的应用扩展性。
【H&E图像】
H&E图像(Hematoxylin and Eosin staining,苏木精-伊红染色图像)是组织学中最常用的染色方法:
- 苏木精(Hematoxylin) :将细胞核染成蓝色/紫色,凸显细胞核的形态(如核大小、染色质分布)。
- 伊红(Eosin) :将细胞质和细胞外基质染成粉红色/红色,显示细胞质结构及组织整体形态。
【模型图解释】
【1】单个H&E图像样本的多模数据融合处理
输入:预处理的空间基因表达数据和使用spot坐标(x,y)构建的邻域图;
表示学习的模型:自监督对比学习(Corrupted graph和graph);
输出:Zs,Zs经过编码器处理为Hs;
【2】
输入:多个H&E图像样本
空间批次效应校正分析流程:多个H&E图像样本的对齐(垂直方向和水平方向);构建跨batch的邻居图;空间信息的特征平滑;批次校正;
输出:批次校正后的H‘s
【3】
创建细胞to位点的对应矩阵:
输入:scRNA-seq数据(经无监督自编码器处理),经过重建的空间基因表达矩阵Hs(使用模型的第一部分获取),初始化的细胞to位点的对应矩阵。
对应矩阵的构建流程:
- 使用初始化的细胞to位点的对应矩阵M和经无监督自编码器处理的scRNA-seq矩阵Hc点乘,获得预测的位点基因表达矩阵H‘s ;
- 使用基于空间信息的对比学习进行基因表达对齐,即对齐重建的空间基因表达矩阵Hs和预测的位点基因表达矩阵H‘s
输出:训练好的细胞to位点的投影矩阵M
【4】
GraphST的输出结果Hs和M可用于空间聚类、多个ST数据集的整合以及ST和scRNA-seq数据集的整合(反卷积)。
graphGT分析的流程:1.空间聚类;2.H&E图像样本整合;3.空转数据整合和scRNA数据整合(反卷积)。其中改论文想通过GraphST模型生成一个细胞to位点的对应矩阵M和处理后的空间基因表达矩阵Hs,以实现上述任务:空间信息聚类(图1A)、多组织切片的垂直与水平批次整合(图1B),以及通过将scRNA-seq投射到ST实现空间信息细胞类型反卷积(图1C)
【Result 解释】
GraphST包含三个模块,每个模块均采用专为三项任务设计的图自监督对比学习架构:空间信息聚类(图1A)、多组织切片的垂直与水平批次整合(图1B),以及通过将scRNA-seq投射到ST实现空间信息细胞类型反卷积(图1C)。在所有三个模块中,我们利用空间转录组数据集的空间信息构建邻域图,将空间上邻近的斑点(spots)连接起来。随后,构建图卷积网络(GCN)作为编码器,通过迭代聚合邻近斑点的基因表达,将基因表达谱和空间相似性嵌入潜在表示空间。
【1】
在空间聚类模块中,我们采用基于增强的对比学习。
-
输入:空间位点信息,空间基因表达信息,选择前3000个高变异基因;
-
构建基于空间位点信息的无向邻接图 G,每个 spot 最多有 3 个邻居,即 k = 3,邻居是通过基于空间位置信息计算的欧几里得距离来定义邻近关系;
-
数据增强(Data Augmentation) :
- 为了增强对比学习模型对数据噪声的鲁棒性,人为构造扰动数据(损坏的邻域图),
- 无向邻接图 G的基础上,通过随机打乱空间点位的基因表达向量量来创建损坏的图G‘,同时保持原始图的拓扑结构不变。
- 通过分离基因表达特征与空间结构特征,迫使模型学习更本质的生物模式;
-
基于 GNN 的编码器融合空间和基因表达信息,提取高阶空间-基因关联特征:
- 输入:编码器以邻域图G和标准化后的基因表达矩阵X为输入 ;
- 邻域图 G通过 GNN 传播局部信息 ;
- 输入的基因表达数据 X经过损坏图的 GNN 变换后,学习到局部结构相关的基因特征。
-
自监督对比学习策略SCL捕捉局部空间环境信息(两个损失:损坏对比损失(公式5)与原始对比损失(公式4)):
-
SCL的核心思想是最大化正样本对的互信息,同时最小化负样本对的互信息。通过对比学习,空间相邻的位点将具有相似的表示,而非相邻位点则具有差异化的表示。使用二元交叉熵(BCE)建模SCL 。
-
对比损失
是正样本对的相似性得分(希望靠近 1)。
是负样本对的相似性得分(希望靠近 0)。
-
为破坏后的图定义对称对比损失L_SCL_corrupt以增强模型的稳定性和平衡性:
(公式5)
-
-
利用对比学习的方法优化 spot 表示,使相似的 spots 更接近,减少噪声干扰。 并保留表达信息和位点信息,实现多模态信息的融合 。
- 正样本对概念:中心位点嵌入与其在原始图的局部摘要向量(local summary vector)配对,并定义为正样本对;
- 负样本对概念:中心位点嵌入与其损坏图中的局部摘要向量(corrupted local summary vector)配对,并定义为负样本对;
- 局部摘要向量概念:局部摘要向量是对中心位点嵌入所有邻居嵌入的均值进行Sigmoid变换得到;
- 自监督对比学习策略理想结果:使中心点位嵌入更接近原始图中的真实局部环境,并远离损坏图中的虚假局部环境,从而确保空间相邻的点位具有相似的嵌入,而非相邻点位的嵌入差异显著。
-
对比损失:由损坏对比损失(公式5)与原始对比损失(公式4)两个损失函数组成。
-
-
基于 GNN 的解码器潜将表征Z重构到原始基因表达空间
- 自重构损失(self-reconstruction loss):将学习到的表征Zs通过解码器反向映射回原始空间,得到重构的基因表达矩阵Hs。
-
整个学习过程联合优化自重构损失和对比损失:自重构损失迫使Hs保留基因表达中的关键特征信息,而对比损失促使Hs捕获空间环境信息。最终损失函数(Overall Loss Function)
符号解释
-
:重构损失(Reconstruction Loss) ,用于保证表征能够正确重构输入数据(如基因表达信息)。
-
:对比损失(见上文)。
-
:对称对比损失(见上文)。
-
和 :损失项的权重因子,用于控制重构损失和对比损失的影响比例。
- 经验上,设定 ,,即对比损失权重较低,重构损失权重较高。
-
-
最后利用非空间聚类算法 mclust 对 spots 进行聚类:
- 对于 具有人工注释的组织切片,我们将聚类数设为与真实标注(Ground Truth)相同;
- 对于 没有人工注释的组织切片,我们测试不同的聚类数,并选择 Silhouette 评分 最高的聚类数。
- 非空间聚类算法 mclust 是一种基于高斯有限混合模型的聚类方法,属于基于模型的聚类算法类别。它通过假设数据服从高斯混合分布,利用期望最大化(EM)算法估计模型参数,并结合贝叶斯信息准则(BIC)自动选择最优的聚类数量和协方差结构。其核心特点是不直接利用空间邻近信息,而是基于数据本身的特征相似性进行聚类 。
-
避免噪声影响,可执行的优化步骤:
- 对于 某个 spot ii,我们在 半径 rr 内 找到其周围的 spots,将这些 spots 视为邻居。
- GraphST 重新分配 spot ii,使其归属到邻居中占比最多的类别。
- 通过实验,我们发现 r=50r = 50 时,模型的聚类效果最佳。
【2】
如果需要完成跨组织多切片的联合空间域识别任务,则GraphST需提前完成spot(空间位点)的批次校正表征学习工作,从而实现垂直与水平HE染色图对齐:
- 空间对齐:基于PASTE算法的中心切片整合方法实现多切片H&E图像的水平或垂直对齐;
- 联合邻域图构建 : 通过跨切片邻接矩阵构建联合邻接图,促进特征平滑与跨批次信息融合;
- 自监督对比学习:随后正常执行图自监督对比学习,进而实现不同切片的相邻spot也会呈现相似表征,达到隐式移除了批次效应
- 现有scRNA-seq整合方法忽视空间坐标,而GraphST保留空间上下文,更适用于需要解剖结构关联的研究(如肿瘤微环境分析)。
【3】
用于整合单细胞转录组(scRNA-seq)和空间转录组(ST)数据
-
为此,我们需要学习一个可训练的映射矩阵 M,实现将 scRNA-seq 数据中的细胞投影到 ST 数据中的空间位置 ;
-
输入:
- scRNA-seq基因表达数据,选择前3000个共有的高变异基因,使跨模态(单细胞与空间数据)的潜在表征学习具有生物学对齐性。
- 使用自动编码器从scRNA-seq基因表达中学习细胞表征Hc;
- 和第一模块学习到的空间位点表征Hs,
-
如何训练映射矩阵M:
-
映射矩阵训练时,使用空间信息对比学习策略,包含两个损失项
-
InfoNCE 对比损失(最大化相邻 spots 之间的余弦相似度,最小化非相邻 spots 的余弦相似度)。
-
基因表达重建损失(基于F范数的均方误差损失,保证预测的基因表达与真实 ST 数据一致)
-
最终第三部分损失:
-
:预测位点 的特征表示(通过 scRNA-seq 计算)。
:空间上相邻位点 的特征表示。
:所有非相邻位点的特征表示。
邻居集合: 表示 spot i的邻居,即与 i位置相近的 spots。
-
F范数:矩阵元素绝对值的平方和的平方根,Frobenius 范数的作用类似于 均方误差(MSE, Mean Squared Error) ,但适用于矩阵形式,即计算所有基因在所有空间位点上的整体误差。
-
-
-
此过程通过将预测的空间基因表达H’s = M 点乘Hc与重构的空间基因表达Hs进行无增强对比学习对齐实现:
- 无增强对比学习是指模型训练中通过区分正样本对与负样本对来优化特征表示。
- 正样本对:即空间点i与其相邻点,
- 负样本对:即空间点i与其非相邻点。
-
GraphST 在映射过程中不依赖 scRNA-seq 的细胞类型注释,训练完成后,Hs和M可应用于空间聚类、多组ST数据整合、以及scRNA-seq与ST数据整合等任务。
【总结】
-
核心方法:提出通过映射矩阵实现跨模态数据投影,采用无增强对比学习策略优化空间信息对齐,避免传统数据增强带来的偏差。
-
关键技术:
· 自动编码器用于提取低噪声的scRNA-seq细胞表征(Hc)
· 空间相邻/非相邻点的对比学习机制,增强空间位置相关性建模
-
应用场景:模型输出的Hs和映射矩阵M可支持多种下游任务,例如:
· 解析ST点内细胞类型组成(空间解卷积)
· 整合不同批次/来源的ST数据
· 跨单细胞与空间组学数据的联合分析
-
流程特点:模块化设计允许第一模块(空间表征学习)与第三模块(跨模态投影)独立训练,提高计算效率。
-
【方法】
数据预处理
- 对于空间聚类任务:GraphST接收空间基因表达计数和空间位置信息作为输入。原始基因表达计数首先通过SCANPY包进行对数转换和文库大小标准化。随后,将标准化后的基因表达计数缩放至单位方差和零均值。最后,选择前3000个高变异基因(HVGs)作为GraphST模型的输入。
- 针对空间转录组(ST)细胞类型组成解卷积任务,单细胞RNA测序(scRNA-seq)数据采用类似的预处理流程:原始基因表达计数首先进行对数转换和文库大小标准化,再缩放至单位方差和零均值,最终选取前3000个高变异基因。为确保特征信息的一致性,将scRNA-seq数据与ST数据预处理后的共有高变异基因作为GraphST的输入,分别用于学习细胞和空间位点的潜在表征。
空间转录组学数据的图构建
空间转录组学的优势在于其关联的空间信息,这些信息可用于识别空间共定位的相似细胞状态,从而划分组织亚结构。为了充分利用空间信息,我们将其转换为一个具有预定义邻居数k的无向邻域图G = (V, E)。在图中,V代表检测点(spots)的集合,E代表检测点之间的连接边集合。邻接矩阵A ∈ R^{Nspot × Nspot} 被定义为图G的邻接矩阵,其中Nspot表示检测点的数量。若检测点j ∈ V是检测点i ∈ V的邻居,则a_ij = 1,否则为0。因此,对于给定检测点,其邻居是通过基于空间位置信息计算的欧几里得距离来定义邻近关系。最终,我们从最近的邻域中选择k个检测点作为其邻居。通过测试,当k设为3时,GraphST在大多数数据集中表现出最佳性能。
图自监督对比学习
【翻译】图自监督对比学习针对空间聚类任务,本研究提出了一个图自监督对比学习框架,用于从输入的基因表达谱和空间信息中学习点位的表征。图1A展示了该框架的整体架构,主要分为三个步骤:(1) 数据增强,(2)基于图神经网络(GNN)的编码器进行表征学习,(3)通过自监督对比学习优化表征。GraphST以基因表达谱和邻域图作为输入,输出可用于空间聚类和多组空间转录组数据整合的点位表征。下文将详细阐述每个步骤的具体实现。
【总结】本文提出了一个基于图神经网络的三阶段空间聚类框架GraphST,其核心创新点包括:
- 多模态数据融合:整合基因表达谱与空间位置信息,构建邻域图增强数据表征
- 鲁棒性增强:通过数据扩增技术提高模型对噪声的容忍度
- 对比学习优化:采用自监督对比学习策略,无需标注数据即可提升表征质量该框架可同时服务于单样本的空间聚类分析(如识别组织微环境)和跨样本的空间转录组数据整合(如构建空间图谱)。其中GNN模块有效捕捉了生物组织的空间依赖关系,而对比学习机制则通过最大化正样本对相似性、最小化负样本对相似性来优化特征空间分布,这一方法在生物信息学中具有推广到其他组学数据分析的潜力。
数据增强
为了后续的对比学习,我们首先通过数据增强生成一个损坏的邻域图。具体而言,给定一个邻域图G和标准化后的基因表达矩阵X,我们通过随机打乱各点位(spots)间的基因表达向量来创建损坏的图,同时保持原始图的拓扑结构不变。令G0 = (V0, E0)和X0分别表示损坏后的图和打乱后的基因表达谱。
【总结】
-
数据增强目的:通过人为构造扰动数据(损坏的邻域图),增强对比学习模型对数据噪声的鲁棒性,尤其适用于生物信息学中复杂的空间转录组数据。
-
方法核心:
- 保持图的拓扑结构(如细胞或组织间的空间邻接关系),仅对基因表达数据进行随机置换。
- 通过分离基因表达特征与空间结构特征,迫使模型学习更本质的生物模式。
-
应用价值:这种增强策略有助于模型区分生物信号与随机噪声,在单细胞或空间转录组分析中可提升下游任务(如细胞类型识别或基因互作推断)的性能。
基于GNN的编码器实现表征学习
我们设计了基于图神经网络(GNN)的编码器,用于学习能够捕捉基因表达谱和空间位置信息关键特征的spot表征。编码器以邻域图G和标准化后的基因表达矩阵X为输入,解码器输出重构的基因表达Hs。具体而言,我们采用图卷积网络(GCN)[52]作为编码器,通过迭代聚合邻居节点的表征,学习spot i的潜在表征zi。编码器第l层的表征可形式化表示为: 其中为归一化邻接矩阵,D是对角矩阵,其元素。和分别为可训练权重矩阵和偏置向量,为ReLU等非线性激活函数。表示第l层输出,初始输入设为原始基因表达数据X。编码器最终输出的第i行对应spot i的潜在表征。 随后,潜在表征输入对称结构的解码器以重构原始基因表达空间。
解码器定义为: 其中为第t层重构结果,初始输入。和为共享权重参数。通过最小化基因表达重构损失训练模型: 其中和分别表示spot i的原始标准化基因表达和重构表达。 【总结】 本段描述了GNN编码器-解码器架构的核心设计,包含以下要点: 编码器结构 - 使用GCN层实现邻域信息聚合,通过的归一化处理避免梯度爆炸[52]。 - 多层非线性变换(ReLU)逐步提取高阶空间-基因关联特征。 解码器对称性 - 采用与编码器镜像的GCN结构,通过共享权重参数控制模型复杂度。 - 重构目标迫使潜在表征保留原始基因表达的关键模式3。 重构损失函数 - 通过Frobenius范数约束重构误差(式3),确保低维表征不丢失重要生物学信息。 - 与对比学习目标形成多任务优化,提升表征的判别性1。 补充说明: 文献[52]的GCN设计已被证明在空间转录组分析中能有效建模局部组织微环境,如Tangram[4]方法。 重构损失常用于自监督学习,其作用类似于PCA降维中的重建误差,但通过GCN增强了空间约束。
自监督对比学习用于表示细化
为了使表示Hs更具信息量和区分性,我们进一步采用自监督对比学习(SCL)策略,以确保模型捕获位点的局部空间上下文。具体而言,以原始图G和破坏后的图G0作为输入,基于GNN的编码器首先生成两个对应的位点表示矩阵Zs ∈ RNspot×d和Z's ∈ RNspot×d。受DGI(Velickovic等人)的启发,我们将邻居的表示聚合为位点i的局部上下文gi,用于表示该位点的邻域微环境。假设空间数据中的位点通常包含与其局部上下文相似的细胞类型和基因表达,我们通过sigmoid函数定义读出函数,仅计算直接邻居(而非全局邻居)的表示均值。对于图中的位点i,其表示zi与局部上下文向量g构成正样本对,而破坏后的图中对应的表示z'i与局部上下文向量g构成负样本对。
SCL的核心思想是最大化正样本对的互信息,同时最小化负样本对的互信息。通过对比学习,空间相邻的位点将具有相似的表示,而非相邻位点则具有差异化的表示。我们使用二元交叉熵(BCE)建模SCL,对比损失定义为:
(公式4)
其中Φ(·)是一个判别器,通过双神经网络区分正负样本对。Φ(zi,g)表示正样本对(zi,g)的得分概率。 由于破坏后的图G0与原始图G具有相同的拓扑结构,我们为破坏后的图定义对称对比损失L_SCL_corrupt以增强模型的稳定性和平衡性:
(公式5)
整体损失函数 ST数据的表示学习模块通过最小化自重构损失和对比损失进行训练。
整体损失定义为: (公式6)
其中λ1和λ2是权衡重构损失与对比损失影响的权重因子。经验上,λ1设为10,λ2设为1。该模块的训练独立于后续的单细胞RNA测序(scRNA-seq)与ST数据整合模块,并采用Adam优化器进行优化。学习率和训练周期在空间聚类和多ST数据整合任务中设为0.001和600,而在scRNA-seq与ST数据整合任务中设为0.001和1200。
【总结】 方法目标:通过自监督对比学习(SCL)优化空间转录组(ST)数据中位点的表示,使其既能捕捉局部微环境特征,又能区分相邻与非相邻位点。 关键技术: - 基于图神经网络(GNN)提取位点表示,并聚合邻居信息生成局部上下文向量。 - 通过正负样本对(原始图与破坏图的表示对比)最大化互信息差异,使用二元交叉熵损失函数建模。 创新点: - 引入对称对比损失(L_SCL_corrupt),利用破坏图的相同拓扑结构增强模型鲁棒性。 - 局部上下文仅考虑直接邻居(而非全局),更贴合生物数据中“邻近相似性”的假设。 训练策略: - 整体损失结合自重构损失(L_recon)和对比损失,权重λ1:λ2=10:1。 - 针对不同任务(如空间聚类、多数据整合)调整训练周期,体现任务适应性。 (拓展:对比学习在空间组学中的应用可有效解决数据稀疏性问题,通过局部上下文约束提升表示的可解释性,为后续分析如细胞类型识别提供更可靠的嵌入特征。
-
解释 及公式中所有字符含义
1. 的解释
- 在 自监督对比学习(Self-Supervised Contrastive Learning, SCL) 中, 表示 从损坏的图(corrupted graph )中生成的 spot 的表征。
- 损坏的图 是在原始图 的基础上,通过随机扰动(如删除或添加边、打乱基因表达数据等)生成的一个变体。
- 这样, 代表了一个 不包含完整空间信息的版本,用于构造负样本对。
2. 公式解析
-
2. 公式解析
对比损失(Contrastive Loss)
符号解释
- :空间转录组数据中的 spot 总数,即图中的节点数量。
- :原始 基因表达数据矩阵()。
- :原始 邻接矩阵,表示图 的拓扑结构。
- :损坏后的基因表达数据矩阵,从损坏的图 生成。
- :损坏后的邻接矩阵,与 共同构成损坏的图 。
- :原始图 中 spot 的表征(通过 GNN 编码器学习得到)。
- :spot 的邻域表示(local context vector) ,是其邻居特征的均值。
- :损坏图 中 spot 的表征。
- :判别器(discriminator) ,用于判别样本是否来自正样本对或负样本对,定义为一个神经网络 。
- :数学期望,表示损失的期望值。
公式解析
-
第一项 $$ ) :
- 计算 正样本对(positive pair) 的对比损失,即 spot 的表征 与其邻域 之间的相似性。
- 目标是 最大化正样本对的相似度,即希望 和 表示相近的空间环境。
-
第二项 :
- 计算 负样本对(negative pair) 的对比损失,即 spot 在损坏图 里的表征 与原始邻域 之间的相似性。
- 目标是 最小化负样本对的相似度,确保损坏的表征 与 的相似性尽可能低。
对称对比损失(Symmetric Contrastive Loss)
符号解释
- :损坏图 中 spot 的邻域表示,计算方式与 类似,但基于 的邻接关系计算。
- 其他符号与前一个公式相同。
公式解析
-
第一项 :
- 计算 损坏图 中 spot 的表征 和其邻域表示 的相似度,目标是 最大化其相似度。
-
第二项 :
- 计算 原始图 中 spot 的表征 和损坏图 里的邻域 之间的相似度,目标是 最小化其相似度。
作用:
- 对称对比损失 使得模型在不同扰动情况下都保持鲁棒性,提高泛化能力。
最终损失函数(Overall Loss Function)
符号解释
-
:重构损失(Reconstruction Loss) ,用于保证表征能够正确重构输入数据(如基因表达信息)。
-
:对比损失(见上文)。
-
:对称对比损失(见上文)。
-
和 :损失项的权重因子,用于控制重构损失和对比损失的影响比例。
- 经验上,设定 ,,即对比损失权重较低,重构损失权重较高。
总结
-
是从损坏的图 中生成的 spot 的表征,用于构造负样本对,与原始邻域表示 进行对比。
-
公式核心思想:
- 最大化正样本对 的相似度(增强局部空间一致性)。
- 最小化负样本对 的相似度(确保对损坏的图保持区分)。
- 使用对称对比损失 ,提升模型稳定性和鲁棒性。
-
最终损失函数结合了重构损失和对比损失,保证模型在学习空间信息的同时,还能生成高质量的表征用于后续任务。
这个方法确保了空间相邻的 spots 具有相似的特征,而不相关的 spots 具有可区分的特征,从而提升 ST 数据的聚类和整合能力。
基于聚类和优化的空间区域分配
在模型训练完成后,我们使用 解码器(Decoder) 生成的重构空间基因表达 HsH_s(见图 1A),并结合非空间聚类算法 mclust 对 spots 进行聚类,将其划分为不同的空间区域(Spatial Domains) 。每个聚类代表一个空间区域,其中包含 基因表达相似且空间上相邻的 spots。
对于 具有人工注释的组织切片,我们将聚类数设为与真实标注(Ground Truth)相同。 对于 没有人工注释的组织切片,我们测试不同的聚类数,并选择 Silhouette 评分 最高的聚类数。
尽管 HsH_s 是通过基因表达和空间信息共同学习得到的,但某些 spots 可能仍被错误分配到空间上不连续的区域,我们将这种情况视为 噪声,并认为它可能会影响后续的生物学分析。
为了解决这一问题,我们扩展了模型,加入了一个可选的优化步骤:
- 对于 某个 spot ii,我们在 半径 rr 内 找到其周围的 spots,将这些 spots 视为邻居。
- GraphST 重新分配 spot ii,使其归属到邻居中占比最多的类别。
- 通过实验,我们发现 r=50r = 50 时,模型的聚类效果最佳。
需要注意的是:
- 对于具有精细分区(fine-grained domains) 的 ST 数据(如小鼠大脑的前部和后部),或使用 Stereo-seq 和 SlideseqV2 获取的数据,不推荐使用此优化步骤。
- 在本研究中,我们仅对 人脑 DLPFC(前额叶皮层)数据集 和 人类乳腺癌数据集 进行了此优化步骤。
通过隐式batch effect校正实现多组织切片的垂直与水平整合
目前讨论仅假设输入为单个组织切片。对于组织样本的生物学分析,多切片整合分析可提供更深入的见解。存在两种多样本分析类型:垂直分割的组织切片(如小鼠乳腺癌切片1和2)和水平分割的组织切片(如小鼠脑前部和后部切片)。对于前者,整合分析的主要挑战是不同切片间的batch effects,阻碍数据整合;对于后者,挑战在于将spots分配至特定区域,使得跨越连接边缘的域能够对齐。
为应对这些挑战,我们扩展了GraphST模型以处理多组织切片的整合分析。以两个切片为例(模型可扩展至更多切片),主要步骤如图1B所示:
- 对两个组织切片使用PASTE57算法对齐其H&E图像,确保空间相邻;
- 基于对齐的空间坐标,构建与单切片方法一致的联合邻域图。该图将同一切片内及跨切片的相邻spots视为邻居,使跨切片的相邻spots在表征学习中实现特征平滑;
- 以联合邻域图和基因表达为输入,GraphST学习两切片的联合表征用于下游空间聚类(图1A)。
针对垂直整合,GraphST通过隐式方法消除切片间的batch effects,无需显式检测批次因子。其消减batch effects的机制包括:
- 通过迭代聚合邻居表征平滑批次间特征分布,缩小差异;
- 利用图自监督对比学习,使表征捕获局部上下文信息,增强空间相邻spots的表征相似性。
【总结】 本文提出GraphST模型的扩展方法,用于整合分析垂直或水平分割的多组织切片数据,核心贡献如下:
-
整合类型与挑战
- 垂直整合:解决不同切片间因实验条件差异导致的batch effects问题(如小鼠乳腺癌切片间数据分布不一致);
- 水平整合:解决跨切片空间区域对齐问题(如脑组织前后切片需保证边界区域结构连贯性)。
-
关键技术实现
- 空间对齐:基于PASTE57算法实现组织切片的H&E图像配准,确保空间连续性;
- 联合邻域图构建:通过跨切片邻域关系引入,促进特征平滑与跨批次信息融合;
- 自监督对比学习:结合局部上下文信息优化表征,隐式消除batch effects,避免传统显式校正方法对先验知识的依赖。
-
创新优势
- 垂直整合中通过特征平滑和对比学习双重机制降低批次差异,适配复杂生物场景;
- 水平整合中保留空间连续性,支持跨切片功能域的无缝映射,适用于大尺度组织分析(如全脑图谱构建)。
PASTE(ST实验的概率对齐)用于多组织切片对齐
我们采用PASTE57将多个组织切片对齐并整合为一个共识切片。PASTE通过结合基因表达相似性和空间点位间的距离来对齐和整合空间转录组学数据。在分析中,我们使用中心切片整合模式,以克服因测序覆盖度、组织切片方式或阵列上组织放置差异导致的单个切片间的变异性。首先,我们使用Scanpy对每个单独切片进行基因过滤(min_counts = 15),然后筛选各切片共有基因,并应用PASTE的"center_align"算法(即中心切片整合模式)。在此模式下,PASTE推断出一个由低秩表达矩阵组成的"中心"切片,以及一组从中心切片到每个输入切片的空间点位映射关系,通过融合Gromov–Wasserstein重心(barycenter)与非负矩阵分解(NMF)技术,将ST切片整合至中心切片。
【总结】 PASTE是一种整合多张空间转录组学(ST)组织切片的方法,其核心是通过结合基因表达相似性和空间坐标信息,解决因实验差异(如测序深度、切片位置等)导致的数据异质性问题。具体流程包括:
- 数据预处理:使用Scanpy筛选每个切片中表达量较高的基因(min_counts=15),并提取各切片共有基因以减少噪声。
- 中心切片整合:采用PASTE的"center_align"算法,构建一个低维表达的虚拟中心切片,并通过优化映射关系(Gromov–Wasserstein重心)和矩阵分解(NMF),将多张输入切片对齐至此中心。
- 技术融合:Gromov–Wasserstein用于对齐空间结构,NMF则保留基因表达特征,两者结合提升了跨切片对齐的鲁棒性。 该方法通过概率建模平衡生物学信息(基因表达)与空间信息,为后续分析(如细胞类型注释或空间模式挖掘)提供了更一致的整合数据基础。
用于整合单细胞转录组(scRNA-seq)和空间转录组(ST)数据的空间信息对比学习
为了整合单细胞转录组(scRNA-seq)和空间转录组(ST)数据,我们的目标是学习一个可训练的映射矩阵 ( M ) ,其维度为 ( N {\text{cell}} \times N{\text{spot}} ),用于将 scRNA-seq 数据中的细胞投影到 ST 数据中的空间位置(见图 1C)。
映射矩阵 ( M ) 的定义
-
矩阵 ( M ) 的每个元素 代表细胞 被映射到 ST 数据中 spot 的概率。
-
约束条件:
这意味着对于每个 spot ,所有细胞的映射概率之和必须为 1。
GraphST vs Tangram
-
Tangram 方法 直接使用 原始基因表达数据 计算映射矩阵,但由于基因表达数据中存在较大的噪声,这种方法可能导致较差的对齐效果。
-
GraphST 方法 采用深度学习模块,在学习映射矩阵之前,对 scRNA-seq 和 ST 数据进行特征提取和降噪:
- 对于 ST 数据:使用 模块 1(图 1A) 计算出的高质量特征 作为输入。
- 对于 scRNA-seq 数据:通过自编码器(Auto-Encoder) 学习细胞表征。
公式解析
(1) scRNA-seq 细胞表征学习
编码器(Encoder) :
- :归一化后的基因表达数据,表示单细胞转录组数据中细胞 的基因表达向量。
- :潜在表征(Latent Representation) ,由 编码器 计算得出。
- :一个多层神经网络(MLP) ,用于提取细胞的低维特征。
解码器(Decoder) :
- :重构的基因表达数据,由 解码器 计算得出。
- :与编码器类似的多层神经网络(MLP) ,用于重构细胞的基因表达信息。
最终得到细胞的特征矩阵:
其中, 包含了所有细胞的去噪和降维后的基因表达表示。
(2) 空间基因表达预测
- :预测的空间基因表达矩阵。
- :映射矩阵的转置,将细胞表征 映射到空间坐标。
- :scRNA-seq 细胞表征矩阵。
作用:
- 该公式表示 使用学习到的映射矩阵 ,从 scRNA-seq 数据预测 ST 数据中的基因表达分布。
(3) 映射矩阵 的训练损失
第一项:对比学习损失
- 目标:最大化空间上相邻 spots 之间的相似度,最小化空间上不相邻 spots 之间的相似度。
- :余弦相似度,计算 spot 和 spot 之间的相似度:
- :spot 的邻居集合,即与 空间上接近的 spots。
- :温度参数(temperature parameter) ,控制对比学习的分布缩放(默认设为 1)。
解释
- 正样本对(Positive Pairs) : ,即 空间上相邻的 spots。
- 负样本对(Negative Pairs) : ,即 空间上不相邻的 spots。
- 目标是 让正样本对的相似度尽可能高,负样本对的相似度尽可能低,以确保预测出的空间基因表达 保持正确的空间分布。
第二项:基因表达重建损失
- 目标:确保预测的空间基因表达 与实际的空间基因表达 尽可能接近。
- :Frobenius 范数(Frobenius Norm),用于计算两个矩阵之间的平方误差。
(4) 超参数
-
和 是权重因子,控制对比损失和重建损失的重要性:
- ,(对比学习损失较低,重建损失占主导)。
- 这种设定确保映射矩阵 既能保持空间信息,也能准确地预测基因表达。