自监督深度学习编码蛋白质亚细胞定位的高分辨率特征编辑 | 萝卜皮解释蛋白质定位的多样性和复杂性对于充分理解细胞结构至关

编辑 | 萝卜皮

解释蛋白质定位的多样性和复杂性对于充分理解细胞结构至关重要。

在这里，Chan Zuckerberg Biohub 的研究人员介绍了 cytoself，这是一种用于完全自我监督的蛋白质定位分析和聚类的深度学习方法。Cytoself 利用一种自我监督的训练方案，不需要预先存在的知识、类别或注释。

在来自 OpenCell 数据库的 1,311 种内源性标记蛋白质的图像上训练 cytoself 揭示了一个高分辨率的蛋白质定位图谱，它概括了细胞组织的主要尺度，从粗略的类别，如核和细胞质，到单个蛋白质复合物的微妙定位特征。

该团队定量验证了 cytoself 将蛋白质聚集成细胞器和蛋白质复合物的能力，表明 cytoself 优于以前的自我监督方法。同时，为了更好地理解该模型的内部工作原理，研究人员剖析了聚类派生的新兴特征，在荧光图像的背景下解释它们，并分析该方法的每个组件的性能贡献。

该研究以「Self-supervised deep learning encodes high-resolution features of protein subcellular localization」为题，于 2022 年 7 月 25 日发布在《Nature Methods》。

系统化和大规模的基于显微镜的细胞分析正成为生物学发现越来越重要的工具，在药物筛选、药物分析和蛋白质组亚细胞定位图谱中发挥着关键作用。特别是，基于免疫荧光或内源性荧光标记的大规模数据集，全面捕获人类和酵母蛋白质组的定位模式。连同计算机视觉和深度学习的最新进展，这些数据集有望帮助系统地映射细胞的空间结构。这种情况让人想起基因组学的早期，高通量和高保真测序技术的出现伴随着新算法的发展，以分析、比较和分类这些序列以及其中的基因。

然而，图像给分析带来了独特的障碍。虽然序列可以与参考框架（即基因组）进行比较，但显微镜图像没有这样的参考。实际上，细胞表现出反映多种状态的多种形状和外观。这种丰富的多样性比序列变异性更难建模和分析。

此外，这种多样性的大部分是随机的，这带来了将生物学相关信息与不相关方差分离的额外挑战。因此，基于图像的屏幕所带来的基本计算挑战是提取引用良好的矢量表示，这些表示只忠实地捕获相关的生物信息，并允许对蛋白质定位模式进行定量比较、分类和生物学解释。

以前对图像进行分类和比较的方法依赖于对图像内容的不同方面进行量化的工程特征，例如单元格大小、形状和纹理。虽然这些特征在设计上是相关且可解释的，但基本假设是分析图像所需的所有相关特征都可以被识别和适当量化。这一假设受到了深度学习最近取得的成功的挑战。在图像分类等广泛的计算机视觉任务中，手工设计的特征无法与从数据本身自动发现的学习特征竞争。

假设特征可用，典型的方法包括通过（1）无监督聚类技术或（2）手动管理和监督学习引导注释过程。在监督方法的情况下，人工注释者检查图像并分配注释，一旦获得足够的数据，机器学习模型就会以监督的方式进行训练，然后应用于未注释的数据。另一种方法包括重用在自然图像上训练的模型来学习可以引导监督训练的通用特征。

虽然成功，但这些方法存在潜在的偏见，因为手动注释强加了我们自己的先入之见。总体而言，理想的算法不应该依赖人类的知识或判断，而应该在没有先验假设的情况下自动合成特征和分析图像，即仅基于图像本身。

计算机视觉和机器学习的最新进展表明，放弃手动标记是可能的，并且接近监督方法的性能。自我监督模型可以从大型未经管理的数据集中训练，而不是注释数据集，这本质上是不可扩展的和劳动密集型的。自监督模型是通过制定一个辅助借口任务来训练的，通常是一个保留部分数据并指示模型预测它们的任务。这是有效的，因为一条数据中与任务相关的信息通常分布在多个观察到的维度上。

例如，给定一张汽车的图片，即使隐藏了许多像素，也可以识别出车辆的存在，甚至可能在图像的一半被遮挡的情况下。现在，考虑一个包含真实世界对象图片的大型数据集（例如 ImageNet）。训练一个模型来预测这些图像中的隐藏部分会迫使它识别它们的重要特征。一旦经过训练，pretext 任务中出现的矢量表示将捕获图像的重要特征，并可用于比较和分类。

图示：用细胞自身进行蛋白质亚细胞定位的自我监督深度学习。（来源：论文）

Chan Zuckerberg Biohub 的研究人员介绍了 cytoself 的开发、验证和使用，这是一种基于深度学习的完全自我监督的蛋白质定位分析和聚类方法。关键的创新是一个借口任务，它确保从同一蛋白质的不同图像中出现的定位特征有助于区分该蛋白质的显微镜图像和数据集中其他蛋白质的图像。研究人员展示了 cytoself 将图像简化为蛋白质定位特征特征的能力，验证它们用于预测蛋白质分配给细胞器和蛋白质复合物的能力，并将 cytoself 的性能与以前的图像特征化方法进行比较。

研究表明，仅基于大型高质量荧光图像数据集，自我监督训练方案可以生成捕获蛋白质亚细胞定位组织的图像表示。该模型生成了一个高分辨率定位图谱，不仅能够描绘细胞器，还能够描绘蛋白质复合物。

图示：高分辨率蛋白质定位图谱。（来源：论文）

此外，可以用特征谱表示每个图像，以更好地分析数据中存在的定位模式的全部内容。由于蛋白质的定位与其细胞功能高度相关，因此细胞自身将成为对未知或研究不足的蛋白质进行初步功能预测以及定量研究细胞扰动和细胞状态变化对蛋白质亚细胞定位的影响的宝贵工具。

他们的方法几乎没有假设，但强加了两个借口任务（即图像和蛋白质身份）。其中，要求模型仅根据其定位编码来识别蛋白质是必不可少的。研究人员还将 Hoechst DNA 染色作为基准标记，假设这将提供一个空间参考框架来解释定位。然而，这对模型在聚类得分方面的性能几乎没有影响。

图示：探索蛋白质定位图谱。（来源：论文）

相比之下，多伦多大学 Lu 团队的自我监督方法应用了一个借口任务，该任务通过其基准标记和来自同一 FOV 的第二个不同细胞中的荧光信号来预测一个细胞中标记蛋白质的荧光信号。这假设基准通道可用，并且蛋白质荧光始终与这些基准密切相关。

论文链接：journals.plos.org/ploscompbio…

相比之下，Chan Zuckerberg Biohub 研究团队的方法只需要一个荧光通道并产生更好的聚类性能。

图示：聚类性能比较。（来源：论文）

该工作与人类蛋白质图谱图像分类竞赛解决的问题之间的主要区别在于，其的目标不是基于手动注释来预测定位模式。相反，他们的目标是从头发现可能的蛋白质定位的景观。这摆脱了某些注释的局限性，包括：缺乏统一的覆盖范围、不均匀的注释粒度、人类感知偏差和对细胞结构的现有偏见。这也避免了手动注释图像所需的时间密集型工作。

虽然功能强大，但仍有一些途径可以进一步发展细胞自身。例如，使用二维 (2D) 最大强度 z 投影训练模型，但尚未利用 OpenCell 数据集中可用的完整三维 (3D) 共焦图像。第三维可能赋予特定蛋白质定位模式的优势，其特征在于沿基底 - 顶端细胞轴的特定变化。

其他需要探索的重要主题是残余批次效应的自动抑制、通过额外的基准通道改进细胞分割、使用无标签成像模式，以及从训练数据集中自动拒绝异常或不典型的细胞。更根本的是，显着的概念改进将需要改进的自我监督模型，该模型明确地将细胞异质性与定位多样性分开。

更一般地说，该方法生成数据的能力超过了人类手动注释的能力。此外，已经有充分的证据表明，丰富的图像数据具有其自身的品质：增加图像数据集的大小通常比改进算法本身对性能的影响更大。研究人设想自我监督将成为处理由新仪器、端到端自动化和高通量基于图像的分析产生的大量数据的强大工具。

论文链接：www.nature.com/articles/s4…

相关报道：phys.org/news/2022-0…