发展历史
今天我们大部分人认为,现代生物信息学是最近出现的,有利于下一代测序数据分析。然而,生物信息学的起源发生在50多年前,当时台式计算机仍然是一个假设,DNA还不能测序。
生物信息学的基础,是在上世纪60年代初,随着计算方法在蛋白质序列分析中的应用而奠定的(特别是从头序列组装,生物序列数据库和替代模型)。后来,DNA分析测序也出现了,分子生物学方法的平行进展,使得DNA及其测序更易于操作;计算机科学的兴起,出现了更适合生物信息学任务处理的新型软件。在 90 年代到 2000 年代,测序技术的重大改进以及成本的降低导致数据呈指数级增长。
“大数据”的到来,在数据挖掘和管理方面提出了新的挑战,我们需要从计算机科学到该领域的更多专业知识。加之生物信息学工具数量的不断增加,生物大数据对生物信息学结果的预测能力和可重复性具有更加深远的影响。最近的子学科,如合成生物学,系统生物学和细胞建模,已经从计算机科学和生物学之间不断增长的互补性中出现[1]。
人类基因组计划:
人类基因组计划(HGP)是历史上最伟大的探索成就之一。HGP不是对行星或宇宙的向外探索,而是由一个国际研究小组领导的向内发现之旅,旨在对我们人类的所有基因(统称为基因组)进行测序和绘制图谱。
从1990年10月1日开始,到2003年4月完成,HGP让我们第一次有能力阅读完整的人类基因蓝图。最终,它提供了一个非常高质量的人类基因组序列,几乎完成,占人类基因组的92%。当时,DNA测序技术无法继续完成这项任务。因为这些区域含有高度重复的DNA,剩余约8%的人类基因组特别难以测序。
自人类基因组计划结束以来,更强大的技术,如长期读取的DNA测序方法和更新的计算工具,帮助研究人员对重复丰富的基因组区域进行测序。
2022年4月1日,《科学》(Science)杂志一口气发表6篇来自端粒到端粒(T2T)联盟论文,公布历史首个完整无间隙的人类基因组序列,报告了人类基因组的第一个真正完整的序列。该序列超过30亿个碱基对长,横跨23条染色体是完全无间隙的。
T2T联盟进一步使用这个新完成的基因组序列作为参考,发现了超过200万个额外的基因组变异。这些信息对于全面了解人类基因组如何变化以及调查这些新发现的变异如何影响健康和疾病是有价值的[2-7]。
发展目标:
生物信息学是计算科学的一个领域,与生物分子序列的分析有关。通常是指基因,DNA,RNA或蛋白质,并且在比较生物体内或生物体之间的蛋白质和其他序列中的基因和其他序列,观察生物体之间的进化关系以及使用存在于DNA和蛋白质序列中的模式来弄清楚它们的功能特别有用。
你可以把生物信息学看作是遗传学的语言学部分。也就是说,语言学的人正在研究语言中的模式,这就是生物信息学人们所做的——在DNA或蛋白质序列中寻找模式。
为了研究正常细胞活动在不同疾病状态下是如何改变的,必须结合生物数据来形成这些活动的全面图景。因此,生物信息学领域已经发展到现在最紧迫的任务涉及对各种类型数据的分析和解释。这还包括核苷酸和氨基酸序列,蛋白质结构域和蛋白质结构。
解释数据的实际过程被称为计算生物学。生物信息学和计算生物学中重要的子学科包括:开发和实施计算机程序,以便能够有效地访问,管理和使用各种类型的信息。开发新算法(数学公式)和统计措施,以评估大型数据集成员之间的关系。例如,有一些方法可以在序列中定位基因,预测蛋白质结构和/或功能,并将蛋白质序列聚类为相关序列家族。
生物信息学的主要目标是增加对生物过程的理解。然而,它与其他方法的不同之处在于,它专注于开发和应用计算密集型技术来实现这一目标。
示例包括:模式识别、数据挖掘、机器学习算法和可视化。该领域的主要研究工作包括序列比对,基因发现,基因组组装,药物设计,药物发现,蛋白质结构比对,蛋白质结构预测,基因表达和蛋白质 - 蛋白质相互作用的预测,全基因组关联研究,进化建模和细胞分裂/有丝分裂。
生物信息学现在需要创建和改进数据库,算法,计算和统计技术以及理论,以解决生物数据管理和分析中出现的形式和实际问题。
在过去的几十年里,基因组和其他分子研究技术的快速发展与信息技术的发展相结合,产生了大量与分子生物学相关的信息。生物信息学是这些数学和计算方法的名称,用于收集对生物过程的理解。
生物信息学中的常见活动包括绘制和分析DNA和蛋白质序列,对齐DNA和蛋白质序列以进行比较,以及创建和查看蛋白质结构的3D模型。
不同的研究水平: 能够简单的运行程序/脚本 能够将程序/脚本改进后运用到自己的项目 能够独立的写一个项目的程序/脚本
程序员:能够通过改进算法/优化程序/重写软件设计性能最佳的程序 科研工作者:能够选择最佳的分析策略来回答科学问题
基因测序: 自从1977年第一个噬菌体Phage Φ-X174 被测序以来,到目前为止已有数千种生物完成测序并储存在数据库中,对测序序列进行数据分析确定编码蛋白质,CDS,内含子,外显子等等。一个物种内或不同物种之间基因的比较可以探究蛋白质功能之间的相似性,或物种之间的关系
测序发展:
DNA测序成本:数据 (genome.gov)
在这两个图表中,2001年至2007年10月的数据代表了使用基于Sanger法测序产生的成本(“第一代”测序平台)。从2008年1月开始,这些数据代表了使用“第二代”测序平台产生的成本。仪器的变化代表了近年来DNA测序技术的快速发展。
基因测序:
现在主流的测序平台包括Illumina、PacBio、Nanopore,前两种是边和成边测序通过荧光标记来识别不同的碱基,Nanopore是基于DNA分子通过单分子纳米孔时由于不同碱基的电阻不一样,膜两侧的电压不一样最终通过不同强度的电流信号来判断不同的碱基。
基因组组装:
在生物信息学中,基因组组装代表了将大量短DNA序列重新组合在一起以重建DNA起源的原始染色体的过程。序列组装是执行下一代测序、PacBio SMRT测序或纳米孔测序后的基本步骤之一。
已建立的基因组组装可以提交到数据库,例如EMBI,NCBI和Ensembl。有两种不同类型的基因组组装:从头组装和映射到参考基因组。从头组装是指在没有参考基因组的情况下下从头开始组装新的基因组。映射到参考基因组是指直接将清洗后的数据比对到参考基因组(物种的代表基因组)上,基因组组装变得更加容易,更快,更准确。
基因组注释
当我们做完基因组组装之后,我们接下来需要对我们的基因组注释,鉴定基因组元素及其功能的过程称为基因组注释,虽然“基因组注释”主要用于狭义上基因组上的基因结构(mRNA),但它最近已被用于广义上的任何基因组元素。
在扩大注释范围后,我们有了关于各种其他功能元素的信息,包括非编码RNA,启动子和增强子序列,DNA甲基化位点等。尽管如此,基因组注释的核心特征仍然是基因列表,特别是蛋白质编码基因[8] 。
基因功能预测:
通过计算方法进行基因预测以找到蛋白质编码区域的位置是生物信息学中的基本问题之一。基因预测基本上意味着沿着基因组定位基因。也称为基因发现,它是指识别编码基因的基因组DNA区域的过程。这包括蛋白质编码基因,RNA基因和其他功能元素,如调节基因。
其基础是发现EST(表达的序列标签),蛋白质或其他基因组与输入基因组之间的基因序列相似性。一旦某个基因组区域与EST,DNA或蛋白质之间存在相似性,就可用于推断该区域的基因结构或功能[9],常用的软件是BLAST。目前,大量的基因功能预测方法使用基因本体论(GO)作为功能分类的来源或结果来确认。