一、编码基因预测
基因预测(gene finding)或基因注释(gene annotation)主要是预测DNA序列中编码蛋白质的区域(CDS),目前主要针对两类序列预测:
针对少量目标序列进行预测,鉴定序列上可能的功能基因; 针对新测序基因组进行全基因组水平的基因预测;
预测方法主要有三种:从头预测(ab initio method)、同源对比(homology method)和转录本组装。
- 从头预测:根据编码区统计特征(CpG岛、HMM等)和基因信号进行基因结构预测;
- 同源对比:利用近缘种已知基因进行序列比对,发现同源序列,并结合基因信号(内含子外显子剪切信号、基因起始和终止密码子等)进行基因结构预测;
- 转录本组装:通过目标物种转录组(RNA-seq)或其他基因表达序列(如早期的EST序列),可以获得大量目标物种转录本序列,将这些表达序列定位到基因上,辅助基因编码区预测;
注:HMM 隐马尔可夫链,考虑正负链、启动子区域、非编码UTR区、polyA信号和但外显子基因等情况进行概率预测。
但由于以下几种原因,预测的准确度会受到影响:
基因组DNA序列仅由4种剪辑构成,其基因信号并不明显,背景噪音大; 有些外显子很短(eg:3bp); 第一和最后一个外显子(包含UTR序列)无剪接信号提供,难预测; 基因存在大量可变剪切; 测序误差等;
二、基因功能注释
基因功能注释主要包括预测基因中的功能域、功能分类和所在的生物学通路,普遍采用序列相似性比对的方法。
-
1、基于已知基因和功能域数据 采用Uniprot/Swiss-Prot/InterPro数据库进行注释,利用BlastP进行注释时,一般设定E-value标准;
-
2、基于功能分类和代谢途径 利用GO(Gene Ontology)定义基因功能,利用KEGG等数据库生物学代谢通路信息;
三、蛋白质结构预测
蛋白质结构包括四层:一级结构蛋白质序列、二级结构α螺旋β折叠等、三级结构单条多肽链空间结构、四级结构时多个亚基的空间结构;蛋白质结构预测食指基于蛋白质氨基酸序列预测二级、三级结构。
1、蛋白质二级结构预测
二级结构预测大致分为三类,统计学方法、基于立体化学原则的化学物理方法和神经网络人工智能方法。
- 其中基于物理化学方法最著名的Lim法 考虑蛋白质折叠结构的立体化学特征和物理化学性质,如残基侧链基团的体积大小、亲疏水性、和所带电荷等因素,还考虑临近氨基酸残基之间的相互作用。
2、蛋白质三级结构预测
三级结构预测的方法有三种:同源建模法、折叠识别法和从头预测法。
- 同源建模法(对比一级结构): 任一对蛋白质,只要序列长度达到一定程度,序列相似性超过30%,就能保证有相似的三维结构。一般步骤为:①寻找一个或一组与未知蛋白同源且有实验测定的蛋白质结构;②建立未知蛋白与已知结构蛋白质的序列比对;③找出结构保守型的主链片段;④建模结构变化的区域,一般为连接二级结构片段的区域;⑤侧链建模;⑥通过能量计算的方法进行结构优化。
- 折叠识别法(对比二级结构):又称串线法(threading) 在已知序列折叠方式的序列记录中搜索,获得一直蛋白质结构的相似序列,为折叠模式打分及识别适合序列的折叠模式;将查询序列与打分醉倒的蛋白质进行序列比对。一旦识别到这样的模板,剩下的部分与比较模型的过程相同。在穿线法中,位置序列及何时的方式被穿到一个数据库的某一折叠模板,然后计算该序列的能量,与所有折叠模板串好后进行积分比对。
- 从头预测法: 根据物理化学、量子化学、量子物理的基本原理,利用各种理论方法计算出蛋白质肽链所有可能构象的能量。
四、非编码RNA鉴定与功能预测
小RNA计算识别与靶基因预测
1. miRNA:单链RNA,与靶位点结合,对目标mRNA切割或抑制表达。
计算识别方法:
- 同源比对:通过已知保守miRNA在不同物种间序列相似性,进行同源序列检索预测miRNA;
- 基于比较基因组学的算法:根据基因组序列间的共线性(基因序列的部分或全部保守),利用基因组之间编码序列上和结构上的同源性,通过已知基因组的作图信息定位其他基因组中的基因,从而解释基因潜在的功能、阐明 物种简化关系及基因组内在结构;
- 邻近茎环结构搜索:基于动物miRNA经常成簇存在于基因组上的特点,通过对已知miRNA附近区域进行茎环结构预测来发现成簇存在的miRNA;
2. siRNA:主要通过长的双链RNA复合体在DCL酶切割下产生,能够激发与其互补的mRNA沉默。
长非编码RNA鉴定与功能预测
1. IncRNA:长链非编码RNA,可调节转录。
- 鉴定时将转录组数据比对到基因组上,排除编码蛋白的转录本;
- 功能预测: miRNA的诱捕靶标;与其他RNA分子互作预测;与蛋白质分子的互作预测;
2. circRNA:环状RNA分子是一类由反向剪接形成的非编码RNA;
- 功能预测: 与miRNA分子互作预测;潜能预测;