第六章:基因组注释
基因组注释的定义·基因组注释的复杂性·基因组结构注释·基因组功能注释·基因组注释实例
基因组测序的完成-->基因组注释的开始
1. 基因组注释
- 基因组的结构注释(Structural Annotation):预测基因位置和结构信息
- 基因组的功能注释(Functiondal Annotation):预测基因功能和调控关系
- 基因组的审编注释(又称价值注释,Curation Annotation)
(1)原核生物基因组注释流程和真核生物基因组注释流程对比
原核生物基因组注释流程
- 基因组序列
- 基因预测:
- 编码基因预测:通过软件或同源蛋白预测编码基因
- 非编码基因预测: 对 tRNA 和 rRNA 进行预测
- 利用数据库完成基因功能预测:
- GO/KEGG 注释
真核生物基因组注释流程
- 基因组序列
- 重复序列分析
- 基因预测:
- 编码基因预测:通过软件、同源蛋白比对以及转录本注释技术预测编码基因
- 非编码基因预测: 对 tRNA 、rRNA、miRNA、IncRNA 进行预测
- 利用数据库完成基因功能预测:
- GO/KEGG 注释
(2)基因预测方法介绍
-
湿性实验手段;使用生物实验预测
-
干性实验预测:使用计算机预测
- 基于基因结构特征搜寻:利用计算机比对基因的核苷酸序列,从而预测基因。
- 基于同源基因搜索: 通过将数据库中的基因序列与待查的基因组序列进行比较。从中查找可与之匹配的碱基序列及比例,用于界定基因的方法称为同源基因搜索。
-
同源性,相似性,一致性的解释:
- 同源性(Homology):属于定型描述用词。用来解释两个基因是否属于同一组先的不同分支。
- 相似性(Similarity):属于定量描述用词,定量指标。用来描述基因序列之间相似位点占整个序列的比例。
- 一致性(Identity):属于定量描述用词,定量指标。用来描述基因序列间相同位点占整个序列的比例。
- 相似性≥一致性。
- 相似的基因序列不一定是属于同源基因。
2. 原核生物编码基因的预测:
原核生物基因
的各种信号位点(如启动子和终止子位点)特异性较强且容易识别
,因此相应的基因预测方法已经基本成熟。Prodigal 和 Flimmer 是应用最为广泛的原核生物基因结构预测软件,准确度高。
- 非编码 RNA 序列预测:非编码 RNA(non-coding RNA,ncRNA),指的是不被翻译成蛋白质的 RNA,如 rRNA,rRNA 等,这些 RNA 不被翻译为蛋白质,但是具有重要的生物学功能。
- miRNA(小 RNA,microRNA),其在调控基因表达、细胞周期、生物体发育时序等方面起重要作用。
- tRNA(转运 RNA,transferRNA),携带氨基酸进入核糖体,使之在 mRNA 指导下合成蛋白质。
- rRNA(核糖体 RNA,ribosomalRNA),其与蛋白质结合形成核糖体,气功能是作为 mRNA 的支架,提供 mRNA 翻译成蛋白质的场所。
- snRNA(小核 RNA,small nuclearRNA),主要参与 mRNA 前体的加工过程,使之成为成熟的mRNA,是 RNA 剪切体的主要成分。
- 原核基因组注释流程-RGAP(NCBI 标准流程)
序列注释
- Kozak序列规则
- Kpzak 序列是存在于真核生物mRNA 的一段序列,通常是 GCCRCCATCC,在翻译的起始中有重要作用。
- 起始密码子:ATG/GTG
- 终止密码子:TAA/TAG/TGA
- 重复序列和重复序列的注释方法
- 重复序列的注释方法有两种:
- 序列对比法
- 从头预测法
- 重复序列的注释方法有两种:
基于转录本注释基因结构:
- PASA 工具,能注释
- UTR 区域
- 外显子的添加、删除、边界调整
- 增加可变剪切变体
- 注释基因 ployA 位点
- 识别反义转录本
- 识别并分类所有发现的剪切变异
- 转录组数据:
- RNA-seq 数据在基因组冲注释研究中有巨大应用潜力;
3. 基因功能注释
-
基因功能注释是什么?答:基因功能注释是指通过对比的方法,然后根据已知功能的蛋白质编码基因序列预测未知蛋白质编码。
- 功能序列
- 基因本体
- 代谢通路
-
蛋白结构域
- 蛋白质的功能与其结构密切相关,一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能。
- 相关数据库:InterPro 数据库;CDD 数据库。
4. 基因本体论
- 本体是什么?
- 答:本体(OntoLogy)是对于概念,术语及其相互关系的规范化描述。
- 基因本体是什么?
- 答:基因本体(Gene Ontology,简称 GO)是一种系统地对物种基因及产物属性进行注释的方法和过程。
- 基因本体数据库包含基因的功能信息资源,人类可读也机器可读。具体含有以下三类信息:
- 分子功能:GO 的分子功能分类
- 细胞组件
- 生物过程
- 基因本体的作用是什么?
- 答:作用有以下四各方面:
- 规范化维护和发展基因及其产物的属性描述;
- 规范化注释基因及其产物,传播注释数据;
- 提供方便的工具访问数据;
- 实现在实验数据的基础上,使用 GO 进行程式解析,例如基因富集分析。
- 答:作用有以下四各方面:
- 富集分析
- 富集的概念:> 某个特定的生物学功能、通路或分类在你关注的基因集合中出现得比预期更多。
- 基因富集分析(Gene Rich Analysis)是一种生物信息学方法,主要用于从一组基因中识别出其在某些生物过程、分子功能或信号通路中是否存在统计显著的富集现象
- 基于GO/KEGG数据库的富集分析
- 基于KOBAS数据库的富集分析
5.基因组注释实例:
-
水稻基因组的重新注释工作:在水稻核苷酸序列中发现了新基因;
-
基于LnvBook数据库鉴定新型长非编码 RNA 基因;