第六章:基因组注释

46 阅读5分钟

第六章:基因组注释

基因组注释的定义·基因组注释的复杂性·基因组结构注释·基因组功能注释·基因组注释实例

基因组测序的完成-->基因组注释的开始

1. 基因组注释

  • 基因组的结构注释(Structural Annotation):预测基因位置和结构信息
  • 基因组的功能注释(Functiondal Annotation):预测基因功能和调控关系
  • 基因组的审编注释(又称价值注释,Curation Annotation)

(1)原核生物基因组注释流程和真核生物基因组注释流程对比

原核生物基因组注释流程
  1. 基因组序列
  2. 基因预测:
    1. 编码基因预测:通过软件或同源蛋白预测编码基因
    2. 非编码基因预测: 对 tRNA 和 rRNA 进行预测
  3. 利用数据库完成基因功能预测:
  4. GO/KEGG 注释
真核生物基因组注释流程
  1. 基因组序列
  2. 重复序列分析
  3. 基因预测:
    1. 编码基因预测:通过软件、同源蛋白比对以及转录本注释技术预测编码基因
    2. 非编码基因预测: 对 tRNA 、rRNA、miRNA、IncRNA 进行预测
  4. 利用数据库完成基因功能预测:
  5. GO/KEGG 注释

(2)基因预测方法介绍

  1. 湿性实验手段;使用生物实验预测

  2. 干性实验预测:使用计算机预测

    1. 基于基因结构特征搜寻:利用计算机比对基因的核苷酸序列,从而预测基因。
    2. 基于同源基因搜索: 通过将数据库中的基因序列与待查的基因组序列进行比较。从中查找可与之匹配的碱基序列及比例,用于界定基因的方法称为同源基因搜索。
  3. 同源性,相似性,一致性的解释:

    • 同源性(Homology):属于定型描述用词。用来解释两个基因是否属于同一组先的不同分支。
    • 相似性(Similarity):属于定量描述用词,定量指标。用来描述基因序列之间相似位点占整个序列的比例。
    • 一致性(Identity):属于定量描述用词,定量指标。用来描述基因序列间相同位点占整个序列的比例。
    • 相似性≥一致性。
    • 相似的基因序列不一定是属于同源基因。

2. 原核生物编码基因的预测:

  • 原核生物基因的各种信号位点(如启动子和终止子位点)特异性较强且容易识别,因此相应的基因预测方法已经基本成熟。Prodigal 和 Flimmer 是应用最为广泛的原核生物基因结构预测软件,准确度高。
  • 非编码 RNA 序列预测:非编码 RNA(non-coding RNA,ncRNA),指的是不被翻译成蛋白质的 RNA,如 rRNA,rRNA 等,这些 RNA 不被翻译为蛋白质,但是具有重要的生物学功能。
    • miRNA(小 RNA,microRNA),其在调控基因表达、细胞周期、生物体发育时序等方面起重要作用。
    • tRNA(转运 RNA,transferRNA),携带氨基酸进入核糖体,使之在 mRNA 指导下合成蛋白质。
    • rRNA(核糖体 RNA,ribosomalRNA),其与蛋白质结合形成核糖体,气功能是作为 mRNA 的支架,提供 mRNA 翻译成蛋白质的场所。
    • snRNA(小核 RNA,small nuclearRNA),主要参与 mRNA 前体的加工过程,使之成为成熟的mRNA,是 RNA 剪切体的主要成分。
    • 原核基因组注释流程-RGAP(NCBI 标准流程)

序列注释

  • Kozak序列规则
    • Kpzak 序列是存在于真核生物mRNA 的一段序列,通常是 GCCRCCATCC,在翻译的起始中有重要作用。
    • 起始密码子:ATG/GTG
    • 终止密码子:TAA/TAG/TGA
  • 重复序列和重复序列的注释方法
    • 重复序列的注释方法有两种:
      • 序列对比法
      • 从头预测法

基于转录本注释基因结构:

  • PASA 工具,能注释
    • UTR 区域
    • 外显子的添加、删除、边界调整
    • 增加可变剪切变体
    • 注释基因 ployA 位点
    • 识别反义转录本
    • 识别并分类所有发现的剪切变异
  • 转录组数据:
    • RNA-seq 数据在基因组冲注释研究中有巨大应用潜力;

3. 基因功能注释

  • 基因功能注释是什么?答:基因功能注释是指通过对比的方法,然后根据已知功能的蛋白质编码基因序列预测未知蛋白质编码。

    • 功能序列
    • 基因本体
    • 代谢通路
  • 蛋白结构域

    • 蛋白质的功能与其结构密切相关,一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能。
    • 相关数据库:InterPro 数据库;CDD 数据库。

4. 基因本体论

  • 本体是什么?
    • 答:本体(OntoLogy)是对于概念,术语及其相互关系的规范化描述。
  • 基因本体是什么?
    • 答:基因本体(Gene Ontology,简称 GO)是一种系统地对物种基因及产物属性进行注释的方法和过程。
    • 基因本体数据库包含基因的功能信息资源,人类可读也机器可读。具体含有以下三类信息:
      • 分子功能:GO 的分子功能分类
      • 细胞组件
      • 生物过程
  • 基因本体的作用是什么?
    • 答:作用有以下四各方面:
      • 规范化维护和发展基因及其产物的属性描述;
      • 规范化注释基因及其产物,传播注释数据;
      • 提供方便的工具访问数据;
      • 实现在实验数据的基础上,使用 GO 进行程式解析,例如基因富集分析。
  • 富集分析
    • 富集的概念:> 某个特定的生物学功能、通路或分类在你关注的基因集合中出现得比预期更多。
    • 基因富集分析(Gene Rich Analysis)是一种生物信息学方法,主要用于从一组基因中识别出其在某些生物过程、分子功能或信号通路中是否存在统计显著的富集现象
    • 基于GO/KEGG数据库的富集分析
    • 基于KOBAS数据库的富集分析

5.基因组注释实例:

  • 水稻基因组的重新注释工作:在水稻核苷酸序列中发现了新基因;

  • 基于LnvBook数据库鉴定新型长非编码 RNA 基因;