第六章：基因组注释第六章：基因组注释基因组注释的定义·基因组注释的复杂性·基因组结构注释·基因组功能注释·基因组注释实

第六章：基因组注释

基因组注释的定义·基因组注释的复杂性·基因组结构注释·基因组功能注释·基因组注释实例

基因组测序的完成-->基因组注释的开始

基因组序列
重复序列分析
基因预测：
1. 编码基因预测：通过软件、同源蛋白比对以及转录本注释技术预测编码基因
2. 非编码基因预测：对 tRNA 、rRNA、miRNA、IncRNA 进行预测
利用数据库完成基因功能预测：
GO/KEGG 注释

湿性实验手段；使用生物实验预测
干性实验预测：使用计算机预测
1. 基于基因结构特征搜寻：利用计算机比对基因的核苷酸序列，从而预测基因。
2. 基于同源基因搜索：通过将数据库中的基因序列与待查的基因组序列进行比较。从中查找可与之匹配的碱基序列及比例，用于界定基因的方法称为同源基因搜索。
同源性，相似性，一致性的解释：
- 同源性（Homology）：属于定型描述用词。用来解释两个基因是否属于同一组先的不同分支。
- 相似性（Similarity）：属于定量描述用词，定量指标。用来描述基因序列之间相似位点占整个序列的比例。
- 一致性（Identity）：属于定量描述用词，定量指标。用来描述基因序列间相同位点占整个序列的比例。
- 相似性≥一致性。
- 相似的基因序列不一定是属于同源基因。

原核生物基因的各种信号位点（如启动子和终止子位点）特异性较强且容易识别，因此相应的基因预测方法已经基本成熟。Prodigal 和 Flimmer 是应用最为广泛的原核生物基因结构预测软件，准确度高。
非编码 RNA 序列预测：非编码 RNA（non-coding RNA，ncRNA），指的是不被翻译成蛋白质的 RNA，如 rRNA，rRNA 等，这些 RNA 不被翻译为蛋白质，但是具有重要的生物学功能。
- miRNA（小 RNA，microRNA），其在调控基因表达、细胞周期、生物体发育时序等方面起重要作用。
- tRNA（转运 RNA，transferRNA），携带氨基酸进入核糖体，使之在 mRNA 指导下合成蛋白质。
- rRNA（核糖体 RNA，ribosomalRNA），其与蛋白质结合形成核糖体，气功能是作为 mRNA 的支架，提供 mRNA 翻译成蛋白质的场所。
- snRNA（小核 RNA，small nuclearRNA），主要参与 mRNA 前体的加工过程，使之成为成熟的mRNA，是 RNA 剪切体的主要成分。
- 原核基因组注释流程-RGAP（NCBI 标准流程）

Kozak序列规则
- Kpzak 序列是存在于真核生物mRNA 的一段序列，通常是 GCCRCCATCC，在翻译的起始中有重要作用。
- 起始密码子：ATG/GTG
- 终止密码子：TAA/TAG/TGA
重复序列和重复序列的注释方法
- 重复序列的注释方法有两种：
  - 序列对比法
  - 从头预测法

基因功能注释是什么？答：基因功能注释是指通过对比的方法，然后根据已知功能的蛋白质编码基因序列预测未知蛋白质编码。
- 功能序列
- 基因本体
- 代谢通路
蛋白结构域
- 蛋白质的功能与其结构密切相关，一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能。
- 相关数据库：InterPro 数据库；CDD 数据库。

本体是什么？
- 答：本体（OntoLogy）是对于概念，术语及其相互关系的规范化描述。
基因本体是什么？
- 答：基因本体（Gene Ontology，简称 GO）是一种系统地对物种基因及产物属性进行注释的方法和过程。
- 基因本体数据库包含基因的功能信息资源，人类可读也机器可读。具体含有以下三类信息：
  - 分子功能：GO 的分子功能分类
  - 细胞组件
  - 生物过程
基因本体的作用是什么？
- 答：作用有以下四各方面：
  - 规范化维护和发展基因及其产物的属性描述；
  - 规范化注释基因及其产物，传播注释数据；
  - 提供方便的工具访问数据；
  - 实现在实验数据的基础上，使用 GO 进行程式解析，例如基因富集分析。
富集分析
- 富集的概念：> 某个特定的生物学功能、通路或分类在你关注的基因集合中出现得比预期更多。
- 基因富集分析（Gene Rich Analysis）是一种生物信息学方法，主要用于从一组基因中识别出其在某些生物过程、分子功能或信号通路中是否存在统计显著的富集现象
- 基于GO/KEGG数据库的富集分析
- 基于KOBAS数据库的富集分析