5.组装分析流程(Megahit、eggNOG、CAZy、CARD、RGI) - 学习记录

1,021 阅读3分钟

一、Megahit-组装读取

1.简介

主要用于分析Metagenomic(宏基因组学)数据,尤其是用于分析微生物组的数据。Megahit旨在高效、准确地将DNA测序数据组装成基因组,尤其是针对具有高度多样性的微生物组数据。

2.安装

下载:wget -c ftp://download.nmdc.cn/tools//conda/megahit.tar.gz
指定安装目录:mkdir -p ~/anaconda3/envs/megahit
解压安装包:tar -xvzf megahit.tar.gz -C ~/anaconda3/envs/megahit
启动环境:conda activate megahit
初始化环境:conda unpack

3.安装验证

megahit -v # MEGAHIT v1.2.9
metaspades.py -v # metaSPAdes v3.15.4
metaquast.py -v # MetaQUAST v5.0.2
cd-hit -v # CD-HIT v4.8.1
embossversion # EMBOSS v6.6
salmon -v # salmon v1.8

4.工具说明

MEGAHIT:用于将来自多个微生物组的序列组装成基因组。
metaspades.pySPAdes的一个模块,用于Metagenomic数据的组装。
metaquast.py:一个用于比较不同的Metagenomic组装的质量的工具,包括组装的连续性、覆盖度等。
cd-hit:用于聚类和去冗余处理生物序列数据的工具,通常用户去除高度相似的序列。
emboss:用于序列的格式转换、截取、合并、对齐、比对、搜索等任务,还可以用于蛋白质序列的特征预测、结构分析、域识别和功能注释等。
salmon:用于RNA-Seq数据的快速和准确的转录本定量工具,用于估算RNA-Seq样本中不同转录本的表达水平。

二、蛋白同源综合注释eggNOG

1.简介

eggNOG(evolutionary genealogy of genes:Non-supervised Orthologous Groups)是一种用于生物信息学和基因组学研究的工具和数据库,用于分析和注释基因和蛋白质序列。

2.安装eggNOG

下载:wget -c ftp://download.nmdc.cn/tools//conda/eggnog.tar.gz
指定安装目录:mkdir -p ~/anaconda3/envs/eggnog
解压安装包:tar -zxvf eggnog.tar.gz -C ~/anaconda/envs/eggnog
启动环境:conda activate eggnog
初始化环境:conda unpack

3.安装测试

emapper.py --version
提示:检索数据库错误:There was an error retrieving eggnog-mapper DB data: not a valid file "/home/users-data/liukai/anaconda3/envs/eggnog/lib/python3.9/site-packages/data/eggnog.db"

4.eggNOG数据库安装

# 下载常用数据库,注意设置下载位置
mkdir -p ~/database/eggnog && cd ~/database/eggnog
# -y默认同意,-f强制下载,eggnog.db.gz 7.9G+4.9G
download_eggnog_data.py -y -f --data_dir ~/database/eggnog
# 百度或微生物所备用链接下载eggnog/eggnog.tar.gz
# 链接至默认目录
ln -sf ~/database/eggnog ~/anaconda3/envs/eggnog/lib/python3.9/site-packages/data
# 复制数据至内存中加速比对
# cp eggnog.* /dev/shm

此时再运行emapper.py --version 不是出现数据库检索失败的错误提示信息

三、碳水化合物CAZy数据库安装

1.简介

CAZy,全称为Carbohydrate-Active EnZymes(碳水化合物活性酶),是一个用于研究和分类与碳水化合物代谢有关的酶的资源和数据库。

2.安装

d=08062022
# 创建数据库存放目录并进入
mkdir -p ${db}/dbcan2 && cd ${db}/dbcan2
# 下载序列和描述(biocloud 10M)
wget -c https://bcb.unl.edu/dbCAN2/download/Databases/V11/CAZyDB.${d}.fa
wget -c https://bcb.unl.edu/dbCAN2/download/Databases/V11/CAZyDB.${d}.fam-activities.txt
# 备用数据库下载并解压 
# wget -c ftp://download.nmdc.cn/tools/meta/dbcan2/CAZyDB.${d}.tar.gz
# tar xvzf CAZyDB.${d}.tar.gz

# 提取基因家簇对应注释
grep -v '#' CAZyDB.08062022.fam-activities.txt | sed 's/  //'| sed '1 i CAZy\tDescription' > CAZy_description.txt
# diamond建索引,1G,1-18m
diamond --version # 2.0.15
diamond makedb --in CAZyDB.${d}.fa --db CAZyDB.${d}

四、抗生素耐药性数据库CARD和RGI

1.简介

CARD(Comprehensive Antibiotic Resistance Database)是一个全面的抗生素耐药性数据库,用于存储和提供抗生素耐药性相关的基因、蛋白质和信息。

RGI(Resistome Gene Identifier)是一个用于识别和注释细菌基因组找那个的抗生素耐药性基因的工具。

2.RGI安装

# 下载
wget -c ftp://download.nmdc.cn/tools//conda/rgi.tar.gz
# 指定安装目录
mkdir -p ~/anaconda3/envs/rgi
tar -xvzf rgi.tar.gz -C ~/anaconda3/envs/rgi
# 启动环境
conda activate rgi
# 初始化环境
conda unpack

3.RGI版本和数据库部署

查看版本:rgi main -v

数据库部署:
mkdir -p ~/database/card
cd ~/database/card
# 下载最新版数据库,3.7M (2023-1-27, 3.2.6)
wget -c https://card.mcmaster.ca/latest/data
# 解压后34M
tar -xvf data ./card.json
# 加载数据库
rgi load --card_json card.json
# 宏基因组分析扩展数据库和加载
rgi card_annotation -i card.json
rgi load -i card.json --card_annotation card_database_v3.2.6.fasta