一、Metawrap
Metawrap:github.com/bxlab/metaW…
1.简介
MetaWRAP 旨在成为易于使用的宏基因组包装套件从头到尾完成宏基因组分析的核心任务:读取质量控制、组装、可视化、分类分析、提取基因组草案(分箱)和功能注释。此外,metaWRAP 将 bin 提取和分析提升到一个新的水平。
MetaWRAP 可应用于各种环境,包括肠道、水和土壤微生物组。metaWRAP 的每个单独模块都是一个独立的程序,这意味着您只能使用您对数据感兴趣的模块。
2.元基因组数据处理模块
读取质量控制
Read_QC: read trimming and host (e.g. human) read removal
宏基因组组装和使用metaSPAdes或MegaHit的QC
Assembly: metagenomic assembly and QC with metaSPAdes or MegaHit
分类学分析和可视化或读数或重叠群
Kraken/Kraken2: taxonomy profiling and visualization or reads or contigs
3.Bin处理模块
Binning(拼装):使用 MaxBin2、metaBAT2 和/或 CONCOCT 进行初始的拼装预测,即从宏基因组测序数据中提取初始的组装片段集合。
Bin_refinement(拼装精炼):将多个拼装预测整合为更高质量的组装片段集合,以提高拼装的质量。
Reassemble_bins(重新组装拼装片段集合):重新组装拼装片段集合,以改善基因组的完整性、N50值,并减少污染。
Quant_bins(估计拼装片段集合的丰度):估算拼装片段集合在样本中的丰度。
Blobology(可视化社区和提取的拼装片段):使用blobplots来可视化社区结构和已提取的拼装片段。
Classify_bins(分类拼装片段):为拼装片段进行保守但准确的分类预测,已确定它们可能属于的生物分类。
Annotate_bins(注释拼装片段):对一组拼装片段中的基因进行功能注释,以了解它们的生物学功能。
4.安装Metawrap
# 下载
wget -c ftp://download.nmdc.cn/tools//conda/metawrap.tar.gz
# 指定安装目录
mkdir -p ~/anaconda3/envs/metawrap
tar -xvzf metawrap.tar.gz -C ~/anaconda3/envs/metawrap
# 启动环境
conda activate metawrap
# 初始化环境
conda unpack
二、MetaWrap相关数据库
1.CheckM用于Bin完整和污染估计和物种注释
mkdir -p checkm && cd checkm
# 下载文件275 MB,解压后1.4 GB
wget -c https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
tar -xvf *.tar.gz
# 设置数据库位置,直接2次回车默认为当前位置
checkm data setRoot
2.NCBI核酸和物种信息
# 核酸
mkdir -p ${db}/NCBI/nt
(cd ${db}/NCBI/nt; wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz)
(cd ${db}/NCBI/nt; for i in *.tar.gz; do tar xzf $i; done)
# 可能会出现个别库下载不完整的情况,删了重下,不要续传
# 物种信息,压缩文件45M,解压后351M
mkdir -p ${db}/NCBI/tax
(cd ${db}/NCBI/tax; wget -c ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz)
(cd ${db}/NCBI/tax; tar -xvzf taxdump.tar.gz)
## 数据库位置设置
which config-metawrap
# 配置文件通常为~/miniconda3/envs/metawrap/bin/config-metawrap
# 使用Rstudio/vim等文本编辑器来修改数据库的位置
# config-metawrap文件中内容如下
# Paths to metaWRAP scripts (dont have to modify)
mw_path=$(which metawrap)
bin_path=${mw_path%/*}
SOFT=${bin_path}/metawrap-scripts
PIPES=${bin_path}/metawrap-modules
# CONFIGURABLE PATHS FOR DATABASES (see 'Databases' section of metaWRAP README for details)
# path to kraken standard database
KRAKEN_DB=~/KRAKEN_DB
KRAKEN2_DB=~/db/kraken2/pluspf/
# path to indexed human (or other host) genome (see metaWRAP website for guide). This includes .bitmask and .srprism files
BMTAGGER_DB=~/BMTAGGER_DB
# paths to BLAST databases
BLASTDB=~/db/NCBI/nt
TAXDUMP=~/db/NCBI/tax
3.drep基因组去冗余
metawrap混合分箱的结果中冗余度非常低,甚至无冗余。而单样本、分批次分箱的结果中存在大量冗余,需要采用drep获得非冗余的基因组。
drep安装:
mamba create -y -n drep drep=3.4.2
conda activate drep
dRep -h
drep数据库构建:
# CheckM用于Bin完整和污染估计和物种注释
cd ~/database
mkdir -p drep/checkm && cd checkm
# 下载文件275 MB,解压后1.4 GB
wget -c https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
tar -xvf *.tar.gz
# 设置数据库位置,直接2次回车默认为当前位置
checkm data setRoot `pwd`
三、GTDB细菌基因组注释和进化分析
GTDB-Tk是一个软件工具包,用于根据基因组数据库分类法GTDB为细菌和古细菌基因组分配客观的分类法。它旨在与最近的进展一起使用,从而可以直接对环境样本中获得数百或数千个由宏基因组组装的基因组(MAG)进行物种分类注释。它也可以用于分离和单细胞的基因组物种注释。
1.GTDB-Tk解包安装
soft=~/miniconda3
# 下载
wget -c ftp://download.nmdc.cn/tools//conda/gtdbtk.tar.gz
# 指定安装目录
mkdir -p ${soft}/envs/gtdbtk
tar -xvzf gtdbtk.tar.gz -C ${soft}/envs/gtdbtk
# 启动环境
conda activate gtdbtk
# 初始化环境
conda unpack
2.GTDB-Tks数据库安装
download-db.sh自动下载数据库,将下载至conda中的envs/gtdbtk/share/gtdbtk-2.3.2/db/,我们修改为~/db/gtdb中
conda activate gtdbtk2.3
# download-db.sh中,修改数据库下载位置,的 wget 建议改成wget -c 防止覆盖
sed -i 's#miniconda3/envs/gtdbtk2.3/share/gtdbtk-2.3.2/db#db/gtdb2.3#;s/wget /wget -c /' ${soft}/envs/gtdbtk2.3/bin/download-db.sh
# 下载数据,78G
download-db.sh
(备选)下面无法下载时手动下载和配置GTDB数据库
mkdir -p ${db}/gtdb & cd ~/db/gtdb
# 下载解压
wget -c https://data.gtdb.ecogenomic.org/releases/release207/207.0/auxillary_files/gtdbtk_r207_v2_data.tar.gz
# 再运行, gtdb配置数据库
download-db.sh
# 备用链接和手工解压
wget -c ftp://download.nmdc.cn/tools//gtdb/gtdbtk_r207_v2_data.tar.gz
tar xvzf auxillary_files/gtdbtk_r207_v2_data.tar.gz -C ./ --strip 1