metawrap数据库准备

43 阅读2分钟
参考:https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md

一、CheckM数据库

1 CheckM数据库介绍

CheckM数据库是一个用于微生物基因组评估的参考数据库。
CheckM包含了大量已知微生物基因组的信息,用于评估和比较未知微生物基因组的完整性和污染程度。

2 下载安装checkM数据库

# 进入工作目录
cd ~/database
# 创建数据库存放目录
mkdir checkm && cd checkm
# 下载checkM数据库压缩包:
wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
# 解压checkM数据压缩包
tar -zxvf checkm_data_2015_01_16.tar.gz
# 删除压缩包
rm checkm_data_2015_01_16.tar.gz
# 设置checkm数据库路径
checkm data setRoot /home/users-data/liukai/database/checkm

二、Kraken2数据库

kraken2-build --standard --threads 24 --db MY_KRAKEN2_DB
# 配置config-metawrap:
KRAKEN2_DB=/path/to/my/database/MY_KRAKEN2_DATABASE

三、NCBI_nt和NCBI_tax数据库

1 NCBI_nt

# NCBI_nt BLAST数据库用于在生物信息学和分子生物学研究中进行核酸序列比对和相似性搜索。
# BLASTBasic Local Alignment Search Tool)是一种常用的生物信息学工具;
    它可以帮助研究人员找到给定核酸序列(DNARNA)的相似序列,从而揭示序列之间的结构和功能关系。
# `nt`数据库是核酸序列数据库,包括了来自各种生物物种的DNARNA序列数据。
    它通常用于核酸序列的相似性搜索、基因组学研究、基因注释以及寻找特定核酸序列的应用。

mkdir NCBI_nt
cd  NCBI_nt
wget "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
for a in nt.*.tar.gz; do tar xzf $a; done

# 配置config-metawrap(激活metawrap环境查看config-metawrap位置):
BLASTDB=/home/users-data/liukai/database/NCBI_nt

2 NCBI_tax

# NCBI_tax数据库(National Center for Biotechnology Information - Taxonomy Database)用于生物分类学和系统发育研究
# 主要目的是为不同生物物种的分类提供标准化和层次性的信息
# 该数据库包括了大量不同生物物种的分类信息,如命名、分类、系统发育树等,以及这些生物物种相关的其他信息。

mkdir NCBI_tax
cd NCBI_tax
wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xvf taxdump.tar.gz

# 配置config-metawrap:
TAXDUMP=/home/users-data/liukai/database/NCBI_tax

四、下载人类基因组并建立索引

# BMTaggerBloom filter-based Many-to-Many Tagger)数据库是一种用于快速比对和标记DNA序列的数据库。
# READ_QC过程中用于去除宿主基因

# 下载并合并人类基因组 hg38
mkdir BMTAGGER_INDEX
cd BMTAGGER_INDEX
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
gunzip *fa.gz
cat *fa > hg38.fa
rm chr*.fa
# 构建索引以便快速搜索和比对基因组数据

bmtool -d hg38.fa -o hg38.bitmask
srprism mkindex -i hg38.fa -o hg38.srprism -M 100000

# 配置config-metawrap

BMTAGGER_DB=/home/users-data/liukai/database/BMTAGGER_INDEX