一、Kneaddata介绍
KneadData 是一个用于生物信息学和次世代测序数据分析的工具,主要用于预处理和质量控制(QC)次世代测序数据,特别是针对宏基因组学(metagenomics)和宏转录组学(metatranscriptomics)数据。KneadData 的主要功能包括以下方面:
去除污染物:KneadData 可以识别和去除测序数据中的各种污染物。
质量控制:KneadData提供了强大的质量控制功能,可能检测和修复测序数据中的质量问题,如低质量序列和碱基错误,以提高数据的可靠性。
短序列去除:KneadData允许用户去除太短的序列片段,以减少后续分析的噪音。
KneadData 通常与其他生物信息学工具和流程一起使用,如 MetaPhlAn(用于宏基因组学分析)和 HUMAnN(用于宏转录组学分析),以进行综合的次世代测序数据分析。
二、安装KneadData
下载KneadData
wget下载命令:wget -c ftp://download.nmdc.cn/tools//conda/kneaddata.tar.gz
创建conda虚拟环境文件目录:mkdir -p ~/anaconda3/envs/Kneaddata
解压文件到创建的目录下:tar -xvzf kneaddata.tar.gz -C ~/anaconda3/envs/kneaddata
启动环境:conda activate kneaddata
初始化环境:conda unpack
三、安装验证
KneadData安装测试
输入一下版本查询的命令,分别得到对应版本的返回值:
fastqc -v
kneaddata --version
trimmomatic -version
bowtie2 --version
multiqc --version
四、包含工具说明
在安装 KneadData 时,它通常包含了这些工具(FastQC、Trimmomatic、Bowtie2、MultiQC)的依赖项,因为 KneadData 在数据预处理过程中可能需要使用这些工具来进行质量控制、去除污染物和比对等操作。这些工具一起协作,以确保次世代测序数据的质量和可靠性,并为后续的分析提供高质量的数据。
FastQC是一个用于分析测序数据质量的工具。它生成有关测序数据的质量报告,包含质量分布、GC含量、测序适配器的监测信息等,以帮助识别数据中的问题。
KneadData是一个用于生物信息学数据预处理和质量控制的工具。可以帮助去除污染物、修复序列质量问题、去除低质量序列片段等。
Trimmomatic是一个用于修剪和过滤测序数据的工具。可以去除低质量的序列、去除适配器序列、修剪低质量的碱基等,以提高数据的质量和可用性。
Bowtie2是一款用于高通量测序数据比对的工具。可以将测序数据与参考基因组或转录组进行比对,帮助识别和定位测序数据中的序列。
MultiQC是一个用于生成多个质量控制(QC)报告的工具。可以整合多个工具(如FastQC、Trimmomatic、Bowtie2等)生成的QC报告,可以查看和比较不同的QC结果。
五、KneadData数据库下载
KneadData 需要结合 KneadData 数据库一起使用,以发挥其最大的作用。KneadData 数据库包含了用于去除污染物的参考序列和注释信息,这些信息对于预处理次世代测序数据非常重要。
查看可用数据库:kneaddata_database
查询结果有5个数据库:人基因组bowtie2/bmtagger、人类转录组、核糖体RNA和小鼠基因组
查询结果详情如下:
KneadData Databases ( database : build = location )
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
下载人类基因组human_genome bowtie2
方式一:
创建存储目录:mkdir -p ~/database/kneaddata/human_genome
标准下载数据库命令:kneaddata_database --download human_genome bowtie2 ~/database/kneaddata/human_genome
下载速度非常慢
方式二:
创建存储目录:mkdir -p ~/database/kneaddata/human_genome
进入创建的数据库目录:cd ~/database/kneaddata/humman-genome
下载数据库:wget -c ftp://download.nmdc.cn/tools/meta/kneaddata/human_genome/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz~/database/kneaddata/human_genome
解压数据库包:tar -xvzf Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz