一起读官方文档 Trimmomatic 篇
参考文章:
Trimmomatic简介
基于Java 编写,用于对高通量测序数据进行质量控制和预处理。软件有两种过滤模式,分别对应 SE(单端测序) 和 PE(双端测序) 测序数据。
Trimmomatic 过滤步骤
快速使用--PE模式
trimmomatic
PE #双端测序,单端测序为SE
-threads 20 #指定线程数为4
sample1/sample1_R1.fq.gz #输入序列
sample1/sample1_R2.fq.gz
sample1/sample1_paired_clean_1.fq.gz #输出配对序列和非配对序列
sample1/sample1_unpair_clean_1.fq.gz
sample1/sample1_paired_clean_2.fq.gz
sample1/sample1_unpair_clean_2.fq.gz
ILLUMINACLIP:/data1/guest/yinlei/miniconda3/pkgs/trimmomatic-0.39-1/share/trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10:1:true
#去除ILLUMINA接头,根据质控报告选择trimmomatic文件夹adapters路径下的接头文件
LEADING:3 #从reads开头切除质量低于阈值3的碱基
TRAILING:3 #从reads末尾切除质量低于阈值3的碱基
SLIDINGWINDOW:4:20 #从reads 5‘端开始进行长度为4的滑窗过滤,切除碱基质量低于阈值20的碱基
MINLEN:50 #丢弃剪切后长度低于阈值50的reads
TOPHRED33 #将reads的碱基质量值体系转为phred-33,若为phred-64则为TOPHRED64
快速使用--SE模式
trimmomatic SE input.fastq output_trimmed.fastq ILLUMINACLIP:TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
重要参数介绍
ILLUMINACLIP
以下是 ILLUMINACLIP 参数的选项及其描述:
1.1 适配器序列文件 (Adapter Sequence File):
- 这是一个包含要搜索并修剪的所有适配器序列的FASTA文件。自己选择
1.2 种子匹配数 (Seed mismatches):
- 允许的最大错配数,以找到一个适配器匹配。其值应该是一个较小的整数(例如1或2)。
1.3 回退 (Palindrome clip threshold):
- 用于回文检测。如果找到一个回文匹配,并且它的质量高于这个阈值,那么这个匹配将被接受。
1.4简单匹配 (Simple clip threshold):
- 用于简单匹配。如果找到一个适配器匹配,并且它的质量高于这个阈值,那么这个匹配将被接受。
1.5 最小适配器长度 (Optional: Min adapter length):
- 有时用于指定寻找的最小适配器序列的长度。
1.6 保持适配器的比率 (Optional: Keep adapter and insert):
- 可选择的参数,决定是否在输出中保留适配器和插入片段。
ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>:<minAdapterLength>:<keepBothReads>
ILLUMINACLIP:TruSeq3-SE:2:30:10 #接头和引物序列在 TruSeq3-SE 中,第一步 seed 搜索允许2个碱基错配,palindrome 比对分值阈值 30,simple clip 比对分值阈值 10
-
LEADING:3: 从读取的前端开始删除低于质量3的碱基。 -
TRAILING:3: 从读取的尾端开始删除低于质量3的碱基。 -
SLIDINGWINDOW:4:20: 使用4碱基的滑动窗口,当窗口的平均质量低于20时剪切。
对于窗口内的每4个碱基,计算它们的平均质量分数。如果这个平均值低于20(这是一个常用的质量阈值,但可以根据需要调整),那么从该窗口的第一个碱基开始,剪切读取的其余部分。
MINLEN:36: 丢弃长度小于36的读取。