生信:一起读官方文档 Trimmomatic 篇

430 阅读3分钟

一起读官方文档 Trimmomatic 篇

参考文章:

文档:www.usadellab.org/cms/uploads…

www.biotrainee.com/thread-1484…

Trimmomatic简介

基于Java 编写,用于对高通量测序数据进行质量控制和预处理。软件有两种过滤模式,分别对应 SE(单端测序) 和 PE(双端测序) 测序数据。

Trimmomatic 过滤步骤

快速使用--PE模式

trimmomatic 
PE #双端测序,单端测序为SE
-threads 20 #指定线程数为4
sample1/sample1_R1.fq.gz #输入序列
sample1/sample1_R2.fq.gz 
sample1/sample1_paired_clean_1.fq.gz #输出配对序列和非配对序列
sample1/sample1_unpair_clean_1.fq.gz 
sample1/sample1_paired_clean_2.fq.gz
sample1/sample1_unpair_clean_2.fq.gz
ILLUMINACLIP:/data1/guest/yinlei/miniconda3/pkgs/trimmomatic-0.39-1/share/trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10:1:true
#去除ILLUMINA接头,根据质控报告选择trimmomatic文件夹adapters路径下的接头文件
LEADING:3 #从reads开头切除质量低于阈值3的碱基
TRAILING:3 #从reads末尾切除质量低于阈值3的碱基
SLIDINGWINDOW:4:20 #从reads 5‘端开始进行长度为4的滑窗过滤,切除碱基质量低于阈值20的碱基
MINLEN:50 #丢弃剪切后长度低于阈值50的reads	
TOPHRED33 #将reads的碱基质量值体系转为phred-33,若为phred-64则为TOPHRED64

快速使用--SE模式

trimmomatic SE input.fastq output_trimmed.fastq ILLUMINACLIP:TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

重要参数介绍

  1. ILLUMINACLIP

以下是 ILLUMINACLIP 参数的选项及其描述:

1.1 适配器序列文件 (Adapter Sequence File):

  • 这是一个包含要搜索并修剪的所有适配器序列的FASTA文件。自己选择

1.2 种子匹配数 (Seed mismatches):

  • 允许的最大错配数,以找到一个适配器匹配。其值应该是一个较小的整数(例如1或2)。

1.3 回退 (Palindrome clip threshold):

  • 用于回文检测。如果找到一个回文匹配,并且它的质量高于这个阈值,那么这个匹配将被接受。

1.4简单匹配 (Simple clip threshold):

  • 用于简单匹配。如果找到一个适配器匹配,并且它的质量高于这个阈值,那么这个匹配将被接受。

1.5 最小适配器长度 (Optional: Min adapter length):

  • 有时用于指定寻找的最小适配器序列的长度。

1.6 保持适配器的比率 (Optional: Keep adapter and insert):

  • 可选择的参数,决定是否在输出中保留适配器和插入片段。
ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>:<minAdapterLength>:<keepBothReads>

ILLUMINACLIP:TruSeq3-SE:2:30:10 #接头和引物序列在 TruSeq3-SE 中,第一步 seed 搜索允许2个碱基错配,palindrome 比对分值阈值 30,simple clip 比对分值阈值 10
  1. LEADING:3: 从读取的前端开始删除低于质量3的碱基。

  2. TRAILING:3: 从读取的尾端开始删除低于质量3的碱基。

  3. SLIDINGWINDOW:4:20: 使用4碱基的滑动窗口,当窗口的平均质量低于20时剪切。

对于窗口内的每4个碱基,计算它们的平均质量分数。如果这个平均值低于20(这是一个常用的质量阈值,但可以根据需要调整),那么从该窗口的第一个碱基开始,剪切读取的其余部分。

  1. MINLEN:36: 丢弃长度小于36的读取。