今天我们来讲一讲bulk转录组测序的数据清洗部分。
RNA-Seq是技术相对更成熟,应用最广泛,最适合生物信息学入门的方向。bulk RNA-Seq是最普遍的转录组测序方法,所谓bulk就是我们测的是所有细胞的总RNA(狭义指mRNA)取平均值代表每个基因的表达量。
我们从公司得到的原始的下机数据是fastq格式的文件
FASTQ Format (Illumina example)
我们拿到原始数据之后首先做数据的质控过滤,常用的软件包括fastp、fastqc。
首先使用fastqc得到网页版的质量报告,再使用trim_galore去除质量低的和接头序列,trim_galore可以指定接头序列也可以自主查询,还可以通过--length设定长度的阈值,小于该阈值的序列会被扔掉。
fastqc+trim_galore
fastqc -t 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz #双端测序,-t表示线程数``trim_galore -q 20 -o ./ --fastqc --paired -j 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz``#--paired表示双端测序,-q 20表示去除Phred分数低于20的序列,-o表示输出(这里指输``出到当前目录下),-j表示线程数,--fastqc表示清洗之后再交给fastqc做质控
fastqc结果报告