bulk转录组测序分析之数据清洗

86 阅读1分钟

今天我们来讲一讲bulk转录组测序的数据清洗部分。

RNA-Seq是技术相对更成熟,应用最广泛,最适合生物信息学入门的方向。bulk RNA-Seq是最普遍的转录组测序方法,所谓bulk就是我们测的是所有细胞的总RNA(狭义指mRNA)取平均值代表每个基因的表达量。‍

我们从公司得到的原始的下机数据是fastq格式的文件

FASTQ Format (Illumina example)‍

image.png

我们拿到原始数据之后首先做数据的质控过滤,常用的软件包括fastp、fastqc

首先使用fastqc得到网页版的质量报告,再使用trim_galore去除质量低的和接头序列,trim_galore可以指定接头序列也可以自主查询,还可以通过--length设定长度的阈值,小于该阈值的序列会被扔掉。

fastqc+trim_galore‍

fastqc -t 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz #双端测序,-t表示线程数``trim_galore -q 20  -o ./  --fastqc --paired -j 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz``#--paired表示双端测序,-q 20表示去除Phred分数低于20的序列,-o表示输出(这里指输``出到当前目录下),-j表示线程数,--fastqc表示清洗之后再交给fastqc做质控

fastqc结果报告