bulk转录组测序分析之数据清洗今天我们来讲一讲bulk转录组测序的数据清洗部分。 RNA-Seq是技术相对更成熟，应用

今天我们来讲一讲bulk转录组测序的数据清洗部分。

RNA-Seq是技术相对更成熟，应用最广泛，最适合生物信息学入门的方向。bulk RNA-Seq是最普遍的转录组测序方法，所谓bulk就是我们测的是所有细胞的总RNA（狭义指mRNA）取平均值代表每个基因的表达量。‍

我们从公司得到的原始的下机数据是fastq格式的文件

FASTQ Format (Illumina example)‍

我们拿到原始数据之后首先做数据的质控过滤，常用的软件包括fastp、fastqc。

首先使用fastqc得到网页版的质量报告，再使用trim_galore去除质量低的和接头序列，trim_galore可以指定接头序列也可以自主查询，还可以通过--length设定长度的阈值，小于该阈值的序列会被扔掉。

fastqc+trim_galore‍

fastqc -t 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz #双端测序，-t表示线程数``trim_galore -q 20 -o ./ --fastqc --paired -j 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz``#--paired表示双端测序，-q 20表示去除Phred分数低于20的序列，-o表示输出（这里指输``出到当前目录下），-j表示线程数，--fastqc表示清洗之后再交给fastqc做质控

fastqc结果报告