生信:一起读官方文档 FastQC 篇

343 阅读4分钟

一起读官方文档 FastQC 篇

参考官方文档:www.bioinformatics.babraham.ac.uk/projects/fa…

参考文章:www.jianshu.com/p/dc6820eb3…

Summary

image-20230817150542454

重要的参数:

Total Sequences: 已处理的序列总数。

Filtered Sequences: 如果在 Casava 模式下运行,标记为要过滤的序列将从所有分析中删除。并且此处将报告删除的此类序列的数量。If running in Casava mode sequences flagged to be filtered will be removed from all analyses.

Sequence Length: 提供集合中最短和最长序列的长度。如果所有序列的长度相同,则仅报告一个值。

%GC: 所有序列中所有碱基的总体占比 %GC。The overall %GC of all bases in all sequences

Per Base Sequence Quality

此视图显示FastQ文件中每个位置的所有碱基的质量值范围概览。

image-20230811174914723

对每个位置会有一个箱线图(BoxWhisker),解释如下:

  1. x轴代表测序序列碱基,y轴代表质量得分
  2. 中央的红线是中值
  3. 黄色框代表四分位数范围(25-75%),**箱顶75%**分位数,**箱底25%**分位数。
  4. 上下须分别代表10%和90%点。
  5. 蓝线代表平均质量。将各个碱基的质量平均值连接起来

意义:对每一个碱基的质量的统计。一是看数据是否具有对称性;二是看数据分布差异。总的来说就是看 bar的跨度越大,说明数据越不稳定。

Warning:

如果任何碱基的下四分位数小于 10,或者任何碱基的中位数小于 25,则会发出警告Warning。

造成 Warning 的原因有哪些?

。。。

Failure

如果任何碱基的下四分位数小于 5 或任何碱基的中位数小于 20,此模块将引发失败Failure。

Per Sequence Quality Scores

每个序列的质量分数

img

y轴:每个x轴的Q值对应的read数

x轴:代表Q值即质量值

大部份大于Q20就是正常

Per Base Sequence Content

read各个位置碱基比例分布

img

x轴:各碱基位置

y轴:碱基百分比

如果任何位置的 A 和 T 或 G 和 C 之间的差异大于 10%,该模块会发出警告Warning。

(也就是%A和%T之间的差异大于10%则Warning,同理%G和%C也是,这是因为一般来说A=T,C=G。所以需要cut前几个bp)

如果任何位置 A 和 T、或 G 和 C 之间的差异大于 20%,则该模块将失败Failure。

Per Sequence GC Content

序列平均GC分布

img

蓝线正态分布,红线是实验值,主要看拟合效果。

y轴:是每个x轴平均 GC% 含量所 对应的序列数量

x轴:平均 GC 含量

如果出现了不拟合,则原因可能如下两个:

异常形状的分布可能表明受污染的文库或某些其他类型的有偏见的子集。

  1. 前面提到了,GC可以作为物种特异性根据,这里出现了其他的峰有可能混入了其他物种的DNA
  2. 目前二代测序基本都会有序列偏向性(所说的 bias),也就是某些特定区域会被反复测序,以至于高于正常水平,变相说明测序过程不够随机。这种现象会对以后的变异检测以及CNV分析造成影响

Per Base N Content

N含量分布

img

N是指仪器不能识别ATCG时给出的结果,出现异常则是测序系统和试剂的问题。

任意位置的N的比例超过5%,报"Warning";任意位置的N的比例超过20%,报"Failure"

Sequence Length Distribution

img

对于一些测序平台,具有不同的读取长度是完全正常的,因此可以忽略此处的警告。

Duplicate Sequences

该模块对文库中每个序列的重复程度进行计数,并创建显示具有不同重复程度的序列的相对数量的图。

为了减少该模块的存储器需求,仅分析每个文件中的前100,000个序列中首次出现的序列

img

x轴:duplication的次数

y轴:duplicated reads的数目 红线

正常情况下的确,测序深度越高,越容易产生一定程度的duplication。高程度的duplication level,提示我们可能有bias的存在(如建库过程中的PCR duplication)。

Overrepresented Sequences

大量重复序列,与上述相同

Adapter Content

接头含量

此图中使用的illumina universal adapter并未去除,后期再使用cutadapt去接头

Kmer Content

重复短序列

Per Tile Sequence Quality

Kmer profiles

五彩缤纷质量不行