12. ChIP-seq质控

204 阅读2分钟

1、测序数据量(这里是fastp报告)

image.png

整体上来说,测序的数据量一般是没有问题的,数据质量一般是没有问题的,Q30的值非常高,过滤前的数据和过滤后的数据相差不多,没过滤掉多少。说明整个数据的质量通常是非常高的。

2、有效数据量

image.png 越多越好,因为ChIP-seq的背景信号太强了,噪音太强了,所以测序数据量越大,就越可靠。

image.png duplication也要去除掉,去除完后,如果仍然有10-20M,才算。

image.png

image.png

3、FRiP( Fraction of Reads in Peaks) 就是说测序测到这么多的reads,有多少reads是落在了peaks里面,有多少reads是落在了peaks外面,peaks里面是我们真正想要的东西,落在peaks外面的可以理解为噪音。所以FRiP代表的是信噪比。这个值高,说明测序的噪音背景会比较弱。

  • 利用bam和peak的交集进行计算
bedtools intersect -a bam -b narrowpeak
  • 利用featureCounts定量的log日志

image.png

  • DiffBind跑完之后会出一个FRIP

image.png

  • featureCounts里的和DiffBind里算的不一样,why?

答:DiffBind不对,因为它只取中心左右200bp,将peaks切小了。

  1. 文库复杂度:duplication的比例。

image.png

image.png

也就是duplication的比例,duplication越多,文库的复杂度越低,代表文库里面质量不好。

  1. cross-correlation 在人的ENCODE计划里面提出了很多指标,在做普通物种的时候,不用特别在意。

image.png

  • cross-correlation的基本思想:

image.png 移动到某个位置,这两个峰的相关性系数最高,移动的距离叫作d,这个d就叫插入片段的长度。 所以cross-correlation有2个作用:

  • 对数据进行评估,看两个峰的相关性系数高不高,相关系数高,代表测序质量好;
  • 用来估计单端测序的fragment size;

image.png