1、测序数据量(这里是fastp报告)
整体上来说,测序的数据量一般是没有问题的,数据质量一般是没有问题的,Q30的值非常高,过滤前的数据和过滤后的数据相差不多,没过滤掉多少。说明整个数据的质量通常是非常高的。
2、有效数据量
越多越好,因为ChIP-seq的背景信号太强了,噪音太强了,所以测序数据量越大,就越可靠。
duplication也要去除掉,去除完后,如果仍然有10-20M,才算。
3、FRiP( Fraction of Reads in Peaks) 就是说测序测到这么多的reads,有多少reads是落在了peaks里面,有多少reads是落在了peaks外面,peaks里面是我们真正想要的东西,落在peaks外面的可以理解为噪音。所以FRiP代表的是信噪比。这个值高,说明测序的噪音背景会比较弱。
- 利用bam和peak的交集进行计算
bedtools intersect -a bam -b narrowpeak
- 利用featureCounts定量的log日志
- DiffBind跑完之后会出一个FRIP
- featureCounts里的和DiffBind里算的不一样,why?
答:DiffBind不对,因为它只取中心左右200bp,将peaks切小了。
- 文库复杂度:duplication的比例。
也就是duplication的比例,duplication越多,文库的复杂度越低,代表文库里面质量不好。
- cross-correlation 在人的ENCODE计划里面提出了很多指标,在做普通物种的时候,不用特别在意。
- cross-correlation的基本思想:
移动到某个位置,这两个峰的相关性系数最高,移动的距离叫作d,这个d就叫插入片段的长度。
所以cross-correlation有2个作用:
- 对数据进行评估,看两个峰的相关性系数高不高,相关系数高,代表测序质量好;
- 用来估计单端测序的fragment size;