4.2 Peaks识别与过滤

175 阅读2分钟

1. 对peak进行过滤和筛选

1.1 cutoff analysis:无生物学重复

假如没有生物学重复,一个样本只测了1次,那么就是用qvalue进行筛选。 得到:

image.png

image.png

image.png

  • 根据图来判断,qscore的值的选择。

image.png

有拐点就选择拐点的地方,没拐点就根据自己想要多少peaks进行选择,这里选择qscore=4,平均长度为500,转录因子结合位点长度500bp也比较合理。

1.2 取交集:intersect:有生物学重复的情况

将重复1与重复2的交集作为最终的结果。

image.png

这里用的方法2。

  • 方法1有两个问题:

    • 把原来的窗口切的很碎;
    • 峰有一个峰尖的值的记录,如果按方法1,那么峰尖是按A的算还是B的算不好确定。
  • 这里用方法2,B是对A进行确认和辅助的,以A为主。

    • 数据量哪个高,就以哪个为主;文库质量,比对率,哪个样本测序的质量更高,就以哪个为主。
  • 如果是有多个文件求交集,那么就只能循环来求,A先和B得到一个文件,这个文件再和C求.....

  • **缺点:只考虑了两个样本的重叠,没有考虑样本的峰的信号强度。

1.3 IDR方法

ENCODE计划发现的IDR

image.png

用不同的方法排序,它的排名始终能够保持稳定的。这些就是靠谱的,可重复的。在所有样本中都一致的。

  • FDR:假阳性发现率;

  • IDR:不可重复性发现率;

  • IDR分析结果的格式

image.png

  • 第1列:染色体名称;
  • 第2、3列:peak的起始位置,终止位置;指合并之后的peak,IDR会把2个重复进行合并,合并之后也会生成一个peak。
  • 第5列:peak的得分。最大得分1000代表这个peak特别可靠,小于540则可靠性不高。

image.png

  • 第9列:q-value float,自己设的0.05的值;
  • 第10列:summit int:峰尖离起始位点距离。

前面10列就是合并之后的narrow peak文件。

image.png

note: image.png