4.2 Peaks识别与过滤

东船西舫悄无言

2025-02-08 189 阅读2分钟

1. 对peak进行过滤和筛选

1.1 cutoff analysis：无生物学重复

假如没有生物学重复，一个样本只测了1次，那么就是用qvalue进行筛选。得到：

根据图来判断，qscore的值的选择。

有拐点就选择拐点的地方，没拐点就根据自己想要多少peaks进行选择，这里选择qscore=4，平均长度为500，转录因子结合位点长度500bp也比较合理。

1.2 取交集：intersect：有生物学重复的情况

将重复1与重复2的交集作为最终的结果。

这里用的方法2。

方法1有两个问题：
- 把原来的窗口切的很碎；
- 峰有一个峰尖的值的记录，如果按方法1，那么峰尖是按A的算还是B的算不好确定。
这里用方法2，B是对A进行确认和辅助的，以A为主。
- 数据量哪个高，就以哪个为主；文库质量，比对率，哪个样本测序的质量更高，就以哪个为主。
如果是有多个文件求交集，那么就只能循环来求，A先和B得到一个文件，这个文件再和C求.....
**缺点：只考虑了两个样本的重叠，没有考虑样本的峰的信号强度。

1.3 IDR方法

ENCODE计划发现的IDR

用不同的方法排序，它的排名始终能够保持稳定的。这些就是靠谱的，可重复的。在所有样本中都一致的。

FDR：假阳性发现率；
IDR：不可重复性发现率；
IDR分析结果的格式

第1列：染色体名称；
第2、3列：peak的起始位置，终止位置；指合并之后的peak，IDR会把2个重复进行合并，合并之后也会生成一个peak。
第5列：peak的得分。最大得分1000代表这个peak特别可靠，小于540则可靠性不高。

第9列：q-value float，自己设的0.05的值；
第10列：summit int：峰尖离起始位点距离。

前面10列就是合并之后的narrow peak文件。

note: