1. 对peak进行过滤和筛选
1.1 cutoff analysis:无生物学重复
假如没有生物学重复,一个样本只测了1次,那么就是用qvalue进行筛选。 得到:
- 根据图来判断,qscore的值的选择。
有拐点就选择拐点的地方,没拐点就根据自己想要多少peaks进行选择,这里选择qscore=4,平均长度为500,转录因子结合位点长度500bp也比较合理。
1.2 取交集:intersect:有生物学重复的情况
将重复1与重复2的交集作为最终的结果。
这里用的方法2。
-
方法1有两个问题:
- 把原来的窗口切的很碎;
- 峰有一个峰尖的值的记录,如果按方法1,那么峰尖是按A的算还是B的算不好确定。
-
这里用方法2,B是对A进行确认和辅助的,以A为主。
- 数据量哪个高,就以哪个为主;文库质量,比对率,哪个样本测序的质量更高,就以哪个为主。
-
如果是有多个文件求交集,那么就只能循环来求,A先和B得到一个文件,这个文件再和C求.....
-
**缺点:只考虑了两个样本的重叠,没有考虑样本的峰的信号强度。
1.3 IDR方法
ENCODE计划发现的IDR
用不同的方法排序,它的排名始终能够保持稳定的。这些就是靠谱的,可重复的。在所有样本中都一致的。
-
FDR:假阳性发现率;
-
IDR:不可重复性发现率;
-
IDR分析结果的格式
- 第1列:染色体名称;
- 第2、3列:peak的起始位置,终止位置;指合并之后的peak,IDR会把2个重复进行合并,合并之后也会生成一个peak。
- 第5列:peak的得分。最大得分1000代表这个peak特别可靠,小于540则可靠性不高。
- 第9列:q-value float,自己设的0.05的值;
- 第10列:summit int:峰尖离起始位点距离。
前面10列就是合并之后的narrow peak文件。
note: