4. Peaks识别与过滤

171 阅读2分钟

1.Peak检测:估计d值并进行shift

  • 怎样得到两个peak间的距离d,即插入片段是多长?

答:双端:如果有10M的reads数,则求它们reads对的平均长度;

单端:如果是单末端,左端reads和右端reads是没有关系的,没法用这种简单方式估计reads的长度。将左边的峰往右边移,右边的峰往左边移,等两个峰几乎要重合了,移动的距离就是d/2。

image.png

  • 软件:macs3
  • 参数: --nomodel 不建模,建模就是软件自己估计插入片段长度的过程。

image.png

  • macs3工作流程

image.png

2. narrow peak和broad peak

几乎所有的转录因子结合的峰都是narrow peak,很尖的峰。

image.png

3.macs3的使用

  • 有效基因组大小:总长-N的数量

Q:算有效基因组大小,需要去除线粒体/叶绿体基因吗?

A:不需要单独去除线粒体/叶绿体,一般的fa文件里面不包含线粒体/叶绿体。如果有,则删除这两条序列。

  • chip-seq中,input和对照的区别?

    • input: 在chip实验前,取一部分细胞裂解物,不进行免疫沉淀(IP),直接进行DNA片段化和测序;(反应基因组背景,无选择性富集)
    • 对照:用非特异性抗体IgG进行chip实验。(反应非特异性结合和实验噪声)
  • 各参数意思?

    • --format-f,单端用-f BAM;双端用-f BAMPE
    • --keep-dup,默认是1,则在这一步dedup,即若有多个长得一样的序列,算为1个;之前去除过,则用all,表示call peak中不再去重;
    • --qvalue, --pvalue,指在进行峰值检测的时候的QVALUE和PVALUE,代表检测的峰是对的还是错的一个可能性,设置的时候设置-q,不要设置-p。设置-p对峰值检测的准确性大大降低,在MACS3里,-q-p是互斥的,在MACS3里,设置了p值就不算q值,设置了q值就不算p值。
    • --cutoff-analysis,用于--qvalue阈值的选择,让软件自己进行测试。设置之后,会慢30倍。

image.png

4.结果

image.png score = -log10qvalue * 10