peaks注释
1.寻找最近基因
- 如果是H3K4me3,则应该计算peak中心到TSS的距离。
- 如果是H3K36me3,则应该计算peak中心到gene center的距离。
- 如果是H3K4me1,则应该计算peak中心到TSS, center, TES的距离都算上。
3.最远距离也是要分情况的:--distance
研究的时候可以写成[3000,0]
2. 确定相对位置关系
3. uropa参数
--relative-location
--relative-location Upstream Downstream OverlapStart OverlapEnd PeakInsideFeature FeatureInsidePeak
看下图genomic location:
如果距离
--distance在3k以内,upstream对应的要么是启动子区域,要么是近端的增强子。
如果设置--distance是300k,upstream很有可能是远端的增强子。
- uropa跑完之后,生成的结果:
- 将txt文件下载到本地电脑,用excel打开:
- allhits.txt文件中,有重叠:
意思就是这个peak注释到了很多个基因上下游。
为什么有这么多注释呢?
因为我们设置了一个很大的区间:
它会把上游100k,下游100k所有的基因都注释出来。
虽然注释了这么多,但在finalhits.txt里,它会找到一个最好的保留下来。
所以如果你要找远端增强子,将--distance设置成上下游各1M是没有问题的。
画饼图
- R语言导入
finalhits.txt文件之后,用chatGPT4帮你画饼图; - 学会使用chatGPT4 √
- 学习熟练使用ggplot2 √
4.使用library(ggsci)
或者pdf导出来用AI修改 5.学习使用PS,AI √