14. ATAC-seq原理1. 绝大部分染色质处于浓缩在一起的、封闭的状态，少数的2%、3%的区域处于开放状态。 2.

1. 绝大部分染色质处于浓缩在一起的、封闭的状态，少数的2%、3%的区域处于开放状态。

2. 核小体占据、核小体定位

2.1 DNA缠绕在核小体上，核小体到底位于DNA的什么地方呢？

答：假如有一个细胞，里面核小体位于DNA的一个地方；然后有另外一个细胞，也有同样的一套染色体，那么在另外一个细胞中，对应的位置上有无核小体就是个问题。如果在一个组织的所有细胞里面，都在同样的位置有这样的一个核小体的话，就叫作：在这个位置核小体的占据很高。

2.2 核小体定位是否良好？

答：在第一个位置上，核小体整整齐齐排列；第二个位置也是整整齐齐排列；第三个，核小体的位置前后有波动，有的往前一点，有的往后一点。那么就说这个核小体的定位不是很好。

2.3 明白这两件事：并不是说测序的组织里的一个细胞里面有核小体那么所有细胞这个位置都有核小体；这是一个相对的概念。

2.4 那么在基因组上，什么位置核小体的占据高，什么位置核小体的占据低，什么位置核小体的定位好，什么位置核小体的定位不好呢？

答：正常情况下，每隔固定长度就会出现一个核小体。

+1核小体，组蛋白上通常有H3K4me3，出现在promoter区域；
+1核小体，是强定位的；

- NFR区域附近还有近端增强子：

3 染色质开放性研究方法

90%的TF结合在了3%的可及性区域。

3.1 DNase-seq

依托于DNase1这样一个内切酶；
形成各种长度的DNA片段：切口区域，也就是两端区域，都位于染色质的可及性的区域；
- 这些DNA片段有长有短，理论上将这些DNA片段收集拿来测序，再比对到参考基因组上，DNA片段的两端的区域，能比对到参考基因组上的位置，就是这个染色质的可及性的区域。
DNA片段有长有短，如果把长的短的都测序，就会有个问题：测序前有个PCR,会导致扩增效率的极大不平衡，有的短的DNA可能已经扩增几十次，有的长的才扩增2次、3次，最终去算peak数量就不能代表它原始的常数了。
另外一个问题是：很长的DNA片段，建库效率是很低的。如果很长，加接头加不上，建库成功率会很低。
所以要进行片段选择, size selection。把固定长度的DNA片段拿来测序。
就是一个经典的二代测序策略。

3.2 MNase-seq是内切+外切

最终测的是缠绕在核小体的DNA片段区域。

3.3 DNase-seq与MNase-seq比较

DNase-seq直接研究可及性区域；MNase-seq间接研究可及性区域，研究核小体定位；

MNase很难掌握：浓度和时长太高，把核小体上的DNA也能消化掉；浓度和时长低，刚消化到附近就不消化了。

Q：promoter不应该在TSS上游吗？
A：不准确，一般在[-2000,500]，上游2000到下游500。

4 ATAC-seq

打断的同时，加上接头

4.1 细说测序时会出现什么问题？

ATAC-seq跟DNase-seq一样，打断的时候，有长有短。
ATAC-seq不会做片段选择，将特别长的扔掉：短的就几十个bp、100bp，长的六七八百。

4.1.1 真实的例子

PTPN9这个基因，人的测序数据
- TSS位点在基因的起始位置，在参考基因组的基因的开始
- igv里面可以调reads的比对

- 显示成对信息

标出来几个片段的长度

像这些只有100bp左右的，这一块就是NFR。但这一块也有300bp、240bp的，因为NFR是一个相对概念，在有的细胞里面是NFR，有的细胞里面不是、有的细胞这一块是有核小体的。

跨过一个核小体大概200bp，连接序列大概40-60bp。

4.1.2 画一个DNA片段(fragment)长度分布图

ATAC一定用双端测序

不好的例子
- 第一张图：看出来没有核小体，什么DNA没有核小体？叶绿体。
- 在ATAC-seq里面，去除叶绿体、线粒体是一个非常重要的工作。跟chip-seq不一样，chip-seq是顺便去除一下，但它的比例也不会特别高，不去除叶绿体线粒体也比对不到参考基因组，问题不大；但在ATAC-seq里面，叶绿体、线粒体因为是裸露的DNA，如果处理不好的话，比如做了100M的数据，最多可能有80%是线粒体叶绿体，花10000块钱测序，8000块钱测的是线粒体和叶绿体，而这些东西不是你想要的。
- 在植物里，通常做法是把细胞核提取出来，做ATAC，而不是整个原生质体。

4.2 ATAC-seq的优点

起始量低，只需几百个就能做；对于常规的bulk，5万个细胞就能达到不错的效果。其它的技术都需要几百万个细胞。
时间短。

4.3 ATAC-seq流程

插入片段长度的上限的参数；

ATAC-seq和chip-seq峰移动的情况不一样：

之前在chip-seq里面，我们关心的是转录因子的结合位点，所以要把峰往中间移动，让峰跑到转录因子结合位点上；

但在ATAC-seq里，我们关心的不是转录因子结合位点，这个位置有可能是一个核小体，我们不关心核小体在哪，我们关心的是Tn5这个酶，它去切割基因组的时候，基因组的哪些位置能够被切割，能切割的位置就叫作开放性区域。

所以哪些位置能切割呢？那就是DNA片段打断的位置，也就是DNA片段的起始位点。

4.4 下游分析思路

拿到这些peak之后怎样去做分析呢？

跟chip-seq一样做motif分析

最好做差异peak的motif分析，可能会有比较好的结果。

因为糖尿病人和正常人，它可能的差异，就是来自于少量的类别，比如有3个TF，调控很多地方，那么这3个TF的motif就会被富集出来。

做peak注释。需要注意：参数选择得开放一点，因为peak里面可能涉及到各种各样的类型，有启动子、有enhancer，看研究什么，对参数进行调整。

下游分析的2种思路

思路一

假如在基因组这个地方有1个peak，说明可能有一个组蛋白/转录因子的结合，说明这个地方可能是一个启动子/增强子/沉默子/隔离子，到底这个位置是什么。

如果是人，ENCODE计划测了几乎所有的组蛋白修饰、转录因子都测了，甚至各种疾病的组织都测过转录因子、组蛋白修饰。

从这些数据库下载下来人的数据，把H3K4ac27的比对到这里发现能比对上，说明这里是一个增强子。

如果是人能做到很精细：能知道基因组的每一个开放区域可能是增强子还是启动子，或者这个地方结合的是什么转录因子。

植物的数据库

比如想看ATAC-seq之后，鉴定到的启动子和增强子区域：

把这三个的GEO数据下载下来，和自己测序数据一起分析。就能明白你测的是不是一个增强子/启动子。

2.1 具体例子

一个样本中大概应该鉴定到（对于动物，人这一类物种），应该有10万个peak左右。

为什么这么多竖线？因为这个地方可能是enhancer，也有可能是promoter，也有可能是沉默的/失活的enhancer。如果这两个信息都对的上，那就是一个有活性的enhancer。

ATAC-seq+chip-seq

思路二

拿这个脚印和数据库中作匹配搜索。
有没有这样一个数据库呢？
- 类似TomTom

文献一：二型糖尿病

差异peak里面找到2个与糖尿病相关的基因，这个就接近于最后的结论了。

MIR1178，在糖尿病人中的可及性显然高于正常人群，为什么高呢，是不是这个基因中间这一段这个区域有一个什么的结合位点，再根据chip-seq数据联合分析，有可能发现这里是个增强子，增强子在这结合，结合转录组，发现整个基因表达量高。

对1078个差异peak进行注释、富集分析、motif分析

文献二：拟南芥ATAC-seq

提到对于植物，提取细胞核的重要性。

足迹分析