欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 高效靶向原位全基因组剖析独创技术431451字

高效靶向原位全基因组剖析

2020-11-08 14:46:36

  高效靶向原位全基因组剖析

  相关申请的交叉引用

  本申请要求2017年9月25日提交的美国临时申请第62/562,918号的权益,所述美国临时申请明确地通过引用整体并入本文。

  技术领域

  本公开涉及染色质剖析的方法。具体而言,本公开涉及用于剖析诸如转录因子和核小体的DNA结合蛋白的方法,其中由诸如转座酶或核酸酶的酶进行的抗体靶向控制切割释放结合的DNA用于DNA测序。

  背景

  转录因子(transcription factors,TFs)在其结合位点上对DNA的作用驱动基因表达模式,因此全基因组TF作图已经成为个体研究者和大规模基础设施项目的中心目标。TF剖析(TF profiling)最常用的方法是染色质免疫沉淀(ChIP),这是一种自30多年前首次引入以来变化不大的方法(Solomon和Varshavsky,1985)。将细胞用甲醛交联,将染色质片段化并溶解,加入抗体,回收抗体结合的染色质用于提取DNA。DNA作图技术的连续进步已彻底改变了X-ChIP(甲醛交联ChIP)的用途,随着ChIP-seq的出现,TF的碱基对分辨率作图变得可行(Rhee和Pugh,2011;Skene和Henikoff,2015;He等,2015)。

  可通过染色质免疫沉淀分离与转录因子和其他蛋白质直接物理相互作用的特定DNA位点,以产生与体内目标蛋白质结合的靶DNA位点的文库。随着大规模并行测序的出现,可以快速分析文库,并将其作图到全基因组序列数据库,以确定任何蛋白质与DNA的相互作用模式,或任何表观遗传染色质修饰的模式。这可应用于一组可ChIP化的蛋白质和修饰,诸如转录因子、聚合酶和转录机制、结构蛋白质、蛋白质修饰和DNA修饰。ChIP测序(ChIP-seq)可用于确定蛋白质如何与DNA相互作用,例如调节基因表达。目前,ChIP-seq技术主要被视为需要杂交阵列的ChIP-芯片的替代技术。这必然会引入一些偏差,因为阵列受限于固定数量的探针。对ChIP-seq的改进保留了交联步骤以保持体内模式,同时整个基因组被片段化以产生可溶性提取物用于免疫沉淀。然而,交联可促进表位掩蔽,并可产生假阳性结合位点(Teytelman等,2013;Park等,2013年;Jain等,2015年;Baranello等,2016年;Meyer和Liu,2014)。ChIP也可使用不破坏静电接触的离子条件在没有交联的情况下进行(Kasinathan等,2014)。“原生”ChIP提供了蛋白质-脱氧核糖核酸直接相互作用的图谱,其灵敏度和特异度的权衡优于X-ChIP方法。原生ChIP还最大限度地减少了表位掩蔽的问题,并相对于X-ChIP提高了效率,使其更适合低起始细胞数((O’Neill等,2006;Brind’Amour等,2015)。但仍然存在蛋白质-DNA复合物的提取效率不完全和结合的潜在损失的问题。此外,溶解使所有染色质暴露于抗体,导致非特异性背景,限制了信噪比,并需要额外的测序来识别特定的染色质特征。由于这些偏差和低效率,ChIP需要大量的细胞,这使得其不适用于例如原代细胞数量有限或组织数量较少的情况。因此,需要新的、更好的不基于ChIP的方法。本公开满足了这些需求。

  附图简述

  通过以下详细描述,结合附图,将容易理解实施方案。在附图的图中,实施方案通过示例而非限制的方式来举例说明。

  图1A-1D显示本文公开的CUT&RUN方法产生了TF-DNA复合物的有限消化。图1A;CUT&RUN策略的示意图。附着在磁珠上的细胞核可用抗体(或任选地用第一和第二抗体)和蛋白A-MN酶(pA-MN)连续处理,所述抗体和蛋白A-MN酶通过核孔扩散进入细胞核。在添加Ca++以激活MN酶裂解后,片段被释放并扩散出细胞核。从上清液中提取的DNA用于制备配对末端测序的文库。图1B;CUT&RUN将染色质颗粒裂解并释放到酿酒酵母细胞核中,在细胞核中内源H2A基因被H2A-3XFLAG替代,进行CUT&RUN,并在0℃下在Ca++中孵育指定的时间。将从不溶性(ins)和可溶性(sol)级分中提取的DNA在1%琼脂糖凝胶上电泳。并行地将1号抗体对照消化10分钟,但没有添加第一小鼠抗FLAG抗体。图1C;来自所示TF样品的测序的作图的配对末端读数的大小分布。包括H2A大小分布以供比较。将数据归一化,使得碱基对中每个步长的所有点的总和等于1。图1D;与ORGANIC ChIP-seq(约2000-3000万个作图的配对末端读数)和标准ChIP-seq(Paul等,2015)(约500万个Abf1和约1.26亿个Reb1作图的单末端50bp读数)相比,bf1和Reb1样品的时间-过程图谱(每条泳道约200-300万个作图的配对末端读数)显示小于120bp和大于150bp的片段长度类别。阴性对照泳道显示遗漏第一抗体(1号Ab)的结果。在每个TF和片段大小组中,Y轴刻度由IGV自动缩放,显示归一化的计数,并且片段大小类别被叠加。刻度线(Tick)标记重要的Abf1(上)和Reb1(下)基序的位置。该区域被选为在3号染色体上具有最大的Abf1基序簇。

  图2A和2B显示,CUT&RUN的准确性和强健性(robustness)优于ChIP-seq。来自单个实验(20160630)的CUT&RUN数据集的Abf1(图2A)和Reb1(图2B)热图,汇集1”至32”时间过程样品,并分成小于120bp和大于150bp的大小类别(左)。还显示了小于120bp的大小类别的ORGANIC ChIP-seq数据集(中间)和标准ChIP-seq数据集(右)。Abf1具有两个间隔约10bp的DNA结合结构域(Cho等,1995),而Reb1具有单个Myb样的DNA结合结构域(Morrow等,1990)。MN酶消化后Abf1染色质的增溶需要600mM的NaCl以获得特异度与灵敏度之间的最佳平衡,而对于Reb1,80mM给出了最佳结果(Kasinathan等人,2014),这些是用于比较的数据集。如在先前ORGANIC ChIP与ChIP-exo和ChIP-芯片比较中一样(Kasinathan等人,2014),所有统计上显著的Abf1和Reb1基序的集合被认为是判断灵敏度(由正确的TF占据位点)和特异度(排除不正确的TF位点)的“黄金标准”。将对齐的剖析数据在同一TF(顶部)和另一TF(底部)的基序上方居中定向以供显示(去除距离Abf1和Reb1位点在50bp之内的81个位点),并使用Java Treeview(利用log2标度和对比度=5)按照在小于120bp的数据集的-1kb至+1kb跨度上的平均像素密度来进行排序。对CUT&RUN(基于少于120bp的片段)和ChIP-seq进行独立排序,在这种情况下,相对于侧翼区域占据的位点的近似分数变得明显,并且顶部图(正确的TF)和底部图(不正确的TF)的比较反映了数据集的灵敏度/特异度权衡。使用基于ChIP-seq数据的位置特异性评分矩阵(PSSMs)通过对酿酒酵母基因组的MAST搜索来确定位点,但使用MAST利用基于CUT&RUN数据的PSSMs获得了相似的结果。

  图3A-3C显示CUT&RUN以高分辨率对TF结合位点作图。图3A;片段末端在全基因组上的作图揭示了在其定向且对齐的基序处平均的Abf1和Reb1CUT&RUN数据集的深“洞”和陡“壁”,绘制了来自组合的1”-32”数据集的所有归一化的碱基对计数(见图2)。图3A所示的1bp分辨率图谱与用11bp滑动窗口平滑的同一图谱之间的差异的图3B自相关分析证实了在上游和下游“斜坡”上具有明显的~10bp的周期性的锯齿图案,这也表明平均G+C含量(细线)没有相应的周期性。图3C与图3A相同,但采用11bp滑动窗口进行平滑,并以更大的刻度显示。围绕Reb1的斜坡显示+150和-150处的凹陷,这一事实可能反映了相核小体(phasednucleosomes)的存在,如下所示(核仁,Y轴任意的),基于ORGANIC输入数据的大于150bp的大小类别(Kasinathan等,2014)。

  图4A-4C显示CUT&RUN精确地对大的流动染色质复合物进行作图。图4A;与两个MN酶消化时间点(2.5’和10’,每个样品平均2200万个读数)的Mot1ORGANIC数据(Zentner和Henikoff,2013)对齐的显示Mot1CUT&RUN时间过程实验的代表性轨迹(每个样品平均约300万个配对末端读数),包括无第一抗体(1号Ab)阴性对照。虚线所示的TBP位点显示,Mot1峰正好位于TBP峰最大值的上游。图4B;显示绝对定量的在120倍范围内的经加标归一化的Sth1CUT&RUN消化的占用率图谱。图4C;Sth1ORGANIC图谱(约1500万个读数)显示与CUT&RUN5s样品(约200万个读数)一致。请注意,在(图4B)和(图4C)图中均显示(但以不同的刻度)了相同CUT&RUN 5s的少于120bp的图谱。

  图5A-5D显示CUT&RUN对罕见的高度不溶性酿酒酵母动粒复合物进行作图。图5A;在停止消化进行指定时间后,将样品分成两半,提取可溶性级分的DNA和总DNA。在文库制备之前,用AMPure珠从总DNA中除去大片段。显示了酿酒酵母着丝粒1的归一化计数,其中Cse4和H2A轨迹在相同的Y轴刻度上。着丝粒上的类似最大值也在全基因组范围内可见。图5B与图5A相同,但对着丝粒处的5kb间隔进行了放大。图5C;不溶性Cse4和H2A的占有率,其中定义为围绕其中点对齐的所有16个酿酒酵母着丝粒的中位值的log2(不溶性)=log2(总量)–log2(可溶性)=log2(总量/可溶性)。公布的X-ChIP-seq图谱(PekgozAltunkaya等,2016)以相同的刻度显示,以供比较(左)。星号:log2(ChIP/输入)在两次重复中取平均值。图5D;应用于消化指定的时间的甲醛交联的细胞的Cse4和H2A CUT&RUN的归一化计数图谱。

  图6A-6C显示CUT&RUN对CTCF的高分辨率足迹进行作图。图6A;来自ENCODE CTCFChIP(GSM749690)、CTCFChIP-exo和CUT&RUN的1000万个随机取样读数的基因组基因座的代表性信号。在顶部图中,所有数据集的y轴都是相同的,表明CUT&RUN的动态范围更高。在底部图中,y轴是单独设置的。图6B;分为小于120bp(包括片段末端)和大于150bp大小的类别的CUT&RUN合并数据集(7.5分钟至45分钟)的热图,以及人K562细胞中CTCF的ENCODE X-ChIP-seq和高分辨率X-ChIP-seq的热图(Skene和Henikoff,2015)。通过无偏方法确定位点,在所述无偏方法中将数据居中定向在CTCF基序上,所述基序是在DNA酶I超敏感位点内发现的,并按基因组位置排序。上游和下游核小体的不对称释放可能来自于控制进入基序两侧核小体的表位位置。图6C;以上述位点为中心的CUT&RUN消化时间过程产生的小于120bp的片段的末端位置的均值图(mean plots)。数据表示为±1kb侧翼区域内最大信号的百分比。

  图7A和7B显示,尽管在所有位点上都有稳健的足迹,但CTCF直接结合一个亚组的“CUT&RUN”峰。图7A;将染色质在天然条件下片段化和溶解,或者作为天然输入直接测序,或者将CTCF结合的染色质免疫沉淀和测序。出于比较的目的,分析ENCODE X-ChIP-seq。鉴定天然条件下的CTCF结合的峰并以与CTCF基序的最佳匹配为中心(JASPAR databaseMA0139.1,jaspar.genereg.net/)。将数据绘制在这些位点(-1至+1kb)上方,作为原生ChIPDNA片段(20-75bp)和CUT&RUN(小于120bp)的热图,并按原生CTCF ChIP占用率((中心区域(-30至+30bp)的总和减去侧翼的总和(-1000至-700和+700至+1000bp))排序。下图显示了不同技术在称为峰的位点(-30至+30bp)上的测序计数的累积百分比,并按与CTCF基序的相似性进行了排序。这显示了在原生ChIP峰处染色质剖析技术之间的高度一致性。请注意,原生ChIP和CUT&RUN的动态范围为原生输入和ENCODE X-ChIP的约30–40倍,这是显示输入和ENCODE模式所必需的。图7B;数据绘制在称为CUT&RUN峰的点上,按照图7A进行处理。累积分布显示CUT&RUN位点向较低基序分数的偏移(参见CUT&RUN与原生ChIP之间的分离)。

  图8A-8C显示CUT&RUN与原生ChIP相结合可以识别直接和间接的3D接触位点。图8A;显示CTCF和CTCF ChIA-PET片段的CUT&RUN(小于120bp)、原生ChIP(20–75bp)数据的典型基因组区域(GSM1872886;得分大于15)。ChIA-PET片段被归因于直接相互作用(与原生ChIP峰重叠)或间接相互作用(仅与CUT&RUN峰重叠)。图8B;称为峰的位点被分为直接(存在于原生ChIP中)或间接(仅存在于CUT&RUN中)。鉴定了与直接位点或相同数量的随机基因组位置相交的Hi-C片段。然后将Hi-C相互作用片段与间接位点相交,并将CUT&RUN信号与Hi-C原始信号进行比较。将数据按CUT&RUN得分进行排序,并绘制成窗口大小为1500的移动平均值。图8C;鉴定含有直接位点的ChIA-PET片段,相互作用的片段与上述直接峰、间接峰或随机位置相交。与这些位点不重叠的相互作用片段被归类为未分类的。方框图显示了在交互片段中观察到的接触的CUT&RUN得分。

  图9A和9B显示,CUT&RUN允许蛋白质-DNA相互作用的简单定量。图9A;在K562细胞中对CTCF进行CUT&RUN的消化时间过程。为了允许对释放的片段进行定量,在切割反应后加入1ng果蝇DNA。少于120bp的已测序的片段的均值图在于DNA酶I位点内发现的CTCF基序上方居中。将数据针对果蝇读数数量(加标归一化)或针对人读数总数(标准归一化)归一化。图9B;起始材料的滴定用于对全基因组范围的CTCF结合进行作图。对于少于120bp的已测序的片段,使用加标或标准归一化法生成热图和均值图。数据在于DNA酶I位点中发现的CTCF基序上方居中。

  图10显示CUT&RUN和ORGANIC ChIP产生了性质上相似的TF占用率图谱。从1\"至32\"以及64\"和128\"时间-进程样品合并的CUT&RUN数据以及≤120bp和≥150bp片段长度的ORGANIC以及标准ChIP-seq的Abf1和Reb1图谱的代表性实例。MNase-seq图谱以灰色显示。刻度线标记重要的Abf1(上)和Reb1(下)基序的位置。Y轴通过IGV在每个区域内自动缩放。

  图11A和图11B显示CUT&RUN DNA释放的动力学。图11A;在本研究中描述的两种酵母TF在0℃下经过1–128秒的消化时间序列后,来自沉淀级分(每份样品10μL)的DNA在1%琼脂糖凝胶上的电泳。由于这些位点在酵母基因组中平均相距约10kb,因此随着Abf1和Reb1两者的消化时间从1秒到128秒,可以观察到片段大小逐渐减小。人基因组中CTCF位点之间的平均距离太大,以至于不能用常规的凝胶测定来观察裂解。图11B;基于Picogreen荧光测量的DNA的释放百分比:[上清液]/([上清液]+[沉淀])*100。总产率为~500ng/样品。

  图12A-12C显示上清液中结合的TF的定量回收。图12A;来自本文所述的单一实验的CUT&RUN数据的Abf1图谱与Reb1图谱的比较,除了在去除AMPure珠上的大片段后比较将上清液级分(可溶性)与总DNA。图12B;扩大的图12A中的高TF占用率区域。图12C;除了采用对数标度和对比度=5,以2为中心以外,如本文所述将CUT&RUN≤120bp消化数据与基序进行热图比对,并按TF占用率排序。

  图13A-13E显示基于CUT&RUN和ORGANIC ChIP-seq的Abf1和Reb1基序相似。MEME基序发现程序应用于图13A–B的1”-32”合并CUT&RUN≤120bp数据以及(图13C)600mM Abf1和(图13D)80mM Reb1ORGANIC数据,并显示对数比值比序列标志(log-odds sequencelogos)。注意使用CUT&RUN和ORGANIC确定的图案之间的紧密对应关系。图13E;关于基序的峰值调用(peak calls)的百分比。对于每个≤120bp的数据集,使用设定的阈值调用峰值,以恢复相似数量的峰值(严格的~650和宽松的~1100)。

  图14显示CUT&RUN揭示了原位裂解动学。单个实验(20160630)的CUT&RUN数据的Abf1(左)热图与Reb1(右)热图的比较,合并1”至32”以及64”和128”时间过程样品,并分成≤120bp(左)和≥150bp(右)的大小类别。除了利用对数标度和对比度=3使用Treeview以外,如先前所述进行与基序的比对和按TF占有率排序。注意,随着消化时间的增加,更多的TF被释放,加深了≥150bp片段的“洞”,而动态范围没有任何明显变化。在粒子检测方面,CUT&RUN显示出比MN酶-seq高得多的动态范围(比较顶图和底图)。

  图15A-15B显示了Mot1的CUT&RUN图谱以及ORGANIC图谱。图15A;在TBP位点周围对齐、并按每个位点周围2kb区域内递增的Mot1占用率排序的两个CUT&RUN时间点和两个ORGANIC时间点的热图。图15B;显示绝对定量的加标归一化的分布在120倍范围内的Mot1CUT&RUN消化的占用率。

  图16A-16B显示Sth1的CUT&RUN和ORGANIC图谱。图16A;经归一化以使得存在相等的曲线下面积的经Sth1CUT&RUN AMPure-珠过滤的总DNA片段的长度分布。在整个时间过程中观察到均匀的消化和释放。数据由两个生物重复组合而来。无抗FLAG第一抗体(无Ab)。图16B;Gal1-Gal4区域(ChrII:276,000–281,000)的轨迹,其显示将RSC作图到Gal4UAS的一致性(UASg,Floer等,2010)。

  图17A-17C显示CUT&RUN对罕见的高度不溶性酿酒酵母动粒复合物进行作图。图17A;在加入抗体和pA-MN后,将样品分成两半,pA-MN用钙激活,并用标准的100mM NaCl缓冲液(-)或含2M NaCl的缓冲液(+)停止反应。使用加标归一化显示1号染色体的轨迹,以反映绝对回收。图17B;Cse4的特写视图以及Cse4和H2A高盐对比低盐提取片段的对数比。图17C;围绕其中点对齐的所有16个酿酒酵母着丝粒的中间部分的高盐提取片段对比低盐提取片段的对数比。

  图18显示CUT&RUN概括了X-ChIP-seq,但具有更高的动态范围。为了直接比较先前鉴定的CTCF结合位点的全基因组动态范围,从ENCODE CTCF X-ChIP-seq(GSM749690)和CUT&RUN数据集随机选择1000万个读数,并绘制在称为ENCODE峰的位点(GSM749690_narrowPeak)。上图在这些位点上方显示了原始计数的平均均值,下面的热图按基因组位置排序。

  图19A-19D显示当在冰上进行时CUT&RUN的背景很低。在方案优化期间,在一定温度范围内进行裂解反应。图19A;最初将37℃用于MN酶反应。然而,对数据的仔细分析表明,尽管在低密度全基因组背景下将CTCF清晰地作图在其真实位点,但我们在随机的DNA酶I位点上也有特定的背景。合理的是,特定的背景产生自被释放的染色质复合物,所述复合物仍然被扩散到细胞核周围并切割染色质可及区域的蛋白A-MN酶结合。图19B;为了验证这一假设,在CTCF抗体和蛋白A-MN酶原位结合后,用有限的超声处理破坏核膜,以将染色质释放到大的反应体积中。当在中断的条件下进行CUT&RUN时,不再观察到这种特定的背景。图19C;通过在室温下进行裂解反应来限制这些染色质复合物的扩散。信噪比开始较低,但随着时间的推移而增加,8分钟后,噪声与信号无法区分。图19D;然而,通过在冰上保持反应,信噪比很高,并且与时间无关。因此,通过控制裂解反应的温度,可以稳健地保持低背景。

  图20A-20C显示,CUT&RUN的高信噪比允许X-ChIP-seq无法实现的DNA结合位点的可靠鉴定。在K562细胞中对Myc和Max进行了CUT&RUN,并与ENCODE X-ChIP-seq数据集(GSM935410;GSM935539)进行了比较。对于每个数据集,随机选择1000万个读数,并显示典型的基因组区域(图20A)。注意,对于Myc,使用了不同的抗体,因此无法进行定量比较。图20B;显示通过CUT&RUN或先前通过ENCODE鉴定的称为Myc峰的位点与称为Max峰的位点之间的重叠的比例维恩图。图20C;显示绘制在通过Max CUT&RUN鉴定的称为峰的位点处的CUT&RUN以及ENCODE X-ChIP-seq信号的热图(n=20146)。位点按Max CUT&RUN得分排序,注意热图动态范围的变化。

  图21显示了CUT&RUN能够以高动态范围对致密的染色质进行作图。通过在消化后提取所有的DNA,然后进行大小选择,或者允许切割的片段扩散出细胞核来在K562细胞中对H3K27me3进行CUT&RUN。为了进行比较,分析了ENCODE H3K27me3X-ChIP-seq(GSM733658)数据集。对于每个数据集,随机选择1000万个读数,并显示典型的基因组区域,其中上图具有相同的标度,下图针对ENCODE数据集重新调整标度。

  图22A和图22B显示改进的原生ChIP方案允许完全蛋白质提取。图22A;测试天然条件下不同SDS和超声条件下RNA聚合酶II(RNAPII)和CTCF的提取效率的蛋白质印迹法。图22B;为了测试CTCF在天然条件下的潜在再分布,将提取物与具有高评分基序(阳性)或混洗序列(阴性)或601核小体定位序列(每个细胞1000个拷贝)的95bp DNA探针一起孵育。ChIP和DNA提取后,将定量PCR用于测试CTCF与基因组中的(基因组的)天然峰或DNA探针的结合。

  图23显示通过CUT&RUN鉴定的峰具有比来自原生ChIP的峰更多样的基序得分范围。用在原生CTCF ChIP(去除了不包含清晰峰值的假阳性)和CUT&RUN上进行峰值调用。将潜在的DNA序列在两个方向上延伸100bp,并计算出与JASPAR位置频率矩阵(MA0139.1)的最佳匹配和得分。直方图描绘了基序得分的分布。

  图24显示CUT&RUN从细胞到DNA需要不到一天。CUT&RUN方案的示意图。收集细胞并使其结合到刀豆球蛋白A包被的磁珠上。用洋地黄皂苷透化细胞膜以使特异性抗体找到其靶标。在与抗体孵育后,将珠粒短暂洗涤,然后与pA-MN一起孵育。将细胞冷却至0℃,添加Ca2+,开始消化。通过螯合作用(包括加标DNA)停止反应,并从上清液中提取通过裂解释放到溶液中的DNA片段。

  图25显示作为当天阳性对照的丰富组蛋白表位(H3K27me3)的tapestation分析。这些样品的剩余部分用于制备测序文库,结果如图28所示。

  图26显示使用抗CTCF抗体对CUT&RUN裂解的片段的tapestation分析。这些样品的剩余部分用于制备测序文库,结果如图29所示。

  图27显示产量随消化时间增加而增加,信噪比几无变化。通过缩放到加标DNA,可以定量测量裂解的DNA片段的量。将超过约20,000个CTCF CUT&RUN结合位点的平均信号与相同数量的作为阴性对照区域的非重叠转录起始位点(TSS)进行比较。在相对于所述位点或TSS的中心的-50bp至+50bp区域内,对缩放信号的尖峰进行求和。

  图28显示H3K27me3的CUT&RUN只需要100个细胞来描绘人Polycomb染色质景观轮廓。将不同数量的K562细胞用作通过CUT&RUN剖析H3K27me3的起始材料。在配对末端25x25bp Illumina测序和去除重复后,随机选择750万个读数,并将其用于生成代表原始计数的基准图(bedgraphs),如y轴上所示的。为了进行比较,对ENCODE XChIP-seq数据(GSM733658)进行了类似的分析。

  图29显示CUT&RUN只需要1000个细胞和400万个读数就可以描绘出人CTCF峰。CUT&RUN用于不同数量的K562细胞中对CTCF结合位点进行作图。在配对末端测序后,随机选择400万个非重复读数,并用于生成代表原始计数的基准图,如y轴上所示的。为了进行比较,对ENCODE X-ChIP-seq数据(GSM749690)进行了类似的分析。

  图30显示离心柱DNA纯化部分排除了大片段和小片段。为了测试离心柱结合不同长度的DNA片段的效率,通过柱子纯化2μg的10bp的梯状条带,并与作为输入物的2μg进行比较。通过10%聚丙烯酰胺凝胶电泳分离DNA,用SYBR金进行染色。密度测定显示在左侧。对于CUT&RUN,去除大片段会降低背景,但去除小片段会影响对DNA结合蛋白进行剖析时的回收。因此,离心柱纯化(步骤39-46)对于核小体是优选的,但对于转录因子和非常少的细胞数量可能是不太理想的,在该情况下,推荐替代的PCI方案(步骤47-58)。

  图31A和图31B显示CUT&RUN。ChIP高效地对多蛋白质复合体的组分进行作图。图31A;应用于CUT&RUN上清液的ChIP。通过对靶蛋白使用3XFLAG标签和使用抗FLAG抗体(随后使用兔抗小鼠第二抗体,未显示),通过添加FLAG肽,在CUT&RUN上清液中回收的pA-MN/抗体复合物被从DNA-蛋白质复合物中竞争出来。然后加入第二抗体,免疫沉淀物被捕获在蛋白A磁珠上。图31B;应用于酿酒酵母核小体的CUT&RUN.ChIP;显示了跨越11个基因的区域的代表性实例。1.首先使用XFLAG-H2A.Z(绿色)或3XFLAG-H2B(蓝色)进行CUT&RUN。2.然后使用所示的各种组蛋白修饰和对照(IgG)抗体对输入物和上清液进行ChIP-seq。自动缩放分布以显示景观模式。图谱的分析(未显示)表明与以前的研究一致,H2A.Z组蛋白变体富集在活性基因的启动子之上,并富集组蛋白H4乙酰化和H3K4me3,但H3K36me3被耗尽。

  图32A和图32B显示CUT&RUN。蛋白质组学用于鉴定多蛋白质复合物的蛋白质组分。图32A;pA-MN-6His的图谱。图32B;用于通过CUT&RUN释放的颗粒的蛋白质纯化和蛋白质组学分析的策略。

  图33A-图33D显示H3突变型DMG中的H3K27M掺入是H3变体依赖性的。图33A;用于核酸酶靶向裂解和释放(Cleavage Under Targets and Release Using Nuclease)(CUT&RUN)的方案示意图。图33B;在不同的DMG细胞系中利用H3K27M抗体的CUT&RUN数据的IGV表示,上图相对于最高信号的组自动缩放的,下图是单独自动缩放的。图33C;在H3突变型DMG细胞系中,存在于H3K27me3和H3K27ac结构域中的H3K27M CUT&RUN信号的平均(顶部)图谱和热图(下方)图谱。图33D顶部:用H3K27me3、HH3K27M和IgG抗体对来自H3突变型DMG细胞系的CUT&RUN反应上清液的蛋白质提取物中的H3K27M和H3K27me3进行的蛋白质印迹。

  图34A-34C显示H3突变型DMG展示独特的H3K27me3结构域。图34A;标记的基因的代表性IGV轨迹。图34B;使用归一化不敏感的皮尔逊相关和归一化敏感的Lin相关在DMG细胞系中进行H3K27me3CUT&RUN的相关矩阵。图34C;使用层次聚类基于DMG细胞系之间的差异对结构域进行分类的存在于H3K27me3结构域中的H3K27me3CUT&RUN的热图,其中相关簇的编号为1-6。关于图34A,WNT6存在于簇3中,WT1存在于簇5中,PRDM1存在于簇6中。

  图35A-35C显示H3K27me3在H3突变型DMG中采用原始干细胞样构型。图35A;来自本报告中使用的所有细胞系的H3K27me3CUT&RUN(存在于图34中鉴定的差异H3K27me3结构域的簇中)的平均图谱(顶部)和热图(下方)。图35B;使用Lin相关比较组蛋白野生型(VUMC)、神经干细胞(CB660和U5)、ES细胞(H1)和两个H3突变型DMG细胞系的全基因组H3K27me3CUT&RUN的相关矩阵。图35C;显示对指定的细胞系具有特异性或由所述细胞系共享的H3K27me3结构域的数量、与簇6重叠的那些结构域的数量以及随机改组基因组坐标后与簇6重叠的数量的条形图通过实验性重叠与随机化重叠之间的卡方检验得出的p值。

  图36A-36B显示H3K27M以hESC和神经特异性基因的组合掺入H3.3突变型DMG。图36A;使用皮尔逊相关性比较组蛋白野生型(VUMC)、神经干细胞(CB660和U5)、ES细胞(H1)和两种H3突变型DMG细胞系中的H3K27ac以及组蛋白突变型DMG系中的H3K27M的全基因组CUT&RUN的相关矩阵。图36BH;基因座处的H3.3K27M中的H3K27M以及H3.3K27M、H1、CB660和U5中的H3K27ac的CUT&RUN信号的典型IGV轨迹,在所述基因座中H3K27ac对于hESC是特异的(左上),在HES和NSC中被共享(左下)或者仅存在于H3.3K27M中(右上)。

  图37A-37C显示H3K27M不会在DMG中螯合PRC2。图37A;在H3.3K27M细胞系中进行的与H3K27me3、H3K27M、SUZ12和MTF2抗体的反应的CUT&RUN数据的IGV表示。图37B;显示H3.3K27M-DMG中H3K27me3、H3K27M、SUZ12和MTF2CUT&RUN在富集有H3K27me3或H3K27M的区域中的富集的平均图谱。图37C;显示H3.1K27M-DMG细胞系中SUZ12和MTF2在富集有H3K27me3和H3K27M的区域中富集的平均图谱。

  图38显示表达H3.3K27M或野生型H3.3的293T细胞的H3.3K27M蛋白质印迹,LV=感染了慢病毒感的,P=转染的。数字将针对H3归一化的H3K27me3条带强度的密度测定值表示为相对于表达FLAG-野生型H3.3的293T的百分比。

  图39A-39B显示了模型,该模型显示出对H3K27M的敏感性取决于来源的干细胞样细胞、次级突变和发育背景。图39A;显示胶质瘤发生中来源细胞、次级突变和H3K27M之间的协同性的示意图。图39B;H3K27M对PRC2景观的贡献的模型。显示了含有野生型H3.1和H3.3、H3.1K27M(带星号)或H3.3K27M(带星号)的核小体。H3.1K27M促进许多干性和促增殖基因的去阻遏,但低水平的残留PRC2活性仍能沉默一个亚组的基因。H3.3K27M阻止干性基因的沉默(尽管存在抑制性信号),但允许强劲地沉默含有野生型H3.1的PRC2结构域。

  图40A-40B显示CUT&RUN.盐释放出离散的CENP-A/B/C复合物。图40A;作图到CENP-A、CENP-B和CENP-C CUT&RUN.盐级分中的D7Z1(左)和DXZ1(右)的合并对的片段长度分析。图40B;CENP-A、CENP-B和CENP-C CUT&RUN.盐250-bp x 250-bp合并对被作图到D5Z2、D7Z1和DXZ1阵列。呈现了跨越来自这些重叠群的两个串联二聚体的区域。实心盒代表CENP-B盒。

  图41A-41D.CENP-B稳定CENPCENP-A/B/C。使用透化细胞进行CUT&RUN(Skene和Henikoff,2017a)。图41A;CENP-B CUT&RUN.盐被作图到SF1、D7Z1和D7Z2序列。为了避免边缘效应,将配对末端25-bp×25-bp的读数作图到代表每个重叠群的串联三重340-bp二聚体共有序列。显示了中间二聚体的平均占用率。图41B;CENP-B盒基序得分(其中1表示与CENP-B盒中心15bp一致,0表示三个以上的错配)与CUT&RUN.盐中的CENP-A/IgG的倍数富集值之间的相关性。显示了两个实验(10分钟和30分钟消化时间)的平均值。图41C;每千碱基基序密度与B相同。图41D;显示了不存在于本实验中使用的女性K562细胞的Y染色体α卫星(DYZ3)、重复掩蔽的Hg19基因组、注释的β卫星以及缺少CENP-B盒的同质阵列(D7Z2)中的α卫星的CENP-A CUT&RUN.盐的倍数富集。数据来自250bp×250bp作图的合并对。

  图42显示人类着丝粒处的CENP-A/B/C的结构和构象变化。(上图)在D7Z1上取平均的CENP CUT&RUN.盐250-bp×250-bp合并对的高严格度作图。在D7Z1重叠群下方显示了两个串联二聚体的CENP CUT&RUN.盐图谱。(下图)来自不同二聚体单元的CENP-A图谱的叠加,其显示CENP-A/B/C在CENP-A和CENP-B CUT&RUN.盐以及CENP-A N-ChIP中以两个方向中的任一方向的取向。

  图43A-43B显示用于染色质蛋白质的高通量原位剖析的自动化平台。图43A;AutoCUT&RUN工作流程。(1)将细胞或组织结合到刀豆球蛋白A包被的珠粒,用洋地黄皂苷进行透化,并与靶向染色质蛋白的抗体一起孵育。(2)将样品排列在96孔板中,以及(3)在装有96孔磁性板的Biomek机器人上进行处理,以便在洗涤过程中进行磁分离(α),将铝冷却块(β)输送至循环水浴(γ)进行温度控制。(4)AutoCUT&RUN在2天内产生多达96个准备用于合并和测序的文库。图43B;标志H1(橙色)和K562(紫色)细胞中的活性(粉红色)和被抑制(蓝色)的染色质的组蛋白H3修饰的AutoCUT&RUN图谱的层次聚类相关矩阵。使用读取计数的log2转换值计算皮尔逊相关性,该读取计数被分入整个基因组中的500bp的箱(bin)中。

  图44A-44D显示AutoCUT&RUN再现了H1和K562细胞的预期染色质景观。图44A;显示H1细胞和K562细胞中落入H3K27me3、H3K4me2和H3K27ac结构域内的基因组的相对量的比例文氏图(Scaled Venn diagrams)。图44B;显示H1细胞中H3K4me2与H3K27me3的重叠,以及H3K27me3结构域的扩增和在K562细胞中在代表性基因座(NODAL)处与H3K4me2的重叠的缺失的基因组浏览器跟踪。图44C;显示组蛋白修饰在H1细胞中的AutoCUT&RUN分布的热图,所述分布以具有单个启动子的基因的TSS为中心,根据转录的5’-至-3’方向从左到右定向,并按RNA-seq值(FPKM)排序。图44D;显示K562细胞中转录活性启动子和被抑制的启动子上的AutoCUT&RUN组蛋白修饰图谱的分布的热图。

  图45A-45E显示线性回归模型精确预测细胞类型特异性启动子活性。图45A;比较单启动子基因的RNA-seq值与由针对K562数据训练的模型预测的启动子CREAM得分的密度散点图。图45B;H1和K562细胞中单启动子基因的CREAM得分的散点图。彩色圆点表示在H1细胞或K562细胞中,CREAM得分的富集>2倍。图45C;被作图到它们的相应RNA-seqw值的在H1细胞或K562细胞中>2倍富集的启动子CREAM得分的散点图。蓝色虚线表示2倍的差异截止值。图45D;显示根据其启动子CREAM得分或根据其RNA-表达值称为细胞类型特异性的基因之间的重叠的比例文氏图。指示了根据CREAM对比RNA-seq预测具有相反的细胞类型特异性的基因(缩放的黑色圆圈)。图45E;比较所有间隔>2kb的启动子的H1和K562CREAM得分的散点图H1和K562细胞身份的主调节剂用彩色圆圈指示。OTX2和TAL1均具有两个可以区分的启动子。

  图46A和46B显示AutoCUT&RUN适用于剖析冷冻肿瘤样品的染色质景观。图46A;DMG实验设置。将源自脑干的相似区域的两种DMG细胞系作为异种移植物在免疫受损的小鼠的脑中生长,并在形成肿瘤时切取肿瘤并将其冷冻。将异种移植物解冻,并通过与直接从细胞培养物中获得的对照DMG样品平行的AutoCUT&RUN进行处理。图46B;组蛋白H3修饰的AutoCUT&RUN图谱的层次聚类相关矩阵,其标志在细胞培养物(C.C.)中生长的或作为异种移植物(Xeno.)生长的VUMC-10和SU-DIPG-XIII细胞中的活性和被抑制的染色质。作为质量对照,还使用不同的抗体(*)在这些细胞系中手工剖析H3K27ac。使用在整个基因组中分入500bp的箱中的读数计数的log2转换值来计算皮尔逊相关性。

  图47A-47C显示启动子CREAM得分区分DMG样品中的基因活性。图47A;比较VUMC-10细胞培养样品与SU-DIPG-XIII细胞培养样品的启动子CREAM得分的散点图。与肿瘤生长相关的几种细胞信号传导组分的启动子位置用彩色圆圈表示。图47B;比较VUMC-10细胞培养物(C.C.)和异种移植物(Xeno)样品的启动子CREAM得分数的散点图。在这些样品之间,只有388个启动子的CREAM得分相差>2倍。图47C;VUMC-10(V)细胞与在细胞培养物(C.C.)中生长的或作为异种移植物(Xeno.)生长的SU-DIPG-XIII(S)细胞以及H1和K562细胞之间的启动子CREAM得分的Spearman相关性的层次聚类矩阵。

  图48A-48E显示auto CUT&RUN识别细胞类型特异性增强子元件。图48A;显示H1细胞中可及染色质位点(ATAC-seq峰)与在H3K4me2AutoCUT&RUN图谱上调用的峰的重叠的比例文氏图。图48B;H3K4me1、H3K4me2和H3K4me3在所有H3K4me2+/ATAC+TSS上的平均富集度。图48C;H3K4me1、H3K4me2和H3K4me3在所有H3K4me2+/ATAC+远端调控元件(DRE)上的平均富集度。图48D;VUMC-10(V)细胞和在细胞培养物(C.C.)中生长的或作为异种移植物(Xeno.)生长的SU-DIPG-XIII(S)细胞以及H1和K562细胞中增强子CREAM得分的Spearman相关性的层次聚类矩阵。图48E;显示对VUMC-10细胞(V)、两种DMG细胞系(D)具有特异性,或在代表性基因座(SOX2)处为DMG细胞和H1细胞(C)所共有的假定增强子元件(箭头)的位置的基因组浏览器跟踪。

  图49A-49E显示auto CUT&RUN精确地对NPAT和CTCF以及组蛋白标志作图。图49A;改进的CUT&RUN方案允许自动化。将ConA珠结合的样品与染色质蛋白特异性抗体一起孵育,并排列在Biomek上以进行连续洗涤、拴系蛋白质A-MN酶融合蛋白和通过添加Ca2+对DNA时行裂解。为了避免必须在文库制备前纯化消化的DNA,用仅有EGTA的停止缓冲液停止反应,所述缓冲液特异性螯合Ca2+,但留下足够的Mg2+以允许末端抛光Illumina Y-衔接子以及将Illumina Y-衔接子与染色质片段连接。然后用蛋白酶-K消化染色质蛋白,用Ampure磁珠在Biomek上纯化索引的CUT&RUN文库。图49B;NPAT和CTCF AutoCUT&RUN的基因组浏览器跟踪,所述基因组浏览器跟踪显示在H1和K562细胞两者中NPAT富集在HIST1基因簇的启动子处。图49C;证实CTCF与HOXA基因座中的隔离子区域(insulator region)结合的基因组浏览器跟踪。图49D;H1细胞中围绕具有单启动子的基因的TSS的指示的组蛋白标志的AutoCUT&RUN图谱与它们的相应RNA-seq值之间的皮尔逊相关性的表。图49E;H1细胞中围绕具有单启动子的基因的TSS的指示的组蛋白标志的AutoCUT&RUN图谱与它们的相应RNA-seq值之间的皮尔逊相关性的表。

  图50A-50G显示开发线性回归模型来预测顺式调控元件的活性。图50A;比较单启动子基因的H1RNA-seq值与通过针对H1数据训练的模型预测的H1启动子CREAM得分的密度散点图。图50B;比较单启动子基因的H1RNA-seq值与通过针对K562数据训练的模型预测的H1启动子CREAM得分的密度散点图图50C;H1和K562细胞中单启动子基因的RNA-seq值的散点图。圆点表示在H1细胞或K562细胞中RNA表达水平的富集>2倍。图50D;显示H1细胞或K562细胞中RNA-seq值>2倍富集的基因的分布的散点图,所述基因被作图到它们的相应启动子CREAM得分。虚线表示2倍的差异截止值。图50E;在根据CREAM得分以及RNA-seq鉴定两者鉴定的细胞类型特异性单启动子基因的集合中过度出现的基因本体论(GO)术语。图50F;在根据启动子CREAM得分但非RNA-seq(见图45D中的文氏图)唯一地鉴定为细胞类型特异性的单启动子基因的集合中过度出现的GO术语。图50G;在根据RNA-seq但非启动子CREAM得分唯一地鉴定为细胞类型特异性的单启动子基因的集合中过度出现的GO术语。

  图51显示DMG特异性SMAD3启动子活性。VUMC-10细胞和SU-DIPG-XIII细胞在代表性基因座(SMAD3)的组蛋白标志的基因组浏览器跟踪,其显示来自细胞培养物和异种移植样品的图谱的一致性。SU-DIPG-XIII细胞中的H3K27ac信号是有噪声的,但这个问题是抗体特异性的。为了进行比较,使用替代抗体(*)手工剖析H3K27ac。箭头表示经预测在VUMC-10(V)或苏SU-DIPG-XIII(S)细胞中具有特异性活性的启动子。

  图52A-52C显示启动子CREAM鉴定DMG特异性基因调控程序。图52A;根据CREAM分析,在VUMC-10细胞中富集>22倍的启动子集合中过度出现的GO术语。图52B;根据CREAM分析,在SU-DIPG-XIII细胞中富集>2倍的启动子集合中过度出现的GO术语。图52C;比较SU-DIPG-XIII细胞培养物(C.C.)与异种移植物(Xeno)的启动子CREAM得分的散点图。在这些样品之间,1,619个启动子在CREAM得分上具有>2倍的差异。

  图53A-53D显示autoCUT&RUN是区分近端和远端顺式调控元件的灵敏方法。图53A;H1细胞中可及染色质位点(ATAC-seq峰)和组蛋白标志的各种Auto CUT&RUN图谱上调用的峰的重叠的表图53B;称为ATAC+或ATAC-的H3K4me2峰处的ATAC信号的平均富集度。图53C;称为ATAC+或ATAC-的H3K4me2+TSS处的H3K27me3信号的平均富集。图53D;显示所有H3K4me2+/ATAC+TSS和远端调控元件(DRE)上的归一化H3K4me1、H3K4me2和H3K4me3图谱的分布的热图。

  图54显示CUT&RUN鉴定胎儿γ珠蛋白到成人β珠蛋白的转换。

  图55显示利用100个细胞的高CUT&RUN数据质量。将不同数量的K562细胞用作通过CUT&RUN剖析H3K27me3的起始材料。在配对末端25x25bp Illumina测序和去除重复后,随机选择750万个片段,并用于产生代表原始计数的轨迹。显示了用于与CUT&RUN比较的完全图谱(顶部轨迹)和750万随机选择的亚组的ENCODE X-ChIP-seq数据。

  图56显示分化成内胚层的人ES细胞的自动化的CUT&RUN剖析。显示“活性”(H3K4me3)和“抑制性”(H3K27me3)组蛋白修饰以及H1胚胎干细胞和源自H1细胞培养物的分化的内胚层细胞(DE)的CTCF的复制CUT&RUN图谱的屏幕截图。在右边扩大(加框的区域)POLD1转录单位,显示了在分化过程中启动子从活性修饰向抑制性修饰的转换。POLD1编码滞后链DNA聚合酶(Pol-δ)的催化亚单位,表明复制机制从启动子活性至抑制性染色质状态的转换对应于从细胞周期的退出。

  图57显示提高的与高Ca++/低盐消化的一致性。使用两种不同的抗体进行CUT&RUN,消化时间超过20秒至27分钟,如使用高-Ca++/低盐或标准方案所指示的。将来自四个时间-过程系列实验的17个H3K27ac数据集合并,使用MACS2调用74,906个峰。对每个数据集的峰值位置进行评分,并计算峰值向量之间的相关性(R2)。

  图58A和图58B显示利用衔接子的原位连接的H3K27ac CUT&RUN。图58A;显示了代表性20Mb的区域。图58B;按MACS2得分等级排序的74,906个H3K27ac峰上的片段计数±1kb的热图。

  图59A-59D显示完整组织和FACS分离的细胞的CUT&RUN图谱。图59A;从10只幼体中解剖出脑和翼成虫盘(wing imaginal discs),用洋地黄皂苷轻度渗透完整的未固定材料,并将其浸泡在抗体和pAMN酶溶液中进行CUT&RUN。图59B;使用vg-Q增强子在表达残留(vg)基因的细胞中产生GFP,分离盘,通过FACS分离10,000个绿色荧光蛋白阳性细胞。图59C;跨越Polycomb抑制ANTP复合体的完整组织和FACS分离的细胞的H3K27me3的CUT&RUN图谱。触角足(Antp)基因在大脑中被抑制和甲基化,但在翼成虫盘中表达并且未被甲基化。在FACS分离的细胞中,Antp的去抑制作用也是明显的,信号高于背景比率。图59D;大脑(其中vg基因被抑制)、翼成虫盘(其中~20%的细胞表达vg,其余细胞不表达)和FACS分离的表达vg的细胞中的vg基因的H3K27me3的图谱。

  图60A和60B显示CUT&RUN数据中的基于大小的峰顶检测。图60A;峰顶检测方法。将富集区域内包含的CUT&RUN片段作图到片段偏移对比片段长度散点图上,从数据中得出LOSS曲线,曲线中出现局部最小值的单碱基对位置被报告为顶点。图60B;使用双组分高斯混合模型,通过预测的片段大小对单碱基对CTCF峰顶进行划分,并使用MEME检测两个队列中每一个的顶点周围20bp窗口中富集的基序。

  图61是用于CUT&RUN的改良载体的质粒图谱。

  图62显示蛋白A-Tn5表达载体。构建了其中蛋白A的C末端通过26个残基的柔性接头肽(pA-Tn5)与转座酶分离的高活性Tn5转座酶的形式。从pK19pA-MN载体(Schmid等2004)PCR扩增葡萄球菌属(staphylococcal)蛋白A的两个IgG结构域并将其以C末端融合至表达载体pTXB1-Tn5(Picelli等,2014)中的高活性Tn5等位基因(E54K,L372P)。将由DDDKEF(GGGGS)4(SEQ ID NO:1)组成的柔性接头包含在蛋白A与Tn5之间。通过在蛋白A的N-末端处插入三个串联的FLAG表位标签,还构建了加3XFLAG标签的形式(pAf-Tn5)。

  图63A和图63B显示ITIS策略和针对低细胞数量的应用。图63A;当负载有游离19-聚体Tn5末端DNA双链体以形成pA-Tn5转座体时,pA-Tn5可用于进行加标签(tagmentation),其加标签的方式与pA-MN可用于ChIC(染色质免疫切割)和CUT&RUN的方式一样。在加标签中,载有两个末端双链体DNA(其对应于转座子的嵌合末端序列和与所用测序平台相容的衔接子悬突)的非序列特异性转座酶进行剪切与粘贴反应,从而用转座子末端序列和衔接子悬突对切割位点的两端进行加帽。与CUT&RUN不同的是,没有颗粒的释放,而是在加标签后,提取DNA并使用引物将其进行PCR,所述引物的序列在3’末端与嵌合体末端互补,并且在5'侧与测序衔接子互补。图63B;来自可变细胞数实验中Tapestation读出的实例。

  图64显示来自不同pA-Tn5构建体的ITIS文库。当与各种抗体(包括针对阴性对照(IgG,豚鼠抗兔IgG)、针对CTCF DNA结合蛋白(兔单克隆抗体)、针对RNA聚合酶C-末端结构域丝氨酸-5磷酸(PolIIS5,小鼠单克隆抗体)和针对组蛋白H3赖氨酸27三甲基(H3K27me3,兔单克隆抗体)的抗体)一起使用时,文库在12轮PCR后显示出特征性的大小分布。对于pA-Tn5和3XFLAG-pA-Tn5(pAf-Tn5)均观察到类似的结果,尽管在pA-Tn5制剂中存在更多的大肠杆菌(E.Coli)DNA导致了文库片段的模糊背景。

  图65显示ITIS图谱似优于CUT&RUN图谱。顶部:对通过ITIS产生的片段进行的作图表明,与使用相同的RNA聚合酶II(RNAPII)Ser5小鼠单克隆抗体的CUT&RUN相比,数据质量得到了改善,其中≤120-bp的片段显示出代表RNAPII转录起始形式的尖锐峰。与CUT&RUN不同(在CUT&RUN中,过度消化会导致可及区域上的裂解(比较27分钟到9分钟的轨迹),pA-Tn5的每个分子只能剪切并粘贴到单个末端,因此一旦其已递送了负载,其就不能进一步反应。因此,背景比对于CUT&RUN所可能的下降甚至更多。底部:对于H3K27me3,ITIS与CUT&RUN之间的对应关系非常密切,尽管与CUT&RUN的2500万相比,ITIS样品的作图读数(650-690万)要少得多。对于ITIS和CUT&RUN,图谱明显比ENCODE ChIP-seq更干净,所述ENCODE ChIP-seq需要5600万个读数才能产生所示的图谱。从左至右,图显示同一区域的连续3倍放大。

  图66A显示ITIS与CUT&RUN之间对于组蛋白修饰的密切对应关系。如Janssens等(2018)所述,根据ITIS和CUT&RUN数据集构建关联图。将相同的抗体用于ITIS和CUT&RUN:H3K27me3(Cell Signaling Technology目录号9733)、H3K4二甲基(“2”,Millipore目录号07-030)、H3K4三甲基(“3”,Active Motif目录号39159)和H3K27ac(Millipore目录号MABE647)。

  图66B显示ITIS与CUT&RUN之间对于CTD-丝氨酸-磷酸化的RNAPII的密切对应关系。如Janssens等(2018)所述,根据ITIS和CUT&RUN数据集构建关联图。括号中的数字表示CTD七聚体残基,其中“m”表示小鼠单克隆抗体(Abcam目录号ab5408,随后Abcam目录号ab46540兔抗小鼠抗体),而“p”表示Abcam目录号5095兔多克隆抗体。将同样的抗体用于ITIS和CUT&RUN。

  图67显示对pA-Tn5结合的全基因组超敏性,并且通过提高盐浓度基本上消除了加标签。按ATAC-seq MACS2峰值得分排序的选定数据集的热图展示,显示了在150mM NaCl条件下的ITIS与ATAC-seq峰值得分密切相关。相比之下,在150mM条件下的ITIS显示出与ATAC-seq峰值调用的略微反相关,类似于对于CUT&RUN所盾到的,并且通过在300mM NaCl下进行pA-Tn5添加和加标签,超敏性信号基本上被消除。这证实了超敏性是由未系连的Tn5引起的,并且盐处理能有效地消除它。ATAC-seq峰值调用(61,153)来自GSE31755(K562细胞)。使用Java TreeView按在任意线性标度绘制热图。

  图68显示ITIS片段落入多个大小类别中。当对ITIS文库进行配对末端测序时,获得了预期的图谱,其中小片段代表转录因子,大片段代表单核小体和较低水平的二核小体。~10-Bp的周期性可能反映了束缚裂解的严格限制。

  图69A-69B显示高盐减少了无目标的加标签和小片段回收。图69A;被作图的片段数以百万计。Ov是CUT&RUN,然后使用NuGen Ovation library preparation试剂盒原位连接衔接子。通过与CUT&RUN进行比较,可从H3K27me3轨迹中估计出超敏位点检测相对于目标信号的相对大小,在CUT&RUN中几乎没有超敏位点检测。通过提高洗涤步骤的盐浓度,可看到超敏性被降低。这证实了超敏性是由未系连的Tn5引起的,但可通过调节条件来降低或消除。图69B;使用不同的抗RNAPII抗体(其中在150mM NaCl中进行结合和加标签),可看到两种不同的大小类别(顶图),然而在300mM NaCl中,较小的大小类别急剧减少。

  图70显示pA-MN酶的大肠杆菌DNA污染可代表加标校准。来自H3K27me3(100-6,000个细胞)和CTCF(1,000-100,000个细胞)的K562细胞CUT&RUN数据集(GSE104550)的片段被作图到酿酒酵母的重复掩蔽基因组和大肠杆菌的全基因组。

  图71显示RNAPII-Ser5P的ITIS峰值调用对应于转录起始位点。为了验证ITIS,使用MACS2,利用默认参数为pA-Tn5和pA-3XFLAG-Tn5RNAPII-Ser5P数据集调用了峰值,每种产生约17,500个峰值。将针对人K562细胞(SRA GSM1480327)进行的PRO-seq运行(PRO-seqrun-on)的处理数据集与峰调用进行比对。当按ITIS MACS2得分排序时,可以看到PRO-seq占用率与PolII-Ser5ITIS得分之间的密切对应关系,其中蓝色热图值表示每个峰值调用的3’侧的PRO-seq占用率,黄色值表示5’侧的PRO-seq占用率。

  图72是相关矩阵,其显示在单个96孔板上针对20种不同抗体和各自来自两个不同批次的细胞的两种细胞类型一起运行的96个ITIS样品的层次聚类。透化1或4.5小时后,加入抗体(1:50)并在40℃孵育过夜。然后,使用8通道移液器和96孔板处理器对该板进行ITIS,将来自每个孔的大致等摩尔的样品合并,并在单个Illumina 2500快速流动池中进行测序,平均每个样品有300万个配对末端读数。除5种不同的RNA PolII抗体外,所有的生物重复聚集在一起,排除了被其它抗体结合的所有样品,证明了高通量ITIS的显著程度的重现性。

  图73显示使用ITIS就低细胞数量对片段的回收。将K562细胞从60,000个细胞连续稀释至20个细胞,并对H3K27me3和RNAPII-Ser2+5进行ITIS检测。看到对于H3K27me3,片段的近似线性回收(按对数标度)低至20个细胞,对于RNAPII低至60个细胞。

  图74显示人数与大肠杆菌片段数之间存在反比关系,证实了在pA-Tn5制剂中使用大肠杆菌污染作为ITIS的加标替代物,类似于在CUT&RUN中观察到的情况。

  图75显示高CUT&RUN数据质量,其中低背景低至20个细胞。

  若干实施方案的详细描述

  A.术语和定义

  在下面的详细描述中参考了附图,其构成详细描述的一部分,并且通过图示的方式显示了可以实施的实施方案。应当理解,可以利用其他实施方案,并且在不脱离范围的情况下,可以进行结构或逻辑改变。因此,以下详细描述不应被视为是限制性的,并且实施方案的范围由所附权利要求及其等同物来限定。

  各种操作可以以有助于理解实施方案的方式依次被描述为多个离散操作;然而,描述的顺序不应被解释为暗示这些操作是顺序依赖性的。

  出于描述的目的,“A/B”形式或“A和/或B”形式的短语是指(A)、(B)或(A和B)。出于描述的目的,形式为“A、B和C中的至少一个”的短语是指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。出于描述的目的,形式为“(A)B”的短语是指(B)或(AB),也就是说,A是可选元素。

  说明书可以使用术语“实施方案”或“多个实施方案”,所述每个术语可以指一个或多个相同或不同的实施方案。此外,关于实施方案使用的术语“包含”、“包括”、“具有”等是同义的。

  说明书可以使用术语“实施方案”或“多个实施方案”,所述每个术语可以指一个或多个相同或不同的实施方案。此外,关于实施方案所使用的术语“包含”、“包括”、“具有”等是同义的,并且通常旨在作为“开放”术语(例如,术语“包括”应当解释为“包括但不限于”,术语“具有”应当解释为“至少具有”,术语“包括”应当解释为“包括但不限于”等)。

  关于本文中任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或申请从复数转换成单数和/或从单数转换成复数。为了清楚起见,在本文中可以明确地阐述各种单数/复数排列。

  除非另有说明,否则技术术语根据常规用法使用。分子生物学中常见术语的定义可见于Benjamin Lewin的Genes IX(由Jones和Bartlet出版),2008(ISBN 0763752223);Kendrew等(编辑),The Encyclopedia of Molecular Biology(由Blackwell ScienceLtd.出版,1994(ISBN 0632021829));和Robert A.Meyers(编辑),Molecular Biology andBiotechnology:a Comprehensive Desk Reference(由VCH Publishers,Inc.1995(ISBN9780471185710);和其他类似的参考文献中。如有冲突,以本说明书中的术语为准。

  为了便于综述本公开的各种实施方案,提供了特定术语的以下解释。

  抗体:一种多肽配体,其至少包括轻链或重链免疫球蛋白可变区,并特异性结合抗原的表位(诸如与染色质DNA缔合的蛋白质上的表位)。抗体可包括单克隆抗体、多克隆抗体或抗体片段。

  就抗原而言,术语“特异性结合”是指抗体或其它配体整体或部分地与特定多肽(诸如与染色质DNA结合的特定蛋白质,例如转录因子)的优先缔合。特异性结合剂基本上只结合特定的靶标,诸如特定的染色质相关因子。应认识到,在分子(诸如特定结合剂)与非靶多肽之间可发生微小程度的非特异性相互作用。然而,特异性结合可被区分为通过抗原的特异性识别介导的。尽管选择性反应性抗体结合抗原,但它们以低亲和力这样做。例如与非靶多肽相比,特异性结合通常导致诸如与靶多肽结合的抗体或其它配体的量(每单位时间)增加至2倍以上,例如5倍以上、10倍以上或100倍以上。多种免疫测定形式适用于选择对特定蛋白质有特异性免疫反应的抗体。例如,固相ELISA免疫测定通常用于选择与蛋白质特异性免疫反应的单克隆抗体。关于可用于确定特异性免疫反应的免疫测定形式和条件的描述,参见Harlow&Lane,Antibodies,A Laboratory Manual,Cold Spring HarborPublications,New York(1988)。

  抗体可由重链和轻链组成,每条链都有可变区,称为可变重链区(VH)和可变轻链区(VL)。VH区和VL区一起负责结合抗体所识别的抗原。这包括完整的免疫球蛋白及其在本领域中众所周知的变体和部分,诸如Fab’片段、F(ab)'2片段、单链Fv蛋白(“scFv”)和二硫键稳定的Fv蛋白(“dsFv”)双链抗体以及所有其他变体。该术语还包括重组形式,诸如嵌合抗体(例如,人源化鼠抗体)、杂源缀合的抗体(诸如双特异性抗体)。另见,Pierce Catalogand Handbook,1994-1995(Pierce Chemical Co.,Rockford,111.);Kuby,Immunology,第3版,W.H.Freeman&Co.,New York,1997。

  “单克隆抗体”是由单个B淋巴细胞克隆产生的抗体,或由其中已转染了单个抗体的轻链和重链基因的细胞产生的抗体。单克隆抗体通过本领域技术人员已知的方法产生,例如通过从骨髓瘤细胞与免疫脾细胞的融合物中产生杂交抗体形成细胞来产生。这些融合细胞及其后代被称为“杂交瘤”。单克隆抗体包括人源化单克隆抗体。

  扩增:增加核酸分子(诸如通过本文所述方法鉴定和/或获得的核酸)的拷贝数。所得的扩增产物被称为“扩增子”。核酸分子(诸如DNA或RNA分子)的扩增是指增加核酸分子(包括片段)拷贝数的技术的使用。

  扩增的实例是聚合酶链式反应(聚合酶链反应),其中将样品与一对寡核苷酸引物在允许引物与样品中的核酸模板杂交的条件下接触。将引物在合适的条件下延伸,从模板上解离,再退火,延伸和解离以扩增核酸的拷贝数。可重复这个循环。扩增产物可以通过诸如电泳、限制性核酸内切酶裂解模式、寡核苷酸杂交或连接和/或核酸测序等技术来表征。

  体外扩增技术的其他例子包括定量实时聚合酶链反应;逆转录酶PCR(RT-PCR);实时PCR(rt PCR);实时逆转录酶PCR(rt RT-PCR);巢式PCR;链置换扩增(参见美国专利第5,744,311号);无转录等温扩增(参见美国专利第6,033,881号)、修复链式反应扩增(参见WO90/01069);连接酶链式反应扩增(参见欧洲专利公开EP-A-320 308);间隙填充连接酶链式反应扩增(参见美国专利第5,427,930号);耦合连接酶检测和PCR(参见美国专利第6,027,889);和NASBATM RNA无转录扩增(参见美国专利第6,025,134),等等。

  结合或稳定结合:两种物质或分子之间的结合,诸如一个核酸分子与另一个核酸分子或其自身的杂交、抗体与肽的缔合,或蛋白质与另一蛋白质(例如转录因子与辅因子的结合)或核酸分子(例如转录因子与核酸诸如染色质DNA的结合)的缔合。

  结合位点:蛋白质、DNA或RNA上其他分子与之稳定地结合的的区域。在一个实例中,结合位点是染色质相关因子诸如转录因子所结合的DNA分子(诸如染色质DNA)上的位点(称为转录因子结合位点)。

  接触:例如以固体形式和/或液体形式进行的直接物理缔合的放置。接触可在原位与分离的细胞(例如透化细胞)发生,或者通过向受试者施用而在体内发生。

  对照:参考标准。对照可以是指示组织或细胞或其群体中的基础水平或数量或存在的已知值或值的范围。对照也可以是细胞或组织对照,例如来自非患病状态的组织。测试样品与对照之间的差异可以是增加或相反地减少。差异可以是质量差异或数量差异,例如统计上显著的差异。在一些实施方案中,对照是添加的DNA,诸如加标DNA和/或污染性DNA。

  互补:双链DNA或RNA链由两条互补的碱基对链组成。当一个核酸分子的碱基与另一个核酸分子的碱基形成氢键时,就会发生互补结合。通常情况下,碱基腺嘌呤(A;与胸腺嘧啶(T)和尿嘧啶(U)互补,而胞嘧啶(C)与鸟嘌呤(G)互补。例如,一个ssDNA分子的序列5’-ATCG-3’可以与另一个ssDNA分子的3’-TAGC-5’键合形成dsDNA。在这个实例中,序列5’-ATCG-3’是3’-TAGC-5’的反向互补序列。

  核酸分子可以彼此补充,即使没有每个分子的所有碱基d完全氢键合。例如,与互补核酸序列的杂交可以在不同的严格性条件下发生,其中互补序列将在一些但不是所有的核苷酸位置结合。

  共价连接的:指原子之间通过形成共价键而形成的共价键联,其特征在于原子之间共享成对的电子。在一个实例中,共价连接是氧和磷之间的键,诸如核酸链的骨架中的磷酸二酯键。在另一个实例中,共价连接是核酸与蛋白质和/或两种或更多种蛋白质或其片段(诸如抗体和酶,例如针对转座酶的抗体,或针对核酸酶的抗体)之间的连接。

  交联剂:促进一个分子连接至另一个分子的化学试剂或甚至光。交联剂可以是蛋白质-核酸交联剂、核酸-核酸交联剂和/或蛋白质-蛋白质交联剂。此类试剂的例子是本领域已知的。在一些实施方案中,交联剂是可逆的交联剂。在一些实施方案中,交联剂是不可逆的交联剂。

  可检测的标签:直接或间接与另一种分子缀合以便于该分子的检测的化合物或组合物。标签的具体、非限制性实例包括荧光标签、酶促键联和放射性同位素。在一些实例中,将标签附接至抗体或核酸,以便于检测分子抗体或核酸特异性结合。

DNA测序:确定给定的DNA分子的核苷酸顺序的过程。通常,测序可使用自动Sanger测序(AB 13730x1基因组分析仪)、固体载体上的焦磷酸测序(454sequencing,Roche)、具有可逆终止的合成测序(sequencing-by-synthesis with reversible terminations)(Genome分析仪)、连接测序或具有虚拟终止子的合成测序来进行。与所公开的方法一起使用的其他下一代测序技术包括,大规模并行指纹测序(MPSS)、Polony测序、离子激流半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序和纳米孔DNA测序。

  高通量技术:通过机器人技术、数据处理和控制软件、液体处理装置和检测器的结合,高通量技术允许在短时间内(例如在24小时以内、12小时以内、6小时以内或甚至1小时以内)快速筛选潜在的试剂、条件或靶标。

  杂交:寡核苷酸及其类似物通过互补碱基之间的氢键合(所述氢键合包括Watson-Crick、Hoogsteen或反向Hoogsteen氢键合)杂交。通常,核酸由含氮碱基组成,所述碱基为嘧啶(胞嘧啶(C)、尿嘧啶(U)和胸腺嘧啶(T))或者为嘌呤(腺嘌呤(A)和鸟嘌呤(G))。这些含氮碱基在嘧啶与嘌呤之间形成氢键,嘧啶与嘌呤的键合被称为“碱基配对”。更具体地,A将与T或U氢键结合,而G将与C键结合。“互补的”是指在两个不同的核酸序列或同一核酸序列的两个不同区域之间发生的碱基配对。

  “可特异性杂交的”和“特异性互补的”是表示足够程度的互补性,使得在寡核苷酸(或其类似物)和DNA或RNA之间发生稳定且特异性的结合的术语。寡核苷酸或寡核苷酸类似物不需要与其靶序列100%互补即可特异性杂交。当存在足够程度的互补性以避免寡核苷酸或类似物在需要特异性结合的条件下与非靶序列的非特异性结合时,寡核苷酸或类似物是可特异性杂交的。这种结合被称为特异性杂交。

  分离的:“分离的”生物组分已经基本上从该组分所天然存在的生物体细胞中的其他生物组分(例如染色质外DNA和RNA、蛋白质和细胞器)中分离或纯化出来。已经“分离”的核酸和蛋白质包括通过标准纯化方法纯化的核酸和蛋白质。该术语还包括通过在宿主细胞中重组表达制备的核酸和蛋白质,以及化学合成的核酸。应当理解,术语“分离的”并不意味着生物组分不含痕量污染,并且可以包括至少50%分离的,诸如至少75%、80%、90%、95%、98%、99%或甚至100%分离的核酸分子。

  质谱分析:一种其中通过以下方式分析样品的方法:从样品中产生气相离子,然后根据它们的质核比(m/z)将其分离并检测。从样品产生气相离子的方法包括电喷雾电离(ESI)、基质辅助激光解吸电离(MALDI)、表面增强激光解吸电离(SELDI)、化学电离和电子碰撞电离(EI)。根据它们的m/z比进行的离子分离可以用任何类型的质量分析仪来完成,包括四极质量分析仪(Q)、飞行时间(TOF)质量分析仪、磁式扇形质量分析仪、3D和线性离子阱(IT)、傅立叶变换离子回旋共振(FT-ICR)分析仪及其组合(例如,四极杆飞行时间分析仪或Q-TOF分析仪)。在分离之前,可对样品进行一个或多个维度的色谱分离,例如,一个或多个维度的液体或尺寸排阻色谱。

  核酸(分子或序列):脱氧核糖核苷酸或核糖核苷酸聚合物,包括但不限于cDNA、mRNA、基因组DNA和合成的(诸如化学合成的)DNA或RNA或其杂合体。核酸可以是双链的(ds)或单链的(ss)。在单链的情况下,核酸可以是有义链或反义链。核酸可包括天然核苷酸(诸如A、T/U、C和G),也可包括天然核苷酸的类似物,诸如标记的核苷酸。核酸的一些例子包括本文公开的探针。DNA的主要核苷酸是脱氧腺苷5’-三磷酸(dATP或A)、脱氧鸟苷5’-三磷酸(dGTP或G)、脱氧胞苷5’-三磷酸(dCTP或C)和脱氧胸苷5’-三磷酸(dTTP或T)。RNA的主要核苷酸是5’-三磷酸腺苷(ATP或A)、5’-三磷酸鸟苷(GTP或G)、5’-三磷酸胞苷(CTP或C)和5’-三磷酸尿苷(UTP或U)。核苷酸包括含有经修饰的碱基、经修饰的糖部分和经修饰的磷酸主链的那些核苷酸,例如如属于Nazarenko等人的美国专利第5,866,336号中所述的。可用于修饰其结构上任何位置处的核苷酸的经修饰的碱基部分的实例包括但不限于:5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、乙酰胞嘧啶、5-(羧基羟基甲基)尿嘧啶、5-羧甲基氨基甲基-2-硫尿嘧啶、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、β-D-半乳糖基Q核苷、肌苷、N-6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、甲氧基氨基甲基-2-硫尿嘧啶、β-D-甘露糖基Q核苷(beta-D-mannosylqueosine)、5’-甲氧基羧甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-N6-异戊烯基腺嘌呤、尿嘧啶-5-氧基乙酸、假尿嘧啶、Q核苷(queosine)、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-氧乙酸甲酯、尿嘧啶-S-氧乙酸、5-甲基-2-硫尿嘧啶、3-(3-氨基-3-N-2-羧基丙基)尿嘧啶、2,6-二氨基嘌呤和生物素化类似物,等等。可用于修饰其结构上任何位置的核苷酸的修饰糖部分的例子包括但不限于阿拉伯糖、2-氟阿拉伯糖、木糖和己糖,或磷酸骨架的经修饰的组分,诸如硫代磷酸酯、二硫代磷酸酯、硫代氨基磷酸酯、氨基磷酸酯、二氨基磷酸酯、膦酸甲酯、烷基磷酸三酯或甲缩醛或其类似物。

  肽/蛋白质/多肽:所有这些术语都指通过肽键或肽键模拟物连接的氨基酸和/或氨基酸类似物的聚合物。本领域已知的二十种天然存在的氨基酸及其单字母和三字母名称

  样品:样品,诸如生物样品,其包括从生物体(诸如植物或动物等)或其一部分获得的生物材料(诸如核酸)。在特定实施方案中,生物样品获自动物受试者,诸如人受试者。生物样品是从任何活生物体获得的、由任何活生物体排泄或由任何活生物体分泌的任何固体或液体样品,所述生物体包括但不限于单细胞生物体,诸如细菌、酵母、原生动物和阿米巴等等,多细胞生物体(诸如植物或动物,包括来自健康或明显健康的人受试者或受待诊断或研究的疾患或疾病影响的人患者的样品)。例如,生物样品可以是骨髓、组织活检物、全血、血清、血浆、血细胞、内皮细胞、循环肿瘤细胞、淋巴液、腹水、间质流体(也称为“细胞外液”,并且包括存在于细胞之间的间隙中的流体,尤其包括龈沟液)、脑脊髓液(CSF)、唾液、粘液、痰、汗、尿或任何其它分泌物、排泄物或其他体液。

  序列同一性/相似性:两个或更多个核酸序列或两个或更多个氨基酸序列之间的同一性/相似性用序列之间的同一性或相似性来表示。序列同一性可以用百分比同一性来衡量;百分比越高,序列越一致。当使用标准方法进行比对时,核酸或氨基酸序列的同源物或直向同源物具有相对较高程度的序列同一性/相似性。

  用于比较的序列比对方法在本领域是公知的。各种程序和比对算法描述于以下文献中:Smith&Waterman,Adv.Appl.Math.2:482,1981;Needleman&Wunsch,J.Mol.Biol.48:443,1970;Pearson&Lipman,Proc.Natl.Acad.Sci.USA 85:2444,1988;Higgins&Sharp,Gene,73:237-44,1988;Higgins&Sharp,CABIOS 5:151-3,1989;Corpet等,Nuc.AcidsRes.16:10881-90,1988;Huang等Computer Appls.in the Biosciences 8,155-65,1992;以及Pearson等,Meth.Mol.Bio.24:307-31,1994。Altschul等,J.Mol.Biol.215:403-10,1990提出了序列比对方法和同源性计算的详细考虑。

  NCBI基本局部比对搜索工具(BLAST)(Altschul等,J.Mol.Biol.215:403-10,1990)可从几个来源获得,包括国家生物信息中心(NCBI,National Library of Medicine,Building 38A,Room 8N805,Bethesda,Md.20894)和在因特网上,用于与序列分析程序blastp、blastn、blastx、tblastn和tblastx结合使用。Blastn用于比较核酸序列,而blastp用于比较氨基酸序列。另外的信息可在NCBI网站上找到。

  一旦比对,通过计数两个序列中存在相同核苷酸或氨基酸残基的位置数来确定匹配数。通过将匹配数目除以鉴定序列中列出的序列长度,或者除以铰接长度(诸如来自鉴定序列中列出的序列的100个连续核苷酸或氨基酸残基),然后将所得值乘以100,来确定百分比序列同一性。例如,当与具有1554个核苷酸的测试序列比对时,具有1166个匹配的核酸序列与所述测试序列具有75.0%的同一性(1166÷1554*100=75.0)。将百分比序列同一性值四舍五入到最接近的十分之一。例如,75.11、75.12、75.13和75.14向下舍入到75.1,而75.15、75.16、75.17、75.18和75.19向上舍入到75.2。长度值将始终是整数。在另一个实例中,含有与来自如下鉴定序列的20个连续核苷酸对齐的20个核苷酸的区域的靶序列,包含与该鉴定序列共有75%序列同一性的区域(即,15±20*100=75)。

  两个核酸分子密切相关的一个指示是所述两个分子在严格条件下相互杂交。严格条件是序列依赖性的,并且在不同的环境参数下是不同的。

  特异性结合剂:一种基本上或优先地只与确定的靶标(诸如蛋白质、酶、多糖、寡核苷酸、DNA、RNA、重组载体或小分子)结合的试剂。核酸特异性结合剂基本上仅与确定的核酸(诸如DNA)结合,或者仅与核酸内的特定区域结合。在一些实施方案中,特异性结合剂是探针或引物,其与目标靶核酸特异性结合。在一些实施方案中,特异性结合剂是转录因子,其与目标靶核酸(诸如染色质DNA)特异性结合。蛋白质特异性结合剂基本上只结合确定的蛋白质,或者只结合蛋白质内的特定区域。例如,“特异性结合剂”包括抗体和基本上与指定多肽结合的其它试剂。抗体可以是对多肽以及其免疫有效部分(“片段”)具有特异性的单克隆或多克隆抗体。通过使用或修改常规程序,可以容易地确定特定试剂基本上仅与特定多肽结合。一种合适的体外测定利用了蛋白质印迹方法(描述于许多标准课本中,包括Harlow和Lane,Using Antibodies:A Laboratory Manual,CSHL,New York,1999)。在一些实施方案中,特异性结合剂是抗体。

  转录因子:一种调节转录的蛋白质。特别是,转录因子调控RNA聚合酶的结合和转录的起始。转录因子通过辅助或阻断核糖核酸聚合酶结合,在上游或下游结合以增强或抑制基因的转录。术语转录因子包括无活性转录因子和激活的转录因子。

  转录因子是实现基因表达调控的典型模块蛋白。示例性转录因子包括但不限于AAF、abl、ADA2、ADA-NF1、AF-1、AFP1、AhR、AIIN3、ALL-1、α-CBF、α-CP 1、α-CP2a、α-CP2b、αHo、αH2-αH3、Alx-4、aMEF-2、AML1、AMLla、AMLlb、AMLlc、AMLlΔN、AML2、AML3、AML3a、AML3b、AMY-1L、A-Myb、ANF、AP-1、AP-2αA、AP-2αB、AP-2β、AP-2γ、AP-3(1)、AP-3(2)、AP-4、AP-5、APC、AR、AREB6、Arnt、Arnt(774M形式)、ARP-1、ATBF1-A、ATBF1-B、ATF、ATF-1、ATF-2、ATF-3、ATF-3δZIP、ATF-a、ATF-aδ、ATPF1、Barhll、Barhl2、Barxl、Barx2、Bcl-3、BCL-6、BD73、β-连环蛋白、Binl、B-Myb、BP1、BP2、brahma、BRCA1、Brn-3a、Brn-3b、Brn-4、BTEB、BTEB2、B-TFIID、C/EBPα、C/EBPβ、C/EBPδ、CACC结合因子、Cart-1、CBF(4)、CBF(5)、CBP、CCAAT-结合因子、CCMT-结合因子、CCF、CCG1、CCK-la、CCK-lb、CD28RC、cdk2、cdk9、Cdx-1、CDX2、Cdx-4、CFF、ChxlO、CLIMI、CLIM2、CNBP、CoS、COUP、CPl、CPIA、CPIC、CP2、CPBP、CPE结合蛋白、CREB、CREB-2、CRE-BPl、CRE-BPa、CREMα、CRF、Crx、CSBP-1、CTCF、CTF、CTF-1、CTF-2、CTF-3、CTF-5、CTF-7、CUP、CUTL1、Cx、细胞周期蛋白A、细胞周期蛋白Tl、细胞周期蛋白T2、细胞周期蛋白T2a、细胞周期蛋白T2b、DAP、DAX1、DB1、DBF4、DBP、DbpA、DbpAv、DbpB、DDB、DDB-1、DDB-2、DEF、δCREB、δMax、DF-1、DF-2、DF-3、Dlx-1、Dlx-2、Dlx-3、DIx4(长同种型)、Dlx-4(短同种型、Dlx-5、Dlx-6、DP-1、DP-2、DSIF、DSIF-pl4、DSIF-pl60、DTF、DUX1、DUX2、DUX3、DUX4、E、El2、E2F、E2F+E4、E2F+pl07、E2F-1、E2F-2、E2F-3、E2F-4、E2F-5、E2F-6、E47、E4BP4、E4F、E4F1、E4TF2、EAR2、EBP-80、EC2、EF1、EF-C、EGR1、EGR2、EGR3、EIIaE-A、EIIaE-B、EIIaE-Cα、EIIaE-Cβ、EivF、EIf-1、EIk-1、Emx-1、Emx-2、Emx-2、En-1、En-2、ENH-结合.prot、ENKTF-1、EPASl、εFl、ER、Erg-1、Erg-2、ERR1、ERR2、ETF、Ets-1、Ets-1δVil、Ets-2、Evx-1、F2F、因子2、factorname、FBP、f-EBP、FKBP59、FKHL18、FKHRL1P2、Fli-1、Fos、FOXB1、FOXC1、FOXC2、FOXD1、FOXD2、FOXD3、FOXD4、FOXE1、FOXE3、FOXF1、FOXF2、FOXGla、FOXGlb、FOXGlc、FOXH1、FOXI1、FOXJla、FOXJlb、FOXJ2(长同种型)、FOXJ2(短同种型)、FOXJ3、FOXKla、FOXKlb、FOXKlc、FOXL1、FOXMla、FOXMlb、FOXMlc、FOXN1、FOXN2、FOXN3、FOXOla、FOXOlb、FOX02、FOX03a、FOX03b、FOX04、FOXP1、FOXP3、Fra-1、Fra-2、FTF、FTS、G因子、G6因子、GABP、GABP-α、GABP-βl、GABP-β2、GADD 153、GAF、γCMT、γCACl、γCAC2、GATA-1、GATA-2、GATA-3、GATA-4、GATA-5、GATA-6、Gbx-1、Gbx-2、GCF、GCMa、GCNS、GF1、GLI、GLI3、GRα、GRβ、GRF-1、Gsc、Gscl、GT-IC、GT-IIA、GT-IIBα、GT-IIBβ、H1TF1、H1TF2、H2RIIBP、H4TF-1、H4TF-2、HAND1、HAND2、HB9、HDAC1、HDAC2、HDAC3、hDaxx、热诱导的因子、HEB、HEBl-p67、HEBl-p94、HEF-1B、HEF-1T、HEF-4C、HEN1、HEN2、Hesxl、Hex、HIF-1、HIF-lα、HIF-lβ、HiNF-A、HiNF-B、HINF-C、HINF-D、HiNF-D3、HiNF-E、HiNF-P、HIP1、HIV-EP2、Hlf、HLTF、HLTF(Metl23)、HLX、HMBP、HMG I、HMG I(Y)、HMG Y、HMGI-C、HNF-IA、HNF-IB、HNF-IC、HNF-3、HNF-3α、HNF-3β、HNF-3γ、HNF4、HNF-4α、HNF4αl、HNF-4α2、HNF-4α3、HNF-4α4、HNF4γ、HNF-6α、hnRNP K、HOX11、HOXAl、HOXAIO、HOXAIO PL2、HOXA11、HOXA13、HOXA2、HOXA3、HOXA4、HOXA5、HOXA6、HOXA7、HOXA9A、HOXA9B、HOXB-1、HOXB13、HOXB2、HOXB3、HOXB4、HOXBS、HOXB6、HOXA5、HOXB7、HOXB8、HOXB9、HOXC10、HOXC11、HOXC12、HOXC13、HOXC4、HOXC5、HOXC6、HOXC8、HOXC9、HOXD10、HOXD11、HOXD12、HOXD13、HOXD3、HOXD4、HOXD8、HOXD9、Hp55、Hp65、HPX42B、HrpF、HSF、HSF1(长)、HSF1(短)、HSF2、hsp56、Hsp90、IBP-1、ICER-II、ICER-liγ、ICSBP、Idl、Idl H'、Id2、Id3、Id3/Heir-1、IF1、IgPE-1、IgPE-2、IgPE-3、IκB、IκB-α、IκB-β、IκBR、II-l RF、IL-6RE-BP、11-6RF、INSAF、IPF1、IRF-1、IRF-2、B、IRX2a、Irx-3、Irx-4、ISGF-1、ISGF-3、ISGF3α、ISGF-3γ、1st-1、ITF、ITF-1、ITF-2、JRF、Jun、JunB、JunD、κy因子、KBP-1、KER1、KER-1、Koxl、KRF-1、Ku自身抗原、KUP、LBP-1、LBP-la、LBXl、LCR-Fl、LEF-1、LEF-IB、LF-A1、LHX1、LHX2、LHX3a、LHX3b、LHXS、LHX6.1a、LHX6.1b、LIT-1、Lmol、Lmo2、LMX1A、LMX1B、L-Myl(长形式)、L-Myl(短形式)、L-My2、LSF、LXRα、LyF-1、Lyl-l、M因子、Madl、MASH-1、Maxl、Max2、MAZ、MAZ1、MB67、MBF1、MBF2、MBF3、MBP-1(1)、MBP-1(2)、MBP-2、MDBP、MEF-2、MEF-2B、MEF-2C(433AA形式)、MEF-2C(465AA形式)、MEF-2C(473M形式)、MEF-2C/δ32(441AA形式)、MEF-2D00、MEF-2D0B、MEF-2DA0、MEF-2DAO、MEF-2DAB、MEF-2DA'B、Meis-1、Meis-2a、Meis-2b、Meis-2c、Meis-2d、Meis-2e、Meis3、Meoxl、Meoxla、Meox2、MHox(K-2)、Mi、MIF-1、Miz-1、MM-1、MOP3、MR、Msx-1、Msx-2、MTB-Zf、MTF-1、mtTFl、Mxil、Myb、Myc、Myc 1、Myf-3、Myf-4、Myf-5、Myf-6、MyoD、MZF-1、NCI、NC2、NCX、NELF、NER1、Net、NF Ill-a、NF NF-1、NF-1A、NF-1B、NF-1X、NF-4FA、NF-4FB、NF-4FC、NF-A、NF-AB、NFAT-1、NF-AT3、NF-Atc、NF-Atp、NF-Atx、NfetaA、NF-CLEOa、NF-CLEOb、NFδE3A、NFδE3B、NFδE3C、NFδE4A、NFδE4B、NFδE4C、Nfe、NF-E、NF-E2、NF-E2p45、NF-E3、NFE-6、NF-Gma、NF-GMb、NF-IL-2A、NF-IL-2B、NF-jun、NF-κB、NF-κB(-like)、NF-κBl、NF-κB 1、NF-κB2、NF-κB2(p49)、NF-κB2前体、NF-κEl、NF-κE2、NF-κE3、NF-MHCIIA、NF-MHCIIB、NF-muEl、NF-muE2、NF-muE3、NF-S、NF-X、NF-X1、NF-X2、NF-X3、NF-Xc、NF-YA、NF-Zc、NF-Zz、NHP-1、NHP-2、NHP3、NHP4、NKX2-5、NKX2B、NKX2C、NKX2G、NKX3A、NKX3A vl、NKX3A v2、NKX3A v3、NKX3A v4、NKX3B、NKX6A、Nmi、N-Myc、N-Oct-2α、N-Oct-2β、N-Oct-3、N-Oct-4、N-Oct-5a、N-Oct-5b、NP-TCII、NR2E3、NR4A2、Nrfl、Nrf-1、Nrf2、NRF-2βl、NRF-2γl、NRL、NRSF形式1、NRSF形式2、NTF、02、OCA-B、Oct-1、Oct-2、Oct-2.1、Oct-2B、Oct-2C、Oct-4A、Oct4B、Oct-5、Oct-6、Octa-因子、八聚体-结合因子、oct-B2、oct-B3、Otxl、Otx2、OZF、pl07、pl30、p28调节剂、p300、p38erg、p45、p49erg,-p53、p55、p55erg、p65δ、p67、Pax-1、Pax-2、Pax-3、Pax-3A、Pax-3B、Pax-4、Pax-5、Pax-6、Pax-6/Pd-5a、Pax-7、Pax-8、Pax-8a、Pax-8b、Pax-8c、Pax-8d、Pax-8e、Pax-8f、Pax-9、Pbx-la、Pbx-lb、Pbx-2、Pbx-3a、Pbx-3b、PC2、PC4、PC5、PEA3、PEBP2α、PEBP2β、Pit-1、PITX1、PITX2、PITX3、PKNOX1、PLZF、PO-B、Pontin52、PPARα、PPARβ、PPARγl、PPARγ2、PPUR、PR、PR A、pRb、PRD1-BF1、PRDI-BFc、Prop-1、PSE1、P-TEFb、PTF、PTFα、PTFβ、PTFδ、PTFγ、Pu box结合因子、Pu box结合因子(B JA-B)、PU.1、PuF、Pur因子、Rl、R2、RAR-αl、RAR-β、RAR-β2、RAR-γ、RAR-γl、RBP60、RBP-Jκ、Rel、RelA、RelB、RFX、RFXl、RFX2、RFX3、RFXS、RF-Y、RORαl、RORα2、RORα3、RORβ、RORγ、Rox、RPF1、RPGα、RREB-1、RSRFC4、RSRFC9、RVF、RXR-α、RXR-β、SAP-la、SAPlb、SF-1、SHOX2a、SHOX2b、SHOXa、SHOXb、SHP、SIII-pl lO、SIII-pl5、SIII-pl8、SIM'、Six-1、Six-2、Six-3、Six-4、Six-5、Six-6、SMAD-1、SMAD-2、SMAD-3、SMAD-4、SMAD-5、SOX-11、SOX-12、Sox-4、Sox-5、SOX-9、Spl、Sp2、Sp3、Sp4、Sph因子、Spi-B、SPIN、SRCAP、SREBP-la、SREBP-lb、SREBP-lc、SREBP-2、SRE-ZBP、SRF、SRY、SRPl、Staf-50、STATlα、STATlβ、STAT2、STAT3、STAT4、STAT6、T3R、T3R-αl、T3R-α2、T3R-β、TAF(I)110、TAF(I)48、TAF(I)63、TAF(II)100、TAF(II)125、TAF(II)135、TAF(II)170、TAF(II)18、TAF(II)20、TAF(II)250、TAF(II)250Δ、TAF(II)28、TAF(II)30、TAF(II)31、TAF(II)55、TAF(II)70-α、TAF(II)70-β、TAF(II)70-γ、TAF-I、TAF-II、TAF-L、Tal-1、Tal-lβ、Tal-2、TAR因子、TBP、TBX1A、TBX1B、TBX2、TBX4、TBXS(长同种型)、TBXS(短同种型)、TCF、TCF-1、TCF-1A、TCF-1B、TCF-1C、TCF-1D、TCF-1E、TCF-1F、TCF-1G、TCF-2α、TCF-3、TCF-4、TCF-4(K)、TCF-4B、TCF-4E、TCFβl、TEF-1、TEF-2、tel、TFE3、TFEB、TFIIA、TFIIA-α/β前体、TFIIA-α/β前体、TFIIA-γ、TFIIB、TFIID、TFIIE、TFIIE-α、TFIIE-β、TFIIF、TFIIF-α、TFIIF-β、TFIIH、TFIIH*、TFIIH-CAK、TFIIH-细胞周期蛋白H、TFIIH-ERCC2/CAK、TFIIH-MAT1、TFIIH-M015、TFIIH-p34、TFIIH-p44、TFIIH-p62、TFIIH-p80、TFIIH-p90、TFII-I、Tf-LFl、Tf-LF2、TGIF、TGIF2、TGT3、THRAl、TIF2、TLE1、TLX3、TMF、TR2、TR2-11、TR2-9、TR3、TR4、TRAP、TREB-1、TREB-2、TREB-3、TREFl、TREF2、TRF(2)、TTF-1、TXRE BP、TxREF、UBF、UBP-1、UEF-1、UEF-2、UEF-3、UEF-4、USF1、USF2、USF2b、Vav、Vax-2、VDR、vHNF-lA、vHNF-lB、vHNF-lC、VITF、WSTF、WT1、WT1I、WT1I-KTS、WT1I-del2、WT1-KTS、WTl-del2、X2BP、XBP-1、XW-V、XX、YAF2、YB-1、YEBP、YY1、ZEB、ZF1、ZF2、ZFX、ZHX1、ZIC2、ZID、ZNF 174,等等。

  激活的转录因子是已被刺激激活的转录因子,所述刺激导致转录因子状态的可测量变化,例如翻译后修饰,诸如磷酸化、甲基化等。转录因子的激活可导致对特定DNA序列的亲和力或特定蛋白质(诸如另一种转录因子和/或辅因子)的亲和力的改变。

  转座体:转座酶-转座子复合体。转座子诱变的常规方法通常是将转座酶置于质粒上。在一些此类系统中,被称为“转座体”,转座酶可以形成具有转座子识别位点的功能复合物,其能够催化转座反应。转座酶或整合酶可以与转座酶识别位点结合,并在有时称为“加标签”的过程中将转座酶识别位点插入靶核酸。

  在允许结合的条件下:用于描述允许所需活性的任何环境的短语,例如,在其下两个或更多个分子(诸如核酸分子和/或蛋白质分子)可以结合的条件。此类条件可包括特定浓度的盐和/或促进分子结合的其它化学物质。

  下文描述了用于实践或测试本公开的合适方法和材料。此类方法和材料仅仅是说明性的,而无意是限制性的。可使用类似于或等同于本文所述的那些的其它方法和材料。例如,在各种一般和更具体的参考文献中描述了本公开所属领域中公知的常规方法,所述参考文献包括例如,Sambrook等,Molecular Cloning:A Laboratory Manual,第2版,ColdSpring Harbor Laboratory Press,1989;Sambrook等,Molecular Cloning:A LaboratoryManual,第3版,Cold Spring Harbor Press,2001;Ausubel等,Current Protocols inMolecular Biology,Greene Publishing Associates,1992(和至2000年的增刊);Ausubel等,Short Protocols in Molecular Biology:A Compendium of Methods from CurrentProtocols in Molecular Biology,第4版,Wiley&Sons,1999;Harlow和Lane,Antibodies:A Laboratory Manual,Cold Spring Harbor Laboratory Press,1990;以及Harlow和Lane,Using Antibodies:A Laboratory Manual,Cold Spring Harbor LaboratoryPress,1999。另外,这些材料、方法和实施例仅是说明性的,而不是限制性的。

  B.引言

  ChIP中系统偏差和人为因素导致的不确定性强调了基于不同原理的方法的必要性。一类非ChIP作图方法包括通过嵌合融合和酶在局部周边对DNA的作用而将酶系连于DNA结合蛋白。例如,在DamID(van Steensel等,2001年)和相关方法案(Southall等,2013;Hass等,2015)中,大肠杆菌Dam甲基转移酶与TF系连,并在体内催化GATC位点处的腺嘌呤的N6-甲基化。可使用N6-甲基导向的限制性内切酶在全基因组范围内对所述位点作图。然而,由于DamID的分辨率受到GATC位点分布的限制,因此DamID无法获得可能可使用测序读出(Aughey和Southall,2016)获得的高分辨率。另一种酶系连方法,染色质内源性裂解(ChEC)将内切-外切核酸酶微球菌核酸酶(Micrococcal Nuclease,MNase)拴系至TF(Schmid等,2004)。在ChEC中,MN酶是通过透化细胞以及添加钙(以控制裂解)而被激活的。最近将Illumina测序读出应用于ChEC(ChEC-seq),实现了近碱基对分辨率(Zentner等,2015)。酶拴系方法与ChIP有根本的不同,因为它们是在体内(DamID)或原位(ChEC)进行的,直接从活细胞或透化细胞中提取DNA,因此不需要溶解和回收染色质。DamID和ChEC都要求为每个待作图的TF产生不同的嵌合融合构建体,因此限制了它们例如向对动物模型、患者活检物和翻译后修饰的可转移性。在最初的染色质免疫裂解(ChIC)法中,首先用TF特异性抗体处理来自交联细胞的粗细胞核,然后加入蛋白A与MN酶之间的嵌合融合物(pA-MN),并通过钙激活(Schmid等,2004)。蛋白A与免疫球蛋白G特异性结合,这消除了对融合蛋白的需要。

  C.示例性实施方案的描述

  本文公开了ChIC的主要发展,所述ChIC保留了酶系连方法的优点,同时将其适用性和易用性扩展到其可取代其它现有方法的程度。所公开的方法的独特特征是,在不存在交联的情况下,在诱导裂解(诸如钙诱导的MN酶裂解)后数秒,在TF的两侧,TF-DNA复合物被释放到溶液中,从而允许回收纯的与TF结合的DNA片段,以便简单地通过离心和DNA提取进行测序。此外,在一些实例中,通过在磁珠上进行该方法,公开的“核酸酶靶向裂解和释放”(Cleavage Under Targets and Release Using Nuclease,CUT&RUN)法比ChIP-seq更简单,同时保留了原位方法的优点。通过CUT&RUN的靶向消化,相对于ChIP的完全基因组片段化,大大降低了背景,只需要标准ChIP方法的约1/10的测序深度。此外,简单的加标对照允许精确定量蛋白质结合,这是其它方法无法做到的。所公开的方法允许低的起始细胞数,并且通过在磁珠上进行反应,机器人自动化是可能的。

  核酸酶靶向裂解和释放(CUT&RUN)是表观基因组剖析策略,其中抗体靶向的受控裂解(例如通过MN酶)将特定的蛋白质-DNA复合物释放到上清液中用于配对末端DNA测序。由于只有被靶向的片段进入溶液,而绝大多数的DNA被留了下来,因此与探测染色质结合的其它技术相比,CUT&RUN具有格外低的背景水平。在分辨率、信噪比和所需测序深度方面,CUT&RUN优于最广泛使用的染色质免疫沉淀(ChIP)方案。与ChIP相反,CUT&RUN不含溶解性和DNA可及性假象,可用于剖析不溶性染色质,以及在无交联的情况下检测远程3D接触。另外,本文公开了改进的CUT&RUN方案,该方案不需要分离细胞核,并且能够由少至只有1或2个细胞(对于组蛋白修饰)和1000个细胞(对于转录因子定位)开始提供高质量的数据。从细胞到纯化的DNA,CUT&RUN需要不到一天的实验室工作时间。

  本文公开了用于检测目标染色质相关因子与细胞(或细胞群)中的DNA序列的结合的方法。在某些实施方案中,所公开的方法包括在低于约4℃的温度下将未交联的透化细胞与特异性识别目标染色质相关因子的特异性结合剂接触,其中所述特异性结合剂与无活性且可激活的核酸酶或转座体连接,所述转座体包括任选地无活性且可激活(例如通过添加离子,诸如阳离子)的转座酶。在某些实施方案中,通过使细胞与透化细胞的试剂(诸如与去垢剂,例如Triton和/或NP-40或另一种试剂,诸如洋地黄皂苷)接触来透化细胞和/或细胞的细胞核。通过使用完整的细胞或细胞核,所公开的方法在观察天然染色质结构方面具有优于ChIP方法的优势,否则所述天然染色质结构可能会被断裂和其它处理步骤改变。在一些实施方案中,例如使用外源激活剂激活核酸酶或转座酶。一旦被激活,所述核酸酶或转座酶就能够切取与目标染色质相关因子结合的DNA序列。在某些实施方案中,允许反应进行一段时间,该时间足以切取与目标染色质相关因子结合的DNA,但又足够短,使得核酸酶或转座酶不会扩散开并非特异性地切割可及的DNA。在某些实施方案中,该时间段为约1秒至约4小时。

  当使用核酸酶时,可以为特定的目标染色质相关因子选择时间段。例如,对于非常丰富的蛋白质来说,即使10分钟也可能太长,因为随着时间的推移,蛋白质会被释放出来,并毁坏基因组中可及的DNA,这是不想要的副作用,如果没有结合,该副作用很可能与浓度成线性关系。在使核酸酶失活后,回收与目标染色质相关因子结合的切取的DNA。可分离并查询这种切取的染色质以确定切取的DNA的序列,从而检测目标染色质相关因子与细胞(或细胞群)中的DNA序列的结合。

  上述限制不适用于转座酶的用途。当使用转座酶时,片段保持结合。这不是转座酶的问题,因为其在加标签过程中不释放,这是该方法的主要优点。事实上,当Tn5插入其有效负载时,其不能在其它地方造成损害,“一步到位”。因此,采用这些方法时,时间变化不是重要的参数,而仅仅是所有因素的完成标记(在37℃°下约1小时)。这是主要优势。因此,本文还公开了被称为免疫拴系插入测序(ImmunoTethered Insertion Sequencing,ITIS或IT-seq)的CUT&RUN的细致改进。尽管标准CUT&RUN可以应用于100-1000个细胞而不会造成数据质量的显著损失,但高通量单细胞应用由于需要将含有被靶向片段的上清液与含有基因组其余部分的细胞分离而变得复杂。此外,通过将细胞固定在顺磁性珠粒上而提供的简易工作流程必须遵循DNA测序文库制备,这大大增加了整个过程的时间、成本和精力。如以下实施例中所公开的,本发明人通过将转座酶(诸如超活性Tn5转座酶)与蛋白A融合,并用载有与测序平台相容的嵌合末端寡核苷酸的蛋白A/Tn5复合物替代pA-MN的添加来扩展了CUT&RUN的能力。用Mg++激活Tn5导致抗体靶向的加标签,准备用于批量和单细胞应用的PCR扩增。本文公开的ITIS方法在一天内从活细胞提供扩增序列即用的文库,这是该方法的吸引人的特征。

  在某些实施方案中,该DNA是染色质DNA。在某些实施方案中,可将细胞和/或细胞核进行交联。在其它实施方案中,不将细胞进行交联。

  ChIC、ChEC和ChEC-seq基于靶向裂解和将这些裂解定位在靶向位点附近。相反地,所公开的方法使用足够靠近的成对裂解,使得DNA-蛋白质复合物被释放到上清液中。在所公开的方法中,从释放的DNA-蛋白质复合物中纯化出DNA,并将其进行文库制备和测序。在所公开的方法的其它实施方案中,不提取上清液,而是将其进行进一步的分析方法学,例如:1)盐分级分离(CUT&RUN.盐);2)ChIP-seq,其使用来自CUT&RUN的上清液作为输入(CUT&RUN.ChIP);3)表征上清液中颗粒的蛋白质补充。因为CUT&RUN的所有这三种扩展都需要将DNA-蛋白质复合物释放到上清液中,所以它们代表了CUT&RUN的独特创新。在一些实施方案中,所述方法包括对扩散出细胞的切取的DNA进行盐分级分离。在一些实施方案中,所述方法包括将上清液进行ChIP-seq。在一些实施方案中,所述方法包括确定与目标染色质相关因子缔合的一种或多种蛋白质的身份。在一些实施方案中,确定蛋白质的身份包括使用抗体。在一些实施方案中,确定蛋白质的身份包括质谱分析。

  在某些实施方案中,使用核酸酶切割染色质DNA,其被连接和/或系连于特异性结合剂,诸如抗体。因此,在一些实施方案中,所公开的方法包括在允许转座子整合入染色质DNA的条件下,使未交联的透化细胞与特异性识别目标染色质相关因子的特异性结合剂接触,其中所述特异性结合剂与至少一种人工转座体连接。在某些实施方案中,核酸酶是内切脱氧核糖核酸酶,例如微球菌核酸酶(MN酶)。“可激活的”是指核酸酶可以从非活性状态转换到活性状态。这种转换可通过添加效应子或改变条件来启动。在某些实施方案中,效应子是小分子或原子,诸如Ca2+或Mg++离子。可使用的核酸酶是能够将裂解位点(单链裂解位点或优选地双链裂解位点)引入DNA的任何蛋白质,只要该活性可以被激活。在公开的方法中使用的核酸酶能够以很大程度上不依赖于序列的方式,通常在核小体接头区域和核酸酶超敏位点断裂DNA。然而,许多核酸酶以序列特异性的方式裂解DNA,即裂解主要发生在几个核苷酸的识别序列上。非活性状态是指核酸酶的活性太低而无法被监测,或者低于其在具有活性时最大速率的10%,优选低于4%或低于1%。例如,从无活性状态到活性状态的转变可通过添加化合物或通过切换温度来触发。特别有用的核酸酶是微球菌核酸酶(MN),其活性严格依赖于Ca2+离子。这种酶在核小体接头区域和核酸酶超敏(HS)位点处的染色质中引入DNA双链断裂。特别有用的MN酶的一个实例是编码核酸酶A成熟链的序列(Genbank P00644的氨基酸83至231(其在此通过引入并入,可于2017年9月25日获得))。还考虑了保留活性的变体,诸如具有与Genbank P00644的氨基酸83至231具有至少70%、80%、90%、95%或甚至99%序列同一性的那些变体。

  将本公开的酶(例如核酸酶)系连于在确定的位点上结合染色质的染色质蛋白质,所述确定的位点优选为序列特异性位点。通过将酶系连于该目标染色质蛋白质,先前非特异性的酶(例如核酸酶)被募集到由系连的染色质蛋白质限定的特定序列。

  在本公开的一个优选实施方案中,给核酸酶(或其它酶促活性)加标签。所用的标签可以是任何类型的标签,例如为了使蛋白质纯化容易的His-Tag,或类似血凝素(HA)表位的表位,或抗生物素蛋白、链霉抗生物素蛋白或生物素。

  根据优选实施方案,核酸酶是融合蛋白X-核酸酶或核酸酶X的一部分,其中X是肽类结构域。X可以是表位或抗体,X也可以是例如生物素的亲和结构域。在本申请的上下文中,抗体是指完整抗体或足以指导相互作用的抗体部分。这种部分优选是抗体的可变区Fab。

  在一些实施方案中,抗体间接偶联至至少一个转座体上。在一些实施方案中,转座酶与特异性结合抗体的特异性结合剂连接。在一些实施方案中,特异性结合剂包括蛋白A、蛋白G或特异性结合抗体的第二抗体。在一些实施方案中,抗体是第一抗体,并且该方法还包括:使细胞与特异性结合第一抗体的第二抗体接触,并且其中转座酶与特异性结合第二抗体的特异性结合剂连接。在一些实施方案中,特异性结合剂包括蛋白A或蛋白G或特异性结合第二抗体的第三抗体。在一些实施方案中,目标染色质相关因子与染色质DNA序列的结合是直接的。

  核酸酶和/或转座酶也可以与葡萄球菌蛋白A(pA)的全部或部分融合,或者与葡萄球菌蛋白G(pG)的全部或部分融合,或者与pA和pG两者(pAG)融合。这些蛋白质对兔和小鼠IgG确实有不同的亲和力。核酸酶也可以与对抗体具有亲和力的任何其它蛋白质或蛋白质部分(例如pA或pG的衍生物)融合。本公开的一个优选实施方案是在实施例中详细描述的融合蛋白pAG-MN。在这种情况下,pA部分包含葡萄球菌蛋白A的2个IgG结合结构域,即GenbankAAA26676的氨基酸186至327(其在此通过引用并入,可于2017年9月25日获得)。还考虑了保留活性的变体,诸如与Genbank AAA26676的氨基酸186-327具有至少70%、80%、90%、95%或甚至99%序列同一性的那些变体。然而,本公开不限于该特定的融合蛋白。或者,所述酶,例如核酸酶,可以通过除肽键外的结合与X结构域化学连接。

  核酸酶激活的时间在很大程度上取决于反应发生时的温度。当酶促反应在零度下于冰上进行时,相应地调整激活时间,即相对于在低于约10℃(诸如低于约10℃,约9℃,约8℃,约7℃,约6℃,约5℃,约4℃,约3℃,约2℃,约1℃,或约0℃,但高于约-4℃)的温度下进行的相同酶促反应被延长。

  连接和/或拴系酶诸如核酸酶或转座酶的方法是常规的,并且可见于例如美国专利第7,790,379号(所述专利在此通过引用整体并入本文)中。在某些实施方案中,核酸酶或转座酶是融合蛋白的一部分。在某些实施方案中,融合蛋白包含葡萄球菌属的蛋白A(pA)、葡萄球菌属的蛋白G(pG)、pA与pG(pG)之间的融合体或抗体。

  在某些实施方案中,特异性结合剂包括抗体或其特异性结合片段。染色质相关因子或其片段或保守变体可用于产生具有免疫反应性或与受体多肽的表位结合的抗体。可以产生多克隆或单克隆抗体和单克隆抗体的片段,诸如Fab、F(ab′)2和Fv片段,以及能够与源自染色质相关因子的肽特异性结合的任何其它试剂。最佳地,针对染色质相关因子产生的抗体将特异性结合目标染色质相关因子。也就是说,此类抗体会识别并结合蛋白质,并且不会实质上识别或结合其它蛋白质。通过多种标准免疫测定方法中的任一种来确定抗体特异性结合靶标或目标内化受体多肽;例如,蛋白质印迹技术(Sambrook等,1989,MolecularCloning:A Laboratory Manual,Cold Spring Harbor Laboratory,Cold Spring Harbor,N.Y.)。

  通过纯化或重组表达分离出适合用作免疫原的基本上纯的靶标或内化受体多肽。或者,可以针对合成靶产生抗体。

多克隆抗体的制备是本领域技术人员已知的。参见,例如,Green等,“Productionof Polyclonal Antisera”,Immunochemical Protocols第1-5页,Manson编辑,HumanaPress 1992;Coligan等,“Production of Polyclonal Antisera in Rabbits,Rats,Miceand Hamsters”,Current Protocols in Immunology,第2.4.1节,1992。单克隆抗体的制备同样是常规的。参见,例如,Kohler&Milstein,Nature256:495,1975;Coligan等,第2.5.1-2.6.7节;以及Harlow等,in:Antibodies:a Laboratory Manual,第726页,Cold SpringHarbor Pub.,1988。可以根据Kohler和Milstein(Nature256:495,1975)的经典方法或其衍生方法从鼠杂交瘤中制备针对如所述鉴定和分离的靶标或内化受体多肽的表位的单克隆抗体。特异性抗体还可源自非人灵长类抗体。在狒狒中产生治疗上有用的抗体的一般技术可见于例如WO 91/11465,1991和Losman等,Int.J.Cancer46:310,1990中。或者,特异性结合染色质相关因子的抗体可源自人源化单克隆抗体。人源化单克隆抗体是通过将小鼠免疫球蛋白的重可变链和轻可变链的小鼠互补性决定区转移到人可变区,然后在小鼠对应体的框架区中取代人残基而产生的。抗体可源自从组合免疫球蛋白文库中分离的人抗体片段。参见,例如,Barbas等:Methods:a Companion to Methods in Enzymology,第2卷,第119页,1991;Winter等,Ann.Rev.Immunol.12:433,1994。可用于产生人免疫球蛋白噬菌体文库的克隆和表达载体可从例如克隆系统(La Jolla,Calif.)获得。抗体包括完整的分子及其片段,诸如Fab、F(ab′)2和Fv,其能够结合表位决定簇。产生这些片段的方法是本领域已知的(参见,例如,Harlow和Lane,Antibodies:A Laboratory Manual,Cold Spring Harbor Laboratory,New York,1988)。表位是抗体的互补位所结合的抗原上的任何抗原决定簇。表位决定簇通常由分子的化学活性表面分子团(诸如氨基酸或糖侧链)组成,并且通常具有特定的三维结构特征以及特定的电荷特征。

  可以使用本领域技术人员已知的许多方法将分子(诸如酶,例如核酸酶和转座酶)连接在一起接头可以是用于将分子连接于另一个分子的任何分子。根据诸如待连接的分子和其中进行检测方法的条件等因素,接头的长度和组成可以变化,以优化诸如柔韧性、稳定性和对某些化学和/或温度参数的抗性等性能。接头的长度应当足以使连接的分子能够结合染色质相关因子,并允许酶切割染色质DNA。

  在某些实施方案中,目标染色质相关因子与染色质DNA序列的结合是直接的。换句话说,目标染色质相关因子与染色质DNA直接接触,例如与染色质DNA直接物理接触,对于DNA结合转录因子,情况亦如此。因此,在一些实施方案中,目标染色质相关因子是转录因子。在其它实施方案中,目标染色质相关因子与染色质DNA序列的结合是间接的。换句话说,所述接触可以是间接的,例如通过复合体的成员。通过这种方式,可以阐明更长范围的相互作用。

  在某些实施方案中,还可以检测与染色质结合剂相互作用的蛋白质,并确定它们的身份。可通过与免疫亲和测定偶联的质谱测定、使用基质辅助激光解吸/电离飞行时间(MALDI-TOF)质谱作图和通过二维聚丙烯酰胺凝胶电泳(2D-PAGE)分离的蛋白质的液相色谱/四极杆飞行时间电喷雾电离串联质谱(LC/Q-TOF-ESI-MS/MS)序列标签(Kiernan等,Anal.Biochem.,301:49-56,2002;Poutanen等,Mass Spectrom.,15:1685-1692,2001)、电喷雾电离(ESI)、表面增强激光解吸电离(SELDI)、化学电离和电子碰撞电离(EI)来检测此类蛋白质。根据它们的m/z比的离子分离可以用任何类型的质量分析仪来完成,包括四极质量分析仪(Q)、飞行时间(TOF)质量分析仪、磁式扇形质量分析仪(magnetic sector massanalyzers)、3D和线性离子阱(IT)、傅立叶变换离子回旋共振(FT-ICR)分析仪及其组合(例如,四极杆飞行时间分析仪或Q-TOF分析仪)。在分离之前,可对样品进行一个或多个维度的色谱分离,例如,一个或多个维度的液体或尺寸排阻色谱。

  质谱法,诸如SELDI,可用于分析和鉴定样品中的蛋白质。在一个实例中,表面增强的激光解吸电离飞行时间(SELDI-TOF)质谱法被用于检测蛋白质表达,例如通过使用ProteinChipTM(Ciphergen Biosystems,Palo Alto,CA)。这种方法在本领域中是公知的(例如参见美国专利第5,719,060号;美国专利第6,897,072号;和美国专利第6,881,586号)。SELDI是一种用于解吸的固相方法,其中将分析物呈现至表面上的能量流,所述能量流增强分析物的捕获或解吸。

  在一些实施方案中,将细胞或其群体固定在固体表面(例如珠粒或微量滴定板的壁)上。将细胞偶联至此类固体表面的方法在本领域中,例如在高通量技术的上下文中是已知的。

  在一些实施方案中,可将标签(诸如DNA标签)在例如切取的染色质DNA的一个或两个末端上添加到所述切取的染色质DNA中。在所公开的方法的过程中,可将多种标签序列共价添加到切取的染色质DNA上。如本文中所用,术语“标签”是指连接至另一个核酸以给所述核酸提供一些功能性的核苷酸序列。标签的例子包括条形码、引物位点、亲和标签和报告部分或其任意组合。

  在一些实施方案中,标签是核酸标签。在一些实施方案中,核酸标签包括条形码。这些核酸条形码可用于例如通过样品、生物体等来标记切取的染色质DNA,使得可同时分析多个样品,同时保留关于样品来源的信息。通常,条形码可包括一个或多个核苷酸序列,其可用于鉴定一个或多个特定的核酸。条形码可以是人工序列,也可以是天然存在的序列。条形码可包含至少约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个连续核苷酸。在一些实施方案中,条形码包含至少约4个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或更多个连续核苷酸。在一些实施方案中,包含条形码的核酸群中的至少一部分条形码是不同的。在一些实施方案中,至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%的条形码是不同的。在更多此类实施方案中,所有条形码都是不同的。包含条形码的核酸群体中不同条形码的多样性可以例如使用分拆池方法(spit-pool methodology)随机产生或非随机产生。应当理解,在一些实施方案中,大量可用的条形码允许每个加标签的切取的染色质DNA分子包含唯一的标识。模板核酸混合物中每个分子的独特标识可用于若干应用中,以例如在单倍型测序、亲本等位基因鉴别、宏基因组测序和基因组的样品测序中鉴定具有多条染色体、基因组、细胞、细胞类型、细胞疾病状态和物种的样品中的单个核酸分子。

  在一些实施方案中,核酸标签包括测序衔接子。在切取的染色质DNA的每个末端上,测序衔接子可以相同或不同。序列衔接子的包含有助于例如使用下一代测序(诸如配对末端测序和/或基于阵列的测序)对所产生的片段化DNA进行测序。

  在一些实施方案中,核酸标签包括通用引发位点。通用引发位点的包含有助于例如使用基于PCR的扩增对所产生的片段化DNA进行扩增。在一个实施方案中,引物序列可以与用于扩增的引物互补。在另一个实施方案中,引物序列与用于测序的引物互补。在某些实施方案中,例如使用转座酶同时标记和裂解染色质DNA。因此,在一些实施方案中,所公开的方法包括在允许转座子整合入染色质DNA的条件下,使未交联的透化细胞与特异性识别目标染色质相关因子的特异性结合剂接触,其中所述特异性结合剂与至少一种人工转座体连接。

  在一些实施方案中,所述方法是用于确定细胞中目标染色质相关因子与DNA序列的结合位点的原位方法。在一些实施方案中,所述方法包括使透化细胞与特异性结合染色质相关因子的第一抗体接触,其中所述第一抗体与多个(例如2个、3个、4个、5个、6个、7个、8个或甚至更多个,例如2-4个、或甚至2-10个以及其间的任何数目)转座体偶联。在实施方案中,多个转座体中的每一个都包括至少一种转座酶和转座子,所述转座子包括包含第一转座酶识别位点的第一DNA分子和包含第二转座酶识别位点的第二DNA分子。在实施方案中,所述方法包括例如用二价阳离子诸如Mg2+激活转座酶,从而切取与目标染色质相关因子结合的DNA序列,并用DNA标签标记所述DNA序列,其中至少一种转座酶将第一和第二DNA分子整合到染色质DNA中,从而裂解染色质DNA并用第一和第二DNA分子标记染色质DNA。在实施方案中,所述方法包括分离切取的DNA。在实施方案中,所述方法包括确定切取的DNA的序列,从而将目标染色质相关因子的结合作图到细胞中的一个或多个DNA序列。在实施方案中,抗体间接偶联至所述至少一种转座酶。在实施方案中,转座酶与特异性结合第一抗体的特异性结合剂连接。在实施方案中,所述方法还包括使细胞与特异性结合第一抗体的第二抗体接触,并且其中转座酶与特异性结合第二抗体的特异性结合剂连接。在实施方案中,所述方法还包括使细胞与特异性结合第一抗体的第二抗体接触;使细胞与特异性结合第二抗体的第三抗体接触,并且其中转座酶与特异性结合第三抗体的特异性结合剂连接。

  在某些实施方案中,所述方法包括将未交联的透化细胞与特异性结合染色质相关因子的抗体接触,其中所述抗体与至少一种转座体偶联。在某些实施方案中,所述至少一种转座体包含:至少一种转座酶;和转座子,其包含:包含第一转座酶识别位点的第一DNA分子;和包含第二转座酶识别位点的第二DNA分子。在某些实施方案中,所述方法包括激活转座酶,例如通过添加二价阳离子,从而切取与目标染色质相关因子结合的DNA序列,并用DNA标签标记所述DNA序列,其中所述至少一种转座酶将第一和第二DNA分子整合到染色质DNA中。在实施方案中,所述方法可包括分离切取的DNA;以及确定切取的DNA的序列,从而将目标染色质相关因子的结合作图到细胞中的一个或多个DNA序列。人工转座体包括至少一个转座酶和一个转座子。转座子包括包含第一转座酶识别位点的第一DNA分子和包含第二转座酶识别位点的第二DNA分子。转座子(或者实际上断裂转座子的两个部分)的整合产生了裂解的(或片段化的)DNA,其中第一和第二DNA分子整合在片段化位点的任一侧上。通过这种方式,染色质DNA被片段化并在片段化位点处被标记。在一些实例中,转座酶识别位点具有相同的序列,而在其它实例中,转座酶识别位点具有不同的序列。通过在整个染色质DNA中多次插入,所述DNA被有效地片段化为适于通过下一代测序方法进行分析的小片段。在一些实施方案中,使染色质DNA与至少两种不同的转座体接触,并且其中所述不同的转座体包含不同的DNA序列。因此,加标签的染色质DNA可以在5’和3’末端用不同的转座子序列标记。

  转座子的第一和第二DNA分子还可包括多种标签序列,可在所公开的方法的过程中将所述标签序列共价地添加到片段上。如本文中所用,术语“标签”是指连接至另一个核酸以给所述核酸提供一些功能性的核苷酸序列。标签的实例包括条形码、引物位点、亲和标签和报道部分或其任意组合,诸如上述那些。

  所公开的方法可使用任何转座酶。一些实施方案可包括使用高活性Tn5转座酶和Tn5型转座酶识别位点(Goryshin和Reznikoff,J.Biol.Chem.,273:7367(1998)),或MuA转座酶和包含R1和R2末端序列的Mu转座酶识别位点(Mizuuchi,K.,Cell,35:785,1983;Savilahti,H等,EMBO J.,14:4893,1995)。与高活性Tn5转座酶(例如,EZ-Tn5TM转座酶)形成复合物的示例性转座酶识别位点。可与本文提供的某些实施方案一起使用的转座系统的更多实例包括金黄色葡萄球菌(Staphylococcus aureus)Tn552(Colegio等,J.Bacteriol,183:2384-8,2001;Kirby C等,Mol.Microbiol,43:173-86,2002)、Tyl(Devine&Boeke,Nucleic Acids Res.,22:3765-72,1994和国际公开第WO 95/23875号)、转座子Tn7(Craig,N L,Science.271:1512,1996;Craig,N L,Review in:Curr Top Microbiol Immunol,204:27-48,1996)、Tn/O和IS 10(Kleckner N等,Curr Top Microbiol Immunol,204:49-82,1996)、Mariner转座酶(Lampe D J等,EMBO J.,15:5470-9,1996)、Tel(Plasterk R H,Curr.TopicsMicrobiol.Immunol,204:125-43,1996)、P元件(Gloor,G B,MethodsMol.Biol,260:97-1 14,2004)、Tn3(Ichikawa&Ohtsubo,J Biol.Chem.265:18829-32,1990)、细菌插入序列(Ohtsubo&Sekine,Curr.Top.Microbiol.Immunol.204:1-26,1996)、逆转录病毒(Brown等,Proc Natl Acad Sci USA,86:2525-9,1989)和酵母的反转座子(retrotransposon)(Boeke&Corces,Annu Rev Microbiol.43:403-34,1989)。更多的实例包括IS5、TnlO、Tn903、IS911和转座酶家族酶的工程化形式(Zhang等,(2009)PLoSGenet.5:el000689.Epub 2009Oct 16;Wilson C.等(2007)J.Microbiol.Methods 71:332-5)和美国专利第5,925,545、5,965,443号、6,437,109号、6,159,736号、6,406,896号、7,083,980号、7,316,903号、7,608,434号、6,294,385号、7,067,644号、7,527,966号中描述的那些;和国际专利公开号WO2012103545,所有这些专利均明确地通过引用整体并入本文。在一些实施方案中,转座酶是Tn5转座酶或其高活性突变体。在一些实施方案中,转座酶是Mu转座子。

在某些实施方案中,通过将切取的染色质DNA片段固定在基底(诸如包被有适于固定切取的染色质DNA的亲和分子的珠粒、膜或表面(例如,孔或管))上来纯化所述染色质DNA片段。在某些实施方案中,亲和分子是二氧化硅或羧基包被的磁珠(SPRI珠)。在某些实施方案中,在磁性颗粒上构建文库(例如,用于下一代测序应用,诸如测序(Inc.,San Diego,CA))。然后可将相同的吸附DNA的磁珠用于纯化所得的文库。在一些实施方案中,在孔中或作为珠粒(例如,磁珠)提供亲和表面的另外的优点是,所公开的方法可适用于诸如在96孔格式或微流体平台中进行多个样品的并行处理,从染色质材料开始到测序文库构建和纯化结束。在某些实施方案中,在切取的染色质DNA已从与核酸片段结合或核酸片段所结合至的特定染色质相关因子和/或抗体中释放后,纯化所述切取的染色质DNA。

  在一些实施方案中,切取的染色质DNA的身份通过DNA测序,诸如大规模并行测序来确定。一些技术可在固体流动池基底上使用衔接子连接的切取的染色质DNA的集群扩增(cluster amplification)。然后,可使用例如荧光标记的可逆终止子核苷酸,对流动池表面上所得的模板簇的高密度阵列进行并行合成测序。

  可在每次读取时对模板逐个碱基测序。在某些实施方案中,可使用将样品序列与已知基因组序列对齐的数据收集和分析软件来分析所得数据。该技术的灵敏度可取决于诸如测序运行的深度(例如,作图的序列标签的数量)、基因组的大小和靶因子的分布等因素。通过整合大量的短读数,可获得高度精确的结合位点定位。在某些实施方案中,数据可用于定位实际蛋白质结合位点的数十个碱基对内的结合位点,并且结合位点处的标签密度可允许定量和比较蛋白质与不同DNA位点的结合亲和力。

通常,测序可使用自动Sanger测序(AB 13730x1基因组分析仪)、固体载体上的焦磷酸测序(454sequencing,Roche)、具有可逆终止的合成测序(Genome分析仪)、连接测序(ABI)或具有虚拟终止子的合成测序与所公开的方法一起使用的其它下一代测序技术包括,大规模并行签名测序(MPSS)、Polony测序、离子激流半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序和纳米孔DNA测序。在一些实施方案中,例如通过确定核苷酸序列来分析切取的染色质DNA。在一些实例中,核苷酸序列使用测序或者利用或不利用扩增的杂交技术来测定。

  在某些实施方案中,可以容易地执行这些方法,并且可以可再现地获得数据。在某些实施方案中,这些方法用于筛选大量的DNA结合蛋白和/或染色质改性剂。在某些实施方案中,将所提供的方法用于筛选5种、10种、50种、100种、200种、500种、750种或1000种或更多种DNA结合蛋白和/或染色质调节剂(CR)及其修饰形式。修饰形式包括但不限于突变体和翻译后修饰的DNA结合蛋白和/或染色质改性剂。

  在某些实施方案中,将所提供的方法用于筛选下列DNA结合蛋白和/或染色质改性剂及其修饰形式中的一种或多种:AAF、abl、ADA2、ADA-NF1、AF-1、AFP1、AhR、AIIN3、ALL-1、α-CBF、α-CP 1、α-CP2a、α-CP2b、αHo、αH2-αFB、Alx-4、aMEF-2、AML1、AMLla、AMLlb、AMLlc、AMLlδN、AML2、AML3、AML3a、AML3b、AMY-1L、A-Myb、ANF、AP-1、AP-2αA、AP-2αB、AP-2β、AP-2γ、AP-3(1)、AP-3(2)、AP-4、AP-5、APC、AR、AREB6、Arnt、Arnt(774M形式)、ARP-1、ATBF1-A、ATBF1-B、ATF、ATF-1、ATF-2、ATF-3、ATF-3δZIP、ATF-a、ATF-aδ、ATPFl、Barhll、Barhl2、Barxl、Barx2、Bcl-3、BCL-6、BD73、β-连环蛋白、Binl、B-Myb、BP1、BP2、brahma、BRCAl、Brn-3a、Brn-3b、Brn-4、BTEB、BTEB2、B-TFIID、C/EBPα、C/EBPβ、C/EBPδ、CACC结合因子、Cart-1、CBF(4)、CBF(5)、CBP、CCAAT-结合因子、CCMT-结合因子、CCF、CCG1、CCK-la、CCK-lb、CD28RC、cdk2、cdk9、Cdx-1、CDX2、Cdx-4、CFF、ChxlO、CLIM1、CLIM2、CNBP、CoS、COUP、CP1、CP1A、CP1C、CP2、CPBP、CPE结合蛋白、CREB、CREB-2、CRE-BPl、CRE-BPa、CREMα、CRF、Crx、CSBP-1、CTCF、CTF、CTF-1、CTF-2、CTF-3、CTF-5、CTF-7、CUP、CUTL1、Cx、细胞周期蛋白A、细胞周期蛋白Tl、细胞周期蛋白T2、细胞周期蛋白T2a、细胞周期蛋白T2b、DAP、DAX1、DB1、DBF4、DBP、DbpA、DbpAv、DbpB、DDB、DDB-1、DDB-2、DEF、δCREB、δMax、DF-1、DF-2、DF-3、Dlx-1、Dlx-2、Dlx-3、DIx4(长同种型)、Dlx-4(短同种型、Dlx-5、Dlx-6、DP-1、DP-2、DSIF、DSIF-pl4、DSIF-pl60、DTF、DUX1、DUX2、DUX3、DUX4、E、E12、E2F、E2F+E4、E2F+pl07、E2F-1、E2F-2、E2F-3、E2F-4、E2F-5、E2F-6、E47、E4BP4、E4F、E4F1、E4TF2、EAR2、EBP-80、EC2、EF1、EF-C、EGR1、EGR2、EGR3、EIIaE-A、EIIaE-B、EIIaE-Cα、EIIaE-Cβ、EivF、EIf-1、EIk-1、Emx-1、Emx-2、Emx-2、En-1、En-2、ENH-bind.prot.、ENKTF-1、EPAS 1、εF 1、ER、Erg-1、Erg-2、ERR1、ERR2、ETF、Ets-1、Ets-1δVil、Ets-2、Evx-1、F2F、因子2、Factor name、FBP、f-EBP、FKBP59、FKHL18、FKHRL1P2、Fli-1、Fos、FOXB1、FOXC1、FOXC2、FOXD1、FOXD2、FOXD3、FOXD4、FOXE1、FOXE3、FOXF1、FOXF2、FOXGla、FOXGlb、FOXGlc、FOXH1、FOXI1、FOXJla、FOXJlb、FOXJ2(长同种型)、FOXJ2(短同种型)、FOXJ3、FOXKla、FOXKlb、FOXKlc、FOXL1、FOXMla、FOXMlb、FOXMlc、FOXN1、FOXN2、FOXN3、FOXOla、FOXOlb、FOX02、FOX03a、FOX03b、FOX04、FOXP1、FOXP3、Fra-1、Fra-2、FTF、FTS、G因子、G6因子、GABP、GABP-α、GABP-βl、GABP-β2、GADD 153、GAF、γCMT、γCACl、γCAC2、GATA-1、GATA-2、GATA-3、GATA-4、GATA-5、GATA-6、Gbx-1、Gbx-2、GCF、GCMa、GCNS、GF1、GLI、GLI3、GRα、GRβ、GRF-1、Gsc、Gscl、GT-IC、GT-IIA、GT-IIBα、GT-IIBβ、HlTFl、H1TF2、H2RIIBP、H4TF-1、H4TF-2、HAND 1、HAND2、HB9、HDAC1、HDAC2、HDAC3、hDaxx、热诱导的因子、HEB、HEBl-p67、HEBl-p94、HEF-1B、HEF-1T、HEF-4C、HEN1、HEN2、Hesxl、Hex、HIF-1、HIF-lα、HIF-lβ、HiNF-A、HiNF-B、HINF-C、HINF-D、HiNF-D3、HiNF-E、HiNF-P、HIP1、HIV-EP2、Hlf、HLTF、HLTF(Metl23)、HLX、HMBP、HMG I、HMG I(Y)、HMG Y、HMGI-C、HNF-1A、HNF-IB、HNF-1C、HNF-3、HNF-3α、HNF-3β、HNF-3γ、HNF4、HNF-4α、HNF4αl、HNF-4α2、HNF-4α3、HNF-4α4、HNF4γ、HNF-6α、hnRNP K、HOX11、HOXA1、HOXA10、HOXA10PL2、HOXA11、HOXA13、HOXA2、HOXA3、HOXA4、HOXA5、HOXA6、HOXA7、HOXA9A、HOXA9B、HOXB-1、HOXB13、HOXB2、HOXB3、HOXB4、HOXBS、HOXB6、HOXA5、HOXB7、HOXB8、HOXB9、HOXC10、HOXC11、HOXC12、HOXC13、HOXC4、HOXC5、HOXC6、HOXC8、HOXC9、HOXD10、HOXD11、HOXD12、HOXD13、HOXD3、HOXD4、HOXD8、HOXD9、Hp55、Hp65、HPX42B、HrpF、HSF、HSF1(长)、HSF1(短)、HSF2、hsp56、Hsp90、IBP-1、ICER-II、ICER-liγ、ICSBP、Idl、IdlH'、Id2、Id3、Id3/Heir-1、IF1、IgPE-1、IgPE-2、IgPE-3、IκB、IκB-α、IκB-β、IκBR、II-1RF、IL-6RE-BP、11-6RF、INSAF、IPF1、IRF-1、IRF-2、B、IRX2a、Irx-3、Irx-4、ISGF-1、ISGF-3、ISGF3α、ISGF-3γ、lst-1、ITF、ITF-1、ITF-2、JRF、Jun、JunB、JunD、κy因子、KBP-1、KER1、KER-1、Koxl、KRF-1、Ku自身抗原、KUP、LBP-1、LBP-la、LBX1、LCR-F1、LEF-1、LEF-1B、LF-A1、LHX1、LHX2、LHX3a、LHX3b、LHXS、LHX6.1a、LHX6.1b、LIT-1、Lmol、Lmo2、LMX1A、LMX1B、L-Myl(长形式)、L-Myl(短形式)、L-My2、LSF、LXRα、LyF-1、Lyl-l、M因子、Madl、MASH-1、Maxl、Max2、MAZ、MAZ1、MB67、MBF1、MBF2、MBF3、MBP-1(1)、MBP-1(2)、MBP-2、MDBP、MEF-2、MEF-2B、MEF-2C(433AA形式)、MEF-2C(465AA形式)、MEF-2C(473M形式)、MEF-2C/δ32(441AA形式)、MEF-2D00、MEF-2D0B、MEF-2DA0、MEF-2DAO、MEF-2DAB、MEF-2DA'B、Meis-1、Meis-2a、Meis-2b、Meis-2c、Meis-2d、Meis-2e、Meis3、Meoxl、Meoxla、Meox2、MHox(K-2)、Mi、MIF-1、Miz-1、MM-1、MOP3、MR、Msx-1、Msx-2、MTB-Zf、MTF-1、mtTFl、Mxil、Myb、Myc、Myc 1、Myf-3、Myf-4、Myf-5、Myf-6、MyoD、MZF-1、NCI、NC2、NCX、NELF、NER1、Net、NF Ill-a、NF NF-1、NF-1A、NF-1B、NF-1X、NF-4FA、NF-4FB、NF-4FC、NF-A、NF-AB、NFAT-1、NF-AT3、NF-Atc、NF-Atp、NF-Atx、NfβA、NF-CLEOa、NF-CLEOb、NFδE3A、NFδE3B、NFδE3C、NFδE4A、NFδE4B、NFδE4C、Nfe、NF-E、NF-E2、NF-E2p45、NF-E3、NFE-6、NF-Gma、NF-GMb、NF-IL-2A、NF-IL-2B、NF-jun、NF-κB、NF-κB(-like)、NF-κBl、NF-κBl、前体、NF-κB2、NF-κB2(p49)、NF-κB2前体、NF-κEl、NF-κE2、NF-κE3、NF-MHCIIA、NF-MHCIIB、NF-muEl、NF-muE2、NF-muE3、NF-S、NF-X、NF-X1、NF-X2、NF-X3、NF-Xc、NF-YA、NF-Zc、NF-Zz、NHP-1、NHP-2、NHP3、NHP4、NKX2-5、NKX2B、NKX2C、NKX2G、NKX3A、NKX3A vl、NKX3A v2、NKX3A v3、NKX3A v4、NKX3B、NKX6A、Nmi、N-Myc、N-Oct-2α、N-Oct-2β、N-Oct-3、N-Oct-4、N-Oct-5a、N-Oct-5b、NP-TCII、NR2E3、NR4A2、Nrfl、Nrf-1、Nrf2、NRF-2βl、NRF-2γl、NRL、NRSF形式1、NRSF形式2、NTF、02、OCA-B、Oct-1、Oct-2、Oct-2.1、Oct-2B、Oct-2C、Oct-4A、Oct4B、Oct-5、Oct-6、Octa-因子、八聚体-结合因子、oct-B2、oct-B3、Otxl、Otx2、OZF、pl07、pl30、p28调节剂、p300、p38erg、p45、p49erg,-p53、p55、p55erg、p65δ、p67、Pax-1、Pax-2、Pax-3、Pax-3A、Pax-3B、Pax-4、Pax-5、Pax-6、Pax-6/Pd-5a、Pax-7、Pax-8、Pax-8a、Pax-8b、Pax-8c、Pax-8d、Pax-8e、Pax-8f、Pax-9、Pbx-la、Pbx-lb、Pbx-2、Pbx-3a、Pbx-3b、PC2、PC4、PC5、PEA3、PEBP2α、PEBP2β、Pit-1、PITX1、PITX2、PITX3、PKNOX1、PLZF、PO-B、Pontin52、PPARα、PPARβ、PPARγl、PPARγ2、PPUR、PR、PR A、pRb、PRD1-BF1、PRDI-BFc、Prop-1、PSE1、P-TEFb、PTF、PTFα、PTFβ、PTFδ、PTFγ、Pu box结合因子、Pu box结合因子(BJA-B)、PU.l、PuF、Pur因子、Rl、R2、RAR-αl、RAR-β、RAR-β2、RAR-γ、RAR-γl、RBP60、RBP-Jκ、Rel、RelA、RelB、RFX、RFX1、RFX2、RFX3、RFXS、RF-Y、RORαl、RORα2、RORα3、RORβ、RORγ、Rox、RPF1、RPGα、RREB-1、RSRFC4、RSRFC9、RVF、RXR-α、RXR-β、SAP-la、SAP lb、SF-1、SHOX2a、SHOX2b、SHOXa、SHOXb、SHP、SIII-pl lO、SIII-pl5、SIII-pl8、SIM'、Six-1、Six-2、Six-3、Six-4、Six-5、Six-6、SMAD-1、SMAD-2、SMAD-3、SMAD-4、SMAD-5、SOX-11、SOX-12、Sox-4、Sox-5、SOX-9、Spl、Sp2、Sp3、Sp4、Sph因子、Spi-B、SPIN、SRCAP、SREBP-la、SREBP-lb、SREBP-lc、SREBP-2、SRE-ZBP、SRF、SRY、SRP1、Staf-50、STATlα、STATlβ、STAT2、STAT3、STAT4、STAT6、T3R、T3R-αl、T3R-α2、T3R-β、TAF(I)110、TAF(I)48、TAF(I)63、TAF(II)100、TAF(II)125、TAF(II)135、TAF(II)170、TAF(II)18、TAF(II)20、TAF(II)250、TAF(II)250Δ、TAF(II)28、TAF(II)30、TAF(II)31、TAF(II)55、TAF(II)70-α、TAF(II)70-β、TAF(II)70-γ、TAF-I、TAF-II、TAF-L、Tal-1、Tal-lβ、Tal-2、TAR因子、TBP、TBXIA、TBXIB、TBX2、TBX4、TBXS(长同种型)、TBXS(短同种型)、TCF、TCF-1、TCF-1A、TCF-1B、TCF-1C、TCF-1D、TCF-1E、TCF-1F、TCF-1G、TCF-2α、TCF-3、TCF-4、TCF-4(K)、TCF-4B、TCF-4E、TCFβl、TEF-1、TEF-2、tel、TFE3、TFEB、TFIIA、TFIIA-αβ前体、TFIIA-α/β前体、TFIIA-γ、TFIIB、TFIID、TFIIE、TFIIE-α、TFIIE-β、TFIIF、TFIIF-α、TFIIF-β、TFIIH、TFIIH*、TFIIH-CAK、TFIIH-细胞周期蛋白H、TFIIH-ERCC2/CAK、TFIIH-MAT1、TFIIH-M015、TFIIH-p34、TFIIH-p44、TFIIH-p62、TFIIH-p80、TFIIH-p90、TFII-I、Tf-LFl、Tf-LF2、TGIF、TGIF2、TGT3、THRA1、TIF2、TLE1、TLX3、TMF、TR2、TR2-11、TR2-9、TR3、TR4、TRAP、TREB-1、TREB-2、TREB-3、TREF1、TREF2、TRF(2)、TTF-1、TXRE BP、TxREF、UBF、UBP-1、UEF-1、UEF-2、UEF-3、UEF-4、USF1、USF2、USF2b、Vav、Vax-2、VDR、vHNF-lA、vHNF-lB、vHNF-lC、VITF、WSTF、WT1、WT1I、WT1I-KTS、WT1I-del2、WT1-KTS、WTl-del2、X2BP、XBP-1、XW-V、XX、YAF2、YB-1、YEBP、YYl、ZEB、ZF1、ZF2、ZFX、ZHX1、ZIC2、ZID、ZNF174、ASH1L、ASH2、ATF2、ASXL1、BAP1、bcllO、Bmil、BRG1、CARM1、KAT3A/CBP、CDC73、CHD1、CHD2、CTCF、DNMT1、DOTL1、EHMT1、ESET、EZH1、EZH2、FBXL10、FRP(Plu-1)、HD AC 1、HDAC2、HMGA1、hnRNPAl、HP1γ、Hsetlb、JaridlA、JaridlC、KIAA1718JHDM1D、KAT5、KMT4、LSD1、NFKB P100、NSD2、MBD2、MBD3、MLL2、MLL4、P300、pRB、RbAP46/48、RBP1、RbBP5、RING IB、RNApolII P S2、RNApolII PS5、ROC1、sap30、setDB 1、Sf3bl、SIRT1、Sirt6、SMYD1、SP1、SUV39H1、SUZ12、TCF4、TET1、TRRAP、TRX2、WDR5、WDR77和/或YYl。这些DNA结合蛋白和/或染色质改性剂的抗体是商购可得的。

  如本文中所用,染色质相关因子是可以在染色质上的一个或多个位点发现的和/或可以以瞬时方式与染色质缔合的因子。低丰度染色质相关因子的实例包括、但不限于,转录因子(例如,肿瘤抑制因子、癌基因、细胞周期调节剂、发育和/或分化因子、通用转录因子(TF))、ATP依赖性染色质重塑因子(例如,(P)BAF、MOT1、ISWI、INO80、CHD1)、激活因子(例如,组蛋白乙酰基转移酶(HAT))复合物、阻遏物(例如,组蛋白脱乙酰基酶(HDAC))复合物、共激活因子、共阻遏物、其它染色质重塑剂,例如组蛋白(去)甲基化酶、DNA甲基化酶、复制因子等。在转染并瞬时或稳定表达后(例如,重组因子)或在感染后(例如,病毒因子),在某些环境线索(例如,生长和其它刺激信号、DNA损伤信号、细胞死亡信号)下,此类因子在细胞周期的特定阶段(例如G1期、S期、G2期、M期)可与染色质(DNA、组蛋白)相互作用。

  丰富的因子是染色质的成分,例如组蛋白及其变体。可通过翻译后修饰在组蛋白尾部修饰组蛋白,这改变了它们与DNA和核蛋白的相互作用,并影响例如基因调节、DNA修复和染色体凝集。H3和H4组蛋白具有从核小体突出的长尾,所述长尾可被共价修饰,例如通过甲基化、乙酰化、磷酸化、遍在蛋白化、SUMO化、瓜氨酸化和ADP核糖基化。还可修饰组蛋白H2A和H2B的核心。

  在某些实施方案中,提供了所公开的方法,其允许以高通量的方式进行样品处理。例如,可免疫沉淀和/或并行分析10种、50种、100种、200种、500种、750种、1000种或更多种染色质相关因子和/或染色质修饰。在一个实施方案中,可使用例如96孔板一次处理多达96个样品。在其它实施方案中,可使用例如6孔板、12孔板、32孔板、384孔板或1536孔板来处理更少或更多的样品。在一些实施方案中,所提供的方法可以在试管中(例如普通的0.5ml、1.5ml或2.0ml大小的试管)进行。这些管可以排列在管架、浮子或其他保持装置中。

  在特定实施方案中,样品可包含约1个细胞、约2个细胞、约3个细胞、约5个细胞、约10个细胞、约25个细胞、约50个细胞、约100个细胞、约150个细胞、约200个细胞、约300个细胞、约400个细胞、约500个细胞、约1000个细胞、约2000个细胞、约3000个细胞、约4000个细胞、约5000个细胞、约10,000个细胞、约20,000个细胞、约30,000个细胞、约40,000个细胞、约50,000个细胞、约100,000个细胞、约200,000个细胞、约300,000个细胞、约400,000个细胞、约500,000个细胞或约1,000,000个细胞。在一些实施方案中,样品可包含约1个细胞至约10,000个细胞,或约10,000个细胞至约100,000个细胞,或更多细胞。

  与转录因子和其它蛋白质(诸如组蛋白)直接物理相互作用的特定DNA位点可以被分离,这产生了被体内蛋白质结合的靶DNA位点的文库。在一些实施方案中,大规模并行序列分析可与全基因组序列数据库结合使用,以分析目标蛋白质(例如,转录因子、聚合酶或转录机器)与DNA的相互作用模式,或者分析目标表观遗传染色质修饰(例如,组蛋白修饰或DNA修饰)的模式。

  所公开的方法还特别适合于监测疾病状态,诸如生物体(例如植物或动物受试者,诸如哺乳动物受试者,例如人类受试者)的疾病状态。某些疾病状态可由蛋白质和/或核酸对体内染色质DNA的差异结合造成和/或特征在于蛋白质和/或核酸对体内染色质DNA的差异结合。例如,某些相互作用可存在于患病细胞中,但不存在于正常细胞中。在其它实例中,某些相互作用可存在于正常细胞中,但不存在于患病细胞中。因此,通过使用所公开的方法,可使体内之间的相互作用的图谱与疾病状态发生关联。

  因此,所公开的方法的方面涉及使靶核酸与蛋白质和/或核酸的相互作用与疾病状态(例如癌症,或感染(诸如病毒或细菌感染))发生关联。应当理解,可以对任何生物体,包括但不限于植物和动物(诸如人)进行与疾病状态的关联。

  由于具有相似的“指纹”,与疾病相关的交互图谱可用作“指纹”来鉴定和/或诊断细胞的疾病。染色质相关因子和染色质DNA的图谱可用于鉴定与疾病状态(诸如癌症)相关的结合蛋白和/或核酸,例如以鉴定作为潜在诊断剂和/或治疗靶标的特定蛋白质和/或核酸。另外,所述图谱可用于监测疾病状态,例如以监测对治疗的反应、疾病进展和/或为受试者做出治疗决策。

  获得相互作用图谱的能力允许疾病状态的诊断,例如通过将样品中存在的图谱与特定疾病状态相关的图谱进行比较,其中图谱中的相似性指示特定疾病状态。

  因此,所公开的方法的方面涉及基于与疾病状态(例如癌症或感染(诸如病毒或细菌感染))相关的相互作用图谱来诊断疾病状态。应当理解,可对任何生物体(包括但不限于植物和动物,诸如人)进行疾病状态的诊断。

  本公开的方面涉及环境应激或状态与相互作用图谱的相关性,例如可将整个生物体,或样品,诸如细胞样品,例如细胞培养物,暴露于环境应激,诸如但不限于热休克、渗透压、缺氧、寒冷、氧化应激、辐射、饥饿、化学物质(例如治疗剂或潜在治疗剂)等。施加应激后,可以例如在不同的时间点对代表性样品进行分析,并将其与对照(诸如来自生物体或细胞的样品,例如来自生物体的细胞)进或标准值行比较。

  在一些实施方案中,所公开的方法可用于筛选试剂的化学文库,所述试剂调整相互作用图谱,例如将相互作用图谱从异常相互作用图谱(例如与疾病状态相关的)改变为指示无疾病状态的相互作用图谱。通过将细胞、组织或甚至整个动物暴露于化学文库的不同成员,并实施本文所述的方法,可以例如使用高通量方法,在相对短的时间内同时筛选化学文库的不同成员对相互作用图谱的作用。

  在一些实施方案中,测试试剂的筛选包括测试包含大量潜在调节剂化合物的组合文库。组合化学文库可以是由化学合成或生物合成(通过组合许多化学“构件块”(诸如试剂))生成的不同化学化合物的集合。例如,对于给定的化合物长度(例如多肽化合物中氨基酸的数目),通过以各种可能的方式组合一组化学构件块(氨基酸),形成线性组合化学文库,例如多肽文库。通过化学构件块的这种组合混合,可以合成数百万种化合物。

  可在文库中包含合适的试剂,例如,组合库中的合成或天然化合物。许多文库是商购可得的或者可以容易地生产;多种有机化合物和生物分子的随机和定向合成方法,包括随机化的寡核苷酸(诸如反义寡核苷酸)和寡肽的表达,也是已知的。或者,呈细菌、真菌、植物和动物提取物形式的天然化合物的文库是可获得的或可容易地生产。另外,天然或合成产生的文库和化合物易于通过常规化学、物理和生物化学手段进行修饰,并可用于产生组合文库。此类文库可用于筛选大量不同的化合物。

  文库可包括不同数量的组合物(成员),诸如高达约100个成员,诸如高达约1,000个成员,诸如高达约5,000个成员,诸如高达约10,000个成员,诸如高达约100,000个成员,诸如高达约500,000个成员,或者甚至超过500,000个成员。在一个实例中,所述方法可包括提供包含大量潜在治疗性化合物的组合化学或肽文库。然后通过本文公开的方法筛选此类组合文库,以鉴定那些显示所需特征活性的文库成员(特别是化学种类或亚类)。

  使用本文公开的方法鉴定的化合物可用作常规的“先导化合物”,或者本身可用作潜在的或实际的治疗剂。在一些情况下,可对候选剂池进行鉴定和进一步筛选,以确定集合中哪个个体或亚组的试剂具有所需的活性。

  可将对照反应与文库结合进行。此类任选的对照反应是合适的,并且可增加筛选的可靠性。因此,所公开的方法可包括这样的对照反应。对照反应可以是阴性对照反应,其独立于转录调节剂而测量转录因子活性。对照反应还可以是阳性对照反应,其根据已知的转录调节剂来测量转录因子活性。

  通过公开的方法鉴定的化合物可用作多种疾患的治疗剂或用于多种疾患的药物开发的先导化合物。因为基因表达是所有生物过程(包括细胞分裂、生长、复制、分化、修复、细胞感染等)的基础,因此监测转录因子活性和鉴定调节其活性的化合物的能力可用于鉴定用于多种疾患(包括赘瘤形成、炎症、过敏性超敏反应、代谢疾病、遗传病、病毒感染、细菌感染、真菌感染等)的药物先导物。另外,在不想要的生物体诸如病毒、真菌、农业害虫等中特异性靶向转录因子的化合物可用作杀真菌剂、杀菌剂、除草剂、杀虫剂等。因此,与转录因子活性相关的疾患范围包括人和其它动物以及植物(诸如农业应用)中的疾患。

  用于本文公开的方法的合适样品包括从生物体(诸如植物、动物、细菌等)或其一部分获得的任何常规生物样品(诸如植物或动物,包括来自健康或表面上健康的人受试者或患有待诊断或研究的疾患或疾病(诸如癌症)的人患者的样品)。样品也可以是从任何器官或组织获得的样品(包括活检或尸检样本,诸如肿瘤活检物),或者可包括细胞(无论是原代细胞还是培养细胞)、组织或器官。示例性样品包括但不限于细胞、组织活检物(例如肿瘤活检)、细针抽吸物和/或组织切片(例如,低温恒温器组织切片和/或石蜡包埋的组织切片)。在其它实例中,样品包括循环的肿瘤细胞(其可通过细胞表面标志物鉴定)。在特定实例中,样品直接使用(例如,新鲜或冷冻的),或者可在使用前进行处理,例如通过固定(例如,使用福尔马林)和/或包埋在蜡中(诸如福尔马林固定石蜡包埋的(formalin-fixedparaffin-embedded,FFPE)组织样品)。应当理解,可利用从受试者获得组织的任何方法,并且所用方法的选择将取决于各种因素,诸如组织的类型、受试者的年龄或从业者可用的程序。

  提供以下实施例来说明某些特定特征和/或实施方案。该实施例不应被解释为将本发明限制于所描述的特定特征或实施方案。

  实施例

  实施例1

  染色质免疫裂解(Chromatin Immuno-Cleavage,ChIC)的优点是使用TF特异性抗体来栓系MN酶,并且仅在结合位点进行裂解。为了使ChIC适应深度测序,所公开的方法被开发来减少原本主导深度测序文库的DNA的背景断裂的呈现。据观察,细胞核的轻度MN酶处理释放出单核小体和TF-DNA复合物,留下寡核小体。TF两侧的靶向裂解将进一步将TF-DNA复合物释放到上清液中,将基因组的剩余部分留在沉淀的细胞核中。通过在冰上进行短暂的消化反应,发现在结合有TF的MN酶扩散到基因组周围并切割可及的染色质之前,可以从上清液中回收TF-DNA复合物。基于这一原理,开发并细化了初步的CUT&RUN方案(图1A)。

  在一个实例中,该方案包括以下步骤:

  (1)将未固定的细胞核固定在凝集素包被的磁珠上;

  (2)相继用抗体和蛋白A-MN酶(pA-MN)孵育,随后进行最少的洗涤步骤:

  (3)在冰上与Ca++混合以引发裂解反应,然后在数秒至数分钟后通过螯合停止;以及

  (4)离心以回收含有释放的TF-DNA复合物的上清液。

  然后从上清液中提取DNA,并将其直接用于测序文库制备。

  CUT&RUN产生染色质复合体的有限消化。

  CUT&RUN方案最初是使用粗酵母细胞核进行的。为了严格比较CUT&RUN与ChIP-seq,使用了相同的加FLAG标签的TF菌株、相同的细胞核制备方案、相同的小鼠抗FLAG单克隆抗体以及相同的Illumina文库制备和配对末端测序程序(Kasinathan等,2014年)。由于小鼠蛋白A仅与小鼠IgG微弱结合,因此将兔抗小鼠二抗用于CUT&RUN。为了测试CUT&RUN的效率,使用了表达加3XFLAG标签的组蛋白H2A的酿酒酵母菌株,该菌株预期在全基因组范围内释放核小体片段。事实上,在0℃下经过100倍的消化时间过程,观察到逐渐裂解,片段释放至小到单核细胞大小完全取决于一抗的存在(图1B)。

  然后将CUT&RUN应用于两种结构不同的酿酒酵母转录因子,即ARS结合因子1(Abf1)和rDNA增强子结合蛋白1(Reb1),每个样品获得约200-300万个作图的配对末端读数。发现对于4s与128s之间的时间点,在约150bp以下,作图片段的大小分布实际上是重叠的(图1C)。在32倍范围内的时间点之间的这种密切一致性表明,当加入Ca++时,结合有TF的片段的有限消化迅速发生,并且表明消化时间不是关键参数。

  作图的TF片段大小在约100bp处达到峰值,与H2A片段相反,后者在约150bp处达到峰值。预期TF复合物将小于约100bp,核小体将为约150bp,因此分别作图了小于120bp和大于150bp的片段。时间点图谱显示每个区域中每个TF基序在小于120bp大小类别内的清晰CUT&RUN峰(图1D和图10)。除峰值占用率在针对加标对照归一化时缓慢单调增加外(图11A-11B),在1s至128s的间隔内没有观察到时间点之间的一致差异,证实了TF-DNA复合物的逐渐释放产生有限的消化反应。总的DNA提取和小片段的纯化产生了几乎相同的结果(图12A-12C),这表明从上清液中提取DNA定量地回收了结合有TF的片段。

  CUT&RUN以高分辨率在原位稳健地对酵母TF结合位点作图

  为了验证少于120bp的片段代表TF结合位点周围的裂解,在基因组中鉴定了所有重要的Abf1和Reb1基序,发现基于CUT&RUN数据的基序和基于ORGANIC数据的基序几乎相同(图S13A-13D)。ORGANIC衍生的基序用于扫描酵母基因组,这为我们提供了完全独立于CUT&RUN测定的1899个Abf1和1413个Reb1基序的综合列表。已经证实,对于每个数据集,大多数峰调用都与基序重叠,对于Abf1,CUT&RUN的性能略好于ORGANIC,对于Reb1,反之亦然(图13E)。≤120bp和≥150bp的图谱以这些基序为中心,并构建了热图。当按以每个Abf1和Reb1基序为中心的2kb间距内的占有率进行排序时,观察到相对于侧翼区域,超过90%的TF位点被相应基序上的片段占据(图2A-2B和图14上图),代表可能的真阳性。Abf1和Reb1基序上的CUT&RUN占用率显示出相对于核酸可及性的高动态范围(图14,下图),在热图中看到对于CUT&RUN有高于背景的较高对比度。相比之下,Abf1片段在非重叠的Reb1位点的占有率可忽略不计,对于Reb1片段在非重叠Abf1位点上的占有率也是如此(图2A-2B和图14,中间的图)。Tf基序的存在与TF的占有率之间几乎完全一致,而在不同的TF的位点上一般不存在,这意味着CUT&RUN对TF结合高度灵敏和特异。

  为了直接比较CUT&RUN与高分辨率ChIP-seq,类似地将‘ORGANIC’ChIP-seq数据在Abf1和Reb1基序上方排齐。如先前所报道的那样(Kasinathan等,2014),ORGANIC ChIP-seq在整个基因组中检测到了大部分Abf1真阳性基序和几乎所有Reb1基序(图2A-2B,中上图)。最佳的Reb1数据是用80mM NaCl提取获得的,最佳的Abf1数据是用600mM NaCl获得的,尽管Reb1的动态范围总是优于经常出现假阳性占用率的Abf1的动态范围(图2A-2B,中下图)。相比之下,在相同的消化时间点范围内,CUT&RUN对于两种TF显示了相同的动态范围,而配对末端读数减少至约1/10,表明CUT&RUN比ORGANIC ChIP-seq更稳健。相对于这些高分辨率方法(Kasinathan等,2014年),使用交联和超声处理的标准ChIP-seq显示出较差的灵敏度和特异度(图2A-2B,右图)。因此,相对于ChIP-seq,CUT&RUN提供了具有改善的灵敏度/特异度权衡的稳健的TF占用率图。

  为了估计CUT&RUN的分辨率,将作为片段末端平均密度的每个TF的“足迹”绘制在基序中点周围。对于Abf1和Reb1,均观察到清晰的20bp宽的足迹,表明这些转录因子以接近碱基对的分辨率保护以基序为中心的约20bp(图3A)。有趣的是,裂解图中的上游和下游“斜率”显示在Abf1和Reb1基序两者的两侧都有锯齿图案,其中在>100bp的范围内“齿”之间的距离约为10bp,并通过自相关分析证实与碱基组成无关(图3B)。这种10bp的周期性切割偏好与B型DNA的10bp/转角周期相匹配,这表明在这些结合的TF的任一侧上的DNA是空间定向的,使得系连的MN酶优先接近DNA双螺旋的一个面。MN酶至TF的系连将其局限在切割甚至在核小体表面上的附近的DNA,表明染色质纤维的柔性(图3C)。因此,在0℃下观察到的非常快速的动力学是由于准备在系连位点附近裂解的固定的MN酶所致。

  CUT&RUN精确地对染色质相关复合物作图

  对于基于ChIP的方法,染色质全景图(chromatin landscape)的可移动组分的高分辨率作图可能是挑战性的。例如,约1兆道尔顿的17-亚单位的RSC核小体重塑复合体动态地滑动其瞬时吞噬的核小体(Lorch等,2010;Ramachandran等,2015),并且Mot1DNA转位酶从高亲和力结合位点动态移除TATA结合蛋白(TBP)(Zentner和Henikoff,2013;Auble等,1997年)。尽管X-ChIP将核小体重塑复合体交联到其最近的核小体上,但原生ChIP成功地在其作用位点(包括在核小体耗尽区域(NDR)中和核小体上)捕获了酵母染色质重塑物(Zentner等,2013)。为了使CUT&RUN能够剖析如此大的染色质相关复合体,发现提取总DNA而不是通过CUT&RUN原位溶解的染色质是最佳选择,后者可能太大而无法扩散通过核孔。因此,提取所有DNA,并用AMPure珠粒优先去除大的DNA片段。当将这种改进的方案在>2个数量级的消化范围内应用于Mot1时,观察到染色质图谱与使用ORGANIC剖析获得的那些非常相似,但只用约15%的配对末端读数(图4A)。TBP结合位点上游侧上的Mot1峰在CUT&RUN和ORGANIC图谱中都可见,证实Mot1在体内从上游侧接近TBP(Zentner和Henikoff,2013年),如同其在体外一样(Wollmann等,2011年)。热图和平均图分析显示≤120bp的片段密切追寻TBP位点,然而≥150bp的片段广泛地分布在局部附近,可能代表了Mot1易位动力学(图15A-15B)。CUT&RUN也适用于Sth1(RSC化复合物的催化组分)。RSC起着在NDR上滑动核小体的作用,酵母基因排列在正好在转录起始位点下游的+1核小体的推测的二元轴上(Ramachandran等,2015)。在5s至30min的时间过程中观察到均匀消化(图16A),并证实在GAL4UAS正上方存在大量的RSC(图16B)(Floer等,2010年)。Sth1峰在NDR中最丰富,其中CUT&RUN图谱显示产量随着消化时间从5s至10min而逐渐增加(图4B),表明使用CUT&RUN方案获得定量极限消化(quantitative limit digestions)。对于源自在最长消化时间内平行处理的3XFLAG-Sth1核的阴性对照,观察到几乎平坦的线,但其中省略了第一抗FLAG抗体。Sth1CUT&RUN的结果与Sth1ORGANIC剖析的结果相似(Ramachandran等,2015年),但产量高得多(图4C)。得出如下结论:CUT&RUN提供了染色质相关复合物(甚至是非常大的且动态的那些染色质相关复合物)的高效高分辨率作图。

  CUT&RUN解析罕见的不溶性DNA结合蛋白复合物

Abf1和Reb1是相对丰富的TF,但许多目标DNA结合蛋白是罕见的,因此通过ChIP进行剖析可以是一个挑战。在芽殖酵母中,每条染色体只有一个着丝粒核小体,其摩尔丰度仅为Abf1或Reb1的1%左右。研究着丝粒核小体(其包含CenH3(Cse4)组蛋白变体替代H3)的另一个挑战是,在整个细胞周期中,所述着丝粒核小体是多兆道尔顿的动粒复合体(kinetochore complex)的一部分(Akiyoshi等,2010年),使得其高度不可溶(Krassovsky等,2012年)。为了通过CUT&RUN剖析Cs4核小体,消化后将样品分拆,仅从一个等分试样中提取上清液,并从另一个中提取总DNA。这样就可以比较可溶性和不溶性动粒复合体的回收率。同时,类似地对组蛋白H2A进行剖析。通过求出总染色质和可溶性染色质之间的差,可以推断出不溶性沉淀中每种组蛋白的占有率。正如对不溶性动粒所预期的,染色体上最高的Cs4占用率出现在着丝粒处(图5A)。令人惊讶的是,不溶性H2A(其存在于整个基因组的每个核小体中)的占有率在着丝粒处也达到最大。事实上,在所有16个酵母着丝粒中,我们观察到在整个消化时间过程中Cse4和H2A的富集程度非常相似,限制在的功能着丝粒中,其分辨率比标准X-ChIP高4倍(图5B)。我们还从源自应用CUT&RUN前已被甲醛交联的细胞的珠粒结合的染色质中提取了总DNA,结果相似(图5C)。有趣的是,交联导致更独特的图谱和在任一侧出现相控核小体,这被解释为染色质柔性随交联而降低,同时证明该基本策略可应用于交联细胞。

  为了证实在CUT&RUN上清液和总DNA之间观察到的差异是由于动粒染色质的差异溶解度造成的,在消化前将样品分拆,对于一份等分试样,用2M NaCl停止裂解反应,并回收上清液用于测序。对于高盐级分获得的结果与对于总DNA获得的结果相似(图17A-17C)。着丝粒核小体中不溶性H2A的明确存在直接解决了关于其组成的持续争议(Wisniewski等,2014;Henikoff等,2014年;Aravamudhan等,2013年;Shivaraju等,2012年)。此外,由于酵母着丝粒核小体包裹的DNA具有大90%的A+T(Krasovsky等,2012年),因此着丝粒颗粒在>100倍的消化时间过程中的完整性(图5)表明CUT&RUN不受MN酶对富含AT的DNA的固有偏好影响(Chung等,2010年;McGhee和Felsenfeld,1983)。因此得出CUT&RUN可对大的DNA结合复合物,甚至那些稀有的、不溶性的和富含AT的复合物作图。

  染色质附近的CUT&RUN探针

  检查≥150bp的谱图(图1D和图4A-4C),发现结合位点周围出现宽峰,有时带有“缺口”,对应于随着消化时间而加深的位点本身。这种模式被解释为代表片段的逐渐释放,其中一个末端是由TF-DNA复合物周围的裂解产生的,并且第二个裂解足够靠近TF结合位点以至产生可溶性片段。对≥150bp片段的热图分析也显示了Abf1和Reb1片段在其各自的结合基序上的占用率,在任一侧延伸约0.5kb(图2A-2B)。这种延伸的局部裂解使人想起DamID的>1kb的延伸(van Steensel等,2001),表明系链的柔性导致对附近染色质的探测。

  CUT&RUN以高分辨率对人转录因子结合位点作图

  在简单的、经过充分研究的基因组中建立了原理验证后,将CUT&RUN应用于人K562细胞中的CCCTC结合因子(CTCF)。为了直接比较各种方法的效率,为每种技术随机选择了1000万个读数,并将原始分数绘制为每个测序读数的信息内容的指示。与酵母TF的情况一样,CTCFCUT&RUN显示出比其它剖析方法(包括标准X-ChIP-seq和ChIP-exo)更高的动态范围(图6A)。当与DNaseI超敏感位点或先前鉴定的结合位点中发现的CTCF基序对齐时,CUT&RUN和X-ChIP-seq CTCF热图显示出很强的一致性,其中CUT&RUN具有更高的动态范围(图6B)。当在低温下进行CUT&RUN时(图19A-19D),无抗体对照显示出不可检测的背景(图18)。如同芽殖酵母TF的情况一样,观察到邻近片段的释放,这对应于紧邻CTCF位点的相控核小体。通过仅绘制短CUT&RUN片段的末端位置(其为系连的MN酶的裂解位置),在相对于CTCF基序的确定位置处相隔44bp观察到明显的“在轨电车轨道(tram-tracks)”。此外,确切的裂解模式在约300倍的时间过程消化范围内是一致的,在CTCF结合位点的任一侧都有主要的单碱基对切割位点,突出显示了获得的有限消化(图6C)。这种模式表明裂解位置在细胞群中是精确的且高度均一的。结果表明,CUT&RUN在同一个实验中准确地对TF及其侧翼染色质进行了作图。CTCF具有11个锌指,因此可能代表异常稳定的蛋白质DNA相互作用。因此,使用Myc和Max对CUT&RUN进行了测试,所述Myc和Max是与短的E-盒基序结合并且具有b停留时间的基本-环-螺旋蛋白(Phair等,2004年)。CUT&RUN成功地以高分辨率对Myc和Max作图(图20A)。在Max的情况下,由于使用了相同的抗体,因此可以与ENCODE ChIP-seq数据进行定量比较,并且在此处,CUT&RUN具有高得多的动态范围,因而能够稳健地鉴定多得多的Max结合位点(图20B)。为了结合E-盒上的DNA,Myc与Max形成了异二聚体(Blackwood等,1991),但除此之外,Max还有其它结合配偶体(Ayer和Eisenman,1993),正如所预期的,在几乎所有Myc结合位点处都发现了与Max的非常高的重叠。相比之下,先前通过ENCODE X-ChIP-seq对Myc和Max鉴定的结合位点之间的重叠很少,因为鉴定的Max位点只有1/10。然而,当将MaxENCODE X-ChIP-seq数据排列在Max CUT&RUN位点上方时,可以看到高占用率(图20C),表明相对于CUT&RUN,X-ChIP-seq的较低动态范围是由于通过X-ChIP-seq未能鉴定出这些Max结合位点。

  CUT&RUN将组蛋白修饰作图在致密的染色质中

  人们认为,在高等真核生物中,抗体系连的MN酶可能被排除在高度致密的异染色质区域之外,因此CUT&RUN可能仅限于分析常染色质区域中的蛋白质-DNA相互作用。因此,对抑制性组蛋白标记H3K27me3进行了CUT&RUN。分析1000万个来自从CUT&RUN和ENCODE X-ChIP-seq的读数,观察到了相似的H3K27me3景观,但CUT&RUN的动态范围高得多,这表明蛋白A-MN酶能够接近致密的染色质(图21)。此外,H3K27me3裂解的染色质很容易从完整的细胞核释放到可溶性级分中,表明CUT&RUN适用于探测致密染色质中的蛋白质-DNA相互作用。

  CUT&RUN定向对远程基因组接触的作图

  当邻近TF的核小体大小的片段与含TF的片段一起释放时,有人问3D邻近是否也可能被裂解和释放。染色体-构象-捕获(Chromosome-Conformation-Capture,3C)方法,诸如高Hi-C和ChIA-PET(Tang等,2015;Lieberman-Aiden等,2009),是用于对3D全基因组接触作图的优选技术。这些方法使用与X-ChIP相同的甲醛交联方案来鉴定3D相互作用,诸如结合在增强子上的TF与其通过共激活剂与启动子接触之间的3D相互作用。在本实施例中,由X-ChIP鉴定的蛋白质的结合位点将包括启动子和增强子,尽管这些相互作用之一是通过甲醛交联的间接蛋白质间相互作用。但在基于X-ChIP和3C的作图中,没有系统的方法来区分直接与间接位点。因此,尝试使用原生ChIP作图CTCF结合位点,由于蛋白质间相互作用的瞬时性质,先前的结果显示仅作图包含TF特异性DNA结合基序的直接结合位点(Kasinathan等,2014)。开发了新的原生ChIP方案(见下文),其实现了几乎完全的蛋白质提取,没有蛋白质再分布的迹象(图22A-22B)。在天然条件下,2298个位点被鉴定为具有高基序得分。相比之下,CTCF的CUT&RUN作图检测到约22,000个位点也存在于X-ChIP中,具有不同的基序得分范围(图23)。正如所预期的那样,所有由原生ChIP鉴定的位点也被CUT&RUN以及X-ChIP强有力地检测到,显示出相似的信号分布(图7A)。然而,缺乏显著的原生ChIP信号的CUT&RUN位点在原生ChIP输入中显示出稳健的足迹,具有相似的计数累积分布(图7B),表明存在未知的结合的因子,如对于3D基因组相互作用所预期的。这表明CUT&RUN与X-ChIP一样,可以以高分辨率发现直接(天然CTCF峰)和间接(CUT&RUN峰)染色质相互作用。

  为了证实通过原生ChIP未观察到的CTCFCUT&RUN位点对应于接触位点,将直接和间接位点与通过ChIA-PET观察到的接触位点进行比较。CTCF ChIA-PET鉴定了通过CTCF介导的相互作用基因组区域,但不能区分CTCF直接结合的区域与相互作用性的间接结合的区域。对于典型的~1Mb的基因组区域,所有高评分的ChIA-PET片段与直接和间接位点重叠(图8A)。尽管作图的CTCF ChIA-PET融合片段在数kb的范围(由所用的6-切割限制性内切酶位点之间的距离决定的)内,但直接和间接CUT&RUNCTCF位点均以接近碱基对的分辨率作图。此外,91%的直接位点存在于CTCF ChIA-PET数据中,其中这些ChIA-PET片段的43%与间接位点相互作用,其余的包含高CUT&RUN信号(图8C),表明它们是刚好低于峰值调用阈值的涉及多个接触的间接位点。

  作为CUT&RUN可以检测间接接触相互作用的进一步证据,在直接位点与间接位点之间发现了高频率的Hi-C相互作用,并且间接位点处的Hi-C得分与CUT&RUN信号之间存在定量相关性(图8B)。因此,通过比较CUT&RUN和原生ChIP,有可能以接近碱基对的分辨率作图接触位点,以区分直接蛋白质结合位点与由远程基因组相互作用产生的间接蛋白质结合位点,以及确定这些接触的方向性,而这是其他方法实现不了的。

  CUT&RUN允许低细胞数量的定量测量

  典型的ChIP-seq实验需要大量细胞,而低细胞数量的ChIP仅限于丰富的蛋白质(Kasinathan等,2014;Brind'Amour等,2015年)。CTCF CUT&RUN的起始K562细胞数为600,000至1000万个。为了比较数据集之间的绝对占用率,使用了加标策略(参见下文的材料和方法),允许对蛋白质占用率进行精确的定量测量。当针对加标DNA进行归一化时,观察到裂解事件的数量与起始细胞数量成比例(图9A-9B)。此外,当将数据针对与人基因组对齐的读数总数进行归一化时,样品中没有明显的差异,这表明在低输入材料的情况下保持了高数据质量。

  讨论

  用于染色质剖析(chromatin profiling)的简单方法

  CUT&RUN基于Laemmli及其同事的ChIC抗体系连的核酸酶策略(Schmid等,2004)。为了使ChIC适用于全基因组剖析方法,进行了五个关键的改进。首先,将透化细胞或粗制细胞核固定至磁珠,允许快速高效地更换溶液,使得CUT&RUN可在一天内进行,并且适合自动化。第二,抗体和pA-MN酶结合到天然未固定的细胞核,在所述细胞核中表位得以保存并可接近。第三,由于通过固定化MN酶的裂解是零级反应,消化在冰冷的温度下进行,这限制了释放片段的扩散,从而降低了背景。第四,使用了天然染色质,这使得我们可以根据溶解度来分级分离裂解的片段(Sanders,1978;Teves和Henikoff,2012年;Jahan等,2016年),以专门富集释放的染色质复合物。除去了不溶性大块染色质,只有在颗粒两侧上均有断裂的染色质片段进入上清液。第五,在提取DNA后,将这些可溶性片段用于Illumina文库制备和配对末端DNA测序。CUT&RUN在简单性、分辨率、稳健性、效率、数据质量和对高度不溶性复合物的适用性方面表现与ChIP-seq相当或更好。由于原位进行反应所获得的固有低背景,CUT&RUN只需要其它高分辨率方法约1/10的测序深度。由于细胞核在MN酶被激活时是完整的,所以CUT&RUN可探测靶位点周围的局部环境。事实上,CUT&RUN以相对较低的测序深度在人细胞中以碱基对的分辨率恢复了3D接触的位点。

  CUT&RUN具有广泛的适用性

  尽管12年前ChIC被描述为使用Southern印迹的基本作图方法,但我们仍不知道有使用该方法的单一出版物。与此同时,仅ChIP-seq就在约30,000份出版物中被提及用于剖析几乎每种类型的染色质组分,包括组蛋白修饰、转录因子和染色质相关蛋白。与ChIP一样,CUT&RUN是基于抗体的,因此其可应用于染色质上的任何表位,使其成为一种染色质剖析的通用方法,利用了为ChIP开发的大型抗体生产基础设施的优势。CUT&RUN提供了具有通过我们的用于处理和比较ChIP-seq和CUT&RUN数据集的定制软件实现的标准和加标归一化选项的定量占用率图谱。CUT&RUN的唯一非标准特征是需要pA-MN融合蛋白,所述融合蛋白可从细菌培养物中批量产生和纯化,所述细菌培养物产生足够的pA-MN用于剖析>100,000个样品。由于CUT&RUN基于与ChIP不同的原理,因此其可解决交联相关、超声处理相关和增溶相关的问题。CUT&RUN的背景较低,因为裂解只发生在结合位点周围,而ChIP首先粉碎整个基因组,并且这些片段造成了全基因组的背景噪声,必须继续对其进行测序。在我们使用的短暂低温条件下几乎没有可检测的背景,缺乏对可及的或富含AT的DNA的偏好,以及酵母基因组中基本上所有Abf1和Reb1基序的恢复,表明CUT&RUN不受有时困扰ChIP的假象类型的影响(Teytelman等,2013;Park等,2013年;Jain等,2015年;Baranello等,2016年;Kasinathan等,2014年)。此外,CUT&RUN抗体结合发生在类似于免疫荧光显微镜检查的条件的完整细胞核环境中,使得对于经细胞学验证的抗体,甚至那些在ChIP中失败的抗体来说,其应该是成功的,由于CUT&RUN仅在靶向裂解反应后使染色质增溶,因此其适用于将经典的染色质盐-分级分离(Sanders,1978;Teves和Henikoff,2012年;Jahan等,2016年)扩展至特定的TF和染色质复合物。

  CUT&RUN精确地作图远程接触

  使用完整的细胞核进行CUT&RUN的后果是,系连有抗体的MN酶的长距离延伸可探测局部环境。在酵母中,在位于TF两侧的DNA的一个表面上观察到裂解,并且所述裂解随着距离的增加而逐渐减少。在人细胞中,在先前被鉴定为CTCF的接触点的位置上观察到裂解。最近,在给定CTCF结合位点的情况下,已经以高置信度对Hi-C接触位点进行了计算预测(Sanborn等,2015年)。由于CUT&RUNCTCF对结合位点和相互作用进行作图,并且原生ChIP方案鉴定了那些直接结合TF的位点,其可提供基因组的完整高分辨率1D图,同时用直接与间接TF结合位点之间的高分辨率区别来丰富其3D接触图。

  低背景水平降低了测序成本

  ChIP-seq分析通常包括归一化来补偿样品之间的不同读取数目。在ChIP-seq中,全基因组断裂导致恒定的低密度全基因组背景,所述低密度全基因组背景例如在比较野生型细胞系与敲除细胞系中为归一化提供了基础。尽管在高丰度蛋白质上归一化失败,但这可通过使用加标对照来纠正(Bonhoure等,2014;Chen等,2015;Orlando等,2014年)。然而,严格的加标策略需要添加来自不同物种的细胞,并且定量依赖于抗体交叉反应性(Orlando等,2014)。尽管CUT&RUN的背景较低,但为了在样品之间进行归一化,添加恒定低量的来自不同物种的片段化的加标DNA就足够了,并且允许对蛋白质占用率进行精确定量。利用CUT&RUN进行的低背景裂解水平需要较少的读数来清晰地确定峰。例如,每个CTCF时间点只需要约1000万个配对末端读取,类似于低分辨率ChIP-seq的要求,比ChIP-exo少得多,后者对于CTCF需要约1亿个读取(Rhee和Pugh,2011)。此外,在Max和H3K27me3的情况下,对于CUT&RUN而言1000万个读数提供了非常高的动态范围,但1000万个读数不足以从Max ENCODE X-ChIP-seq调用峰值。这种成本效益使得CUT&RUN作为ChIP-seq的替代很有吸引力,尤其是在测序深度有限的情况下。CUT&RUN的高效率可归因于原位剖析与ChIP之间的根本差异:CUT&RUN保留了体内3D构象,因此抗体仅在一级结合反应中进入暴露的表面,然而在ChIP中,抗体与粉碎的细胞或细胞核的可溶解的全基因组含量相互作用。此外,CUT&RUN裂解实际上是零级反应,导致基因组中所有结合的表位在短暂的低温时间过程中稳定颗粒释放。考虑到表位丰度,据估计利用600,000个细胞进行的约22,000个直接和间接CTCF位点的作图与利用约5000个细胞的超低输入ChIP-seq方案的灵敏度相当,所述ChIP-seq方案通常仅限于丰富的组蛋白修饰,诸如H3K27me3(Brind'Amour等,2015年)。然而超低输入ChIP仅提供约2kb的分辨率,而CUT&RUN提供接近碱基对的分辨率。所公开的方法固有的稳健性、高信息量、低输入和测序要求以及对自动化的适合性表明,CTCF和其它TF的CUT&RUN剖析可应用于表观基因组诊断。总之,CUT&RUN与ChIP及其衍生产品相比具有许多实践有利方面:低背景因此低序列深度要求,易用性使其适合机器人自动化,同时允许通过简单的加标策略进行精确定量。因此,在所有重要方面,CUT&RUN为基于ChIP的策略提供了有吸引力的替代方案。

  材料和方法

  先前(Kasinathan等,2014;Krassovsky等,2012年;Gelbart等,2001年)描述了携带在其各自内源启动子控制下的加有Flag标签的H2A(SBY2688)、Cs4(SBY 5146)、Abf1和Reb1的生物W1588-4C酿酒酵母菌株。按照描述(Kasinathan等,2014)制备酵母细胞核,将其快速冷冻在0.5-0.6ml等分试样中,并于-80℃下储存。在标准条件下培养人K562细胞。标准方案用于电泳凝胶分析和免疫印迹。所使用的抗体是小鼠抗-FLAG(M2,Sigma,St.Louis,Mo,目录号F1804)、兔抗小鼠(Abcam,Cambridge,UK,Catalog#ab46540)、CTCF(MilliporeBillerica,MA,目录号07–729)、H3K27me3(Millipore,目录号07-449)、c-Myc(CellSignaling Technology Beverly,MA,目录号D3N8F)、Max(Santa Cruz Biotechnology,Dallas,TX,目录号sc-197)和RNA Pol II(8WG16,Abcam,目录号ab817)。pK19pA-MN质粒由Ulrich Laemmli惠赠,并且如Schmid等,2004描述的,从大肠杆菌细胞制备pA-MN蛋白。用于酵母细胞核CUT&RUN的CUT&RUN始于根据公布的程序制备的粗制细胞核。以下方案以分步格式提供(见下文)。按照描述(Orsi等,2015)制备约5X 108个细胞(在OD600~0.7下)的细胞核,将其分成10个600mL的等分试样,快速冷冻并保持在-80℃,然后在使用前于冰上解冻。Bio-Mag Plus伴刀豆球蛋白A(凝集素)包被的珠粒用补充有各自1mM的MgCl2、CaCl2和MnCl2的HNT(20mM HEPES pH7.5,100mM NaCl和0.1%Tween 20)进行平衡。激活凝集素只需要Ca++和Mn++,而省略MgCl2对透化细胞与珠粒的结合没有影响。将珠粒(300mL)与解冻的细胞核等分试样快速混合,并保持在室温(RT)≥5分钟,置于磁铁架上澄清(<1min),并在磁铁架上倾析。然后将珠粒在补充有蛋白酶抑制剂(罗氏全片)和含3%牛血清蛋白(BSA)和2mM EDTApH 8的1mM苯甲磺酰氟(PMSF)(=HNT-PPi)的HNT中于室温下孵育5分钟,然后使用磁铁架倾析,用HNT-PPi+0.1%BSA(封闭缓冲液)孵育5分钟。将珠粒在4℃与小鼠抗FLAG抗体(1:200-1:350)孵育2小时,倾析,在HNT+PMSF中洗涤一次,然后在4℃下与封闭缓冲液中的兔抗小鼠IgG抗体(1:200)一起孵育1小时。将珠粒在HNT+PMSF中洗涤一次,然后在4℃下与封闭缓冲液中的pA-MN(600mg/ml,1:200)一起孵育1小时。将珠粒在HNT+PMSF中洗涤两次,在20mMHEPES pH 7.5,100mM NaCl(消化缓冲液)(对于Sth1和Mo1,任选地包含10%聚乙二醇8000)中洗涤一次。将珠粒放入1.2ml消化缓冲液中,分成8X 150mL的等分试样,平衡至0℃,然后迅速与CaCl2混合,用150mL 2XSTOP[200mM NaCl,20mM EDTA,4mM EGTA,50mg/ml RNase A(Thermo Scientific,Waltham,MA,Catalog#EN0531)和40mg/ml糖原(Sigma,目录号10901393001),含有5-50pg/ml从甲醛交联的MN酶处理的果蝇染色质提取的异源的大多为单核小体大小的DNA片段作为加标]终止反应。在37℃孵育20分钟后,将珠粒在4℃以13,000rpm离心5分钟,在磁铁架上除去上清液,并与3mL 10%SDS和2mL蛋白酶K(Invitrogen,Carlsbad,CA,目录号25530049)混合,在70℃孵育10分钟,然后在室温下用缓冲的苯酚-氯仿-异戊醇(25:24:1,Sigma P2069)提取一次,转移到锁相管(Qiagen,Hilden,Germany,目录号129046)中,用1体积的CHCl3再提取,转移到含有2mL 2mg/ml糖原的新的试管中,通过加入2-2.5体积的乙醇沉淀,在冰中冷却并在4℃以13,000rpm离心10分钟。用100%乙醇漂洗沉淀,风干并溶解在25mL 0.1x TE8(=1mM Tris pH 8,0.1mM EDTA)中。为了延长用于高盐提取的CUT&RUN时间,在50mL的体积中进行消化,用50mL 2XSTOP停止消化,省去RNA酶并用4M NaCl代替标准的200mM NaCl。在37℃下进行20分钟后,加入200mL 67mg/ml RNA酶A,孵育20分钟,然后以13,000rpm离心以澄清上清液。哺乳动物细胞人K562细胞的CUT&RUN购自ATCC(Manassas,VA,目录号CCL-243)。使用基于离心的方案进行CUT&RUN。通过离心收集1000万个细胞(600g,在旋转桶转子中进行3分钟),并在冰冷的磷酸盐缓冲盐水(PBS)中洗涤。通过在冰上于1ml NE1(20mM HEPES-KOH pH 7.9;10mM KCl;1mM MgCl2;0.1%TritonX-100;20%甘油)低渗裂解5分钟,然后如上离心(一些细胞中的核酸酶导致依赖于Mg++的DNA降解,在这种情况下,可用0.5mM亚精胺代替1mM MgCl2)来分离细胞核。在1.5ml缓冲液1(20mM HEPES pH 7.5;150mMNaCl;2mM EDTA;0.5mM亚精胺;0.1%BSA)中短暂洗涤细胞核,然后在1.5ml缓冲液2(20mM HEPES pH 7.5;150mM NaCl;0.5mM亚精胺;0.1%BSA)中进行洗涤。将细胞核重悬于500ml缓冲液2中,加入10ml抗体,在4℃孵育2小时将细胞核在1ml缓冲液2中洗涤3次,以除去未结合的抗体。将细胞核重悬于300ml缓冲液2中,加入5ml PA-MN,在4℃孵育1小时将细胞核在0.5ml缓冲液2中洗涤3次,以除去未结合的pA-MN。将试管放入冰水中的金属块中,并迅速与100mM CaCl2混合至终浓度为2mM。通过加入EDTA和EGTA至终浓度分别为10mM和20mM来淬灭反应,并加入1ng单核小体大小的果蝇DNA片段作为加标。通过在4℃孵育细胞核1小时,将裂解的片段被释放到上清液中,并且如上所述通过离心沉淀细胞核。从上清液中提取DNA片段并用于构建测序文库。该方案也适用于磁珠(如下所示)。TFChIP-seq数据集中加标归一化全基因组背景通常足够高,以便为归一化提供恒定的背景水平,以补偿文库制备和测序中样品之间的变化。为了进行标准归一化,将对应于基因组中每个碱基位置的片段末端数除以作图的读取末端的总数。然而,CUT&RUN的固有的低背景水平需要加标对照用于定量比较(Hu等,2014)。为了对人CUT&RUN进行加标归一化,将低恒定量的黑腹果蝇DNA加入到每个反应中。将配对末端的读数作图到人和果蝇的基因组,将人的图谱针对果蝇读数的数量进行归一化(图9A-9B)。使用内部归一化,在消化时间过程中未观察到裂解的增加。然而,通过针对果蝇加标DNA进行归一化,观察到裂解水平随时间增加约4倍。因此,CUT&RUN适宜蛋白质-DNA相互作用的精确定量。文库制备、测序和数据处理测序文库由所述的(Kasinathan等,2014;Henikoff等,2011)DNA片段制备而成,但没有大小选择,遵循KAPA DNA聚合酶文库制备试剂盒方案(www.kapabiosystems.com/product-applications/products/next-genera tion-sequencing-2/dna-library-preparation/kapa-hyper-prep-kits/)并扩增8个或更多个循环。为了耗尽源自不溶性染色质的大片段的总DNA样品,将样品与1/2体积的AgencourtAMPureXp珠粒混合,保持5-10分钟,置于磁铁架上,保留上清液,弃去珠粒。为了减少剩余大片段的呈现,将使用KAPA聚合酶文库制备方法的PCR循环次数增加到14次循环,使衔接子浓度相应增加。增加PCR循环的次数有利于较短片段的指数扩增,而不是太长以至于聚合酶不能完全通过的片段的线性扩增。在Illumina HiSeq 2500上,以配对末端模式对文库进行了25个周期的测序。将配对末端片段作图到sacker3/V64基因组,并如所述使用Novoalign(Novocraft)构建和释放从FlyBase获得的黑腹果蝇基因组序列的r 5.51(2013年5月),以生成SAM文件。对于人样品,使用Bowtie2将配对末端片段作图到hg19。数据处理的定制脚本在补充软件中提供,并且可从github.com/peteskene下载。为了进行比较分析,从NCBI SRA文档下载的公共可获得的数据集是:ERR718799(Abf1)、SRR2568522(Reb1)、GSM 749690(CTCF;150bp的滑动窗口,以20bp的步长跨越基因组,错误发现率为1%),CTCFChIP-exo BAM文件由Frank Pugh友好提供。为了在不偏向CUT&RUN峰的情况下获得成组的TF特异性基序,将MEME基序寻找程序应用于酵母ORGANIC ChIP-seq峰调用。将所得的对数比值比位置特异性评分矩阵(PSSM)用于酿酒酵母基因组的MAST搜索,以鉴定具有显著对数比值比基序得分的位点。这鉴定了1899个Abf1站点和1413个Reb1站点。根据先前的研究,酵母TF结合位点与该TF的基序的对应关系被用作真阳性调用的“黄金标准”(Rhee和Pugh,2011;Kasinathan等,2014年;Zentner等,2015年;Ganapathi等,2011年)。将MEME用于从峰值构建对数比值比PSSM,所述峰值使用Kasinathan等的的阈值方法(Kasinathan等,2014)来调用。峰值调用截止值是合并的1s至32s≤120bp Abf1和Reb1数据集的归一化计数的第99.5百分位,其中峰间距离=100,最小峰宽=50,最大峰宽=1000。为了比较CUT&RUN与ORGANIC基序的回收,调整了峰调用阈值以报告相似的峰数。使用Pwmotols(ccg.vital-it.ch/pwmtools/)产生对数比值比序列标志(Log-odds sequence logos)。使用IGV(Thorvaldsdottir等,2013年)制作了跟踪截屏(Track screen shot)。

  实施例1的参考文献(其每一篇通过引用整体并入)

  Akiyoshi B,Sarangapani KK,Powers AF,Nelson CR,Reichow SL,Arellano-Santoyo H,Gonen T,RanishJA,Asbury CL,Biggins S.2010.Tension directlystabilizes reconstituted kinetochore-microtubule attachments.Nature468:576–579.doi:10.1038/nature09594,PMID:21107429

  Aravamudhan P,Felzer-Kim I,Joglekar AP.2013.The budding yeast pointcentromere associates with two Cse4molecules during mitosis.CurrentBiology23:770–774.doi:10.1016/j.cub.2013.03.042,PMID:23623551

  Auble DT,Wang D,Post KW,Hahn S.1997.Molecular analysis of the SNF2/SWI2protein family member MOT1,an ATP-driven enzyme that dissociates TATA-binding protein from DNA.Molecular and Cellular Biology17:4842–4851.doi:10.1128/MCB.17.8.4842

  Aughey GN,SouthallTD.2016.Dam it’s good!DamID profiling of protein-DNA interactions.Wiley Interdisciplinary Reviews:Developmental Biology5:25–37.doi:10.1002/wdev.205,PMID:26383089

  Ayer DE,Eisenman RN.1993.A switch from Myc:Max to Mad:Maxheterocomplexes accompanies monocyte/macrophage differentiation.Genes&Development7:2110–2119.doi:10.1101/gad.7.11.2110,PMID:8224841

  Baranello L,Kouzine F,Sanford S,Levens D.2016.ChIP bias as a functionof cross-linking time.Chromosome Research24:175–181.doi:10.1007/s10577-015-9509-1,PMID:26685864

  Blackwood EM,Eisenman RN.1991.Max:a helix-loop-helix zipper proteinthat forms a sequence-specific DNA-binding complex with Myc.Science251:1211–1217.doi:10.1126/science.2006410,PMID:2006410

  Bonhoure N,Bounova G,Bernasconi D,Praz V,Lammers F,Canella D,WillisIM,Herr W,Hernandez N,Delorenzi M,CycliX Consortium.2014.Quantifying ChIP-seqdata:a spiking method providing an internal reference for sample-to-samplenormalization.Genome Research24:1157–1168.doi:10.1101/gr.168260.113,PMID:24709819

  Brind’Amour J,Liu S,Hudson M,Chen C,Karimi MM,Lorincz MC.2015.Anultra-low-input native ChIP-seq protocol for genome-wide profiling of rarecell populations.

  Nature Communications6:6033.doi:10.1038/ncomms7033,PMID:25607992 ChenK,Hu Z,Xia Z,Zhao D,Li W,Tyler JK.2015.The overlooked fact:Fundamental needfor Spike-In control for virtually all Genome-Wide analyses.Molecular andCellular Biology36:662–667.doi:10.1128/MCB.00970-14,PMID:26711261

  Cho G,Kim J,Rho HM,Jung G.1995.Structure-function analysis of the DNAbinding domain of Saccharomyces cerevisiae ABF1.Nucleic Acids Research23:2980–2987.doi:10.1093/nar/23.15.2980,PMID:7659521

  Chung HR,Dunkel I,Heise F,Linke C,Krobitsch S,Ehrenhofer-Murray AE,Sperling SR,Vingron M.2010.The effect of micrococcal nuclease digestion onnucleosome positioning data.PLoS One5:e15754.doi:10.1371/journal.pone.0015754,PMID:21206756

  Floer M,Wang X,Prabhu V,Berrozpe G,Narayan S,Spagna D,Alvarez D,Kendall J,Krasnitz A,Stepansky A,Hicks J,Bryant GO,Ptashne M.2010.A RSC/nucleosome complex determines chromatin architecture and facilitatesactivator binding.Cell141:407–418.doi:10.1016/j.cell.2010.03.048,PMID:20434983

  Ganapathi M,Palumbo MJ,Ansari SA,He Q,Tsui K,Nislow C,MorseRH.2011.Extensive role of the general regulatory factors,Abf1 and Rap1,indetermining genome-wide chromatin structure in budding yeast.Nucleic AcidsResearch39:2032–2044.doi:10.1093/nar/gkq1161,PMID:21081559

  Gelbart ME,Rechsteiner T,Richmond TJ,Tsukiyama T.2001.Interactions ofIsw2 chromatin remodeling complex with nucleosomal arrays:analyses usingrecombinant yeast histones and immobilized templates.Molecular and CellularBiology21:2098–2106.doi:10.1128/MCB.21.6.2098-2106.2001,PMID:11238944

  Hass MR,Liow HH,Chen X,Sharma A,Inoue YU,Inoue T,Reeb A,Martens A,Fulbright M,Raju S,Stevens M,Boyle S,Park JS,Weirauch MT,Brent MR,KopanR.2015.SpDamID:Marking DNA bound by protein complexes identifies Notch-Dimerresponsive enhancers.Molecular Cell59:685–697.doi:10.1016/j.molcel.2015.07.008,PMID:26257285

  He Q,Johnston J,Zeitlinger J.2015.ChIP-nexus enables improveddetection of in vivo transcription factor binding footprints.NatureBiotechnology33:395–401.doi:10.1038/nbt.3121

  Henikoff JG,Belsky JA,Krassovsky K,MacAlpine DM,HenikoffS.2011.Epigenome characterization at single base-pair resolution.PNAS108:18318–18323.doi:10.1073/pnas.1110731108,PMID:22025700

  Henikoff S,Ramachandran S,Krassovsky K,Bryson TD,Codomo CA,BrogaardK,Widom J,Wang JP,Henikoff JG.2014.The budding yeast centromere DNA elementII wraps a stable Cse4 hemisome in either orientation in vivo.eLife3:e01861.doi:10.7554/eLife.01861,PMID:24737863

  Hu Z,Chen K,Xia Z,Chavez M,Pal S,Seol JH,Chen CC,Li W,TylerJK.2014.Nucleosome loss leads to global transcriptional up-regulation andgenomic instability during yeast aging.Genes&Development28:396–408.doi:10.1101/gad.233221.113,PMID:24532716

  Jahan S,Xu W,He S,Gonzalez C,Delcuve GP,Davie JR.2016.The chickenerythrocyte epigenome.Epigenetics&Chromatin9:19.doi:10.1186/s13072-016-0068-2,PMID:27226810

  Jain D,Baldi S,Zabel A,Straub T,Becker PB.2015.Active promoters giverise to false positive’Phantom Peaks’in ChIP-seq experiments.Nucleic AcidsResearch43:6959–6968.doi:10.1093/nar/gkv637,PMID:26117547

  Kasinathan S,Orsi GA,Zentner GE,Ahmad K,Henikoff S.2014.High-resolution mapping of transcription factor binding sites on nativechromatin.Nature Methods11:203–209.doi:10.1038/nmeth.2766,PMID:24336359

  Krassovsky K,Henikoff JG,Henikoff S.2012.Tripartite organization ofcentromeric chromatin in budding yeast.PNAS109:243–248.doi:10.1073/pnas.1118898109,PMID:22184235

  Lieberman-Aiden E,van Berkum NL,Williams L,Imakaev M,Ragoczy T,Telling A,Amit I,Lajoie BR,Sabo PJ,Dorschner MO,Sandstrom R,Bernstein B,Bender MA,Groudine M,Gnirke A,Stamatoyannopoulos J,Mirny LA,Lander ES,DekkerJ.2009.Comprehensive mapping of long-range interactions reveals foldingprinciples of the human genome.Science326:289–293.doi:10.1126/science.1181369,PMID:19815776

  Lorch Y,Maier-Davis B,Kornberg RD.2010.Mechanism of chromatinremodeling.PNAS107:3458–3462.doi:10.1073/pnas.1000398107,PMID:20142505

  McGhee JD,Felsenfeld G.1983.Another potential artifact in the studyof nucleosome phasing by chromatin digestion with micrococcalnuclease.Cell32:1205–1215.doi:10.1016/0092-8674(83)90303-3,PMID:6301684

  Meyer CA,Liu XS.2014.Identifying and mitigating bias in next-generation sequencing methods for chromatin biology.Nature ReviewsGenetics15:709–721.doi:10.1038/nrg3788,PMID:25223782

  Morrow BE,Ju Q,Warner JR.1990.Purification and characterization ofthe yeast rDNA binding protein REB1.The Journal of Biological Chemistry265:20778–20783.PMID:2249986

  O’Neill LP,VerMilyea MD,Turner BM.2006.Epigenetic characterization ofthe early embryo with a chromatin immunoprecipitation protocol applicable tosmall cell populations.Nature Genetics38:835–841.doi:10.1038/ng1820,PMID:16767102

  Orlando DA,Chen MW,Brown VE,Solanki S,Choi YJ,Olson ER,Fritz CC,Bradner JE,Guenther MG.2014.Quantitative ChIP-Seq normalization revealsglobal modulation of the epigenome.Cell Reports9:1163–1170.doi:10.1016/j.celrep.2014.10.018,PMID:25437568

  Orsi GA,Kasinathan S,Zentner GE,Henikoff S,Ahmad K.2015.Mappingregulatory factors by immunoprecipitation from native chromatin.CurrentProtocols in Molecular Biology110:21.31.1–21.3121.doi:10.1002/0471142727.mb2131s110

  Park D,Lee Y,Bhupindersingh G,IyerVR.2013.WidespreadmisinterpretableChIP-seq bias in yeast.PLoS One8:e83506.doi:10.1371/journal.pone.0083506,PMID:24349523

  Paul E,Tirosh I,Lai W,Buck MJ,Palumbo MJ,Morse RH.2015.Chromatinmediation of a transcriptional memory effect in yeast.G3(Bethesda)5:829–838.doi:10.1534/g3.115.017418,PMID:25748434

  PekgozAltunkaya G,Malvezzi F,Demianova Z,Zimniak T,Litos G,WeissmannF,Mechtler K,Herzog F,Westermann S.2016.CCAN Assembly configures compositebinding interfaces to promote Cross-Linking of Ndc80 complexes at thekinetochore.Current Biology26:2370–2378.doi:10.1016/j.cub.2016.07.005,PMID:27524485

  Phair RD,Scaffidi P,Elbi C,Vecerova′J,Dey A,Ozato K,Brown DT,Hager G,Bustin M,Misteli T.2004.Global nature of dynamic protein-chromatininteractions in vivo:three-dimensional genome scanning and dynamicinteraction networks of chromatin proteins.Molecular and Cellular Biology24:6393–6402.doi:10.1128/MCB.24.14.6393-6402.2004,PMID:15226439

  Ramachandran S,Zentner GE,Henikoff S.2015.Asymmetric nucleosomesflank promoters in the budding yeast genome.Genome Research25:381–390.doi:10.1101/gr.182618.114,PMID:25491770

  Rhee HS,Pugh BF.2011.Comprehensive genome-wide protein-DNAinteractions detected at single-nucleotide resolution.Cell147:1408–1419.doi:10.1016/j.cell.2011.11.013,PMID:22153082

  Sanborn AL,Rao SS,Huang SC,Durand NC,Huntley MH,Jewett AI,Bochkov ID,Chinnappan D,Cutkosky A,Li J,Geeting KP,Gnirke A,Melnikov A,McKenna D,Stamenova EK,Lander ES,Aiden EL.2015.Chromatin extrusion explains keyfeatures of loop and domain formation in wild-type and engineeredgenomes.PNAS112:E6456–E6465.doi:10.1073/pnas.1518552112,PMID:26499245

  Sanders MM.1978.Fractionation of nucleosomes by salt elution frommicrococcal nuclease-digested nuclei.The Journal of Cell Biology79:97–109.doi:10.1083/jcb.79.1.97,PMID:701381

  Schmid M,Durussel T,LaemmliUK.2004.ChIC and ChEC;genomic mapping ofchromatin proteins.Molecular Cell16:147–157.doi:10.1016/j.molcel.2004.09.007,PMID:15469830

  Shivaraju M,Unruh JR,Slaughter BD,Mattingly M,Berman J,GertonJL.2012.Cell-cycle-coupled structural oscillation of centromeric nucleosomesin yeast.Cell150:304–316.doi:10.1016/j.cell.2012.05.034,PMID:22 817893

  Skene PJ,Henikoff S.2015.A simple method for generating high-resolution maps of genome-wide protein binding.eLife4:e09225.doi:10.7554/eLife.09225,PMID:26079792

  Solomon MJ,Varshavsky A.1985.Formaldehyde-mediated DNA-proteincrosslinking:a probe for in vivo chromatin structures.PNAS82:6470–6474.doi:10.1073/pnas.82.19.6470,PMID:2995966

  Southall TD,Gold KS,Egger B,Davidson CM,Caygill EE,Marshall OJ,BrandAH.2013.Cell-type-specific profiling of gene expression and chromatin bindingwithout cell isolation:assaying RNA Pol II occupancy in neural stemcells.Developmental Cell26:101–112.doi:10.1016/j.devcel.2013.05.020,PMID:23792147

  Tang Z,Luo OJ,Li X,Zheng M,Zhu JJ,Szalaj P,Trzaskoma P,Magalska A,Wlodarczyk J,Ruszczycki B,Michalski P,Piecuch E,Wang P,Wang D,Tian SZ,Penrad-Mobayed M,Sachs LM,Ruan X,Wei CL,Liu ET,et al.2015.CTCF-Mediated human 3Dgenomearchitecture reveals chromatin topology for transcription.Cell163:1611–1627.doi:10.1016/j.cell.2015.11.024,PMID:26686651

  Teves SS,Henikoff S.2012.Salt fractionation of nucleosomes forgenome-wide profiling.Methods in Molecular Biology833:421–432.doi:10.1007/978-1-61779-477-3_25,PMID:22183608

  Teytelman L,Thurtle DM,Rine J,van Oudenaarden A.2013.Highly expressedloci are vulnerable to misleading ChIP localization of multiple unrelatedproteins.PNAS110:18602–18607.doi:10.1073/pnas.1316064110,PMID:24173036

  Thorvaldsdo′ttir H,Robinson JT,MesirovJP.2013.Integrative GenomicsViewer(IGV):high-performance genomics data visualization andexploration.Briefings in Bioinformatics14:178–192.doi:10.1093/bib/bbs017,PMID:22517427

  van Steensel B,Delrow J,Henikoff S.2001.Chromatin profiling usingtargeted DNA adenine methyltransferase.Nature Genetics27:304–308.doi:10.1038/85871,PMID:11242113

  Wisniewski J,Hajj B,Chen J,Mizuguchi G,Xiao H,Wei D,Dahan M,WuC.2014.Imaging the fate of histone Cse4 reveals de novo replacement in Sphase and subsequent stable residence at centromeres.eLife3:e02203.doi:10.7554/eLife.02203,PMID:24844245

  Wollmann P,Cui S,Viswanathan R,Berninghausen O,Wells MN,Moldt M,WitteG,Butryn A,Wendler P,Beckmann R,Auble DT,Hopfner KP.2011.Structure andmechanism of the Swi2/Snf2 remodeller Mot1 in complex with its substrateTBP.Nature475:403–407.doi:10.1038/nature10215,PMID:21734658

  Zentner GE,Henikoff S.2013.Mot1 redistributes TBP from TATA-containing to TATA-less promoters.Molecular and Cellular Biology33:4996–5004.doi:10.1128/MCB.01218-13,PMID:24144978

  Zentner GE,Kasinathan S,Xin B,Rohs R,Henikoff S.2015.ChEC-seqkinetics discriminates transcription factor binding sites by DNA sequence andshape in vivo.Nature Communications6:8733.doi:10.1038/ncomms9733,PMID:26490019

  Zentner GE,Tsukiyama T,Henikoff S.2013.ISWI and CHD chromatinremodelers bind promoters but act in gene bodies.PLoS Genetics9:e1003317.doi:10.1371/journal.pgen.1003317,PMID:23468649.

  酵母细胞核的CUT&RUN方案:约5X 108个酿酒酵母细胞(在OD600~0.7下)((Orsi等,2015)。其它制备原子核的方法预期得到同样的结果。Bio-Mag Plus刀豆球蛋白A包被的珠粒可购自Polysciences,Inc.(Warrington,PA,目录#86057)。消化缓冲液(150ml)3ml 1MHEPES pH 7.5,20mM 3ml 5M NaCl 100mM,加水至150ml。在即将使用时加入1mM的苯甲酰磺酰氟(PMSF,100mM的于乙醇中的原液),并在加入后保持在冰上。HNT洗涤缓冲液(100ml)100ml消化缓冲液100mL Tween 20 0.1%1mM PMSF,即将使用时(=HNT-Pi)用于制备珠粒。HNT++=HNT+1mM CaCl2,+1mM MnCl2。激活凝集素需要Ca++和Mn++。尽管制造商也推荐1mMMgCl2,但这可能导致DNA降解,省略MgCl2对透化细胞核与珠粒的结合没有影响。HNT-PPi封装缓冲液(20ml):20ml HNT洗涤缓冲液67mL 30%BSA 0.1%2mini-Complete Ultra(Roche)蛋白酶抑制剂片剂1mM PMSF,在即将使用时,HNR-预封闭(每1ml)900mL HNT-PPi100mL30%BSA 3%4mL 0.5M EDTA 2mM 1mM PMSF,即将使用时,2XSTOP(10ml)400ml 5MNaCl 200mM 400mL 0.5M EDTA 20mM 200mL 0.2M EGTA 4mM+50mL Thermo RNA酶A(10mg/ml)50mg/ml+20mL糖原(20mg/ml)40_g/ml,加水至10ml.对于加标,添加~10pg/ml的加标DNA(例如来自甲醛交联的果蝇S2细胞的MN酶消化的单核小体大小的片段)。1XSTOP(10ml)200ml 5M NaCl 100mM 200mL 0.5M EDTA 10mM 100mL 0.2M EGTA 2mM,加水至10ml。

  程序:

  预封闭:通过轻轻地移液加入1ml HNT-预封闭。静置5分钟,然后旋转,放在磁铁架上,吸出上清液,继续下一步。抗体结合:在1ml封闭缓冲液(HNT-PPi,含有0.1%BSA)中封闭5分钟。放在磁铁架上,取出上清液,加入500mL封闭缓冲液。在涡旋的同时轻轻加入500mL抗FLAG(含5mL Sigma M2小鼠抗-FLAG抗体—最终1:200)。在旋子上于4℃下孵育2小时。旋转并在1ml HNT-Pi洗涤缓冲液中洗涤一次。

  第二抗体结合(任选的):如果使用小鼠单克隆抗体,则需要兔抗小鼠第二抗体(例如Abcam ab46540)来提供pA-MN结合的高特异性。使用第二抗体将裂解率提高1-2个数量级。除了孵育1小时之外,遵循与步骤3相同的程序

  结合pA-MN:取出上清液,加入500mL封闭缓冲液。涡流时,加入500mL含有5mL pA-MN(600mg/ml)的封闭缓冲液。在4℃下于旋转器上孵育1小时。旋转并在1ml HNT-Pi洗涤缓冲液中洗涤两次。

  消化:倾析并在1ml消化缓冲液中洗涤一次,加入1.2ml消化缓冲液,并将其分成8x150mL的时间点等分试样,直接置于试管底部。在冰水中的装有1.7ml试管的块上平衡至0℃。将3mL 100mM CaCl2(至2mM)滴在每个试管的侧面。为了获得时间过程,通过涡流管开始消化,并在冰水架中更换。通过加入150mL 2XSTOP(任选择地具有加入的加标DNA)来终止。对于总DNA的提取:向样品中加入3mL 10%SDS(至0.1%)和2.5mL蛋白酶K(20mg/ml),并涡旋。在70℃下孵育10分钟,偶尔颠倒混合。(对于甲醛交联的细胞,在65℃孵育4小时以逆转交联。)与300mL苯酚-氯仿-异戊醇混合,以13krpm旋转5分钟,倾析至新试管中。加入1/2体积(150mL)AMPure珠粒,并充分混合。静置10分钟,并放置在磁铁架上。将上清液转移到新的试管中,以除去剩余的珠粒,然后用1ml乙醇沉淀上清液,冷却并旋转。在1ml 100%乙醇中洗涤,并加入25mL 0.1xTE8,用于文库制备。对于染色质相关复合物:遵循总DNA提取程序。在HMT、消化和STOP缓冲液中加入0.5mM的亚精胺。对于盐分级分离:将消化浆液的体积从150mL减少到50mL,用2XSTOP(其中用4M NaCl代替200mM NaCl,并省去RNA酶)停止反应。在37℃下孵育后,在水中加入200mL RNA酶(100mg/ml),在37℃下孵育20分钟,然后继续以13,000rpm旋转5分钟以从沉淀中分离出上清液。

  分离切取的片段:在37℃下孵育20分钟。在4℃下以13,000rpm旋转5分钟,置于磁铁架上,将上清液吸至新的试管中。将珠粒沉淀放入300mL 1XSTOP(无RNA酶或糖原)中。加入3mL 10%SDS(至0.1%),涡旋,并向样品中加入2.5mL蛋白酶K(20mg/ml)。在70℃下孵育10分钟,偶尔颠倒混合。

  提取上清液用于文库:与300mL苯酚-氯仿-异戊醇混合,转移至锁相管,旋转,然后用300mL氯仿提取。添加前,移至在试管中装有2mL的2mg/ml糖原的新的试管中。加入750mL乙醇,冷却并旋转。在1ml 100%乙醇中洗涤沉淀,风干,并溶解在25mL 0.1xTE8中。一些DNA代表数量级约为1%的可溶解的高分子量DNA,但在文库制备过程中不会明显扩增。

  提取沉淀级分用于凝胶分析(任选的):与300mL苯酚-氯仿-异戊醇混合,以13,000rpm旋转5分钟,置于磁铁架上约5分钟,然后吸出。添加前,将水层移至装有2ml的2mg/mL的糖原的新的试管中。加入750mL乙醇,冷却并旋转。在1ml 100%乙醇中洗涤沉淀,风干并溶解在25mL 0.1xTE8中,然后以3krpm离心10分钟,以沉淀大部分从珠粒上脱落的不溶性棕色物质。该方案已被用于对人K562细胞中的CTCF、Myc、Max和H3K27me3作图。观察到极低的背景。该方案依赖于切割的染色质片段从完整的细胞核中“浸出”到反应体积中。在实验结束时,完整的细胞核被旋转沉淀,从上清液级分提取出DNA。这分离了释放的染色质片段,因此不需要进一步的大小选择。该方案可使用离心(600g;3分钟;回转桶转子)或刀豆球蛋白A包被的磁珠(BioMag Plus#86057)来在每一步骤中分离细胞核。

  典型实验样品:(每反应10x 106个细胞):i.无抗体;游离pA-MN酶(即PA-MN酶未被洗去);ii.无抗体+pA-MN酶(背景MN酶活性的对照);iii.抗体+pA-MN酶(实验样品),我们在添加CaCl2之前(“输入”)和反应停止之后(“结束”)采集小的QC样品,以测定MN酶反应在分级分离之前是如何进行的。将蛋白酶抑制剂(Roche完全不含EDTA)以1倍的终浓度从50倍的原液加入缓冲液。

  1.任选的:制备珠粒(每10x 106使用50ml珠粒)。在3体积的结合缓冲液中洗涤3次。重悬于1体积结合缓冲液中

  2.收获细胞;在回转桶转子中以600g旋转沉淀3分钟(通常每个样品1000万个细胞)。

  3.通过轻轻吸液,在1ml冷磷酸盐缓冲盐水中重悬来洗涤细胞(如果超过1000万个细胞,则放大)。如上旋转沉淀。

  4.通过轻轻吸液将细胞重新悬浮在1ml Ne1中(如果细胞数超过1000万,则按比例放大)。置于冰上10分钟。

  磁珠:如上旋转沉淀并重新悬于NE1中。轻轻吸液,直接加入珠粒,重悬于细胞核中。在室温下于混合平台上进行5分钟。与磁铁结合约2分钟,弃去上清液。或离心:在回转桶转子中以600g沉淀细胞核3分钟。

  5.通过轻轻吸液,重悬于1.7ml CUT&RUN缓冲液1中,并转移至1.7ml Eppendorf管。置于冰上5分钟。如上所述通过磁铁或离心收集细胞核。

  6.通过轻轻吸液,重悬于1.5ml CUT&RUN缓冲液2中。如上所述通过磁铁或离心收集细胞核。

  7.通过轻轻吸液,重悬于CUT&RUN缓冲液2中。在0.5ml Eppendorf管中使用500ml体积中的1000万个细胞。根据需要添加抗体,包括第二抗体。在4℃下于混合平台上放置2小时(0.5ml试管可提供更紧密的离心沉淀,并减少孵育过程中液体的晃动,以保持细胞核的完整性)。

  8.在4℃下于混合平台上,用500ml CUT&RUN缓冲液2冲洗三次,每次5分钟。如上所述,通过磁铁或离心收集细胞核。

  9.重悬于300ml CUT&RUN缓冲液2中。加入3mg蛋白A-MN酶融合蛋白(5ml,600ng/ml或8.3ml,360ng/ml)。在4℃下于混合平台上放置1小时(300ml的反应体积使上清液级分易于在1.7ml试管中提取/EtOH ppt)。

  10.在4℃下于混合平台上,用300mlCUT&RUN缓冲液2冲洗三次,每次5分钟。不用于不含MN酶的样品(保持在混合平台上)。如上所述通过磁铁或离心收集细胞核。

  11.重悬于300ml CUT&RUN缓冲液2中。以12ml为“输入”,置于288mL DNA提取缓冲液中

  12.将试管置于湿冰中(消解必须在0℃下进行,优选使用铝块来保持温度)。加入CaCl2至终浓度为2mM(6ml的100mM CaCl2)。通过颠倒迅速混合,放在湿冰上。孵育所需的时间(例如15分钟)。通常将无MN酶样品在37℃下放置5分钟。这允许通过琼脂糖凝胶电泳来评估消化。

  13.通过添加EDTA(至10mM)和EGTA(至20mM)的预混合物来终止。通过颠倒快速混合并置于冰上。以12ml为“终点”,放入288mL DNA提取缓冲液中。选项:添加加标DNA

  选项A

  14.在4℃下于混合平台上放置1小时,让染色质片段浸出。在SW转子中以600g旋转沉淀3分钟(即使使用磁珠方法)。取上清液。

  15.通过加入以下物质从上清液中提取DNA:3ml 10%SDS(终浓度0.1%),5ml10mg/ml的蛋白酶K,2ml 1mg/ml的RNA酶以及5ml 5M的NaCl(终浓度300mM)。涡旋并在55℃放置1小时。苯酚提取物;EtOH沉淀(加入1ml糖原);EtOH洗涤。重悬于20ml H2O中

  选项B

  14.提取所有的DNA,然后用非常简单的尺寸选择来从小足迹中分离出大的未切割的基因组片段。这对于可能不通过核孔扩散的大的潜在不溶性蛋白质复合物可能更好。

  从整个反应中提取DNA:3ml 10%SDS(终浓度0.1%),5ml 10mg/ml的蛋白酶K,2ml1mg/ml的RNA酶以及5ml 5M的NaCl(终浓度300mM)。涡旋并在55℃放置1小时。苯酚提取,然后EtOH沉淀(加入1ml糖原);EtOH洗涤并重悬于150ml H2O中

  15.使用Beckmann AgencourtAMPure XP珠(A63881)对切割片段进行大小选择(_~700bp)

  使用前使珠粒升温至室温;

  加入75ml珠粒,通过吸液10次进行混合;

  在室温下孵育5分钟;

  放置在磁铁上进行2分钟;

  取上清液级分(不要取任何附着在珠粒上的高分子量的DNA,可以旋转沉淀上清液级分以检查珠粒);

  通过加入700ml EtOH和1ml糖原(不需要额外的盐)来进行沉淀;

  70%的EtOH洗涤;

  重悬于20ml H20中。

  缓冲液:

  从50x浓度的水中的原液添加蛋白酶抑制剂(Roche完全不含EDTA)至1x浓度

  结合缓冲液

  1x PBS;

  1mM CaCl2;

  1mM MgCl2;

  1mM MnCl2;

  NB:我们发现一些细胞中的核酸酶会导致依赖Mg++的DNA降解。结合缓冲液中Mg++的存在遵循制造商的建议,但激活凝集素只需要Ca++和Mn++。省略MgCl2对透化细胞与珠粒的结合没有影响。

  NE1:

  20mM Hepes-KOH pH 7.9;

  10mM KCl;

  1mM MgCl2;

  0.1%Triton X-100;和

  20%的甘油。

  NB:我们发现用0.5mM亚精胺代替1mM MgCl2可以避免依赖Mg++的脱DNA降解。

  CUT&RUN缓冲液1:

  20mM Hepes pH 7.5;

  150mM NaCl;

  2mM EDTA;

  0.5mM亚精胺;

  0.1%BSA。

  CUT&RUN缓冲液2:

  20mM Hepes pH 7.5;

  150mM NaCl;

  0.5mM亚精胺;

  0.1%BSA。

  其它试剂:

  100mM CaCl2;

  10%SDS;

  5M NaCl;

  500mM EDTA;

  蛋白酶K;

  500mM EGTA;

  RNA酶A;

  提取缓冲区。

  在以下方案过程采集12ml Qc样品用于DNA提取:

  苯酚提取;

  乙醇沉淀;

  乙醇洗涤;

  重悬于20ml H2O;

  RNA酶处理;

  在0.7%琼脂糖凝胶上电泳。

  实施例2

  核酸酶靶向裂解和释放(Cleavage Under Targets and Release UsingNuclease,CUT&RUN)是一种表观基因组剖析策略,其中抗体靶向的受控微球菌核酸酶裂解将特定的蛋白质-DNA复合物释放到上清液中,用于配对末端DNA测序。由于只有目标片段进入溶液,而绝大多数的DNA被留了下来,所以CUT&RUN的背景水平格外低。在分辨率、信噪比和所需测序深度方面,CUT&RUN都优于最广泛使用的染色质免疫沉淀(ChromatinImmunoprecipitation,ChIP)方案。与ChIP相反,CUT&RUN不含溶解性和DNA可及性假象,可用于剖析不溶性染色质,以及在无交联的情况下检测远程3D接触。此处,我们提出了改进的CUT&RUN方案,该方案不需要分离细胞核,并且对于组蛋白修饰从仅100个细胞、对于转录因子从仅1000个细胞就可以提供高质量的数据。从细胞到纯化的DNA,CUT&RUN需要不到一天的实验室工作时间。

  引言

  方案的开发

  多细胞生物中的所有细胞都有相同的基因组序列,但不同的基因表达模式支持组织特化。基因表达的差异源于转录因子(TF)的结合以及它们对染色质相关复合物的募集,所述复合物修饰和动员核小体。因此,转录因子、染色质相关复合物和染色质状态(包括组蛋白变体和翻译后修饰(PTM))的全基因组作图(mapping)已成为研究的主要焦点。30多年来,染色质免疫沉淀(ChIP)一直是对蛋白质-DNA相互作用作图的主要方法。对于ChIP,将细胞用甲醛交联,然后将完整的细胞内容物溶解以使染色质纤维断裂,并加入抗体以分离目标染色质片段。尽管ChIP的读出策略在30多年中已经从凝胶电泳1发展到大规模平行测序2,3,但ChIP的基本原理基本保持不变。尽管ChIP-seq允许对TF4,5进行碱基对的分辨率作图,但问题仍然是限制灵敏度的高背景、需要大量细胞以及因和溶解产生的假象6-10。如果没有一种基于与ChIP不同的原理的替代方法,一直难以区分真阳性与误导性的假阳性假象。蛋白质-DNA相互作用的全基因组作图已经使用了替代策略,所述替代策略可以解决ChIP的这些局限性中的一些。例如,几种方法,包括DNA酶1足迹11、FAIR-seq 12、Sono-seq13、MN酶-seq14,15和ATAC-seq16,正被用于利用测序读出在全基因组范围内对TF结合作图。然而,由于这些方法不是靶向特定的蛋白质,因此它们对任何一种TF没有特异性。此外,它们不能用于对特定的染色质状态作图,诸如由组蛋白PTM划分的那些,所述组蛋白PTM可用于临床上区分健康状态和疾病状态17。其它方法通过遗传工程融合目标蛋白质与酶来提供靶特异性作图,所述酶在DamID的情况下甲基化周围DNA18,或在染色质内源裂解(ChEC)的情况下靶向裂解蛋白质足迹19。酶系连方法在体内(DamID)或原位(ChEC)进行,而不需要断裂和溶解染色质。然而,由于它们需要转基因方法,这限制了向大型基础设施联合体(诸如ENCODE)的可扩展性和向临床环境的可转移性。另外,这些方法不能对组蛋白PTM作图。染色质免疫裂解(ChIC)法部分克服了这些限制,其中首先用TF特异性抗体处理交联细胞的粗制细胞核,然后用蛋白A与MN酶之间的融合蛋白(pA-MN)处理,所述融合蛋白可被钙离子激活19。然而,ChIC是利用Southern印迹读出开发的,因此其对全基因组剖析的适用性十多年来一直不清楚。我们最近开发了我们称之为CUT&RUN(核酸酶靶向裂解和释放;图24)20的ChIC策略。所公开的方案采用未固定的细胞核,并使用刀豆球蛋白-A包被的磁珠将它们附着至固体载体上,以允许简单的操作。在抗体和pA-MN特异性地与靶蛋白原位结合后,在暴露于0℃的钙数秒后,在TF的任一侧发生裂解。当使用非交联的细胞核时,利用两次切割释放的裂解片段自由地扩散出细胞核,因此通过简单地将完整的细胞核沉淀,就可将含有释放的染色质片段的上清液用于直接提取DNA以用于测序。发现在0℃下进行依赖Ca2+的消化反应对于限制裂解的染色质复合物的扩散至关重要,否则染色质复合物将裂解并释放可接近的DNA。总的来说,显示了CUT&RUN具有比交联ChIP-seq高得多的信噪比,从而允鉴定以前未知的基因组特征。CUT&RUN仅用1000万个测序读数就实现了哺乳动物TF的碱基对的分辨率。

  对蛋白质-DNA相互作用的定量作图的需求日益明显21。然而,由于ChIP(其涉及染色质的全基因组溶解和免疫沉淀)的复杂性,因此需要涉及的定量策略,其中对自不同物种的具有抗体交叉反应性的固定数量的细胞进行加标22。对保守表位的要求限制了其普遍适用性。相比之下,由于CUT&RUN的固有的简单性,使用异源DNA的直接加标策略足以准确定量结合事件。总之,CUT&RUN具有超过ChIP-seq的几个优点:(1)该方法可在非交联细胞中原位进行,并且不需要染色质断裂或溶解;(2)固有的低背景允许低序列深度和鉴定ChIP不可见的低信号基因组特征;(3)简单的程序可以在一天内完成,适用于机器人自动化;(4)与现有方法相比,该方法可用于低细胞数量;(5)简单的加标策略可用于蛋白质-DNA相互作用的准确定量。因此,CUT&RUN代表了对ChIPseq的有吸引力的替代,所述ChIPseq是生物学研究中最流行的方法之一。

  实验设计

  用于染色质复合物的原位靶向裂解和释放的CUT&RUN方法很简单,可以在一天内使用标准实验室设备完成。本文提供了详细的方案和可用于根据特定情况定制方案的各种选项。CUT&RUN的优点之一是整个反应在原位进行,由此抗体和pA-MN自由扩散到细胞核中。最初的方案使用通过低渗裂解与用Triton X-100处理细胞相结合制备的细胞核。这在许多细胞系中取得了成功,但我们最近修改了方案,以使用通过非离子去垢剂洋地黄皂苷透化的细胞,该方案已成功用于其它原位方法,包括ChEC-seq23和ATAC-seq24。洋地黄皂苷分配到膜中并提取胆固醇。缺乏胆固醇的细胞膜受洋地黄皂苷的影响最小25,26。与质膜相比,核膜相对不含胆固醇。因此,用洋地黄皂苷处理细胞代表了在不损害核完整性的情况下透化细胞的稳健方法26。此处描述的方案使用洋地黄皂苷,但个别实验情况可能需要通过其它方式产生完整的细胞核,并且这种细胞核可以通过合适的方法制备,将所述细胞核结合到刀豆球蛋白A包被的珠上,然后在步骤10进入下面的方案20。具有固有的低背景和适合低细胞数量的方案的限制之一是回收的DNA量可能非常低,使得即使通过灵敏的毛细管电泳或picogreen测定(例如Agilent Tapestation和Qubit)进行分析也是有问题的。此外,裂解最小足迹的高分辨率作图技术不适用于已知的结合基因座的基于PCR的分析,因为通常不可能设计约50bp的PCR扩增子。因此,建议使用靶向丰富表位的阳性对照抗体,因此可以容易地检测到DNA。已经成功地使用了针对H3K27me3产生的兔单克隆抗体,其中毛细管电泳显示裂解的片段的量与起始细胞的数量成比例。Tapestation或其它灵敏的电泳分析方法预期产生核小体阶梯(图25),单克隆抗体的使用避免了可使故障排除复杂化的潜在的批次间差异。对于不太丰富的表位,诸如CTCF,即使通过灵敏的电泳分析也很难检测到裂解的片段(图26)。一旦通过毛细管电泳(诸如H3K37me3)观察到阳性对照的预期消化的DNA模式,就没有必要对该样品进行测序。作为阴性对照,建议使用非特异性兔IgG抗体,该抗体将在无序列偏差的情况下以低效率随机包被染色质。不推荐无抗体对照,因为缺乏系连增加了pA-MN轻微残留将导致超易接近的DNA优先断裂的可能性。已经表明,加入Ca2+离子后几秒钟内就会发生靶向裂解,由于是空间调节的系连反应,裂解模式随时间保持不变。然而,消化时间越长,释放的物质越多,信噪比没有明显变化(图27)。因此,建议消化30分钟作为起点,可根据表位丰度和抗体浓度进行调整。CUT&RUN方法的应用有可能替代所有基于ChIP的应用。对于目前使用ChIP-seq的典型研究项目,可以高效地过渡到CUT&RUN,因为其可以完全在台式计算机上使用大多数分子生物学实验室中已经存在的标准设备来完成。此外,由于CUT&RUN是在透化细胞中原位进行的,所述透化细胞可以容易地附着到固体载体诸如磁珠、包被的板或载玻片上,因此这种方法将容易地转移到机器人技术中,从而实现从细胞到测序文库的高通量。与对于ChIP-seq的情况相比,CUT&RUN对于机器人应该更简单,机器人的CUT&RUN应该比ChIP-seq更简单,因为CUT&RUN不需要诸如超声波仪或高速旋转步骤等设备来去除难以自动化的不溶性材料。标准的交联ChIP方案不适用于通常在荧光激活的细胞分选或解剖后或在临床环境中获得的低细胞数量。鉴于这一限制,ATAC-seq已被用于低至5000个细胞24。但ATAC-seq仅限于存在于染色质的可及区域中的TF的非特异性鉴定,不能区分由组蛋白PTM划分的染色质状态。交联ChIP中导致低效率的表位掩蔽问题可通过使用原生ChIP策略来缓解,该策略经显示为丰富的核小体表位提供少至5000个细胞的高质量数据,但不适用于TF27。此处,显示了CUT&RUN适用于100个细胞(对于剖析H3K27me3)或1000个细胞(对于CTCF序列特异性DNA结合蛋白的细胞)。因此,CUT&RUN使罕见细胞类型的蛋白质-DNA相互作用的靶向全基因组作图成为可能。单细胞基因组分析的最新进展是单细胞组合索引(“sci”),其中分开-合并条形编码用于唯一地标记大量完整的单个细胞,而不必对单个分离的细胞进行反应。这种方法已经成功地用于剖析单细胞中的转录组28、染色质可及性(sci-ATAC-seq29)和3-D相互作用(sci-Hi-C30)。与ChIP不同,CUT&RUN在完整的透化细胞中进行,因此适宜于组合条形编码来对单细胞表位特异性表观基因组景观进行作图。该方案的进一步发展可能包括取代顺序ChIP(sequential ChIP)来作图蛋白质复合物中亚单位的共同占用率。连续ChIP-seq通常具有挑战性,并且由于第二免疫沉淀步骤后的产率非常低,其仅适用于丰富的染色质复合物。然而,通过首先进行CUT&RUN,以高效率释放到上清液中的裂解的染色质复合物可用第二抗体免疫沉淀。本申请允许在全基因组范围内对染色质复合物进行成分分析和作图。结果表明,由于CUT&RUN是原位裂解方法和染色质纤维固有的灵活性,因此有可能探测包括邻近核小体和3D接触在内的局部染色质结构。Hi-C、ChIA-PET和Hi-ChIP是用于3D核组织全基因组作图的流行技术,依赖于甲醛交联来稳定蛋白质间相互作用31-33。因此,这些技术对于作图正基因组相互作用没有形式距离线束,因为非常大的核结构可以被交联。相比之下,TSA-seq34和基因组结构作图35具有距离约束,因此通过反应性种类的有限扩散或细胞的冷冻切片来测量细胞学距离。类似地,在CUT&RUN中,蛋白A-MN酶的延伸提供了内在的限制,限制了从表位能发生多远的裂解,并因此限制了两个相互作用的DNA基因座需要多近才能通过与其中一个系链来被裂解。通过将CUT&RUN与基于邻近的连接方法相结合,有可能生成核结构的因子特异性高分辨率作图。可以设想其它新型应用。任何可获得针对其抗体的表位都有可能使用CUT&RUN进行剖析,并且lncRNA的CUT&RUN原位作图似乎是对DRIP-seq的有吸引力的替代方案36。另外,CUT&RUN剖析不溶性染色质20的能力表明,将CUT&RUN与盐分级分离相结合将允许表观基因组作图建立在染色质溶解度的基础上,所述染色质溶解度常规地用于定义经典的“活性”染色质37-39。这样,每一个被剖析的DNA结合蛋白或染色质特征都可被关于其溶解度(一个关键的物理性质)的信息所丰富。尽管可用基于MN酶的ChIP-seq39进行盐分级,但高盐会破坏复合物,并在抗体结合前导致表位丢失,然而利用CUT&RUN,盐分级分离仅在抗体结合且片段被裂解后进行。

  与其它方法的比较

  表1列出了CUT&RUN和三种ChIP-seq方法(X-ChIP-seq3、ChIP-exo4和NChIP-seq40)的度量。与这些ChIP-seq方法相比,CUT&RUN需要更少的细胞和更少的读数,具有更高的信噪比,没有断裂偏差,更快,并且易于加标定量。

  表1:CUT&RUN与ChIP-seq方案的比较

  基于ChIP的技术的一个重要进展是利用下一代测序技术生成蛋白质-DNA相互作用的具有碱基对的分辨率的全基因组图谱41。与标准交联ChIP(其中使用超声波处理将染色质裂解成至最小约200bp的片段)不同,在高分辨率X-ChIP-seq或原生ChIP方法中,ChIP-exo或MN酶消化中的核酸外切酶处理允许极限或接近极限消化4,5,20,40,42。然而,这种交联策略的分辨率的提高通常是以增加序列深度要求和所需细胞数量为代价的。例如,在ChIP-exo中,任何不仅仅包含靶蛋白的超声片段,诸如邻近的核小体,将在产生最小的TF足迹时形成对外切核酸酶的阻断,因此有助于形成明显的局部背景,需要增加细胞数量和测序深度来调用高分辨率峰对。原生ChIP通常不会遭受这些相关问题,但由于需要在苛性去垢剂不存在的情况下产生可溶性染色质提取物而具有有限的一般适用性,因此最适合稳定结合的蛋白质,并且可能需要根据具体情况进行优化。先前已经表明,超声处理,诸如用于交联ChIP方法的超声处理,是非随机的,因此受到断裂偏差的影响5,43。由于CUT&RUN在完整的细胞或细胞核上进行而没有断裂,因此其可以用于探测所有的基因组区室。使用MN酶进行全基因组消化的技术可能会受到酶的A/T偏差影响44,并且会优先消化开放的染色质。相比之下,CUT&RUN涉及在空间上受调节的裂解反应,我们已经表明,其不会遭受任何可检测的A/T或DNA可及性偏差20。

  与ChIP的情况一样,CUT&RUN的成功在很大程度上取决于在用于结合的条件下抗体对其靶标的亲和力及其特异性。因为在使用CUT&RUN的情况下抗体在固体状态下与其表位结合,所以通过免疫荧光(IF)成功地测试了其特异性的抗体很可能在CUT&RUN中起作用,但需要注意的是,IF通常涉及固定,而甲醛固定会降低CUT&RUN的效率。在标准CUT&RUN方案中,我们建议允许裂解的染色质复合体扩散出细胞核,从而允许从上清液级分简单分离裂解的DNA,其中未消化的基因组保留在完整的细胞核中。然而,有可能染色质复合体太大而不能扩散出去,或者蛋白质间相互作用保留了裂解的复合物。在此类情况下,可在消化后提取总DNA。通过使用顺磁性羧化珠粒(例如AgencourtAMPureXp珠粒)的体积进行非常简单的大小选择,将选择约700bp以下的片段。这一策略对于~1MDa的酵母RSC复合体20是成功的。

  材料

  试剂

  *细胞悬液。使用人类K562细胞、果蝇S2细胞并解剖果蝇组织,诸如大脑和成虫盘,以及原生质球化酵母。

  *刀豆球蛋白包被的磁珠(Bangs Laboratories,目录号BP531)

  *针对目标表位的抗体。例如,用于通过CUT&RUN对1D和3D相互作用进行作图的兔α-CTCF多克隆抗体(Millipore 07-729)

  *针对丰富表位的阳性对照抗体,例如α-H3K27me3兔单克隆抗体(Cell SignalingTechnology,目录号9733)

  *针对缺失表位的阴性对照抗体,例如豚鼠α-兔抗体

  *5%洋地黄皂苷(EMD Millipore,目录号300410)

  *蛋白A-MN酶(pA-MN酶)融合蛋白。在-20℃下储存

  *加标DNA(例如,来自酿酒酵母MN酶处理的染色质,由作者应要求提供)

  *蒸馏的、去离子的或不含RNA酶的H2O(dH2O,例如Promega,目录号P1197)

  *1M氯化锰(MnCl2;Sigma-Aldrich,目录号203734)

  *1M氯化钙(CaCl2;Fisher,目录号BP510)

  *1M氯化钾(KCl;Sigma-Aldrich,目录号P3911)

  *1M羟乙基哌嗪乙磺酸,pH7.5(HEPES(Na+);Sigma-Aldrich,目录号H3375)

  *1M羟乙基哌嗪乙烷磺酸,pH7.9(HEPES(K+);Sigma-Aldrich,目录号H3375)

  *5M氯化钠(NaCl;Sigma-Aldrich,目录号S5150-1L)

  *0.5M乙二胺四乙酸(EDTA;Research Organics,目录号3002E)

  *0.2M乙二醇-双(β-氨基乙基醚)-N,N,N',N’-四乙酸(EGTA;Sigma-Aldrich,目录号E3889)

  *2M亚精胺(Sigma-Aldrich,目录号S2501)

  *Roche完全蛋白酶抑制剂无EDTA片剂(Sigma-Aldrich,目录号5056489001)

  *2mg/ml糖原(Sigma-Aldrich的1:10稀释物,目录号10930193001)

  *RNA酶A、DNA酶和无蛋白酶(10mg/ml;Thermo Fisher Scientific,目录号EN0531)

  *Gel and PCR Clean-up试剂盒(Macherey-Nagel NucleoSpinR,目录号740609.250)

  *AgencourtAMPure XP磁珠(Beckman Coulter,目录号A63880)

  *10%十二烷基硫酸钠(SDS;Sigma-Aldrich,目录号L4509)

  *蛋白酶K(Thermo Fisher Scientific,目录号EO0492)

  *苯酚-氯仿-异戊醇25:24:1(PCI;Invitrogen,目录号15593049)

  *氯仿(Sigma,目录号366919-1L)

  *1M Tris-HCl pH 8.0

  *乙醇(Decon Labs,目录号2716)

  *Qubit dsDNA Hs试剂盒(Life Technologies,目录号Q32851)

  试剂设置

  5%洋地黄皂苷:为了重建足够的洋地黄皂苷用于实验,将粉末在2ml微量离心管中称重,在微波炉的小烧杯中煮沸,并吸入和吸出以加热1000μL移液器吸头。用移液器将热水与洋地黄皂苷粉末一起移入试管中,制成5%(w/v),盖上盖子,快速充分涡旋,直至洋地黄皂苷完全溶解。如果冷藏,可将该原液在一周内使用,但需要重新加热,因为洋地黄皂苷慢慢沉淀。洋地黄皂苷的有效性因批次而异,因此建议测试台盼蓝的渗透性,以确定用于细胞类型的浓度。用0.02-0.1%的洋地黄皂苷对K562细胞获得了极好的结果。

  洋地黄皂苷具有毒性,因此应当非常小心,尤其在称出粉末时。洋地黄皂苷原液可通过溶解在二甲基亚砜(DMSO)中来制备,但是要注意DMSO可以通过皮肤吸收。

  结合缓冲液:将400μL 1M HEPES-KOH pH 7.9、200μL 1M KCl、20μL 1M CaCl2和20μL 1M MnCl2混合,用dH2O将最终体积调至20ml。将缓冲液在4℃下储存6个月。

  刀豆球蛋白A包被的珠粒:轻轻重悬并抽出足够的浆料,使得对于每个最终样品和/或消化时间点为10μL。转移到2ml试管中的1.5ml结合缓冲液中。将试管置于磁铁架上清洗(30秒至2分钟)。抽出液体,然后磁铁架上取下。加入1.5ml结合缓冲液,通过颠倒或轻轻移液进行混合,在微量离心机上利快速脉冲从盖子和侧面移除液体。重悬于与珠粒浆液体积相等的结合缓冲液中(每份最终样品10μL)。洗涤缓冲液混合物1ml 1M HEPES pH 7.5,1.5ml 5M NaCl,12.5μL 2M亚精胺,用dH2O使最终体积达到50ml,并加入1个Roche完全蛋白酶抑制剂无EDTA片剂。将缓冲液在°4℃下储存长达1周。消化-洗涤缓冲液混合物160-800μL5%洋地黄皂苷和40mg洗涤缓冲液。洋地黄皂苷的有效性因批次而异,因此建议测试台盼蓝的渗透性以确定使用的浓度。用0.02-0.1%的洋地黄皂苷对K562细胞获得了极好的结果。将缓冲液在4℃下储存达1天。

  抗体缓冲液:将8μL 0.5M EDTA与2mg Dig-洗提缓冲液混合,置于冰上。将每种抗体分成等份,加入抗体溶液或血清至终浓度为1:100或至制造商推荐的免疫荧光的浓度。2XSTOP向4.2ml dH2O中添加340μl 5M NaCl,200μL 0.5M EDTA,100μL 0.2M EGTA,20μL5%洋地黄皂苷、25μL RNA酶A、125μL 2mg/ml糖原和2pg/ml异源加标DNA。将缓冲液在°4℃下储存长达1周。

  应将用于校准的异源加标DNA断裂成约200bp的平均大小,例如单核小体大小的片段的MN酶处理的样品。由于我们仅将作图的读数的总数用作归一化因子,因此只需要很少的加标DNA。例如,添加1.5pg会导致1,000-10,000个作图的加标读数,对应于100万-1000万个作图的实验读数(成反比)。

  程序

  将细胞与珠粒结合

  *时间安排30分钟

  在室温下进行添加抗体之前的所有步骤,以将对细胞的压力降至最低。因为在整个方案中最大限度地减少DNA断裂是至关重要的,我们建议避免在重悬浮和剧烈涡旋过程中形成空泡。

  1)在室温下收获一份或多份新鲜培养物并计数细胞。相同的方案可用于每样品和/或消化时间点100至250,000个哺乳动物细胞。

  *暂停点:如有必要,可使用Mr.Frosty异丙醇室将细胞在10%DMSO中冷冻保存。不建议快速冷冻,因为这可导致背景DNA断裂,这可影响最终的数据质量。

  2)在室温下以600x g离心3分钟,并抽出液体。

  3)通过轻轻移液,重悬于1.5ml室温洗涤缓冲液中,如有必要,转移至2ml试管中。

  4)在室温下以600x g离心3分钟,并抽出液体。

  5)重复步骤3和4。

  6)通过轻轻移液,重悬于1ml室温洗涤缓冲液中。

  7)在室温下轻轻涡旋细胞的同时,加入珠粒浆液。

  8)在室温下旋转5-10分钟。

  9)在1.5-ml试管中分成等分试样,每份试样对应一种待使用的抗体。

  为了在不需要文库制备的情况下评估程序的成功,平行地包括阳性对照抗体(例如α-H3K27me3)和阴性对照抗体(例如α-兔)。不要包括无抗体对照,因为缺乏系连可能会使任何未结合的pA-MN充当“定时炸弹”并消化可及的DNA,从而产生DNA可及位点的背景。

  结合(第一)抗体

  *TIMING 15分钟–过夜,较长的培养时间提供较高的产率

  10)置于磁铁架上,以清除并吸出液体。

  *虽然低滞留移液器吸头对于精确的溶液转移是优选的,但仅使用常规(非低结合)微量离心管,以避免在倾析时珠粒的损失。

  11)将每个试管以低角度置于低转速(~1100rpm)的涡流混合器上,并沿侧面喷射50μL抗体缓冲液(每样品和/或消化时间点),同时轻轻涡旋,以使溶液移出大部分或全部珠粒。轻敲以移出剩余的珠粒。

  在抗体处理过程中,EDTA的存在去除了用于激活ConA的过量二价阳离子,因为在添加pA-MN后,来自珠粒的Ca++的残留会过早地引发链断裂。当细胞被透化时,二价阳离子的螯合也用于快速停止代谢过程和防止内源性DNA酶活性。在加入pA-MN之前洗去EDTA可以避免使酶失活。洗涤缓冲液中的亚精胺意欲用于补偿Mg++的去除,所述Mg++原本可能会影响染色质性质。

  12)在4℃下置于试管旋转器上约2小时,或在室温下放置5-10分钟。

  *暂停点抗体孵育可在4℃下进行过夜。

  13)在微型离心机上用快速脉冲从盖子和侧面移除液体。

  14)置于磁铁架上以清除(~30秒)并吸出所有液体。

  15)添加1mg消化-清洗缓冲液,通过颠倒或通过使用1ml吸头轻轻移液(如果结块继续存在)进行混合,并在微型离心机上用快速脉冲从盖子和侧面移除液体。结合第二抗体(根据需要)

  *时间安排15分钟-1.5小时

  蛋白A与一级抗体的结合效率取决于宿主种类和IgG同种型。例如,蛋白A与兔和豚鼠IgG结合良好,但与小鼠和山羊IgG结合较差,因此对于后者抗体,推荐第二抗体,诸如兔α-小鼠。

  16)置于磁铁架上以清除并吸出所有液体。

  17)将每个试管以低角度置于低转速(~1100rpm)的涡流混合器上,沿侧面喷射50μL的消化-洗涤缓冲液(每样品和/或消化时间点),同时轻轻涡旋,以使溶液移出大部分或全部珠粒。轻敲以移出剩余的珠粒。

  18)在第二抗体中混合至终浓度为1:100或制造商推荐的免疫荧光浓度。

  19)在4℃下置于试管旋转器上约1小时,或在室温下放置5-10分钟。

  20)在微型离心机上用快速脉冲从盖子和侧面移除液体。

  21)置于磁铁架上以清除并吸出所有液体。

  22)加入1ml消化-洗涤缓冲液,通过颠倒或通过轻轻移液(如果结块持续存在)进行混合,在微型离心机上用快速脉冲从盖子和侧面移除液体。

  结合蛋白α-微团菌核酸酶融合蛋白

  *时间安排15分钟-1.5小时

  23)置于磁铁架上以清除并吸出所有液体。

  24)将每个试管以低角度置于低转速(~1100rpm)的涡流混合器上,沿侧面喷射50μL的消化-洗涤缓冲液(每样品和/或消化时间点),同时轻轻涡旋,以使溶液移出大部分或全部珠粒。轻敲以移出剩余的珠粒。

  25)在pA-MN酶中混合至终浓度为约700ng/ml(例如,根据要求提供的2.5μL/50μL的140μg/ml甘油原液的1:10稀释物)。

  26)在4℃下置于试管旋转器上约1小时,或在室温下放置5-10分钟。

  27)在微型离心机上用快速脉冲从盖子和侧面移除液体。

  28)置于磁铁架上以清除并吸出所有液体。

  29)加入1ml消化-洗涤缓冲液,通过颠倒或或通过轻柔移液(如果结状持续存在)进行混合,并在微型离心机上用快速脉冲从盖子和侧面移除液体。

  30)重复消化-洗涤步骤28-29。

  靶向消化

  *时间安排45分钟

  31)置于磁铁架上以清除并吸出所有液体。

  32)将每个试管以低角度放置在低转速(~1100rpm)的涡流混合器上,并沿侧面添加100μL的消化-洗涤缓冲液(每样品和/或消化时间点),同时轻轻涡旋,使溶液移出大部分或全部珠粒。轻敲以移出剩余的珠粒。

  33)将试管插入1.5ml的加热块的孔中,所述加热块置于湿冰中以冷却至0℃。

  34)从块中取出每个试管,在2μL 100mM CaCl2(从1M原液中以1:10稀释)中混合,轻轻涡旋,并立即在0℃的块中更换试管。

  35)在0℃下孵育所需的消化时间(默认为30分钟)。

  MN酶结合DNA,但只有在Ca++存在时才裂解,因此消化是零级反应,与随后释放的能够消化基因组的可及区域的pA-MN酶结合的颗粒的扩散相比,其对温度的依赖性更小。大多数细胞群中的颗粒的裂解和释放可在0℃下获得,同时使扩散引起的背景裂解降至最低。我们已发现在环境温度或更高温度下消化会导致不可接受的背景裂解水平。

  36)加入100μL 2XSTOP,通过轻微涡流混合。当有多个时间点时,移除100μL至100μL 2XSTOP,并通过轻微涡流混合。

  异源加标DNA应存在于2XSTOP中,以校准DNA量,例如以比较处理或消化时间点。这对于CUT&RUN尤其重要,因为对于样品的归一化来说,背景裂解太少。

  靶染色质释放

  *时间安排20分钟

  37)在37℃孵育10分钟,以从不溶性核染色质中释放CUT&RUN片段。

  38)在4℃下以16,000x g离心5分钟,并置于磁铁架上。

  选项A:通过旋转柱进行的快速DNA提取

  *时间安排20分钟

  39)将旋转柱置于收集管中,并添加400μL缓冲液NT1(来自NucleoSpin试剂盒或等同物)。

  40)从沉淀中干净地倾析上清液,并转移到旋转柱的NT1中,轻轻上下移液以进行混合。

  41)以11,000x g离心30s。弃去流通。

  42)添加700μL缓冲液NT3。以11,000x g离心30s。弃去流通。

  43)添加700μL缓冲液NT3。以11,000离心30s。弃去流通管并在转子中更换。

  44)以11,000x g离心1分钟,干燥5分钟。

  45)置于新的试管中,向膜中加入20-40μL缓冲液NE。

  46)1分钟后,以11,000x g离心1分钟。

  选项B:交替提取DNA(优先用于≤80bp片段的定量回收)

  *时间安排1.5小时

  47)从沉淀中干净地倾析上清液,并转移到新的1.5ml微量离心管中。

  48)向每个样品中加入2μL 10%SDS(至0.1%)和2.5μL蛋白酶K(20mg/ml)。通过颠倒混合,在70℃孵育10分钟。

  49)加入300μL的PCI,通过全速涡流~2s进行混合。

  50)转移到锁相管中,以16,000x g在室温下离心5分钟

  51)加入300μL氯仿,颠倒约10次以进行混合。

  52)通过移液到装有2μL 2mg/ml糖原的新试管中,除去液体。

  53)加入750μL 100%乙醇,通过涡流或试管颠倒进行混合。

  54)在冰上冷却,并在4℃下以16,000x g离心10分钟。

  55)倒出液体,在纸巾上沥干。

  56)在1ml 100%乙醇中漂洗沉淀,并在4℃下以16,000x g离心1分钟。

  57)小心倒出液体,并在纸巾上沥干。风干。

  58)当沉淀干燥时,将其溶于25-50μL 1mM Tris-HCl pH8 0.1mM EDTA中。

  文库制备和测序

  *时间安排2–4天

  59)选项:定量1-2μL,例如使用利用量子位仪器进行的荧光检测。

  60)选项:通过毛细管电泳荧光检测(例如使用Tapestation仪器)来评估裂解片段的存在和大小分布。

  一些长的未消化的DNA将会泄漏,这将是主导典型转录因子的CUT&RUN的量子位荧光的因素。对于这些,回收的目标DNA的量太低,尺寸太小,以至不能通过凝胶分析或甚至通过Tapestation来检测。在此类情况下,可能有必要制备PCR扩增的文库,通过Tapestation或Bioanalyzer分析来进行定量。

  61)按照制造商的说明,使用单管方案,用Tru-Seq衔接子制备用于Illumina测序的条形码文库。快速PCR循环有利于所需CUT&RUN片段的指数扩增,而不是对聚合酶来说太长而不能完成的大的DNA片段的线性扩增。

  为了最大限度地减少大片段的贡献,PCR循环至少应为12-14个循环,优选采用10s60℃的组合退火/延伸步骤。利用Hyper-pre试剂盒(KAPA Biosystems)已经获得了良好的结果。

  62)使用dsDNA特异性测定(诸如Qubit)定量文库产量。

  63)通过Agilent 4200TapeStation分析确定文库的大小分布。

  64)按照制造商的说明,对条形码文库进行配对末端Illumina测序。

  由于CUT&RUN的背景非常低,通常500万个配对末端读数对于转录因子或核小体修饰,甚至对于人基因组就已足够。为了获得最大经济效益,我们在2通道流动池中每个通道最多混合24个条形码样品,并进行25x25bp配对末端测序。单端测序不推荐用于CUT&RUN,因为其牺牲了转录因子与邻近核小体之间的分辨和区分。

  数据处理和分析

  *时间安排1天(可变的)

  65)我们使用Bowtie2 2.2.5版利用以下选项来对齐配对末端读数:--局部–非常敏感-局部--no-unal--非混合的--不一致--phred33-I 10-X 700。对于

  对加标片段作图,我们还使用--非重叠--非楔形选项来避免实验基因组与加标DNA的交叉作图。

  将已测序的片段分离成≤120bp和≥150bp的大小类别,提供了DNA结合蛋白的局部邻近区域的作图,但这可以根据系连的MN酶对DNA的空间可及而变化。单端测序不推荐用于CUT&RUN,因为其牺牲了转录因子与邻近核小体之间的分辨和区分。

  66)可从域名为github.com/peteskene的万维网上获得的脚本被定制用于处理、加标校准和分析CUT&RUN数据。

  结果

  在37℃下培养人K562细胞,计数,通过低速离心以1x 106个细胞/ml收获,将其在洗涤缓冲液中悬浮和沉淀两次,然后稀释并与洗涤缓冲液以300μL体积混合,以实现50至6000个细胞之间的倍增系列。在轻轻涡旋的条件下,在结合缓冲液中向每个细胞悬浮液中加入10μL经Ca2+和Mn2+洗涤的ConA包被的磁珠浆料。10分钟后,将细胞收集在磁铁架上,倾析,重悬于50μL含有抗H3K27me3(1:100,CST#9733)、2mM EDTA和0.05%洋地黄皂苷的抗体缓冲液中,并在4℃孵育15小时。在磁铁架上收集珠粒并在1ml冷消化洗涤液中洗涤一次后,将细胞重悬于100μL的消化-洗涤液中的pA-MN(1:500360μg/ml)中,并在4℃下孵育1小时将珠粒收集在磁铁架上,在1ml消化-洗涤液中洗涤两次,重悬于150μL消化-洗涤液中,并冷却至0℃。加μL 100mM CaCl2,在0℃下继续孵育30分钟。用1体积2XSTOP终止反应,在37℃下孵育20分钟,在4℃以16,000xg离心5分钟。按照步骤47-58)提取上清液和沉淀。通过量子位荧光定量来自颗粒的DNA。通过Tapestation分析(图26)对来自所选上清液级分的DNA进行分离,并进行Illumina PE25x25测序。典型的ChIP-seq实验使用高起始细胞数量,所述高起始细胞数量产生大量被免疫沉淀的独特的超声处理的片段。相比之下,由于CUT&RUN允许低细胞数量和具有相对低的背景,因此独特片段的数量少于典型的序列深度。因此,来自低细胞数实验的高测序深度可导PCR重复片段的冗余测序。除去假定的PCR重复,对作图的片段随机取样而不替换,导致每个样品有750万个独特的读数,显示为堆叠读数的归一化计数(图28)。为了进行比较,从K562细胞中H3K27me3的ENCODE数据集中取样了750万个独特读数的样本。很明显,随着细胞的数量减少到100个细胞,数据质量损失很小。相比之下,由于ChIP固有的高背景,在相同深度采样的ENCODE图谱显示出模糊的轮廓。以类似方式进行使用抗CTCF抗体(1:100,Millipore 07-729)的CUT&RUN,产生降至1000个细胞数据质量几乎没有损失的图谱(图29)。旋转柱提取(步骤39-46)简单快速,在核小体范围内提供了良好的片段回收,同时降低可干扰文库制备的非常大的片段的浓度(图30)。因此,这种DNA提取选项对于CUT&RUN的大多数应用是优选的。然而,对于在低细胞数下进行的TF的CUT&RUN,有机提取(步骤47-58)对于小片段的更好回收是优选的。

  实施例2的参考文献(其每一篇通过引用整体并入)

  1.Solomon,M.J.&Varshavsky,A.Formaldehyde-mediated DNA-proteincrosslinking:a probe for in vivo chromatin structures.Proc Natl Acad Sci U SA 82,6470-4(1985).

  2.Johnson,D.S.,Mortazavi,A.,Myers,R.M.&Wold,B.Genome-wide mapping ofin vivo protein-DNA interactions.Science 316,1497-502(2007).

  3.Barski,A.et al.High-resolution profiling of histone methylations inthe human genome.Cell 129,823-37(2007).

  4.Rhee,H.S.&Pugh,B.F.Comprehensive genome-wide protein-DNAinteractions detected at single-nucleotide resolution.Cell 147,1408-19(2011).

  5.Skene,P.J.&Henikoff,S.A simple method for generating high-resolution maps of genome-wide protein binding.eLife 4,e09225(2015).

  6.Teytelman,L.,Thurtle,D.M.,Rine,J.&van Oudenaarden,A.Highlyexpressed loci are vulnerable to misleading ChIP localization of multipleunrelated proteins.Proceedings of the National Academy of Sciences of theUnited States of America 110,18602-7(2013).

  7.Park,D.,Lee,Y.,Bhupindersingh,G.&Iyer,V.R.WidespreadmisinterpretableChIP-seq bias in yeast.PloS one 8,e83506(2013).

  8.Jain,D.,Baldi,S.,Zabel,A.,Straub,T.&Becker,P.B.Active promotersgive rise to false positive'Phantom Peaks'in ChIP-seq experiments.NucleicAcids Res 43,6959-68(2015).

  9.Baranello,L.,Kouzine,F.,Sanford,S.&Levens,D.ChIP bias as a functionof cross-linking time.Chromosome Res 24,175-81(2016).

  10.Meyer,C.A.&Liu,X.S.Identifying and mitigating bias in next-generation sequencing methods for chromatin biology.Nat Rev Genet 15,709-21(2014).

  11.Crawford,G.E.et al.Genome-wide mapping of DNase hypersensitivesites using massively parallel signature sequencing(MPSS).Genome Res 16,123-31(2006).

  12.Giresi,P.G.,Kim,J.,McDaniell,R.M.,Iyer,V.R.&Lieb,J.D.FAIRE(Formaldehyde-Assisted Isolation of Regulatory Elements)isolates activeregulatory elements from human chromatin.Genome Res 17,877-85(2007).

  13.Auerbach,R.K.et al.Mapping accessible chromatin regions usingSono-Seq.Proc Natl Acad Sci U S A 106,14926-31(2009).

  14.Kent,N.A.,Adams,S.,Moorhouse,A.&Paszkiewicz,K.Chromatin particlespectrum analysis:a method for comparative chromatin structure analysis usingpaired-end mode next-generation DNA sequencing.Nucleic Acids Res 39,e26(2011).

  15.Henikoff,J.G.,Belsky,J.A.,Krassovsky,K.,Macalpine,D.M.&Henikoff,S.Epigenome characterization at single base-pair resolution.Proc Natl AcadSci U S A 108,18318-23(2011).

  16.Buenrostro,J.D.,Giresi,P.G.,Zaba,L.C.,Chang,H.Y.&Greenleaf,W.J.Transposition of native chromatin for fast and sensitive epigenomicprofiling of open chromatin,DNAbinding proteins and nucleosome position.NatMethods 10,1213-8(2013).

  17.Bernt,K.M.et al.MLL-rearranged leukemia is dependent on aberrantH3K79 methylation by DOT1L.Cancer Cell 20,66-78(2011).

  18.van Steensel,B.,Delrow,J.&Henikoff,S.Chromatin profiling usingtargeted DNA adenine methyltransferase.Nat Genet 27,304-8(2001).

  19.Schmid,M.,Durussel,T.&Laemmli,U.K.ChIC and ChEC;genomic mapping ofchromatin proteins.Mol Cell 16,147-57(2004).

  20.Skene,P.J.&Henikoff,S.An efficient targeted nuclease strategy forhigh-resolution mapping of DNA binding sites.Elife 6(2017).

  21.Hu,Z.et al.Nucleosome loss leads to global transcriptional up-regulation and genomic instability during yeast aging.Genes&development 28,396-408(2014).

  22.Orlando,D.A.et al.QuantitativeChIP-Seq normalization revealsglobal modulation of the epigenome.Cell Rep 9,1163-70(2014).

  23.Zentner,G.E.,Kasinathan,S.,Xin,B.,Rohs,R.&Henikoff,S.ChEC-seqkinetics discriminate transcription factor binding sites by DNA sequence andshape in vivo.Nature Communications 6,8733(2015).

  24.Corces,M.R.et al.Lineage-specific and single-cell chromatinaccessibility charts human hematopoiesis and leukemia evolution.Nat Genet 48,1193-203(2016).

  25.Liu,X.&Fagotto,F.A method to separate nuclear,cytosolic,andmembrane-associated signaling molecules in cultured cells.Sci Signal 4,pl2(2011).

  26.Adam,S.A.,Marr,R.S.&Gerace,L.Nuclear protein import inpermeabilized mammalian cells requires soluble cytoplasmic factors.J CellBiol 111,807-16(1990).

  27.Brind'Amour,J.et al.An ultra-low-input native ChIP-seq protocolfor genome-wide profiling of rare cell populations.NatCommun 6,6033(2015).

  28.Porreca,G.J.et al.Multiplex amplification of large sets of humanexons.Nat Methods 4,931-6(2007).

  29.Cusanovich,D.A.et al.Multiplex single cell profiling of chromatinaccessibility by combinatorial cellular indexing.Science 348,910-4(2015).

  30.Ramani,V.et al.Massively multiplex single-cell Hi-C.Nat Methods14,263-266(2017).

  31.Lieberman-Aiden,E.et al.Comprehensive mapping of long-rangeinteractions reveals folding principles of the human genome.Science 326,289-93(2009).

  32.Tang,Z.et al.CTCF-Mediated Human 3D Genome Architecture RevealsChromatin Topology for Transcription.Cell 163,1611-27(2015).

  33.Mumbach,M.R.et al.HiChIP:efficient and sensitive analysis ofprotein-directed genome architecture.Nat Methods 13,919-922(2016).

  34.Chen,Y.B.,A.\"TSA-Seq\":a novel proximity mapping approach forstudying three dimensional genome organization and function.(2016).

  35.Beagrie,R.A.et al.Complex multi-enhancer contacts captured bygenome architecture mapping.Nature 543,519-524(2017).

  36.Wahba,L.,Costantino,L.,Tan,F.J.,Zimmer,A.&Koshland,D.S1-DRIP-seqidentifies high expression and polyA tracts as major contributors to R-loopformation.Genes Dev 30,1327-38(2016).

  37.Sanders,M.M.Fractionation of nucleosomes by salt elution frommicrococcal nucleasedigestednuclei.J Cell Biol 79,97-109(1978).

  38.Davie,J.R.&Saunders,C.A.Chemical composition of nucleosomes amongdomains of calf thymus chromatin differing in micrococcal nucleaseaccessibility and solubility properties.J Biol Chem 256,12574-80(1981).

  39.Henikoff,S.,Henikoff,J.G.,Sakai,A.,Loeb,G.B.&Ahmad,K.Genome-wideprofiling of salt fractions maps physical properties of chromatin.Genome Res19,460-9(2009).

  40.Kasinathan,S.,Orsi,G.A.,Zentner,G.E.,Ahmad,K.&Henikoff,S.High-resolution mapping of transcription factor binding sites on nativechromatin.Nature methods 11,203-9(2014).

  41.Zentner,G.E.&Henikoff,S.High-resolution digital profiling of theepigenome.Nat Rev Genet 15,814-27(2014).

  42.Fan,X.,Lamarre-Vincent,N.,Wang,Q.&Struhl,K.Extensive chromatinfragmentation improves enrichment of protein binding sites in chromatinimmunoprecipitation experiments.Nucleic acids research 36,e125(2008).

  43.Teytelman,L.et al.Impact of chromatin structures on DNA processingfor genomic analyses.PloS one 4,e6700(2009).

  44.Chung,H.R.et al.TFfhe effect of micrococcal nuclease digestion onnucleosome positioning data.PLoS One 5,e15754(2010).

  实施例3

  作为顺序ChIP的高效替代方案的CUT&RUN.ChIP。

  染色质因子形成复合物来结合DNA,但是目前鉴定共占据的方法受到顺序ChIP效率低下的严重限制。通过使用在第一次交联ChIP反应后回收的染色质免疫沉淀作为第二次ChIP下拉的输入,进行顺序ChIP。然而,由于交联ChIP的低效率,在第二次ChIP后回收的材料量可能会非常少,通常将顺序ChIP限制为PCR,并且只有很少(如果有的话)允许顺序ChIP-seq用于全基因组应用。例如,在[6]我们成功地对人动粒复合体进行了顺序ChIP-seq,但仅仅是因为该复合体存在于以成千上万的拷贝存在于着丝粒处的串联重复的α卫星序列上。然而,由于CUT&RUN远比ChIP高效,我们推断我们可以使用CUT&RUN上清液作为ChIP的输入。我们利用CUT&RUN的高效率来释放染色质颗粒,发现用这种材料作为第二染色质组分的ChIP效率高得多,其背景可以忽略。

  为了测试CUT&RUN.ChIP,我们将CUT&RUN应用于加FLAG标签的组蛋白,然后使用FLAG肽从上清液中存在的颗粒中竞争掉pA-MN结合的抗体,并且添加针对其它组蛋白标志物的第二抗体以用于CUT&RUN上清液的原生ChIP(图31A)。一种代表性的核小体景观表明,相对于作为所有核小体标志物的H2B,组蛋白变体H2A富含H4乙酰化和H3K4三甲基化,但在启动子附近的核小体上被耗尽了H3K36三甲基化作用(图31B),与使用ChIP对这些修饰进行作图的先前研究一致[7,8]。尽管单ChIP研究已经确定启动子附近的核小体富含或耗尽这些修饰,但它们还没有确定它们在同一核小体上的程度。这种CUT&RUN.ChIP方法可以例如用于确定启动子中双价染色质状态,以解释哺乳动物细胞中受发育调控的基因处的转录平衡机制[9]。

  实施例4

  CUT&RUN蛋白质鉴定。

  CUT&RUN.ChIP只能在它们是事先已知的并且有抗体可用的情况下鉴定DNA-蛋白质复合物中的蛋白质组分,但是需要不同的策略来鉴定复合物中的未知成分。由于ChIP的效率低,很难获得足够的免疫沉淀来进行蛋白质鉴定,然而,颗粒释放到CUT&RUN上清液中的高效率为下游蛋白质组分析提供了足够的材料。然而,我们已发现释放的颗粒仅包含释放到CUT&RUN上清液中的总材料的一部分,因此我们设计并产生了具有6-His标签的蛋白A-微球菌核酸酶(图32A),其可用于纯化pA-MN/抗体结合复合物来进行下游蛋白质组分析。方法是将释放到CUT&RUN上清液中的颗粒与亲和基质诸如镍-琼脂糖(例如可从Qiagen和其他供应商获得的Ni-NTA琼脂糖)结合。按照制造商的建议进行清洗和洗脱后,应获得足够量的纯复合物用于复合物的蛋白质组分的银染SDS-PAGE分析和液相色谱-质谱测定(图32B)。

  实施例4的参考文献(其每一篇通过引用整体并入)

  1.Schmid,M.,Durussel,T.,and Laemmli,U.K.(2004).ChIC and ChEC;genomicmapping of chromatin proteins.Mol.Cell 16,147-157.

  2.Zentner,G.E.,Kasinathan,S.,Xin,B.,Rohs,R.,and Henikoff,S.(2015).ChEC-seq kinetics discriminate transcription factor binding sites by DNAsequence and shape in vivo.NatCommun 6,8733.

  3.Skene,P.J.,and Henikoff,S.(2017).An efficient targeted nucleasestrategy for high-resolution mapping of DNA binding sites.eLife 6.

  4.Skene,P.J.,and Henikoff,S.(2017).CUT&RUN:Targeted in situ genome-wide profiling with high efficiency for low cell numbers.Submitted forpublication.

  5.Henikoff,S.,Henikoff,J.G.,Sakai,A.,Loeb,G.B.,and Ahmad,K.(2009).Genome-wide profiling of salt fractions maps physical properties ofchromatin.Genome Res.19,460-469.

  6.Thakur,J.,and Henikoff,S.(2016).CENPT bridges adjacent CENPAnucleosomes on young human alpha-satellite dimers.Genome Res.26,1178-1187.

  7.Weiner,A.,Hughes,A.,Yassour,M.,Rando,O.J.,and Friedman,N.(2010).High-resolution nucleosome mapping reveals transcription-dependent promoterpackaging.Genome Res.20,90-100.

  8.Luk,E.,Ranjan,A.,Fitzgerald,P.C.,Mizuguchi,G.,Huang,Y.,Wei,D.,andWu,C.(2010).Stepwise histone replacement by SWR1 requires dual activationwith histone H2A.Z and canonical nucleosome.Cell 143,725-736.

  9.Shema,E.,Jones,D.,Shoresh,N.,Donohue,L.,Ram,O.,and Bernstein,B.E.(2016).Single-molecule decoding of combinatorially modifiednucleosomes.Science 352,717-721.

  实施例5

  干细胞样PRC2活性和激活的发育程序的共存定义了弥漫性中线胶质瘤染色质景观(Landscapes)

  引言

  弥漫性中线胶质瘤是致命的儿童CNS肿瘤,5年总生存率<5%(Mackay等2017)。这些肿瘤中约80%在编码组蛋白H3.1或H3.3的基因中有突变,其中最突出的是赖氨酸27-至-甲硫氨酸的“致癌组蛋白(oncohistone)”突变(H3K27M)(Schwartzentruber等2012年;Wu等2012)。尽管突变的组蛋白H3占细胞内总H3的约5-15%,但这些肿瘤具有低水平的赖氨酸27三甲基化(H3K27me3)(Chan等2013年;Lewis等2013),一种由Polycomb抑制性复合物2(Polycomb Repressive Complex 2,PRC2)甲基转移酶EZH2催化并与转录沉默的染色质相关的H3尾部修饰。体外研究表明,H3K27M尾部结合EZH2活性位点并抑制其催化活性(Bender等2013;Lewis等2013;Justin等2016),H3K27M的异位表达研究表明,其可在全局重新编程PRC2景观(Bender等2013;Chan等2013年),在DMG患者样品中发现的低总H3K27me3(Chan等2013;Lewis等2013)导致了如下模型,该模型认为H3K27M对EZH2活性的全局抑制会导致胶质瘤发生(Morgan和Shilatifard,2013;Weinberg等2017年)。

  最近的结果对这一模型提出了质疑。首先,在重构的核小体模型中,PRC2结合的含H3K27M的核小体与野生型核小体具有相似的亲和力,这与EZH2对H3K27M具有高亲和力是不一致的(Wang等2017)。第二,对1000个患者样品进行的大规模基因组分析未发现可以表型模拟全局PRC抑制剂的EZH2突变(Mackay等2017)。最后,最近的DMG的ChIP-Seq测定显示出令人惊讶的残留H3K27me3结构域,其中一些比组蛋白野生型DMG含有更多的H3K27me3(Mohammad等2017;Piunti等2017年)。尽管存在PRC2抑制剂,但特定PRC2结构域得到保留的背后调控逻辑仍然未知(Weinberg等2017;Funato and Tabar 2018)。也已变得清楚的是,H3K27M可能需要特定的发育线索或次级突变来促进肿瘤发生。例如,除非是在非常狭窄的发育窗口内,否则单独的H3K27M不足以在鼠模型中诱导神经胶质瘤(Pathania等2017)。另外,来自DMG细胞群的单细胞RNA-seq表明,特定的未分化的原始祖细胞引起了肿瘤(Filbin等2018)。此外,观察到的ACVR1突变与H3.1K27M的共存以及PDGFRA扩增与H3.3K27M的共现表明,H3突变需要遗传修饰剂(genetic modifier)来促进肿瘤发生。发育线索和次级突变对DMG中的染色质景观的影响尚未完全阐明。

  为了更好地理解在含H3K27M的DMG中观察到的患病染色质景观,我们将“核酸酶靶向裂解和释放”(CUT&RUN)(一种最近描述的用于全基因组的蛋白质:DNA相互作用作图的方法(Skene和Henikoff,2017;Skene等2018年))应用于一小组患者来源的DMG细胞系,所述DMG细胞缺乏组蛋白突变,或者在H3.1或H3.3中在H3尾部中的位置27处含有赖氨酸-至-甲硫氨酸的取代(图33A)。该方法允许以高分辨率剖板突变的H3K27M组蛋白的全基因组定位,并通过使用外源细胞加标作为归一化对照来提供H3K27me3的全基因组占用率的高度定量比较。对DMG细胞系和未转化干细胞的代表性小组应用定量CUT&RUN揭示了组蛋白突变的DMG中残留的PRC2活性与胚胎干细胞中的PRC2活性高度一致,尽管DMG同时表达干细胞样细胞和分化细胞的标记的混合物。这些结果表明,在分化线索和降低的PRC2活性面前保留原始干细胞样的PRC2景观是H3K27M-DMG的定义特征和这些致命的儿科肿瘤的潜在脆弱点。

  结果

  DMG中的H3K27M沉积取决于H3变体

  我们首先试图分析H3K27M致癌组蛋白在患者DMG细胞系中的全基因组定位,所述细胞系在H3.1或H3.3中具有K27M突变。H3.1是一种组蛋白变体,其以复制依赖的方式沉积在染色质中,导致在整个基因组中的均匀分布(Maze等2014)。相比之下,H3.3变体以不依赖于复制的方式沉积,并在高组蛋白周转位点处积累(Maze等2014)。为了评估H3K27M在H3.1K27M-DMG和H3.3K27M-DMG中的全基因组定位,在3个DMG细胞系SU-DIPG-IV(H3.1K27M)、SU-DIPG-XIII(H3.3K27M)和VUMC-10(MYCN扩增的,H3野生型)的CUT&RUN反应中使用了针对H3K27M的抗体。抗H3K27M抗体对H3K27M具有高度特异性,但不能区分H3.1K27M与H3.3K27M(Piunti等2017;Fang等2018)。H3.3K27M DMG细胞中的H3K27MCUT&RUN图谱显示H3.3K27M在确定的结构域中积累(图33B)。此外,当我们在同一细胞系中比较H3K27M与H3K27me3和H3K27acCUT&RUN时,H3.3K27M峰与H3K27ac峰密切相关,并且与H3K27me3结构域具有最小的重叠,与活跃的组蛋白周转位点处的H3.3掺入一致(图33C)。对H3K27M在H3.3K27M细胞系中的全基因组定位的分析显示了DMG肿瘤发生中具有重要作用的几个基因(包括PTN(图33B)、H3F3A和MYC)处的积累(Mackay等2017;Qin等2017)。另外,H3.3K27M存在于在胚胎干细胞(ESC)具转录活性的基因座中,包括ESC重编程因子Sox2和MYC(Takahashi和Yamanaka,2006),表明原始的起源细胞。SHH信号传导通路的组分,包括DHH、SUFU、PTCH1、GLI1和GLI2也是H3K27M积累的位点,表明hedgehog途径的激活(Monje等2011年)。

  与H3.3K27M相反,H3.1K27M细胞系中利用H3K27M抗体的CUT&RUN剖析显示整个基因组中的均匀分布,没有确定的富集结构域,与复制依赖性掺入一致(图33B,33C)。在H3.1K27M细胞系中缺乏可识别的峰不是由于表达,因为H3.1K27M和H3.3K27M以相似的水平表达(图33D)。H3.3K27M和H3.1K27M的热图清楚地显示了H3.3K27M-DMG细胞系中但非H3.1K27M细胞系中的确定的峰(图33C)。这些数据还表明,H3.1K27M的水平高于在H3.3K27M背景中观察到的背景水平,表明在全基因组范围内可检测到掺入(图33C)。作为对照,H3K27M抗体用于VUMC-10中的CUT&RUN反应。未观察到显著的信号,在蛋白质印迹中也没有观察到信号,证实了抗体对于H3K27M的特异性(图33C,33D)。

  H3K27M-DMG包含在野生型胶质瘤中不存在的独特的H3K27me3结构域

  在H3.1K27M和H3.3K27M DMG细胞系中发现H3K27M定位的不同模式为研究H3K27M与H3K27me3定位之间的关系提供了机会。已经提出H3K27M直接结合EZ2并抑制其活性(Weinberg等。2017;Funato和Tabar 2018),这意味着H3K27me3和H3K27M不应该共同占据大的结构域。为了确定H3K27me3和H3K27M在大的结构域内是否相互排斥,我们在DMG细胞系中用H3K27me3特异性抗体进行了CUT&RUN。我们还利用CUT&RUN的能力,通过外源性加标,定量测量H3K27me3含量差异很大的DMG细胞系间的PRC2结构域大小和稳健性。我们将果蝇S2细胞以1x106个人细胞对5x104个果蝇细胞的固定比例加入到CUT&RUN反应中。因为H3K27me3抗体识别果蝇和人H3K27me3,人和果蝇的测序读数允许针对一致的对照的归一化和人样品之间的直接比较。加标读数与细胞系之间的定量蛋白质印迹结果密切相关,证实了我们定量归一化策略的有效性。有趣的是,尽管H3K27me3含量在DMG细胞系之间存在显著差异(图33D),但在所有细胞系(包括H3.1K27M和H3.3K27M细胞系)中都鉴定了H3K27me3结构域,所述细胞系以前被报道具有几乎不可检测的H3K27me3水平(Grasso等2015;Piunti等2017)(图34A)。皮尔逊相关分析表明,H3.1K27M与H3.3K27M肿瘤之间的H3K27me3分布的相似性高于与它们的野生型对应物之间的所述相似性,这与在DMG的基因组和转录组分析中观察到的相似关系一致(Mackay等2017)(图34B)。然而,使用归一化敏感的Lin相关来观察分布和信号强度的组合差异的相关性分析显示H3.3和H3.1的分离,这是H3.1K27M DMG细胞系中H3K27me3沉积减少的结果(图34B)。我们在许多目标基因座处发现了组蛋白突变型DMG的许多富集区,包括肿瘤抑制基因WT1(图34A)。已知的肿瘤抑制基因诸如CDKN2a在H3.3K27M和组蛋白野生型细胞系中是PRC2靶标,但在H3.1K27M细胞系中不是,这与以前的报道一致(Piunti等2017)。

  为了确定每个细胞系特有的特异性H3K27me3区域,我们使用每个细胞系的全基因组归一化信号来定义基因组中每个碱基对上任何两个细胞系之间的最大信号差异,并基于高差异信号的连续区域将其称为“峰”。然后,我们使用k-均值聚类,基于每个细胞系中的H3K27me3信号对差异H3K27me3峰进行分组,得到包含6个聚类的最佳解决方案。不同DMG细胞系中差异H3K27me3结构域的比较显示了野生型细胞系中存在的在H3.1K27M和H3.3K27M细胞系中不存在的若干簇PRC2结构域(图34C)。尽管大多数差异H3K27me3区域(前4个簇)是野生型特有的,但仍有数百个区域(簇5)在H3.3K27M细胞中保留H3K27me3,还有几个区域(簇6)在H3.3K27M中高度富集H3K27me3,在野生型中在无任何富集(图34C)。簇6结构域与细胞类型特异性转录因子(包括许多T-盒、叉头和Distal-less家族成员)重叠,表明来自组蛋白野生型肿瘤的起源细胞差异。簇6还包含几种已知的肿瘤抑制基因,包括PRDM1和VGLL3,所述肿瘤抑制基因通常分别在血液和卵巢恶性肿瘤中突变(图34A)(Mandelbaum等2010;Karube等2011)。

  鉴于H3K27M在这些细胞中全基因组沉积,在H3.1K27M细胞系中鉴定非常低的残留H3K27me3结构域是吸引人的(图33C,34A)。这一结果表明,在局部存在3.1K27M的情况下,PRC2是活跃的,但效率较低虽然我们没有在PRC2结构域中发现缺少H3.1K27M的区域,但也有可能H3.1的一部分可被局部逐出并被野生型H3.3替代,野生型H3.3是一种合适的EZH2底物,可允许PRC2结构域的恢复。为了研究这种可能性,使用CUT&RUN评估了野生型H3.3在H3.1K27M细胞系中的定位。在K27me3结构域中没有发现H3.3的富集。鉴于H3.1K27M在H3.1K27M细胞系中的均匀分布和在PRC2结构域中观察到的一致信号,这些数据表明H3K27M和H3K27me3可以在染色质中局部共存。

  H3K27M-DMG具有原始干细胞样的H3K27me3构型

  对不存在于野生型胶质瘤中的H3K27M-DMG中特异性保留的H3K27me3结构域的鉴定,以及H3K27M和含H3K27me3的基因座的共存,表明DMG染色质景观可能不仅仅由H3K 27M对EZH2活性的影响决定。在组蛋白突变型DMG中观察到的独特的H3K27me3模式可能反而来源于肿瘤的起源细胞。为了研究这一点,我们试图定量比DMG中的H3K27me3结构域与一小组神经干细胞(NSC)和ESC中的那些结构域,所述结构域代表了DMG的假定前体可能从其产生的人工发育轨迹。ESC具有低的H3K27me3,并且以前曾作为H3K27M胶质瘤发生的模型(Funato等2014),与H3突变型DMG进行了相关比较,而胎儿前脑来源的NSC是胶质母细胞瘤的已建立的对照(Pollard等2009)。

  我们使用上述的加标策略(以使得能够进行定量比较)在未转化的H1ESC以及NSC系CB660和U5中进行了H3K27me3的CUT&RUN。在所有细胞类型中都鉴定了稳健的PRC2结构域(图35A)。H3.1K27M和H3.3K27M细胞系中的H3K27me3的全基因组图谱与ESC和NSC系的相关性始终高于与组蛋白野生型DMG的相关性。引人注目的是,通过Lin氏相关性结合绝对H3K27me3水平的定量比较证明了ESC系与H3.3K27M之间的高度相关性,表明H3.3K27M中H3K27me3结构域的原始茎样构型(图35B)。为了进一步研究独特的H3K27me3结构域,我们将重点放在组蛋白突变型DMG特异性簇(簇6)中富含H3K27me3的区域,该簇来自先前的差异H3K27me3分析。ESC与NSC系之间的簇6中H3K27me3结构域的比较表明,它们与H3.3K27M细胞系中的簇6中鉴定的结构域大量重叠(图35C)。这很吸引人,因为全局H3K27me3在ESC中含量低,表明这些是维持原始干细胞状态的重要位点。此外,簇6内存在大量与互斥分化途径相关的转录因子,代表一组可能已经存在于DMG祖细胞中或在次级突变积累过程中从头产生的PRC2靶标。对DMG特异但不存在于未转化的干细胞中的簇6基因包括肿瘤抑制基因PRDM1和VGLL3以及其他组织特异性转录因子。

  H3K27M-DMG包含激活的发育途径的染色质特征

  H3K27me3剖析谱显示H3K27M-DMG具有原始干细胞样状态;因此,我们试图确定H3K27ac和H3.3K27M在DMG中的富集是否也反映了干细胞样特征谱。我们生成了相关矩阵,用于比较ESC、NSC和DMG中的H3K27ac峰和DMG中的H3.3K27M峰,以鉴定不同细胞系之间的活性染色质图谱的相似性。H3.3K27M DMG细胞系中的H3K27ac和H3K27M具有0.76和0.81的高相关系数(Piunti等2017)(图36A)。组蛋白野生型DMG细胞系与其它DMG细胞系的相关性较差(图36A),这与不同的次级突变群和假定的不同起源细胞一致(Mackay等2017)。有趣的是,H3突变型DMG系与NSC系的关系比与ESC的关系更密切(图36A),这与H3突变型DMG中H3K27me3结构域与ESC而非NSC相似的发现形成对比(图35B)。H3.3K27M在H3.3突变型DMG细胞中的富集与H3K27ac在NSC中而非ESC中的富集更一致,表明H3.3K27M整合到在全局上与NSC更相似的活性染色质环境中。

  H3突变型DMG样品中存在的共有H3K27M/H3K27ac峰包括牵涉神经胶质成熟的基因,诸如Olig1、Olig2(图36B)和GFAP,它们与U5细胞系共享最密切,以及与两个NSC细胞系共有的一般神经调节因子NEUROD1和NES。此外,在ESC或NSC之间不共有的H3K27M/H3K27ac峰包括Sonic Hedgehog和WNT信号传导途径的组分,以及少突胶质细胞前体特异性活性基因,诸如PDGFRA(图36B),表明NSC的发育下游基因的激活(Filbin等2018)。尽管hESC特异性调节因子诸如POU5F1缺乏DMG H3K27ac/H3K27M峰,但它们存在于SOX2和MYC基因座,这两个基因座在ESC和NSC中都具有很强的活性(图36B)。总之,这些数据与试图分化但不能终止干细胞特异性染色质调控机制的原始DMG祖细胞一致,导致分化阻滞和干细胞-与分化-相关活性基因的异常共存。

  H3.3K27M不会全局性改变PRC2景观

  此处提供的数据与模型相一致,在所述模型中,干细胞样起源细胞和次级突变是DMG中的染色质景观的主要决定因素。先前的研究表明,H3K27M的表达可将H3K27me3的水平降低到在组蛋白突变型DMG中所观察到的水平,并重塑PRC2的分布,尽管H3K27me3丢失的程度和时桢差异很大(Bender等2013;Chan等2013;Lewis等2013)。此外,最近使用ESC的报告发现,H3.3K27M可以直接将EZH2募集到染色质上,在一些基因座处抑制EZH2,而在其经基因座处促进PRC2活性(Fang等2018)。为了研究PRC2在我们的DMG小组中的定位,我们在CUT&RUN反应中使用了针对专性PRC2亚单位SUZ12和替代亚单位MTF2的抗体。在两个H3突变型DMG细胞系中,SUZ12和MTF2信号在H3K27me3峰内高度富集,与通过EZH2介导H3K27me3的沉积的PRC2组分一致(图37A,图37B)。然而,在H3.3K27M细胞系中,相对于富集H3K27me3的结构域,SUZ12和MTF2与富集H3K27M的结构域共定位较差(图37B)。此外,SUZ12和MTF2信号没有显示H3.1K27M细胞系中基因组范围分布的证据,这是H3K27M介导的募集所预期的,因为它们在H3K27me3结构域中的富集显著高于随机取样的区域,这与H3K27M分布形成对比(图37C)。此外,在两种细胞系的H3K27M区域中,SUZ12和MTF2信号与H3K27M信号相关性很差,表明SUZ12和MTF2不可能以H3K27M依赖性方式与基因组相互作用。我们的结论是,H3K27M不可能螯合PRC2。

  我们的数据表明,当在生理水平表达时,H3.3K27M不应有效地抑制EZH2活性。为了验证这一假设,我们以低MOI使用慢病毒转导系统和基于质粒的转染系统在293T细胞中引入了H3.3K27M,其水平与在DMG中所见的水平相似。将抗生素选择用于确保所有细胞包含合适的构建体。蛋白质印迹表明,在表达6天后,H3.3K27M存在的水平与在H3.1K27M和H3.3K27M细胞系中观察到的水平相似(图38)。重要的是,与总H3水平相比,异位H3.3K27M仅代表总H3的一小部分,这与来自一个H3F3A或HIST1H3b等位基因的生理H3水平一致(图38)。尽管H3.3K27M表达强劲,但看到H3K27me3水平的降低程度最小(图38)。这些数据与H3.3K27M在全局范围内强效抑制EZH2不一致,而是进一步支持其中DMG中的PRC2景观是由起源细胞和次级突变的组合塑造的模型(图39A)。

  讨论

  DMG是发育受限的致命儿科CNS肿瘤,几乎没有治疗选项。这些肿瘤中的染色质景观的表征可能会导致新的治疗策略,但由于缺乏患者来源的样品和细胞系而受到限制。最近使用单细胞转录组学分析的报告表明,虽然DMG在转录上与少突胶质细胞前体细胞最相似,但它们异常表达干细胞和成熟胶质细胞的标志物(Filbin等2018)。发育轨迹的另一个关键调节因子——PCR2活性,是否也反映了DMG中原始状态和成熟状态的功能失调组合尚不清楚。此处,我们使用CUT&RUN来剖析DMG细胞系和未转化的干细胞的代表性小组中的染色质景观。我们的数据显示,在H3K27M-DMG中存在的低水平残留PRC2活性最类似于ESCPRC2景观。对染色质转录活跃区域的探测显示了SOX2和MYC以及包括GFAP在内的成熟神经胶质的标志物的表达。总之,我们的数据与驱动ES样PRC2活性的干细胞特异性染色质调控网络一致,尽管发育程序被激活和存在H3K27M。

  我们的CUT&RUN方法还允许我们剖析当前模型的H3.1K27M和H3.3K27M对DMG中的PRC2景观的贡献,其中一些模型以EZ2对H3K27M的亲和力增加为中心(Weinberg等2017;Fang等2018;Funato和Tabar 2018)。最近的研究表明,H3.3K27M可以在一些平衡的增强子下不适当地螯合并抑制EZH2,同时在小鼠ESC中的其它基因座处促进PRC2活性(Fang等2018)。他们的模型预测,由于螯合作用,PRC2组分应该定位至H3.3K27M-DMG细胞系中的一个大亚组的H3K27M位点,否则不会显著改变PRC2活性。在我们的数据集中,我们观察到H3K27M富集位点与PRC2组分之间的最小重叠,这与螯合不一致。此外,我们还发现293T中H3.3K27M以生理水平的异位表达并未降低H3K27me3的水平,这并不支持H3.3K27M在全局围内强效抑制EZ2的概念(Weinberg等2017)。我们的数据表明,H3.3K27M与EZH2的相互作用不大可能是在H3.3K27M-DMG中观察到的PRC2活性降低的主要决定因素。

  H3.1K27M对H3.1-突变型DMG中PRC2景观的影响尚不清楚。我们使用我们的H3K27me3、H3K27M和H3K27ac数据来更好地理解在H3.1K27M-DMG中观察到的异常染色质景观。我们对H3.1-突变型DMG的剖析显示,H3.1K27M以复制依赖性方式在全基因组范围内沉积。定量CUT&RUN鉴定了极低的残余PCR2活性和与3.1K27M的共占用。PRC2活性的其余位点与存在于H3.3K27M-DMG和ESC中的位点相似。我们也没有观察到表明由3.1K27M募集的PRC2组分在全基因组范围内沉积(这是对隔离模型的另一种预测)的证据。相反,我们的数据与染色质相关的H3K27M局部抑制PRC2活性是一致的,但干细胞特异性PRC2募集机制通过抑制肿瘤抑制基因基因座诸如WT1,克服了H3K27M在一个亚组的基因座处的抑制,从而促进肿瘤发生(图39B)。

  如果H3K27M不是DMG中观察到的异常PRC2景观的主要决定因素,那么它们是如何产生的呢?我们的数据表明起源细胞、发育背景和次级突变协同决定了H3K27M在DMG中所作用于的PRC2景观(图39A)。这些数据也支持了模型,通过该模型,H3.3K27M在具有原始干细胞样染色质构型的细胞中发挥其作用,所述染色质构型可能已存在于起源细胞中或在由次级突变介导的去分化过程中获得。证明H3K27M是胶质瘤发生的早期事件的系统发育分析认为其需要在获得次级突变和激活发育调节的信号传导级联之前出现(Nikbakht等2016)来促进肿瘤发生。H3.3K27M很可能通过防止新的PRC2结构域在整合到需要在分化过程中沉默的转录活性基因座(诸如SOX2和MYC)时产生,保持干细胞调节网络的激活但允许对分化线索的反应而促进肿瘤发生(图39B)。相比之下,H3.1K27M的全基因组分布可使染色质对PRC2活性不敏感,阻止某些促增殖基因的沉默,而干细胞特异性PRC2募集机制有助于低效但有效地抑制肿瘤抑制基因(图39B)。我们推测含克罗莫结构域的蛋白质可能是H3K27M的靶标,因为最近的报告显示H3.3K27M减少了Cbx7与染色质的缔合(Tatavosian等2018)并且Cbx蛋白在发育调控的PRC2结构域的建立中具有良好的作用(Morey等2012)。

  我们的模型表明H3K27M仅可在某些染色质环境中有助于肿瘤发生得到了其它研究的支持,所述研究表明对H3K27M的差异敏感性取决于细胞类型和发育阶段(Funato等2014;Pathania等2017)。此外,H3K27M 3水平与H3K27M突变型DMG相似的婴儿室管膜瘤和放射状神经胶质的最近鉴定表明,H3K27突变对于促进异常低水平的PRC2活性不是必要的(Bayliss等2016)。另外,最近在急性髓细胞性白血病亚组中发现的H3K27M仅与RUNX1突变联合使用,进一步支持了其中H3K27M对由低H3K27me3定义的干细胞样染色质状态的影响最为深远的模型(Lehnertz等2017)。在该报告中,单独的RUNX1突变的H3K27me3水平低于RUNX1野生型母细胞,并且RUNX1突变与H3.1K27M的组合的水平低于RUNX1突变型组蛋白野生型细胞。ACVR1突变和PDGFRA扩增可在DMG中起着与RUNX1突变在AML中的作用相似的作用,使细胞对H3K27M的作用敏感。综上所述,这些发现表明次级突变和发育背景可以足以降低PCR2的活性,为H3K27M致癌组蛋白发挥其作用提供了环境。

  在DMG中发现与激活的发育程序共存的干细胞样PRC2景观也具有临床和治疗意义。用常规策略(诸如视黄酸与可促进干细胞样PRC2活性解析的染色质修饰酶的小分子抑制剂(诸如EZH2抑制剂或HDAC抑制剂结合)诱导分化可能比单独使用任一种作为单一疗法更有效。此处提出的模型还表明,DMG不可能比其它原始干细胞对EZH2抑制剂单一疗法更敏感,因为它们包含比原始干细胞具有更高H3K27me3水平的PRC2结构域的亚组。最近关于在接受CNS肿瘤EZH2抑制剂的儿科患者中发生继发性T细胞淋巴瘤的报道与干细胞对EZH2抑制剂的敏感性一致,并认为联合治疗的益处是有利于促进分化同时减轻PRC2介导的抑制。利用酪氨酸激酶抑制剂与分化及染色质修饰剂的诱导相结合在DMG中靶向次级突变(诸如PDGFRA扩增),也可能是这些不可避免的致命儿科恶性肿瘤的有效治疗方法。

  细胞培养的材料和方法

  SU-DIPG-IV(H3.1K27M),SU-DIPG-VI(H3.3K27M)和SU-DIPG-XIII(H3.3K27M)细胞由Stanford University的M.Monje实验室慷慨提供。获得VUMC-10细胞。将细胞在补充有20ng/mL的人-EGF和20ng/mL的人-bFGF以及补充有青霉素/链霉素的NeuroCult培养基(StemCell Technologies,Vancouver,BC)中生长。用Accutase对细胞进行传代,以便解离。将果蝇S2细胞在补充有18mML谷氨酰胺的HYQ-SFX昆虫培养基(ThermoFisher)中生长至对数期,并通过刮取收集。将293T细胞在补充有10%胎牛血清和2mM L-谷氨酰胺的DMEM(ThermoFisher)中生长。

  全细胞裂解物制备:

  对于每个样品,沉淀约3-5x106个细胞,用PBS洗涤一次,并向沉淀中加入200μL标准蛋白质样品缓冲液。将样品涡旋,在100℃下煮沸5分钟,然后冷却至室温。加入Benzonase(1L),将样品在室温下孵育5分钟,然后冷冻以供进一步使用。

  CUT&RUN

  CUT&RUN按照所述(Skene等2018)进行。使用的抗体包括H3K27me3(CellSignaling Technologies 9733)、H3K27M(Abcam ab190631),H3K27ac(MilliporeMABE647)、H3(Abcam ab24834),H3.3(Abnova)、MTF2(ThermoFisher)、SUZ12(Abcamab12073)和兔IgG同种型对照EPR25A(Abcam ab172730)。对于CUT&RUN反应,除以1:50使用的SUZ12和MTF2外,所有抗体都以1:100的稀释度使用。用果蝇S2细胞以1,000,000个人细胞对50,000个S2细胞的比率(如通过ViCell(ThermoFisher)计数的)进行加标归一化。

  文库制备和测序

  将提取的DNA进行KAPA Hyper-prep文库制备试剂盒方案(Roche,Inc.),并如前所述(Skene和Henikoff 2017)进行扩增,其中如所描述的(Lu等Orkin Cell 2018),进行在低于60℃下进行末端修复反应和poly-A加尾反应以保存小片段的修饰。使用Bowtie2将人读数与hg19对齐。可在github.com/Henikoff/Cut-and-Run获得用于鉴定相对于IgG对照的富集位点的自定义脚本。

  数据分析

  使用Bowtie2(Langmead等2012)将测序读数作图到hg19基因组构造,以及使用bedtools(Quinlan和Hall 2010)生成配对末端片段床文件和加标归一化基准图(bedgraphs)。使用作图到跨越hg19基因组的10kb窗口的归一化片段计数在R(www.r-project.org)中生成相关热图。使用自定义脚本调用了富集区域和区域尖峰。使用R中的gplot实用程序(ggplot2.tidyverse.org)生成CUT&RUN散点图。使用deeptools(Ramírez等2014)生成CUT&RUN信号热图和元图图谱(metaplot profiles)。使用bedtools intersect实用程序对富集区域交叉点进行定量。使用Integrative Genomics Viewer(Robinson等2011)来使数据集可视化。

  实施例5的参考文献(其每一篇通过引用整体并入)

  Bayliss J,Mukherjee P,Lu C,Jain SU,Chung C,Martinez D,Sabari B,MargolAS,Panwalkar P,Parolia A et al.2016.Lowered H3K27me3 and DNA hypomethylationdefine poorly prognostic pediatric posterior fossa ependymomas.SciTransl Med8:366ra161.

  Bender S,Tang Y,Lindroth AM,Hovestadt V,Jones DT,Kool M,Zapatka M,Northcott PA,Sturm D,Wang W et al.2013.Reduced H3K27me3 and DNAhypomethylation are major drivers of gene expression in K27M mutant pediatrichigh-grade gliomas.Cancer Cell 24:660-672.

  Chan KM,Fang D,Gan H,Hashizume R,Yu C,Schroeder M,Gupta N,Mueller S,James CD,Jenkins R et al.2013.The histone H3.3K27M mutation in pediatricglioma reprograms H3K27 methylation and gene expression.Genes Dev 27:985-990.

  Fang D,Gan H,Cheng L,Lee JH,Zhou H,Sarkaria JN,Daniels DJ,ZhangZ.2018.H3.3K27M mutant proteins reprogram epigenome by sequestering the PRC2complex to poised enhancers.Elife 7.

  Filbin MG,Tirosh I,Hovestadt V,Shaw ML,Escalante LE,Mathewson ND,Neftel C,Frank N,Pelton K,Hebert CM et al.2018.Developmental and oncogenicprograms in H3K27M gliomas dissected by single-cell RNA-seq.Science 360:331-335.

  Funato K,Major T,Lewis PW,Allis CD,Tabar V.2014.Use of humanembryonic stem cells to model pediatric gliomas with H3.3K27M histonemutation.Science 346:1529-1533.

  Funato K,Tabar V.2018.Histone Mutations in Cancer.Annual Review ofCancer Biology 2:337-351.

  Grasso CS,Tang Y,Truffaux N,Berlow NE,Liu L,Debily MA,Quist MJ,DavisLE,Huang EC,Woo PJ et al.2015.Functionally defined therapeutic targets indiffuse intrinsic pontine glioma.Nat Med 21:555-559.

  Justin N,Zhang Y,Tarricone C,Martin SR,Chen S,Underwood E,De Marco V,Haire LF,Walker PA,Reinberg D et al.2016.Structural basis of oncogenichistone H3K27M inhibition of human polycomb repressive complex 2.NatCommun 7:11316.

  Karube K,Nakagawa M,Tsuzuki S,Takeuchi I,Honma K,Nakashima Y,ShimizuN,Ko YH,Morishima Y,Ohshima K et al.2011.Identification of FOXO3 and PRDM1 astumor-suppressor gene candidates in NK-cell neoplasms by genomic andfunctional analyses.Blood 118:3195-3204.

  Lehnertz B,Zhang YW,Boivin I,Mayotte N,Tomellini E,Chagraoui J,Lavallee VP,Hebert J,Sauvageau G.2017.H3(K27M/I)mutations promote context-dependent transformation in acute myeloid leukemia with RUNX1alterations.Blood 130:2204-2214.

  Lewis PW,Muller MM,Koletsky MS,Cordero F,Lin S,Banaszynski LA,GarciaBA,Muir TW,Becher OJ,Allis CD.2013.Inhibition of PRC2 activity by a gain-of-function H3 mutation found in pediatric glioblastoma.Science 340:857-861.

  Mackay A,Burford A,Carvalho D,Izquierdo E,Fazal-Salom J,Taylor KR,Bjerke L,Clarke M,Vinci M,Nandhabalan M et al.2017.Integrated Molecular Meta-Analysis of 1,000 Pediatric High-Grade and Diffuse Intrinsic PontineGlioma.Cancer Cell 32:520-537 e525.

  Mandelbaum J,Bhagat G,Tang H,Mo T,Brahmachary M,Shen Q,Chadburn A,Rajewsky K,Tarakhovsky A,Pasqualucci L et al.2010.BLIMP1 is a tumorsuppressor gene frequently disrupted in activated B cell-like diffuse large Bcell lymphoma.Cancer Cell 18:568-579.

  Maze I,Noh KM,Soshnev AA,Allis CD.2014.Every amino acid matters:essential contributions of histone variants to mammalian development anddisease.Nat Rev Genet 15:259-271.

  Mohammad F,Weissmann S,Leblanc B,Pandey DP,Hojfeldt JW,Comet I,ZhengC,Johansen JV,Rapin N,Porse BT et al.2017.EZH2 is a potential therapeutictarget for H3K27M-mutant pediatric gliomas.Nat Med 23:483-492.

  Monje M,Mitra SS,Freret ME,Raveh TB,Kim J,Masek M,Attema JL,Li G,Haddix T,Edwards MS et al.2011.Hedgehog-responsive candidate cell of originfor diffuse intrinsic pontine glioma.Proc Natl Acad Sci U S A 108:4453-4458.

  Morey L,Pascual G,Cozzuto L,Roma G,Wutz A,Benitah SA,Di CroceL.2012.Nonoverlapping functions of the Polycomb group Cbx family of proteinsin embryonic stem cells.Cell Stem Cell 10:47-62.

  Morgan MA,Shilatifard A.2013.Medicine.(Poly)combing the pediatriccancer genome for answers.Science 340:823-824.

  Nikbakht H,Panditharatna E,Mikael LG,Li R,Gayden T,Osmond M,Ho CY,Kambhampati M,Hwang EI,Faury D et al.2016.Spatial and temporal homogeneity ofdriver mutations in diffuse intrinsic pontine glioma.NatCommun 7:11185.

  Pathania M,De Jay N,Maestro N,Harutyunyan AS,Nitarska J,Pahlavan P,Henderson S,Mikael LG,Richard-Londt A,Zhang Y et al.2017.H3.3(K27M)Cooperateswith Trp53 Loss and PDGFRA Gain in Mouse Embryonic Neural Progenitor Cells toInduce Invasive High-Grade Gliomas.Cancer Cell 32:684-700 e689.

  Piunti A,Hashizume R,Morgan MA,Bartom ET,Horbinski CM,Marshall SA,Rendleman EJ,Ma Q,Takahashi YH,Woodfin AR et al.2017.Therapeutic targeting ofpolycomb and BET bromodomain proteins in diffuse intrinsic pontinegliomas.Nat Med 23:493-500.

  Pollard SM,Yoshikawa K,Clarke ID,Danovi D,Stricker S,Russell R,BayaniJ,Head R,Lee M,Bernstein M et al.2009.Glioma stem cell lines expanded inadherent culture have tumor-specific phenotypes and are suitable for chemicaland genetic screens.Cell Stem Cell 4:568-580.

  Qin EY,Cooper DD,Abbott KL,Lennon J,Nagaraja S,Mackay A,Jones C,VogelH,Jackson PK,Monje M.2017.Neural Precursor-Derived Pleiotrophin MediatesSubventricular Zone Invasion by Glioma.Cell 170:845-859 e819.

  Schwartzentruber J,Korshunov A,Liu XY,Jones DT,Pfaff E,Jacob K,SturmD,Fontebasso AM,Quang DA,Tonjes M et al.2012.Driver mutations in histone H3.3and chromatin remodelling genes in paediatricglioblastoma.Nature 482:226-231.

  Skene PJ,Henikoff JG,Henikoff S.2018.Targeted in situ genome-wideprofiling with high efficiency for low cell numbers.NatProtoc 13:1006-1019.

  Skene PJ,Henikoff S.2017.An efficient targeted nuclease strategy forhigh-resolution mapping of DNA binding sites.Elife 6.

  Takahashi K,Yamanaka S.2006.Induction of pluripotent stem cells frommouse embryonic and adult fibroblast cultures by defined factors.Cell 126:663-676.

  Tatavosian R,Duc HN,Huynh TN,Fang D,Schmitt B,Shi X,Deng Y,Phiel C,Yao T,Zhang Z et al.

  2018.Live-cell single-molecule dynamics of PcG proteins imposed bythe DIPG H3.3K27M mutation.NatCommun 9:2080.

  Wang X,Paucek RD,Gooding AR,Brown ZZ,Ge EJ,Muir TW,CechTR.2017.Molecular analysis of PRC2 recruitment to DNA in chromatin and itsinhibition by RNA.Nat Struct Mol Biol 24:1028-1038.

  Weinberg DN,Allis CD,Lu C.2017.Oncogenic Mechanisms of Histone H3Mutations.Cold Spring HarbPerspect Med 7.

  Wu G,Broniscer A,McEachron TA,Lu C,Paugh BS,Becksfort J,Qu C,Ding L,Huether R,Parker M et al.2012.Somatic histone H3 alterations in pediatricdiffuse intrinsic pontine gliomas and non-brainstem glioblastomas.Nat Genet44:251-253.

  实施例6

  人着丝粒染色质复合体的出人意料的构象变化

  染色体分离的保真度依赖于纺锤体微管通过蛋白质性质的动粒对染色体的高效捕获,所述动粒在称为着丝粒的特定染色体基因座处组装。人着丝粒由0.5-5Mb长的约170个碱基对的α卫星重复单元的串联阵列组成(Alexandrov等2001)。α-卫星DNA起源于灵长类动物谱系,后来通过重复扩增进化,在核心形成高度同质的年轻阵列,更多的趋异α-卫星序列占据着丝粒边缘。将这些同质的α卫星阵列组装成连续的图谱对现有的序列组装技术提出了严峻的挑战。为了解决这个问题,我们最近使用了由着丝粒蛋白结合的序列的自下而上的层次聚类来从头鉴定功能性着丝粒α卫星。我们发现最丰富的α卫星阵列包含基本的340bp或342bp二聚体单位(Henikoff等2015),其分别属于先前表征的α卫星的SF1和SF2超染色体家族(Alexandrov等2001)。

  着丝粒α卫星包含在特化的染色质中,其中典型组蛋白H3被其cenH3变体(称为着丝粒蛋白A(CENP-A))取代(Palmer等1987;Fukagawa和Earnshaw 2014)。CENP-A是组成型着丝粒相关网络(CCAN)复合体的一部分,该复合体包括CENP-B、CENP-C、CENP-N、CENP-T、CENP-W、CENP-S和CENP-X(Hori等2008)。使用比较染色质免疫沉淀(ChIP)和包括原生ChIP(N-ChIP)、交联ChIP(X-ChIP)和顺序ChIP(ReChIP)的DNA测序(ChIP-seq)策略,我们先前表明了CENP-B、CENP-C和CENP-T被物理整合,并与CENP-A核小体形成相干复合物。CENP-A、CENP-C和CENPT X-ChIP的微球菌核酸酶(MNase)消化导致>165-bp的对α-卫星二聚体的保护作用(Thakur和Henikoff,2016),然而在自然条件下,微球菌核酸酶消化主要导致范围在~100与~135bp之间的较短的CENP-A结合的α-卫星片段(Hasson等2013;Henikoff等2015;Nechemia-Arbely等2017)。

  我们和其他人已经发现,当用350-500mM NaCl提取时,着丝粒染色质是稳定的(Zhang等2012;Hasson等2013;Henikoff等2015)。我们还发现,相对于低盐条件,500mMNaCl增加了着丝粒染色质的回收率(Thakur和Henikoff,2016),产生了回收率的差异是否反映着丝粒染色质性质的定性差异的问题。由于经典的染色质盐分级分离已被用于分离具有不同物理性质(Sanders 1978)、功能(Rocha等1984)和全基因组分布(Henikoff等2009;Jahan等2016年)的核小体,因此我们想知道大多数着丝粒染色质是否由于CCAN组分的存在而变得不可溶,所述CCAN组分不存在于在天然微球菌核酸酶-ChIP研究中通常被回收的可溶性级分中。

  为了解决天然条件下的溶解度差异反映着丝粒染色质的定性差异的可能性,我们将盐分级分离的染色质进行着丝粒蛋白的N-ChIP。我们通过采用我们最近开发的CUT&RUN(核酸酶靶向裂解和释放)原位靶向作图方法(用于剖析特定着丝粒组分)进一步探索盐溶解度的差异。我们发现属于同一α卫星亚家族的二聚体重复序列之间的微小序列差异对应着着丝粒蛋白结合和复合体本身结构两者的差异。

  结果和讨论

  CUT&RUN盐分级分离(CUT&RUN.Salt)释放出离散的含CENP-A的复合物

  尽管30多年来ChIP一直是用于对特定蛋白质-DNA相互作用进行作图的主要方法,但最近关于ChIP-seq假象的报道(Park等2013;Teytelman等2013;Jain等2015)强调了使用非ChIP方法(Zentner等2015)验证的重要性。着丝粒研究中特别关注的是用于N-ChIP的微球菌核酸酶引起啃噬和内部裂解(Brogaard等2012),导致不确定颗粒被完全包裹还是部分包裹(Hasson等2013)的趋势。我们最近引入了CUT&RUN,一种与ChIP无关的高效靶向核酸酶方法,因为其在不溶解基因组其余部分的情况下引起完整抗体靶向颗粒的精确裂解和释放(Skene和Henikoff,2017b)。在我们最近的CUT&RUN方案(Skene和Henikoff 2017a)中,将抗体添加到与磁珠结合的透化细胞中,随后添加微球菌核酸酶与蛋白A(pA-MN)之间的蛋白融合,其与抗体结合。微球菌核酸酶被钙激活,然后在175mM NaCl存在的情况下,通过与EDTA和EGTA螯合而被终止。当微球菌核酸酶被系连至CUT&RUN中的特定位点时,在超过消化时间两个数量级的范围内没有可检测到的啃噬、可及性偏差或内部裂解,甚至对于高度富含AT的DNA也是如此。此外,因为没有染色质增溶,还可剖析从不溶性沉淀中提取的DNA的CUT&RUN裂解模式(Skene和Henikoff,2017b)。为了使CUT&RUN适应盐分级分离(CUT&RUN.盐),加入不含RNA酶的螯合终止缓冲液,并且在除去上清液后,我们用500mM NaCl孵育细胞/珠粒沉淀。然后,我们从低盐和高盐上清液以及最终沉淀中提取DNA(图49A)。CUT&RUN非常适合盐分级分离,因为抗体识别发生在DNA被裂解之前,然而在ChIP中,抗体识别或DNA回收可能受到盐诱导的颗粒构象变化的影响,诸如颗粒完整性的丧失。对于所有三个级分,我们在对来自CENP-A、CENP-B和CENP-C的qPCR的DNA的qPCR测定中而非在阴性对照H3K27me3CUT&RUN.Salt测序文库中观察到着丝粒α卫星的明显富集(图49B)。与我们的N-ChIP结果一致,大多数染色质(约70%–80%)在高盐CUT&RUN.盐级分中被扩增(图49C)。

  当进行配对末端25-bp x 25-bp的DNA测序并作图到共有的α卫星阵列时,相对于背景对照,所有三个级分均显示CENP-A、CENP-B和CENP-C在均质二聚体α卫星(SFI、D5Z2、D7Z1和SF2)上的强富集,以及在非均质α卫星(D5Z1和D7Z2)上弱富集。正如所预期的,中心周围组蛋白标记(H3K9me2和H3K9me3)显示在α卫星上的弱富集,而常染色质标记(H3K27me2和H3K27me3)显示出强耗竭。

  为了分析CUT&RUN.盐片段的片段长度分布,我们对CUT&RUN.盐级分进行了配对末端250-bp x 250-bp测序,并将合并对作图到活性着丝粒α卫星重叠群。与N-ChIP盐级分之间观察到的异质大小分布相反,我们观察到低盐与高盐CUT&RUN.盐级分之间的更加一致得多的大小分布(图40A)。对于CENP-A、CENPB和CENP-CCUT&RUN.盐,所有三个级分均显示在约160-185bp处的主峰和在约340bp处的次峰。关于α卫星重叠群的CENP-A CUT&RUN.盐图谱显示,低盐、高盐和沉淀级分中的离散的CCAN复合物(图40B)与使用X-ChIP观察到的那些相似(Thakur和Henikoff,2016年)。因此,CUT&RUN.盐不仅在天然条件下释放完整的CENP-A/B/C复合物(从而避免潜在的交联假象),而且还保护颗粒不受破坏,这与其中未系连的微球菌核酸酶产生100-bp的亚颗粒的N-ChIP相反。

  坚固致密的CENP-B盒稳定CENP-A/B/C复合物

  如上针对CENP-A N-ChIP所看到的,对于CENP-B盒CENP-A、CENP-B和CENP-C CUT&RUN.盐的差异溶解度最明显,对于相同的α卫星重叠群,随着盐的增加,占用率也增加。有趣的是,当对多个340-bp单位上取平均值时,对于高盐和沉淀级分中的CENP-B盒精确地观察到CCENP-B CUT&RUN占用率的峰值,而对于低盐级分则没有观察到CCENP-B CUT&RUN占用率的峰值(图41A)。再加上CCAN颗粒在CUT&RUN中的保存,这种平均峰值的缺失表明存在两种不同类别的颗粒:稳定颗粒(其抗分裂并且富集CENP-B)和不太稳定的颗粒(其已经耗尽了CENP-B)。

  我们想知道如通过CUT&RUN.盐测量的CCAN完整性是否反映了CENP-B的稳定作用。在人着丝粒上具有梯度趋异性的α卫星序列的存在提供了测试这种可能性的机会(Henikoff等2015)。最近扩展的丰富的富含CENP-α-卫星二聚体阵列包含高密度的CENP-B盒(约每340-bp二聚体一个CENP-B盒)。随着进化时间的推移,由于随机突变的积累,旧的α卫星变得更加趋异,这导致CENP-B盒的完全丢失或退化。我们询问CENP-B盒序列与祖先基序的趋异性是否对应于α卫星结合CENP-A/B/C的能力,以及因此对应于形成着丝粒的能力。

  为了解决这个问题,我们首先将17-bp CENP-B盒的中间15bp确定为祖先,因为其以规律的间隔存在于大多数同质SF1(例如D5Z2)、SF2(例如Cen13样)和SF3(例如DXZ1)α卫星重叠群中。然后,我们使用基序比对和搜索工具(MAST)鉴定了这一基序在统计学上显著的出现,并对它们进行0(三个以上的错配)与1(相同)之间的评分。我们发现CENP-B基序评分的增加与CENP-A相对于非特异性IgGCUT&RUN占用用的富集相关(图41B)。具体来说,当对两次生物重复取平均值时,我们观察到所有三种盐级分的皮尔逊相关系数r=0.66-0.83。我们的结论是,强CENP盒的存在与CENP-A/B/C的稳定相关。

  CENP-B盒密度从二聚体阵列上最高变化至异质单体阵列上最低。由于CENP-B以序列依赖性方式与CENP-B盒结合,因此CENP-B蛋白密度在较年轻的同质阵列上也有望更高。我们测试了来自旧序列的CENP-B盒的丢失(CENP-B盒密度的减小)程度是否与这些序列上CENP-A结合的减少相关。我们在较长的α卫星重叠群上绘制了CENP-B密度与CENP-A富集的对比图,并观察到CENP-B基序密度与CENP-A富集之间的强相关性(r=0.62–0.75)(图41C)。这表明坚固致密的CENP-B盒的维持增加了CENP-A/B/C与α-卫星着丝粒结合的效率。我们的证据表明,同质功能性α-卫星阵列中的CENP-B盒已经演化至稳定驻留的CENP-A/B/C颗粒,这为CENP-B通过稳定CENP-C促成分离保真度的提议提供了支持(Fachinetti等2015)。

  趋异的α卫星在CENPA组装方面保留了一定能力

  尽管最高的CENP-A富集发生在具有致密CENP-B盒的高度同质的阵列上,但在CUT&RUN.盐和盐分级分离N-ChIP实验中,qPCR测定还揭示了包含稀疏的CENP-B盒或不包含CENP-B盒的趋异同序列上的CENP-A盒的量(图41C)。在趋异的α卫星上用细胞学方法检测低水平的CENP-A是困难的,因为与用CENP-A明亮染色的同质二聚体的检测相比时,它们的拷贝数较低。例如,同质D7Z1(1.5-3.8Mb)显示与CENP-A有很强的细胞学共定位,而据报道趋异的D7Z2(0.1-0.5Mb)对CENP-A结合呈阴性(Slee等,2012)。我们将异质单体α卫星上的CUT&RUN.盐样品中的CENP-A富集与非着丝粒序列(包括β卫星-68至69-bp的中心周围串联重复序列阵列)进行了比较。我们发现D7Z2上的CENP-A相对于重复掩蔽的基因组和β-卫星阵列上的CENP-A富集了三倍以上(图41D),表明即使是完全缺乏CENP-B基序的趋异的α-卫星阵列也保留了一些CENP-A组装的能力。

  几乎同质的α-卫星阵列上CENP-A/B/C的意外结构和构象变化

  尽管完全同质的α-卫星阵列不能从标准测序读数中唯一地组装,但约5%的趋异足以将一些测序读数组装成重叠群。正如我们所预期的,所有高度同质的阵列的拷贝都会显示出相同的模式,当我们将250-bp×250-bp融合对作图到相邻重复序列时,我们惊讶地发现它们之间的主要差异。我们观察到对应于注释的BAC克隆和基因组重叠群的均质阵列内的三种主要类型的变化(图42):(1)CENP-A/B/C对单个二聚体的差异占用率。我们在单个阵列中观察到最低与最高占用的二聚体之间的富集差异高达约50倍。(2)CENP-A/B/C相对于CENP-B盒的取定向。SF1α-卫星二聚体阵列中两个CENP-B盒之间的距离为340bp,以首尾相连的方式单向取向。因此,预期含CENPA/B/C的复合物的取向是单向的。与这一预期相反,我们观察到,即使在单个连续的α-卫星重叠群内,CENPA/B/C也可以相对于CENP-B盒取向(图42中的红色箭头)在任一侧取向。(3)结构变化。我们在这些重叠群上观察到CENP-A/B/C的不同构型,包括跨越整个340-bp二聚体的对称复合物(其中在二聚体的两个单体上存在几乎相等的CENP-A/B/C结合),或优先占据二聚体的一个单体的不对称复合物。对于非常小的序列差异,在α-卫星二聚体上观察到含CENP-α颗粒的此类剧烈结构变化。例如,在图42的底图中叠加显示的四个相邻340-bp D7Z 1重复单元在配对比较中88%–96%相同,但在CCAN结构中所有四个单元均彼此不同。因此,似乎轻微的α-卫星序列变化会影响含CENP-A的复合物的结合行为。显然,多种CCAN形式可以招募外动力点,尽管可能只有一种结构形式有能力招募。这些差异可能是CCAN所结合的序列所固有的,或者反映了类似于果蝇D1、GAGA因子和Prod蛋白的非组蛋白卫星DNA结合蛋白的排斥作用(Levinger和Varshavsky 1982;Raff等1994;Torok等1997)。

  我们使用盐分级分离法对CENP-A/B/C的作图证实了我们之前的报告,在该报告中,我们显示同质的α-卫星阵列被单一的相干CCAN复合体占据,该复合体包含CENP-A、CENP-B、CENP-C和CENP-T(Thakur和Henikoff,2016)。我们对CENP-T亚复合体在CENP-B盒上的作图使我们提出了模型,在这个模型中,每个α-卫星二聚体单元都以右手超螺旋手性缠绕在两个CENP-A/H4/H2A/H2B亚核小体之间的CENP-TWSX亚颗粒周围。未交联的CCAN对微球菌核酸酶消化的敏感性可以部分解释导致关于CENP-A核小体结构的矛盾结论的DNA保护的差异。然而,通过使用盐分级分离进行N-ChIP,我们现在表明使用低盐条件观察到的CENP-A颗粒(Lacoste等,2014;Nechemia-Arbely等2017)仅占全基因组总CENP的一小部分。相比之下,主要的N-ChIP盐级分由保护大得多的DNA片段的颗粒组成,这与完整的CCAN复合物的存在相一致。我们的证据表明,在同质α-卫星阵列中,CENP-B与CENP-B盒的结合促进了CCAN的完整性,这为CENP-B的特殊作用提供了证据。另外,我们的发现表明,CCAN组分以低水平被招募到缺乏CENP-B盒的D7Z2α-卫星阵列,并且未显示CENP-B的富集,这表明即使在CEMP-B不存在的情况下,也存在固有的CCAN招募潜力。因此,CCAN的占用率是由α-卫星序列决定的,但可通过CEMP-B与阵列的结合来增强。

  材料和方法

  细胞系、抗体和引物

  在加CENP-A Flag标签的HT1080-1b细胞系(Thakur和Henikoff 2016)中进行盐分级分离N-ChIP测定,并在K562细胞系中进行CUT&RUN.盐实验。所使用的抗体是抗CENP-A(Abcam,ab13939)、抗CENP-B(Abcam,ab25734)、抗CENP-C(Abcam,ab33034)、组蛋白H3K27me3(Cell Signaling Technologies,9733)、IgG(Antibodies Online,ABIN102961)和MTPOL(GeneTex,GTX105137)。

  CUT&RUN.盐

  人除了在消化后,修改方案以允许盐分级分离外,基本上如所描述的(Skene和Henikoff 2017b),进行K562细胞或细胞核的CUT&RUN。图41所示的实验使用透化细胞而非细胞核(Skene和Henikoff 2017a)。进行配对末端250-bp×250-bp或25-bp×25-bp测序。

  序列分析

  使用SeqPrep,利用以下参数对配对末端250-bp×250-bp的读数进行修剪和合并:-q 25-L 25-o 15,如上所述(Henikoff等2015)。使用Bowtie2,利用以下参数对合并对和配对末端25-bp×25-bp的读数作图:--end-to-end--very-sensitive--no-mixed--no-discordant-q--phred33-I 10-X 700。对于CUT&RUN.盐,使用所述(Skene和Henikoff2017b)加标对照校准读数计数。富集值代表特异性抗体对比非特异性IgG对照的校准的读数计数的比率。为了估计基序的强度和密度,我们推断15-bp CENP-B盒基序是祖先基序,因为其在最同质的SF1(例如Cen1样)、SF2(例如Cen13样)和SF3(例如DXZ1)α-卫星阵列中以规律的间隔被发现。如所描述的(Zentner等2015),我们对重叠群的统计上显著的出现进行扫描以鉴定CENP-B基序并计算CENP-B盒的错配和密度。我们将基序评分定义为与15-bp共有序列相同的程度,其中15个碱基都匹配等于1,超过3个不匹配等于0,每个不匹配减去0.25的值,等级范围为0(无显著基序)至1(完美基序)。

  实施例6的参考文献(其每一篇通过引用整体并入)

  Alexandrov I,Kazakov A,Tumeneva I,Shepelev V,Yurov Y.2001.α-SatelliteDNA of primates:old and new families.Chromosoma 110:253–266.

  Brogaard KR,Xi L,Wang JP,Widom J.2012.A chemical approach to mappingnucleosomes at base pair resolution in yeast.MethodsEnzymol 513:315–334.

  CherejiRV,OcampoJ,Clark DJ.2017.MNase-sensitivecomplexes in yeast:nucleosomes and non-histone barriers.Mol Cell 65:565–577.e563.

  Fachinetti D,Han JS,McMahon MA,Ly P,Abdullah A,Wong AJ,ClevelandDW.2015.DNA sequence-specific binding of CENP-B enhances the fidelity ofhuman centromere function.Dev Cell 33:314–327.

  Fukagawa T,Earnshaw WC.2014.The centromere:chromatin foundation forthe kinetochore machinery.Dev Cell 30:496–508.

  Hasson D,Panchenko T,Salimian KJ,Salman MU,Sekulic N,Alonso A,Warburton PE,Black BE.2013.The octamer is the major form of CENP-Anucleosomes at human centromeres.Nat Struct Mol Biol 20:687–695.

  Henikoff S,Henikoff JG,Sakai A,Loeb GB,Ahmad K.2009.Genome-wideprofiling of salt fractions maps physical properties of chromatin.Genome Res19:460–469.

  Henikoff JG,Thakur J,Kasinathan S,Henikoff S.2015.A unique chromatincomplex occupies youngα-satellite arrays of human centromeres.Sci Adv 1:e1400234.

  Hori T,Amano M,Suzuki A,Backer CB,Welburn JP,Dong Y,McEwen BF,ShangWH,Suzuki E,Okawa K,et al.2008.CCAN makes multiple contacts with centromericDNA to provide distinct pathways to the outer kinetochore.Cell 135:1039–1052.

  Jahan S,XuW,He S,Gonzalez C,DelcuveGP,Davie JR.2016.The chickenerythrocyte epigenome.Epigenetics Chromatin 9:19.Jain D,Baldi S,Zabel A,Straub T,Becker PB.2015.Active promoters give rise to false positive‘phantompeaks’in ChIP-seq experiments.Nucleic Acids Res 43:6959–6968.

  Lacoste N,Woolfe A,Tachiwana H,Garea AV,Barth T,Cantaloube S,Kurumizaka H,Imhof A,Almouzni G.2014.Mislocalization of the centromerichistone variant CenH3/CENP-A in human cells depends on the chaperone DAXX.MolCell 53:631–644.

  Levinger L,Varshavsky A.1982.Protein D1 preferentially binds A+T-richDNA in vitro and is a component of Drosophila melanogaster nucleosomescontaining A+T-rich satellite DNA.Proc Natl Acad Sci 79:7152–7156.

  McNulty SM,Sullivan LL,Sullivan BA.2017.Human centromeres producechromosome-specific and array-specificαsatellite transcripts that arecomplexed with CENP-A and CENP-C.Dev Cell 42:226–240.e226.

  Mieczkowski J,Cook A,Bowman SK,Mueller B,Alver BH,Kundu S,Deaton AM,Urban JA,Larschan E,Park PJ,et al.2016.MNase titration reveals differencesbetween nucleosome occupancy and chromatin accessibility.NatCommun 7:11485.

  Nechemia-Arbely Y,Fachinetti D,Miga KH,Sekulic N,SoniGV,Kim DH,WongAK,Lee AY,Nguyen K,Dekker C,et al.2017.Human centromeric CENP-A chromatin isa homotypic,octameric nucleosome at all cell cycle points.J Cell Biol 216:607–621.

  Palmer DK,O’Day K,Wener MH,Andrews BS,Margolis RL.1987.A 17-kDcentromere protein(CENP-A)copurifies with nucleosome core particles and withhistones.J Cell Biol 104:805–815.

  Park D,Lee Y,Bhupindersingh G,Iyer VR.2013.Widespreadmisinterpretable ChIP-seq bias in yeast.PLoS One 8:e83506.Raff JW,Kellum R,Alberts B.1994.The Drosophila GAGA transcription factor is associated withspecific regions of heterochromatin throughout the cell cycle.EMBO J 13:5977–5983.

  Rocha E,Davie JR,van Holde KE,Weintraub H.1984.Differential saltfractionation of active and inactive genomic domains in chicken erythrocyte.JBiol Chem 259:8558–8563.

  SandersMM.1978.Fractionation of nucleosomes by salt elution frommicrococcal nuclease-digested nuclei.J Cell Biol 79:97–109.

  Skene PJ,Henikoff S.2017a.CUT&RUN:targeted in situ genome-wideprofiling with high efficiency for low cell numbers.bioRxivdoi:10.1101/193219.

  Skene PJ,Henikoff S.2017b.An efficient targeted nuclease strategy forhigh-resolution mapping of DNA binding sites.eLife 6:e21856.

  Slee RB,Steiner CM,Herbert BS,Vance GH,Hickey RJ,Schwarz T,ChristanS,Radovich M,Schneider BP,Schindelhauer D,et al.2012.Cancer-associatedalteration of pericentromeric heterochromatin may contribute to chromosomeinstability.Oncogene 31:3244–3253.

  Teytelman L,Thurtle DM,Rine J,van Oudenaarden A.2013.Highly expressedloci are vulnerable to misleading ChIP localization of multiple unrelatedproteins.Proc Natl Acad Sci 110:18602–18607.

  Thakur J,Henikoff S.2016.CENPT bridges adjacent CENPA nucleosomes onyoung humanα-satellite dimers.Genome Res 26:1178–1187.Torok T,Harvle PD,Buratovich M,Bryant PJ.1997.The product of proliferation disrupter isconcentrated at centromeres and required for mitotic chromosome condensationand cell proliferation in Drosophila.Genes Dev 11:213–225.

  Xi Y,Yao J,Chen R,Li W,He X.2011.Nucleosome fragility reveals novelfunctional states of chromatin and poises genes for activation.Genome Res 21:718–724.

  Zentner GE,Kasinathan S,Xin B,Rohs R,Henikoff S.2015.ChEC-seqkinetics discriminate transcription factor binding sites by DNA sequence andshape in vivo.NatCommun 6:8733.

  ZhangW,Colmenares SU,KarpenGH.2012.Assembly of Drosophila centromericnucleosomes requires CID dimerization.Mol Cell 45:263–269.

  实施例7

  染色质修饰的自动化原位剖析解决了细胞类型和基因调控程序

  引言

  细胞通过改变控制基因表达的顺式调控DNA元件的活性来建立其独特的身份和功能特性1,2。启动子元件位于所有基因的5’转录起始位点(TSS)附近,而远端顺式调控元件(诸如增强子)通常桥接DNA中的长区段以与选择的启动子相互作用并指导细胞类型特异性基因表达1,2。除了它们的遗传内容(即DNA序列)以外,我们的细胞还以可遗传的表观遗传信息的形式在细胞分裂中传递这些独特的顺式调控确认(cis-regulatory confirmations),从而允许它们传递它们的独特细胞身份3,4。识别这些顺式调控元件的核蛋白的缺陷是许多人疾病的基础,所述疾病通常表现在特定的组织和细胞类型中5-9。为了给患者样品的分子诊断提供参考,正在努力生成人体细胞的综合图谱10,11。描述健康和患病细胞中细胞类型特异性染色质景观对该图谱至关重要,然而,技术限制阻碍了在该项目所需的宏大规模上实施染色质蛋白质全基因组图谱的传统方法。

  尽管越来越多的人意识到表观遗传机能障碍是许多人疾病的基础12,但很少有方法可用来剖析病人样品的表观基因组。实现表观基因组学技术的临床潜力需要强健的、可扩展的方法,所述方法能够并行地剖析大量患者样品。利用抗原特异性抗体的染色质免疫沉淀与高通量测序相结合已被广泛用于染色质剖析,但这种方法劳动强度大,容易产生假象13,并且需要很高的测序深度来区分微弱信号与基因组背景噪声,这使得其在临床应用上难以规模化。最近,我们引入了CUT&RUN作为替代染色质分析技术,该技术使用因子特异性抗体将微球菌核酸酶(MNase)系连至基因组结合位点14,15。靶向核酸酶裂解结合位点周围的染色质,释放的DNA可使用标准文库制备技术来容易测序,导致蛋白质-DNA相互作用的高效作图。CUT&RUN的背景非常低,这大大减少了获得高质量全基因组图谱所需的样本量和测序成本14,16。

  此处,我们修改了CUT&RUN方案以在液体操作机器人上以96孔的形式剖析染色质蛋白质和修饰。通过将该方法应用于H1人胚胎干细胞(hESC)系和K562白血病细胞系,我们开发了稳健的定量指标来比较细胞类型并鉴定它们的独特基因调控程序。另外,我们表明这种方法能够从冷冻肿瘤样品中确定染色质特征,以确定它们的细胞身份。AutoCUT&RUN是基于染色质的基因调控的高通量研究的理想选择,并且可以使临床上对患者样品的染色质景观的检查成为常规。

  结果

  用于染色质蛋白质的全基因组剖析的自动化平台

  为了使CUT&RUN适应自动化形式,我们配备了Beckman BiomekFx液体操作机器人来促进磁性分离和温度控制(图43A)。首先,使细胞与伴刀豆球蛋白A包被的磁珠结合,这允许所有后续的洗涤通过磁性分离进行。然后将珠粒包被的样品与抗体一起孵育,将多达96个样品排列在平板上(图43A)。在Biomek上进行连续洗涤、蛋白质-微球菌核酸酶融合蛋白的系连、DNA裂解和裂解的染色质片段至样品上清液中的释放(图49A)。阻碍自动化基因组方案的主要障碍是它们通常需要在文库制备前纯化少量核酸。为了克服这个障碍,我们开发了抛光染色质片段中的DNA末端以直接连接Illumina文库衔接子的方法(图49A)。然后,在PCR富集之前和之后,在Biomeck上使用Ampure XP磁珠纯化索引的CUT&RUN文库。在分开的热循环仪上进行末端抛光、衔接子连接和PCR富集反应。这种AutoCUT&RUN方案允许单个操作者在2天内生成多达96个准备进行混合测序文库(图43A)。

  为了测试AutoCUT&RUN的功效,我们同时使用靶向四种组蛋白修饰(所述修饰标记活性染色质位点)(H3K4me1、H3K4me2、H3K4me3和H3K27ac)和一种抑制性修饰(H3K27me3)的抗体对H1hESC和K562细胞的两个生物学重复进行了剖析。比较每个组蛋白标记的读数的全局性分布,我们发现样品与它们的生物学复制高度相关,并且一起簇聚在无偏层次矩阵中(图43B)。另外,一起簇聚在给定的细胞类型内并与抑制性组蛋白标记H3K27me3分离的活性组蛋白标记的全基因组图谱(图43B)。这些图谱代表抗体特异性信号,因为它们与IgG阴性对照的相关性很小。总的来说,这些结果表明AutoCUT&RUN染色质剖析可再现地捕获组蛋白标记的细胞类型特异性分布。

  组蛋白与染色质中的DNA紧密缔合,所以我们也检查了AutoCUT&RUN是否可用于作图停留时间更短的与DNA结合的转录因子。我们用两种转录因子(组蛋白基因座特异性基因调控因子NPAT和绝缘子蛋白CTCF测试了AutoCUT&RUN的性能17,18。NPAT和CTCF的AutoCUT&RUN图谱在H1和K562细胞中都高度特异于其预期靶标(图49B,图49C),CTCF在K562细胞中的信号灵敏度与我们以前的结果相当15。因此,AutoCUT&RUN适用于高通量、全基因组范围的不同DNA结合蛋白的剖析。

  为了保持其发育的可塑性,hESC通常具有开放的、高乙酰化的染色质景观,其间散布着以重叠的H3K27me3和H3K4甲基化为标志的被抑制的兼性异染色质区域19-22。AutoCUT&RUN在hESC中概括了这些特性;我们观察到,与谱系受限的K562细胞系相比,H1细胞具有增加的H3K27ac,然而抑制性组蛋白标记H3K27me3的结构域在H1细胞中很罕见,但在K562细胞中普遍存在(图44A)。我们还在H1细胞中观察到H3K27me3与H3K4me2信号之间的广泛重叠,但在K562细胞中没有(图44A,图44B)。因此,Auto CUT&RUN图谱与hESC中的特化的色质特征是一致的。

  对H3组蛋白尾部的翻译后修饰已被充分证明与转录活性密切相关。为了确定我们的组蛋白修饰的AutoCUT&RUN图谱是否指示了顺式调控元件的转录活性,我们检测了基因转录起始位点(TSS)周围的五个组蛋白标记的分布,按照核糖核酸序列的表达数据进行排序(图44C,图44D)23。我们发现活性标记H3K4me3与两种细胞类型中的表达高度相关(对于H1和K562,r分别为0.70和0.81),其次是H3K4me2和H3K27ac(图49D,图49E)。抑制性组蛋白标记H3K27me3与表达反相关(在H1和K562中r分别为-0.16和-0.53)(图49D,图49E)。我们得出,这五个标记的AutoCUT&RUN广泛地概括了转录活性,提供了鉴定细胞类型特异性基因调控程序的策略。

  简单的染色质指标可从AutoCUT&RUN数据解析基因表达程序。

  我们想开发可应用于AutoCUT&RUN数据以比较细胞类型和区分它们的基因调控程序的定量指标。因为H3K4甲基化和H3K27ac主要标记活性启动子,而H3K27me3指示基因阻遏的程度,我们推断通过将这些标记结合到单个模型中,我们可以开发更可靠的基因活性指标。RNA-seq已被广泛用于鉴定细胞类型特异性基因表达程序23,因此我们使用RNA-seq数据作为训练加权线性回归模型的参考,该模型将归一化的H3K4me2、H3K27ac和H3K27me3读数计数整合到顺式调控元件活性模型(CREAM)中,该模型为启动子赋予相对活性分数。选择H3K4me2而不是H3K4me3和H3K4me1,因为这些标记是相互依赖的,并且因为H3K4me2唯一适用于对近端和远端顺式调控元件的活性建模(见下文)。当应用于K562细胞的启动子时,CREAM分数与RNA-seq值具有很好的相关性(r=0.83)(图45A),为预测基因表达提供了与使用多达39个由ChIP-seq(r=0.81)作图的组蛋白修饰的相似模型相当的能力24。另外,在K562细胞上训练的加权CREAM在应用于H1细胞时也表现良好(图50A,图50B),表明模型和数据质量足够稳健,可以将启动子评分赋予未表征的细胞类型。

  通过使用这一模型,我们检验了AutoCUT&RUN是否能准确鉴定具有细胞类型特异性活性的启动子。我们最初将我们的分析集中在具有单个TSS的基因上,所述基因可被明确地赋予RNA-seq值,并被称为其CREAM分数在H1或K562细胞中富集了两倍以上的启动子(图45B)。为了进行比较,我们还根据基因的RNA-seq表达值调用于了在H1或K562细胞中富集了两倍以上的所述基因(图50C)。通过在由RNA-seq值生成的图中显示通过CREAM分数鉴定的H1和K562特异性基因,我们发现许多通过CREAM分数鉴定为细胞类型特异性的基因被RNA-seq忽略(图45B,图45C),反之亦然(图50C,图50D),这表明这些方法对许多基因表达的变化表现出差异敏感性。令人鼓舞的是,根据CREAM分数和RNA-seq被称为细胞类型特异性的865个基因高度富集发育调控因子,然而仅根据CREAM分数或RNA-seq调用的基因未富集发育GO项(developmental GO term)(图45D,图50E-50G)。另外,根据RNA-seq,只有35/2,014的根据CREAM被称为细胞类型特异性的基因具有相反的细胞类型特异性(图45D)。因此,AutoCUT&RUN可用于准确鉴定细胞类型特异性发育调控因子。

  为了确定AutoCUT&RUN数据是否概括了高度表征的转录因子的细胞类型特异性,我们扩展了我们的CREAM分析以包括所有启动子。我们发现hESC多能性网络的组分(NANOG、SOX2、SALL4和OTX2)在H1细胞中高度富集,而造血祖细胞命运的调控因子(PU1、TAL1、GATA1和GATA2)在K562细胞中高度富集(图45E)25,26。有趣的是,这种方法还鉴定替代启动子活性(例如OTX2和TAL1)的差异,提供在给定细胞类型中表达的特定基因同种型的指示(图45E),这是使用RNA-seq不可能实现的特征。我们的结论是,AutoCUT&RUN允许鉴定细胞身份的主要调控因子,提供了强有力的工具来以高通量的形式表征细胞类型。

  通过AutoCUT&RUN剖析肿瘤

  剖析蛋白质-DNA相互作用的常规方法(例如ChIP-seq)通常不能处理临床相关样品,所述样品通常含有少量的起始材料,并且已经被快速冷冻。为了测试AutoCUT&RUN是否适用于剖析冷冻肿瘤标本,我们获得了两种弥漫性中线胶质瘤(DMG)患者来源的细胞系(VUMC-10和SU-DIPG-XIII),所述细胞系通过解剖来自脑干的相似区域,但它们的致癌背景不同27。这两种DMG细胞系在鼠模型中均很容易形成异种移植物,我们应用AutoCUT&RUN分析了VUMC-10和SU-DIPG-XIII异种移植物中的组蛋白修饰,所述异种移植物被接种在小鼠脑中,然后在肿瘤形成时将其切除并在典型的临床条件下进行冷冻(图46A)。为了进行比较,我们还直接从细胞培养物中收获了这些DMG,并在相同的AutoCUT&RUN板上对它们进行了剖析(图46A)。同样,我们发现重复非常相似,所以我们将它们组合起来作进一步分析。重要的是,细胞培养样品与在相应的冷冻异种移植物中剖析的相同标记高度相关,异种移植物组织和细胞培养样品的AutoCUT&RUN产生相似的数据质量(图46B,图51)。因此,AutoCUT&RUN可以从冷冻组织样品中可靠地生成全基因组染色质图谱。

  将癌症患者分层成有效的治疗组需要区分来源于相同组织的肿瘤亚型,这使得VUMC-10和SU-DIPG-XIII样品成为探索AutoCUT&RUN的诊断潜力的理想样品。通过将CREAM应用于这些样品,我们鉴定了5,006个启动子,所述启动子在VUMC-10与SU-DIPG-XIII之间显示出差异活性(图47A)。与这些肿瘤的神经元起源一致,VUMC-10和SU-DIPG-XIII特异性启动子均显著富集了参与神经元发育的基因(图52A,图52B)。参与细胞信号传导的基因也在SU-DIPG-XIII细胞中过表达(图52B);例如,PDGFR基因的启动子及其配体PDGF在SU-DIPG-XIII细胞中具有高度活性(图47A)。这与DMG经常包含促进肿瘤生长的PDGFR-α中的激活突变的观察结果一致7。另外,SMAD3基因的一个启动子(TGF-β信号传导途径的组分28)在SU-DIPG-XIII细胞中具有特异性活性,然而两个不同的SMAD3启动子在VUMC-10细胞中具有活性(图47A,图图51)。这表明AutoCUT&RUN可用于鉴定显示肿瘤特异性活性的启动子,提供可能驱动肿瘤生长和对治疗剂的潜在易感性的信号传导途径的指示。

  作为诊断工具,我们推断使用CREAM的AutoCUT&RUN可用于定量评估细胞类型和组织样品,并将它们放在健康和患病细胞类型的预定义参考图谱中。与这一想法一致,CREAM分数表明,尽管5,006个基因启动子在VUMC-10与SU-DIPG-XIII之间显示出差异活性(图47A),但在VUMC-10冷冻异种移植物与VUMC-10培养细胞之间只有388个启动子具有差异活性(图47B),而在SU-DIPG-XIII异种移植物与培养细胞之间只有1,619个启动子具有差异活性(图52C)。此外,当我们将四个DMG样品的启动子CREAM分数与H1和K562细胞进行比较时,我们发现DMG异种移植物迄今为止与它们相应的细胞培养样品最为相似(图47C)。我们的结论是,Auto CUT&RUN可用作可靠的方法来将细胞身份赋予冷冻肿瘤样品。

  细胞类型特异性增强子的高通量作图

  基因启动子的细胞类型特异性活性通常是通过整合来自远端顺式调控元件(诸如增强子)的信号建立的1,2。与启动子相似,增强子也显示H3K4me229,活性增强子通常由H3K27ac标记,然而抑制性增强子由H3K27me3标记22,30,31。这表明我们用于赋予启动子CREAM分数的AutoCUT&RUN图谱也应该允许鉴定细胞类型特异性增强子。为了研究这种可能性,我们首先将我们的H1数据与由ATAC-seq生成的可获得的染色质可及性图谱进行了比较,所述图谱富集活性启动子和增强子32,33。在我们剖析的标记中,我们发现H3K4me2峰显示出与ATAC-seq的最高重叠(图48A,图53A),并鉴定出36,725/52,270个ATAC-seq峰(约70%)。有趣的是,H3K4me2在另外71,397个位点也很普遍,所述位点在ATACATAC-seq图谱中不称为峰(图48A,图53A)。这些H3K4me2特异性位点中的许多位点显示出低的但可检测的ATAC-seq信号(图53B),表明它们可能对应于被抑制的启动子和增强子。与这种解释一致,平均来说,H3K4me2+/ATAC-TSS比ATAC+TSS具有更高的H3K27me3信号(图53C)。通过将H3K4me2+/ATAC+峰分为与经注释的TSS重叠的那些峰和不重叠的峰,我们发现H3K4me3在启动子处富集得多得多,而H3K4me1在远端调节元件处富集得更多(图48B,图48C,图53D),这表明这些远端调控元件可能富集了增强子22,34。因此,通过AutoCUT&RUN对H3K4me2的位点作图提供了用于确定控制基因表达程序的活性和抑制性顺式调控元件的库的灵敏方法。

  最后,我们检验了AutoCUT&RUN是否可用于鉴定细胞类型特异性增强子。为了扩大假定的增强子位点的数量,我们从所有我们的样品中汇编了在H3K4me2图谱中调用的非TSS峰的列表。通过使用我们的线性回归模型,我们然后给这些元件赋予增强因子CREAM分数,并检查它们在不同细胞类型之间的相关性。我们发现DMG细胞培养物样品与异种移植物的增强因子CREAM分数高度相关(对于SU-DIPG-XIII和VUMC-10细胞,分别地r=0.75和0.87)(图48D),并且SU-DIPG-XIII细胞的增强因子CREAM分数显示与VUMC-10细胞呈弱正相关(例如r=0.19),可能反映了细胞类型特异性差异,尽管它们具有共同的神经起源。例如,SOX2多能性基因座中的增强子显示了SU-DIPG-XIII与VUMC-10细胞之间的差异(图48E),这与SU-DIPG-XIII细胞类似于比VUMC-10细胞更原始的神经干细胞类型是一致的,如先前所表明的35。因此,AutoCUT&RUN为细胞类型和组织样品的分层提供了严格方法。

  讨论

  我们通过开发用于Illumina文库制备的染色质片段的直接连接并对洗涤步骤和文库纯化实施了磁性分离,来使CUT&RUN技术适应用于自动化平台。AutoCUT&RUN仅在2天内就生成了96个抗体靶向染色质蛋白的全基因组图谱,极大地提高了探测(interrogate)染色质景观的研究的通量和潜在规模。我们表明,仅剖析三种组蛋白修饰(H3K27ac、H3K27me3和H3K4me2)就足以确定启动子和增强子的细胞类型特异性活性,为比较不同细胞类型的表观遗传调控提供了强有力的定量指标。自动化的工作流程减少了实验之间的技术差异性,从生物学复制和不同的样品类型中生成一致的图谱。

  为了继续优化AutoCUT&RUN,人们可以设想硬件修改和计算开发。通过筛选各种抗体集合,可以使用AutoCUT&RUN进行高效剖析的核蛋白质库将急剧扩大。另外,将当前的AutoCUT&RUN方案针对流行的液体操作机器人进行了优化,但包含可逆磁性热循环仪模块的定制机器人将允许在适当的位置进行CUT&RUN反应以及文库制备,进一步简化了方案。最后,区分细胞类型的指标可通过加入其它方面的数据,诸如使用增强子与启动子活性的组合来提高。

  通过AutoCUT&RUN对冷冻组织样品进行剖析的出色再现性有可能改变表观遗传学医学领域12。与目前用于患者诊断的其它基因组学方法相比,AutoCUT&RUN具有剖析患病细胞内的染色质蛋白质的独特能力。例如,通过染色质蛋白质的致癌融合引起的癌症可通过AutoCUT&RUN进行剖析,以基于它们的染色质景观提供分子诊断,同时对被从头突变蛋白质破坏的基因座进行作图。这可为患者分层以及染色质调节疗法,诸如组蛋白去乙酰化酶或组蛋白甲基转移酶抑制剂是否具有其预期效果的直接读出提供强有力的工具。

  方法

  AutoCUT&RUN

  简言之,细胞或组织样品与伴刀豆球蛋白A包被的磁珠(Bangs Laboratories,ca.no.Bp531)结合,用洋地黄皂苷进行透化,并与如前所述的蛋白特异性抗体结合14。然后将样品排列在96孔板中,并在贝Beckman BiomekFx液体操作机器人上进行处理,所述机器人配有用于在洗涤步骤中对样品进行磁性分离的96S超级磁铁板(Alpaqua SKU A001322),以及用于PCR板的铝加热块插入件(V&P Scientific,Inc.VP741I6A),该插入件被输送到冷却单元以在添加2mM CaCl2后,在0-4℃下进行微球菌核酸酶消化反应。9分钟后,通过加入EGTA停止微球菌核酸酶消化反应,这允许添加Mg2+以进行随后的酶促反应。这一步骤避免了在文库制备前进行DNA纯化的需要。然后,将在消化过程中释放到上清液中的染色质片段用作末端修复和与条形编码的Y-衔接子连接的底物。在连接之前,在58℃进行A-加尾步骤,以在文库中保持亚核小体片段36,37。末端修复和衔接接子连接反应在分开的热循环仪上进行。然后用蛋白酶K消化染色质蛋白,并使用两轮预PCR Ampure珠清理和大小选择在BiomeckFx上纯化衔接子连接的DNA片段。使用KAPA PCR试剂盒(KAPA Cat#KK2502)在热循环仪上进行PCR富集反应。在Biomeck FX上进行两轮post-PCR Ampur珠清理和大小选择,以去除不想要的蛋白质和自连接的衔接子。在Agilent 4200 TapeStation上分析AutoCUT&RUN文库的大小分布,通过量子位荧光计(Life Technologies)定量文库产率。在Fred Hutchinson癌症研究中心基因组共享资源的Illumina HiSeq 2500平台上,每条泳道以等摩尔浓度混合了多达24个条形编码的AutoCUT&RUN文库,以用于配对末端25x25bp测序。

  抗体

  我们使用了兔抗CTCF(1:100,Millipore目录号07-729)、兔抗NPAT(1:100,ThermoFisher目录号PA5-66839)、兔抗H3K4me1(1:100,Abcam目录号ab8895)、兔抗H3K4me2(1:100,Millipore目录号07-030)、兔抗H3K4me3(1:100,Active Motif目录号39159)、兔抗H3K27me3(1:100,Cell Signaling Tech目录号9733S)。由于pA微球菌核酸酶不能与许多小鼠抗体高效结合,因此我们使用兔抗小鼠IgG(1:100,Abcam,目录号ab46540)作为衔接子。使用兔抗H3K27ac(1:50,Millipore目录号MABE647),在H1和K562细胞中通过AutoCUT&RUN分析H3K27ac,并在VUMC-10和SU-DIPG-XIII细胞系中手工分析H3K27ac。使用兔抗H3K27ac(1:100,Abcam目录号ab45173),在H3K27ac在VUMC-10和SU-DIPG-XIII细胞系以及异种移植物中通过AutoCUT&RUN剖析H3K27ac。

  细胞培养

  人K562细胞购自ATCC(Manassas,Va,目录号CCL-243),并根据供应商的方案进行培养。H1hESC获自WiCell(目录号WA01-批号WB35186),并在含有mTeSRTM1补充剂(STEMCELLTechnologies目录号85852)的mTeSRTM1基础培养基(STEMCELL Technologies目录号85851)中于MatrigelTM(Corning)包被的平板中进行培养。儿科DMG细胞系VUMC-DIPG-10(EstherHulleman,VU University Medical Center,Amsterdam,Netherlands)和SU-DIPG-XIII(Michelle Monje,Stanford University,CA)是通过相关机构的物质转移协议获得的。将细胞保持在含有NS-A增殖补充剂(STEMCELL Technologies,目录号05751)、100U/mL的青霉素/链霉素、20ng/mL的表皮生长因子(PeproTech,目录号100-15)和20ng/mL的成纤维细胞生长因子(PeproTech,目录号100-18B)的NeuroCult NS-A基础培养基中。

  患者来源的异种移植物

  所有的小鼠研究都是根据动物保护和使用委员会批准的协议进行的。NSG小鼠在室内饲养,并在肿瘤发生前达到2-3月龄。通过在λ的外侧2mm和后部1mm的位置处立体定向注射100,000个悬浮在3uL中的细胞建立了颅内异种移植物。对有症状的小鼠实施安乐死,切取肿瘤用于分析。

  注释和数据分析

  我们使用Bowtie2 2.2.5版将配对末端读数与以下选项对齐:--local--very-sensitive-local--no-unal--no-mixed--no-discordant--phred33-I 10-X 700.为了对加标片段作图,我们还使用了--no-overlap--no-dovetail选项,以避免实验基因组与加标DNA的交叉作图。使用bedtools和UCSC bedGraphToBigWig程序处理文件。

  为了检查各种样品的全基因组分布之间的相关性,为基因组生成了500bp的分箱,创建了具有约600万个条目的阵列。对每个分箱中的读数进行计数,并将这些分箱计数的log2转换值用于确定不同实验之间的皮尔逊相关性得分。然后对皮尔逊得分矩阵进行层次聚类。

  为了检查启动子周围组蛋白标记图谱的分布,从UCSC表格浏览器(genome.ucsc.edu/cgi-bin/hgTables)下载了构建hg19的基因的参考列表,并根据基因转录的方向性进行定向以供进一步分析。除去TSS彼此相距不超过1kb的基因,同样除去作图到线粒体基因组的基因,创建了32,042个TSS的列表。从H1和K562细胞的ENCODE项目(ENCSR537BCG和ENCSR000AEL)中获得了RNA-测序数据。使用featureCounts(http://bioinf.wehi.edu.au/featureCounts/)对RNA读数进行计数,并将其转换为片段/千碱基/百万作图的读数(FPKM),并作为基因表达值赋予相应的TSS。H1细胞的ATAC测序数据获自基因综合表达(GEO)(GSE85330)并且使用bowtie2将其作图到hg19。线粒体DNA约占读数的50%,并将其在这项研究中除去。

  训练CREAM算法

  为了确保将启动子处的组蛋白修饰数据与RNA-seq值相匹配的准确性,从先前生成的TSS列表中删除了具有不止一个启动子的基因。基因RPPH1和RMRP在H1细胞中以极高的水平表达,因此被认为是异常值,并被删除以避免使回归偏斜,留下n=12,805个基因的列表。

  为了给每个组蛋白标记的这些启动子赋予相对CUT&RUN信号,通过对被评分的启动子的测序深度和被检查的启动子总数两者来归一化用C表示的TSS的碱基对读数计数+/1kb。前一种归一化是考虑抗体之间的测序深度和灵敏度差异,后一种归一化被包括在内,使得该模型可被应用于不同数量的顺式调控元件,而不改变每个元件的相对权重。将荧光蛋白激酶值用于RNA-seq。

  使用组蛋白数据的线性组合来训练线性模型,所述组蛋白数据适合于RNA-seq表达值:y=C1x1+…+Cnxn,其中Ci是每个组蛋白修饰的权重并且xi用xi=ln(Ci+αi)表示,其中C是上述归一化的碱基对计数并且α是容纳无表达基因的伪计数。类似地将RNA-seq值转化为yi=ln(FPKMi+αy,i)。对数变换被用来线性化数据。然后进行最小化步骤来计算每个组蛋白修饰的伪计数和权重,这将最大化CUT&RUN数据与RNA-seq之间的回归线。

  我们预计组蛋白标记H3K27ac、H3K27me3和H3K4me2将提供最少的冗余信息。K562细胞的优化的三个组蛋白标记模型通过以下来描述:

  =0.858ln(CH3K27ac+0.058)-0.615ln(CH3K27me3+0.0816)+1.609ln(CH3K4me2+0.054)。

  这个等式被用来生成所有的CREAM分数。

  调用染色质结构域

  为了比较H1细胞和K562细胞的全局性染色质景观,使用自定义脚本来调用染色质结构域,所述自定义脚本相对于IgG CUT&RUN对照富集区域。比较标记间的富集区域,并使用bedtools intersect鉴定重叠。重叠区域通过重叠富集区域中碱基对的数量来定量,并且将这些用于生成维恩图。

  维恩图

  所有的维恩图都使用可从Whitehead Institute(barc.wi.mit.edu/tools/venn/)公开获得的BaRC网络工具来生成。

  使用CREAM分数计算细胞类型特异性启动子活性

  原始启动子CREAM分数通常落在-10与10之间的范围内,其中较小的数字表示较低的转录活性。为了在比较不同细胞类型时考虑数据中的异常值,将2个标准偏差内的CREAM分数进行z-归一化。负值和零值使计算倍数变化变得复杂,因此使数据在x和y方向上移动了最大负值。通过将经反log 10归一化的CREAM分数彼此相除来计算各种细胞类型的启动子CREAM分数之间的倍数差异。在每种情况下,使用保守的2倍截止值来确定细胞类型特异性启动子(图45B,图45E,图47A,图47B)。将每个基因列表通过基因本体论(geneontology.org/)分类,以鉴定统计上富集的生物过程。

  为了检查基于它们的启动子活性的细胞类型之间的相对相似性,使用所有相距大于1kb的启动子的CREAM分数来生成数组,并计算样品的每一配对组合的Spearman相关性。将Spearman相关性值的层次聚类用于使细胞类型之间的相对相似性可视化。

  AutoCUT&RUN和ATAC-seq数据的峰值调用

  通过AutoCUT&RUN剖析的生物学重复经显示高度相关(图43B),因此在调用峰值之前加入重复。将工具MACS2用于调用峰值,并在命令行中使用了以下命令:“macs2callpeak-t file-f BEDPE-n name-q 0.01--keep-dup all-g 3.137e9”.采用0.01的FDR截止值。

  根据CREAM分数计算细胞类型特异性DRE活性

  为了在人基因组中组装一列远端顺式调控元件,我们使用‘Peak calling onAutoCUT&RUN and ATAC-seq’方法部分中描述的相同标志(flag),利用MACS2调用我们每个样品的H3K4me2图谱上的峰值。为了区分TSS与假定的增强子,从注释的TSS中移除<2.5kb的峰,并且使用训练来预测启动子活性的算法为这些假定的增强子周围的窗口+/-1kb赋予CREAM分数。以与比较样品之间启动子CREAM分数的相关矩阵相同的方式生成比较样品之间增强子CREAM分数的相关矩阵。

  实施例7的参考文献(其每一篇通过引用整体并入)

  1Levine,M.,Cattoglio,C.&Tjian,R.Looping back to leap forward:transcription enters a new era.Cell 157,13-25,doi:10.1016/j.cell.2014.02.009(2014).

  2Heinz,S.,Romanoski,C.E.,Benner,C.&Glass,C.K.The selection andfunction of cell type-specific enhancers.Nat Rev Mol Cell Biol 16,144-154,doi:10.1038/nrm3949(2015).

  3Reinberg,D.&Vales,L.D.Chromatin domains rich in inheritance.Science361,33-34,doi:10.1126/science.aat7871(2018).

  4Henikoff,S.&Greally,J.M.Epigenetics,cellular memory and generegulation.Curr Biol 26,R644-648,doi:10.1016/j.cub.2016.06.011(2016).

  5Schwartzentruber,J.et al.Driver mutations in histone H3.3 andchromatin remodelling genes in paediatric glioblastoma.Nature 482,226-231,doi:10.1038/nature10833(2012).

  6Hu,D.&Shilatifard,A.Epigenetics of hematopoiesis and hematologicalmalignancies.Genes Dev 30,2021-2041,doi:10.1101/gad.284109.116(2016).

  7Mackay,A.et al.Integrated Molecular Meta-Analysis of 1,000 PediatricHigh-Grade and Diffuse Intrinsic Pontine Glioma.Cancer Cell 32,520-537e525,doi:10.1016/j.ccell.2017.08.017(2017).

  8Cotney,J.et al.The autism-associated chromatin modifierCHD8regulates other autism risk genes during human neurodevelopment.NatCommun 6,6404,doi:10.1038/ncomms7404(2015).

  9Lambert,S.A.et al.The Human Transcription Factors.Cell 172,650-665,doi:10.1016/j.cell.2018.01.029(2018).

  10Regev,A.et al.The Human Cell Atlas.Elife 6,doi:10.7554/eLife.27041(2017).

  11 Rozenblatt-Rosen,O.,Stubbington,M.J.T.,Regev,A.&Teichmann,S.A.TheHuman Cell Atlas:from vision to reality.Nature 550,451-453,doi:10.1038/550451a(2017).

  12 Feinberg,A.P.The Key Role of Epigenetics in Human DiseasePrevention and Mitigation.N Engl J Med 378,1323-1334,doi:10.1056/NEJMra1402513(2018).

  13 Teytelman,L.,Thurtle,D.M.,Rine,J.&van Oudenaarden,A.Highlyexpressed loci are vulnerable to misleading ChIP localization of multipleunrelated proteins.Proc Natl Acad Sci U S A 110,18602-18607,doi:10.1073/pnas.1316064110(2013).

  14 Skene,P.J.,Henikoff,J.G.&Henikoff,S.Targeted in situ genome-wideprofiling with high efficiency for low cell numbers.Nat Protoc 13,1006-1019,doi:10.1038/nprot.2018.015(2018).

  15 Skene,P.J.&Henikoff,S.An efficient targeted nuclease strategy forhigh-resolution mapping of DNA binding sites.Elife 6,doi:10.7554/eLife.21856(2017).

  16 Hainer,S.J.,Boskovic,A.,Rando,O.J.&Fazzio,T.G.Profiling ofpluripotency factors in individual stem cells and early embryos.bioRxiv,doi:doi.org/10.1101/286351(2018).

  17 Zhao,J.et al.NPAT links cyclin E-Cdk2 to the regulation ofreplication-dependent histone gene transcription.Genes Dev 14,2283-2297(2000).

  18 Narendra,V.et al.CTCF establishes discrete functional chromatindomains at the Hox clusters during differentiation.Science 347,1017-1021,doi:10.1126/science.1262088(2015).

  19 Hawkins,R.D.et al.Distinct epigenomic landscapes of pluripotentand lineage-committed human cells.Cell Stem Cell 6,479-491,doi:10.1016/j.stem.2010.03.018(2010).

  20 Gaspar-Maia,A.,Alajem,A.,Meshorer,E.&Ramalho-Santos,M.Openchromatin in pluripotency and reprogramming.Nat Rev Mol Cell Biol 12,36-47,doi:10.1038/nrm3036(2011).

  21 Bernstein,B.E.et al.A bivalent chromatin structure marks keydevelopmental genes in embryonic stem cells.Cell 125,315-326,doi:10.1016/j.cell.2006.02.041(2006).

  22 Rada-Iglesias,A.et al.A unique chromatin signature uncovers earlydevelopmental enhancers in humans.Nature 470,279-283,doi:10.1038/nature09692(2011).

  23 Consortium,E.P.An integrated encyclopedia of DNA elements in thehuman genome.Nature 489,57-74,doi:10.1038/nature11247(2012).

  24 Karlic,R.,Chung,H.R.,Lasserre,J.,Vlahovicek,K.&Vingron,M.Histonemodification levels are predictive for gene expression.Proc Natl Acad Sci U SA 107,2926-2931,doi:10.1073/pnas.0909344107(2010).

  25 Martello,G.&Smith,A.The nature of embryonic stem cells.Annu RevCell Dev Biol 30,647-675,doi:10.1146/annurev-cellbio-100913-013116(2014).

  26 Gottgens,B.Regulatory network control of blood stem cells.Blood125,2614-2620,doi:10.1182/blood-2014-08-570226(2015).

  27 Nagaraja,S.et al.Transcriptional Dependencies in Diffuse IntrinsicPontine Glioma.Cancer Cell 31,635-652 e636,doi:10.1016/j.ccell.2017.03.011(2017).

  28 Massague,J.&Chen,Y.G.Controlling TGF-beta signaling.Genes Dev 14,627-644(2000).

  29 Heintzman,N.D.et al.Distinct and predictive chromatin signaturesof transcriptional promoters and enhancers in the human genome.Nat Genet 39,311-318,doi:10.1038/ng1966(2007).

  30 Creyghton,M.P.et al.Histone H3K27ac separates active from poisedenhancers and predicts developmental state.Proc Natl Acad Sci U S A 107,21931-21936,doi:10.1073/pnas.1016071107(2010).

  31 Heintzman,N.D.et al.Histone modifications at human enhancersreflect global cell-type-specific gene expression.Nature 459,108-112,doi:10.1038/nature07829(2009).

  32 Liu,Q.et al.Genome-Wide Temporal Profiling of Transcriptome andOpen Chromatin of Early Cardiomyocyte Differentiation Derived From hiPSCs andhESCs.Circ Res 121,376-391,doi:10.1161/CIRCRESAHA.116.310456(2017).

  33 Andersson,R.et al.An atlas of active enhancers across human celltypes and tissues.Nature 507,455-461,doi:10.1038/nature12787(2014).

  34 Calo,E.&Wysocka,J.Modification of enhancer chromatin:what,how,andwhy?Mol Cell 49,825-837,doi:10.1016/j.molcel.2013.01.038(2013).

  35 Filbin,M.G.et al.Developmental and oncogenic programs in H3K27Mgliomas dissected by single-cell RNA-seq.Science 360,331-335,doi:10.1126/science.aao4750(2018).

  36 Liu,N.et al.Direct Promoter Repression by BCL11A Controls theFetal to Adult Hemoglobin Switch.Cell 173,430-442 e417,doi:10.1016/j.cell.2018.03.016(2018).

  37 Neiman,M.et al.Library preparation and multiplex capture formassive parallel sequencing applications made efficient and easy.PLoS One 7,e48616,doi:10.1371/journal.pone.0048616(2012).

  实施例8

  单细胞CUT&RUN的复杂组织的表观基因组图谱

  单细胞分析正在成为用于发育的分子表征的主要方法,并且单细胞条形编码技术的最新进展已被应用于复杂组织的基因表达和DNA可及性剖析。然而,RNA-seq不能对调控元件进行表征或作图,ATAC-seq仅限于DNA超可及性位点,而ChIP-seq的效率太低以至于单细胞策略无法被认真实施。但CUT&RUN抗体系连的核酸酶方法在效率和分辨率方面已经超过了ChIP-seq方法几个数量级。这也适用于ITIS。如本文所公开的,原始CUT&RUN方法可扩展到整个组织和分选的细胞,仅用100个细胞就实现了高数据质量,并且我们已经开发了高通量自动化流水线。

  为了利用单细胞技术的最新进展,开发了两种不同的单细胞CUT&RUN(scCUT&RUN)策略。首先,使商业化的自动化纳米孔板系统适用于为scCUT&RUN排列、条形编码和扩增数千个完整细胞。为了应用这一策略,将由系连的微球菌核酸酶生成的片段连接到完整细胞中的测序衔接子上,然后排列在纳米孔板上用于单细胞索引。第二,我们将调整大量细胞群的分拆-合并(split-pooling),以获得96孔板池中细胞的组合条形码。将平板中的细胞合并并将其重新排列到新的96孔板中,然后进行一轮或多轮条形码连接、重新合并以及重新排列。通过使CUT&RUN适应于两种流行的单细胞条形编码策略,我们可以在染色质剖析背景中比较它们的单细胞剖析的独特优势。为了进行评估,将人K562细胞和果蝇S2细胞用作针对选定的组蛋白修饰、核糖核酸聚合酶II修饰和组成型转录因子的抗体。在初步研究中,两种策略都被证明通过在CUT&RUN后Illumina衔接子的天然原位连接,同时将DNA片段保留在单个细胞核内来起作用。保持核的完整性使我们能够对单个细胞的片段进行索引,而独特的一系列条形码通过混合测序构建了单细胞景观。

  从同质细胞系转移到异质细胞群和复杂组织,scCUT&RUN被应用于人CD34+原代造血细胞和果蝇睾丸。我们发现,对我们的基本CUT&RUN方案的修改充分透化完整的果蝇成虫盘和大脑,从而避免了可能降低数据质量的来自组织处理的损害。FACS分离之后可以进行具有高数据质量的CUT&RUN。FACS分离的CD34+淋巴样细胞亚群,以及完整的和流动分选的果蝇种系组织都用于CUT&RUN以及衔接子连接,随后用于纳米分配或分拆-合并或两者都以用于索引。可在这两个系统中评估调控元件和基因表达的发育变化。

  为CUT&RUN数据开发利用裂解的碱基对精度的计算工具。一个是优化和评估新的峰值调用算法,该算法使用片段长度来调用峰值,并使用经验程序来确定富集而不平滑,以维持裂解的碱基对分辨率。第二个工具是开发算法,该算法使用片段长度信息,基于我们最近对核小体破坏的一般染色质特征的描述来预测增强子和启动子活性,所述特征可通过CUT&RUN图谱来鉴定。这些方法允许利用DNA片段长度中固有的结构信息。我们将使用广泛用于RNA-seq的单细胞降维工具来区分细胞类型,我们将开发定制分析软件来鉴定增强子-启动子-基因组合。

  人基因调控元件仍然没有明确的定义。人基因组编码的蛋白质中约有10%是转录因子(Tf),所述转录因子通过与它们的作用位点序列特异性来调控基因。转录因子与调控元件的结合位于基因调控等级的顶端,控制发育和重要的生理过程。Tf结合的异常调控是许多人疾病的关键驱动者,目前编辑TF结合位点(TFBS)的努力是用于疾病干预的有希望的途径。然而,目前在作图TFBS方面的限制可能会影响这些工具的临床应用。例如,治疗镰状细胞性贫血和β地中海贫血患者的强有力的策略是“唤醒”胎儿γ珠蛋白基因,以缓解由成人β珠蛋白表达缺陷引起的症状。编辑负责γ珠蛋白基因与β珠蛋白基因之间发育转换的抑制性转录因子的结合位点可以实现这一点。直到最近,阻遏物TF BCL11A的结合位点的鉴定仍然失败,这归因于常用的作图转录因子的方法的局限性。关键结合位点可通过BCL11A的CUT&RUN作图来容易地鉴定[1];这立即实现了用于缓解最常见的人遗传疾病之一的症状的编辑策略,事实上,在该结合位点中具有突变的镰状细胞病患者表现出减弱的红细胞镰状化。

  调控元件的ChIP-seq作图的局限性。染色质免疫沉淀(ChIP)是染色质生物学中应用最广泛的技术之一。然而,自从30多年前其被首次描述以来[3],ChIP的性能几乎没有改变。相反,使用ChIP的巨大成功来自于读出技术的显著进步。读出平台已经从southern印迹进展到定量PCR、微阵列,并且在过去十年中进展到高通量测序(ChIP-Seq)[4-7]。ChIP-seq已经成为理解基因组序列的基本策略,仅形成ENCODE项目就有超过2000个ChIP-seq实验。

  尽管该投资巨大,用于ChIP的染色质交联和剪切策略有三个主要的局限性[8-12]。1)交联导致表位掩蔽,这降低了免疫沉淀效率并降低了信噪比。例如,NIH蛋白质捕获试剂项目(PCRP)已经收集了1406种高度验证的免疫沉淀和/或免疫印迹等级的针对736种人转录因子的小鼠单克隆抗体(mAbs)[13]。该联盟使用HuProt人蛋白质微阵列作为主要的验证工具,来鉴定对其同源靶标具有高特异性的单克隆抗体。

  然而,基于ENCODE标准,在305种单克隆抗体样品中,只有50种(16%)被判定满足ChIP-seq。2)交联使染色质不溶,因此ChIP通常使用超声处理来剪切染色质。超声处理产生200-300bp的染色质片段,然而典型的染色质相关蛋白的足迹约为20bp,因此实际结合位点必须从ChIP作图计算推断出来。因此,最广泛使用的ChIP方案远远不能利用对于测序读出而言可能的碱基对分辨率。3)通过超声处理来使交联的染色质增溶是有很大偏差的。当ChIP被仔细评估时,通常发现许多“超级-ChIPable”区域[8]、“幻影”峰值[10]和其它假阳性伪象[9,12]。简言之,ChIP-seq受到低可靠性、低产率、低分辨率和低精度的阻碍。最新版本的ChIP通过核酸外切酶处理(ChIP-exo[4]和ChIP-nexus[7])提高了分辨率,但这些方法既麻烦又低效。关于ChIP的这些问题强调了对替代表观基因组作图方法的需要。

  CUT&RUN。通过开发新的表观基因组剖析策略限制ChIP-seq[5,14-16]。对于CUT&RUN,将因子特异性抗体用于将微球菌核酸酶(MNase)系连至染色质。然后激活微球菌核酸酶以裂解TFBS周围的DNA,将脱DNA释放到上清液中以进行配对末端DNA测序(图1A)。CUT&RUN省去了溶解和免疫沉淀步骤,因此比ChIP具有固有的优势。由于所有用于与染色质因子结合和DNA裂解的步骤都发生在完整的细胞核中,然后进行简单的DNA纯化,CUT&RUN的产率和特异性比ChIP-seq高得多。CUT&RUN简单、高效、经济,有可能完全取代ChIP-seq。

  扩大CUT&RUN的范围。我们首先使用CUT&RUN来鉴定酵母和人染色质蛋白和TF的结合位点,确定不溶性出芽酵母着丝粒的组蛋白组成,以及精确地对CTCF桥接位点作图,而无需要交联或连接[16]。此后,我们扩大了CUT&RUN的范围,以调查其它主题。这些包括高等真核生物的着丝粒、染色质结构和转录调控:1)通过CUT&RUN,然后通过盐分级分离,我们发现人着丝粒在高度同质的阵列中的不同α-卫星二聚体单元上显示出意想不到的内部动粒复合体的结构和构象变化[18]。2)我们还使用CUT&RUN来鉴定旧大陆猴的α-卫星单体中的功能性着丝粒,所述着丝粒缺乏对CENP-B的结合位点(“CENP-B悖论”[19])。3)在描述由转录产生的核小体的不对称解包裹时,我们使用了由CUT&RUN在调控元件上产生的片段,以表明在细胞中甚至无细胞人血浆DNA中的核小体解包裹的相同特征可通过核小体重塑[20]产生。我们基于片段位置和长度对调控元件的鉴定是CUT&RUN的一个关键特征。

  多年来,许多针对ChIP-seq的BCL11A抗体都失败了,这导致了胎儿至成人的转换位于远上游的基因座控制区(LCR)的模型。作者使用CUT&RUN和未通过ChIP-seq检测的抗体来表明,阻遏物优先与它们通过蛋白质结合微阵列鉴定的相同TGACCA基序结合(图54,顶部),并且其与胎儿γ珠蛋白启动子中仅隔21bp的两个基序中的一个基序结合(图54,中部)。该基序在具有胎儿血红蛋白的遗传持久性的良性条件的个体中发生突变,作者继续证明该位点通过编辑其和显示BCL11A不再结合来控制抑制(图54,底部)。

  为了鉴定单细胞中的调控元件,可使用两种不同的条形编码策略:单细胞纳米孔索引和分拆-合并组合索引,这两种策略都已非常成功地用于单细胞RNA-seq(scRNA-seq)[28,29]。

  CUT&RUN与ChIP-seq的比较。我们通过1)它们的因子结合位点的分辨率和2)它们的信噪比来比较表观基因组作图方法的性能。信噪比在确定结合位点的查准率(precision)和查全率(recall)以及确定所需的深度测序的覆盖范围以及从而确定实验成本方面尤为重要。ChIP方法有两个主要局限性:首先,产生可溶性染色质制剂需要将整个基因组分成染色质片段,这导致了全基因组的背景噪声。其次,根据定义,所有ChIP方法都依赖于免疫沉淀,其中染色质颗粒的溶解度和回收率必须优化。相比之下,所公开的CUT&RUN技术与ChIP正交,因为其基于仅将DNA裂解靶向至完整细胞核中的因子结合位点[16]。这种策略消除了对可溶性染色质制备的需要,并且通过对切割的DNA进行测序,在结合位点给出了特定的信号。

  我们已经使用伴刀豆球蛋白A(ConA)包被的磁珠优化了细胞处理,以快速高效地更换溶液。我们将抗体和蛋白A-微球菌核酸酶与天然未固定的细胞核结合,在所述细胞核中表位得到保存并可接近。由于只有颗粒两侧都有断裂的染色质片段才能进入上清液,我们只需除去剩余的不溶性大块染色质。因为绝大多数非特异性DNA被留下了,所以CUT&RUN具有非常低的背景水平,相对于ChIP显著地降低了成本,在ChIP中,细胞的全部溶解的内容物被暴露于抗体。由于加标对照现在是归一化[30]的优选方法,我们已经实施了归一化CUT&RUN数据的简单策略:在裂解反应后,我们向珠粒结合的完整细胞样品中加入少量固定量的片段化酵母DNA。然后一起提取DNA,制备文库并测序。将对酵母基因组组装的读数作图用于归一化实验之间的样品读数计数。

  我们发现CUT&RUN在简单性、分辨率、稳健性、效率、数据质量和对不溶性复合物的适用性方面优于ChiP-seq[16]。CUT&RUN只需要约1/10的ChIP-seq的测序深度,因为通过原位进行反应实现了固有的低背景。

  为了测试CUT&RUN在哺乳动物基因组中的性能,我们在人K562细胞中对CTCF作图[2]。裂解足迹在约300倍的消化范围内是一致的,在两侧都有主要的单碱基对切割位点(图6C),突出表明CUT&RUN达到了揭示结合的因子的最小足迹的有限消化,。图6A,下图比较了从ENCODE ChIP-seq、ChIP-exo和CUT&RUN数据集采样的1000万个片段的结果。剖析显示,CUT&RUN定义了与ENCODE ChIP-seq中检测到的峰一致的尖锐峰。ChIP-exo检测到这些峰中的一些峰,但许多位点具有宽泛的读取端分布,这通常通过计算来进行细化。与其它方法相比,CUT&RUN需要更少的测序深度,这主要归因于有限的DNA裂解的固有低背景。这大大降低了实验成本,并具有更好的数据质量。位于CTCF位点两侧的核小体也被特异性释放,并表现为独特大小的DNA片段。

  在低细胞数量的情况下进行CUT&RUN。标准的ChIP-seq方案不适用于通常在FACS或解剖后或在临床环境中获得的低细胞数量。ATAC-seq已被用于剖析少至5000个细胞的样品,但ATAC-seq仅限于非特异性鉴定染色质可及区域中的TF。我们最近表明,CUT&RUN为低细胞数量提供了高数据质量([2],图55)。对于H3K27me3,随着细胞数量从6000个减少到100个,数据质量几乎没有损失(如果有的话)。相比之下,由于ChIP固有的高背景,以相同深度采样的ENCODE图谱是模糊的。Hainer等通过对试剂体积和文库制备步骤进行小的修改,实现了更低的细胞数量[23]。因此,CUT&RUN使低细胞数量应用的蛋白质-DNA相互作用的靶向全基因组作图成为可能。

  用于大量细胞和组织的低成本剖析的自动化CUT&RUN。我们修改了我们称之为“直接连接”的CUT&RUN方案,其中将上清液中的蛋白质-DNA颗粒用于末端抛光和连接,这使得在机器人上完成从细胞到文库的所有步骤成为可能。对于自动化CUT&RUN,我们将细胞与ConA包被的磁珠混合,并加入透化去垢剂(洋地黄皂苷)和抗体以及2mM EDTA以终止活性过程。在40℃孵育过夜后,我们将珠粒/细胞浆转移到96孔板的孔中。通过连接衔接子和Ampure珠粒清理在机器人上进行CUT&RUN,然后将板转移至PCR循环仪中进行扩增,然后返回机器人,对最终的条形码化的文库进行清理。为NIH 4D核小体项目准备的数据集的一个实例表明,人胚胎干细胞(H1)向最终内胚层的分化涉及从启动子核小体的H3K4me3修饰到关键的DNA复制基因POLD1上的H3K27me3的转换(图56)。

  利用原位连接的CUT&RUN。sciRNA-seq(单细胞组合索引RNA测序)[31]和Split-seq(基于分拆-合并连接的转录组测序)[28]是其中将RNA在大量细胞或细胞核中原位转化成cDNA,然后将条形码化的衔接子与cDNA末端连接的策略。固定细胞以防止RNA在cDNA合成和连接过程中泄漏。然而,我们已经开发了简单的天然程序,其可在不固定的情况下防止DNA泄漏。基于核小体核心颗粒在低盐/高二价阳离子条件下聚集[32]的观察,我们在10mMCaCl2和3.5mMHEPES pH 7.5中进行消化。在这些条件下,片段以3倍的速率裂解,未检测到片段释放到上清液中(数据未显示)。通过在磁上去除上清液并加入含有150mM NaCl和20mMEGTA的洗脱缓冲液来终止反应,所述缓冲液将小的DNA片段释放到上清液中,并且与用于自动化CUT&RUN的直接末端抛光和衔接子连接相容。使用这种改进的方案从消化物中产生的文库显示出时间过程数据的H3K27ac峰的一致性提高(图57),经推测是因为在消化过程中阻止颗粒的释放消除了它们在细胞核内的扩散,在细胞核内它们可以非天然地消化可获得的DNA。因此,我们对CUT&RUN的简单修改既提高了数据质量,又可为在不固定的条件下进行纳米孔分配和分拆-合并条形编码奠定基础。

  为了将这种改进的CUT&RUN方案用于原位连接,我们通过向珠粒/细胞中加入含有20mM EGTA、10mM MgCl2和3.5mM HEPES的缓冲液来终止反应。在这些条件下,低盐和高Mg++条件保持聚集的染色质状态,而EGTA优先螯合钙而不是镁,从而终止裂解。添加带有条形码化的Illumina衔接子的末端抛光和连接试剂,然后提取总DNA,使用Illumina引物进行PCR扩增,并测序。尽管大部分片段是衔接子二聚体,但我们发现有足够的用于H3K27ac CUT&RUN实验的作图的读数来确认全基因组模式(图58A)。在本实验中仅用约300,000个片段,使用相同的Abcam ab4729抗体,该图谱与利用30倍(约900万个)的片段的CUT&RUN和利用130倍(约4000万个)的片段的ENCODE ChIP-seq的图谱相似,这通过与排序的H3K27acCUT&RUN峰的密切对应得到证实(图58B)。这些结果证明了原位衔接子连接的作用,为应用scCUT&RUN索引策略奠定了基础。

  优化原位连接。尽管我们的该首次原位连接实验的初步概念验证结果是有希望的,但平端连接的效率非常低,文库制备主要由衔接子二聚体决定。一种可能的解决方案是包括额外的Ampure珠粒选择步骤,然而,这将降低总产率。另一个解决方案是添加A-加尾步骤,并使用具有突出的3'T碱基的衔接子。我们还可通过合成在环上具有脱氧尿嘧啶的发夹衔接子来防止衔接子二聚体形成。连接处理后,用尿嘧啶-N-去糖基化酶消化形成合适的突出端,用于纳米孔中的条形码化扩增或第一轮分拆-合并。另一种解决方案是在连接过程中加入限制性内切酶,每当它们连接时,所述限制性内切酶将再生平端衔接子。

  纳米孔条形编码。Takara SMARTer ICELL8单细胞系统最初是为利用嵌入式寡核苷酸的RNA-seq设计的,最近又被改造用于ATAC-seq[33],我们将遵循类似的用于染色质剖析的索引策略。CUT&RUN将通过衔接子连接步骤批量进行,不使用磁珠。我们将遵循我们的原始方案,使用经洋地黄皂苷透化的细胞,并在洗涤之间温和离心[26],其中通过温和的移液和/或涡旋将松散的细胞沉淀分散成单细胞。将单个细胞分配到ICELL8芯片的单个纳米孔中并成像,通过将72种不同的条形码化的Illumina i5引物分配到行中以及将72种不同的i7引物分配到列中来索引每个纳米孔,这通过对板上的所有5184个纳米孔进行条形码化来区分。ICELL8系统成像站将自动鉴定具有单个细胞的孔,并将细胞形态分类用于测序后分析。典型地,在ICELL8芯片上的5184个纳米孔中,约有1/3接收单个细胞,因此对板成像允许我们仅使用接种的纳米孔,材料的总成本为每个细胞~$1。密封纳米孔板,并且使该板经受14个循环的PCR,如针对标准CUT&RUN所做的那样。然后将条形码化的和扩增的片段合并用于手工提取DNA。

  Ampure珠粒清理和配对末端DNA测序足以通读单细胞条形码。我们预计合并的样品中有1.5亿配对末端片段序列,或者每个细胞估计有约100,000个读数。基于我们在我们的大量组蛋白修饰的低细胞数实验中获得的产率(例如,图55)。

  分拆-合并连接。基于阵列的组合条形编码特别适合于成千上万个细胞的深度剖析。然而,分拆-合并不需要特殊设备,并且可使用简单的手动方法来执行,因此这种快速改进的单细胞策略类别与各种直接单细胞策略相比仍然具有很强的竞争力。我们将遵循相似的所述[28]分拆-合并策略。简言之,我们将在低盐高二价阳离子条件下进行批量CUT&RUN。我们将使用通用接头进行原位连接,所述接头的5’末端是平端,在3’末端具有粘性悬突。接头的5’末端将连接至由CUT&RUN产生的抛光的DNA片段末端,而3’粘性末端将与96个独特标签(称为奇数标签(odd-tag))的5’末端互补。这些奇数标签的另一端将与一组不同的96个独特标签(称为偶数标签)的5’端互补。将细胞合并,并在96孔板上重复拆分。在每一轮中,分布在96个孔中的每一个孔的独特标签将被连接到DNA末端。粘性末端连接比第一步中进行的平端连接更高效,因此大多数或所有捕获的CUT&RUN末端应该有效地被条形码标记。为了确保每个细胞都有一系列独特的标签(条形码),我们将运行多个拆分-合并循环,重复使用相同的奇数和偶数标签集。最后,将所有细胞合并在一起,并连接含有Illumina衔接子的末端标签。在提取合并细胞的总DNA后,将进行文库制备和Ampure珠粒清理。没有必要使用不同的索引引物,因为此时每个细胞已经具有了自己的条形码。根据添加的条形码的长度,将生成至少100x 100bp的读数对。

  将scCUT&RUN应用于细胞系。作为将scCUT&RUN应用于复杂组织的前奏,我们将两种单细胞策略应用于ENCODE Tier 1人K562细胞和modENCODE果蝇S2细胞。我们将对人和果蝇细胞使用针对选定的组蛋白修饰(H3K4me1、H3K27ac、H3K27me3和H3K36me3)和针对RNA聚合酶II(CTD-Ser5P和CTD-Ser2P)的抗体,以及还有丰富的组成型转录因子,诸如针对人的CTCF因子和针对果蝇的GAGA因子。K562和S2是一致的细胞系,在基因表达、染色质景观和活性增强子的功能作图方面获得广泛的表征。每种抗体都已在我们的批量CUT&RUN实验中得到验证。我们预计原位连接的效率将决定单个细胞中特征的覆盖范围,我们将比较单细胞图谱与整体图谱,以确定我们的逐细胞覆盖、每个细胞所需的最佳测序深度,以及阵列化剖析对比拆分-合并策略的效力。我们将利用单细胞平台中表位的剖析组合来鉴定启动子-增强子-基因组合。这将包括用单因子抗体和成对地进行CUT&RUN,以及通过在单个细胞中同时存在两个表位来确定相互作用调控元件。

  尽管在我们的初步研究中使用的低盐/高二价阳离子浓度下,细胞核和染色质的完整性得以保持,但随后的操作可能会导致损伤,但新的末端将与索引衔接子不相容。在我们的初步研究中,原位连接的低效率归因于在平端连接过程中引物二聚体占优势,我们预计使用所提出的改进的衔接子将极大地提高效率。如果效率很高,那么我们会更偏爱纳米孔策略,因为即使只有约1000个细胞,也有足够的覆盖度来鉴定单个细胞中成千上万的调控元件,并高效地将细胞类型聚类。在高覆盖度的情况下,将需要更少的细胞,我们预计我们可因此而在单个芯片上检测多达8种不同的抗体或组织样品。然而,如果连接效率低,那么将细胞类型聚类将需要更多的单个细胞,并且拆分-合并条形编码变得更有吸引力,因为每个拆分-合并轮将独特的条形码的数量乘以以96。对于大小小至1/20的果蝇基因组来说,每个细胞中相应较少的DNA片段将允许我们用相同的测序量剖析更多的细胞,有利于果蝇的拆分-合并条形编码。

  对完整果蝇成虫盘进行CUT&RUN。CUT&RUN的效率允许在组织和分离的细胞类型中进行染色质剖析。稍加改进,我们调整了我们的细胞系方案以处理果蝇幼虫的完整组织或处理FACS分选的细胞。我们解剖了3龄晚期幼虫的大脑和翅成虫盘(wing imaginal discs)(图59A),用洋地黄皂苷透化未固定的组织,然后用ConA珠粒轻轻包被完整的组织。这些步骤使试剂能够通过更换缓冲液而被吸收到组织中,并且所有组织操作都是在试管中使用磁铁进行缓冲液交换进行的。我们在封闭、抗体和pA-微球菌核酸酶系连步骤中包括2mM EDTA和5mM亚精胺来保护染色质不被降解,并发现组织和DNA在两天的过程中保持完整。我们估计来自10只幼虫的翅成虫盘提供了约600,000个翼盘细胞(更多来自大脑),这产生了足够的材料来以高数据质量剖析组蛋白修饰和染色质因子。我们首先剖析了幼虫大脑和翼盘中的H3K27me3,以比较Polycomb抑制的区域。显示了代表性区域(图59C)。ANTP复合物包含许多果蝇的节标识同源框(segment identity homeobox)基因,这些基因部分受Polycomb阻遏调控。触角足(Antennapedia)(Antp)基因在幼虫大脑的大多数细胞中是沉默的,并在翅成虫盘的所有细胞中表达。H3K27me3模式的相应变化在Antp基因中是明显的,该基因在脑样品中被H3K27-三甲基化,但在翅膀组织中主要是未甲基化的。ANTP复合体之外的低背景和H3K27-三甲基化区域中的高信号使得鉴定组织之间染色质状态不同的区域变得简单。类似地,我们在组织样品中描述了多种组蛋白修饰和染色质因子,包括H3K27Ac、H3K27me2和Polycomb,其数据质量与细胞培养样品中的相似,表明我们可以从少量完整材料中完全表征染色质状态。这对于组织受限的突变动物的剖析尤其有用。

  完整组织包含多种细胞类型。我们将FACS分离与CUT&RUN相结合,从翅成虫盘提取一个亚组的细胞。我们使用残留基因的经表征的增强子在翅成虫盘的增殖袋中产生GFP(图59B),然后使用Accutase(Innovative Cell Technologies,Inc)解离细胞,我们发现其不会降解细胞表面上的糖蛋白。这使我们能够在FACS分选后将细胞与ConA珠粒结合,并通过我们的标准批量CUT&RUN方案处理细胞。经过20分钟的FACS后,我们回收了约10,000个GFP阳性细胞,占输入材料的9%,这足以进行H3K27me3的剖析,在整个基因组中其结果类似于完整的翅成虫盘。残留基因本身包含在细胞培养物和幼虫大脑样品中的H3K27me3结构域中(图59D)。虽然H3K27me3在翅成虫盘样品中似乎减少,但该组织是具有和不具有残留表达的细胞的混合物。相比之下,FACS分离的残留表达细胞在残留基因上显示出低的H3K27me3甲基化。这些结果证实,只要对我们的标准方案稍加修改,我们就可从完整组织或从FACS分离的未固定的细胞中准确地剖析细胞。由于组织是通过磁性操作的,因此整个组织的CUT&RUN可以很容易地通过衔接子连接和清理进行自动化,随后直接进行解离和多轮拆分-合并条形码连接。

  用拆分-合并对原代细胞和完整组织进行scCUT&RUN。为了开发scCUT&RUN方案,我们将把CUT&RUN应用到两个模型系统中,这两个模型系统在单细胞水平上被广泛表征。首先,我们将分析人造血细胞中的组蛋白修饰和染色质因子,并将单细胞染色质剖析与这些细胞的转录多样性进行比较。其次,我们将描剖析果蝇睾丸中的染色质,在所述睾丸中存在从种系干细胞到减数分裂后精子的整个发育序列。果蝇的基因组大小为人的1/20,这也降低了这项技术开发项目的测序成本。这两个系统将被用于评估细胞状态的染色质剖析的准确性,以及开发用于使单细胞染色质剖析聚类的计算框架。

  对人造血细胞进行scCUT&RUN。来自骨髓的多能CD34+细胞分化成10类血细胞(通过表面标志物来区分)。这些细胞类型的转录多样性已经在大量、FACS-分离的以及在单细胞集合中被广泛表征。我们将使用该系统来评估组蛋白修饰的scCUT&RUN剖析如何准确地概括CD34+细胞群中的多样性。我们从健康个体的骨髓中获得FACS分离的人CD34+原代造血细胞。我们将批量进行CUT&RUN以及衔接子连接步骤,以分配到纳米孔中,并进行连续的拆分-合并步骤,以索引单个细胞。

  我们将剖析CD34+细胞中RNAPII的两种修饰(CTD-S5P和CTD-S2P)、三种组蛋白修饰(H3K27Ac,H3K27me3和H3K4me1)和两种染色质因子(CTCF和造血TF PU.1)。RNAPII的图谱将鉴定平衡和活性的基因启动子,H3K27Ac和H3K4me1将报告活性启动子和增强子,H3K27me3报告Polycomb抑制的染色质。这些图谱将被用于鉴定1000-2000个细胞的转录状态。结合所有数据,1亿个配对末端读数应该能概括CD34+细胞中的大量染色质景观,我们将把这些图谱的深度与标准CUT&RUN剖析进行比较,以评估效率。然后我们将检查单个条形码化的细胞中基因启动子处的片段覆盖度。通过高效回收,10,000–100,000个独立片段应该可以在一次细胞运行中涵盖特征。我们可以处理更多的细胞,以从每个CD34+亚型中彻底捕获片段。即使是许多基因间的稀疏覆盖也足以将细胞类型聚类并加以区分。我们将比较图谱,以确定必需的细胞数量和测序深度,以严格区分细胞类型,将来源于scCUT&RUN数据集的聚类与来源于相同10种细胞类型的单细胞ATAC-seq和RNA-seq数据集的聚类进行比较[33]。H3K27Ac在增强子中也很丰富,因此远离启动子的片段可能会鉴定出位点。

  对果蝇睾丸进行scCUT&RUN。我们将使用果蝇睾丸作为利用固体组织的单细胞CUT&RUN的模型系统。果蝇卵巢和睾丸是最大的成体器官,很容易从腹部解剖出来。然而,卵巢以高度多倍体的滋养细胞为主,而睾丸由体细胞上皮细胞、体细胞囊肿细胞和生殖系细胞组成。这一种系群体包括精子发生的所有发育阶段,包括6-10个种系干细胞、有丝分裂增殖生殖细胞、生长的初级精母细胞、减数分裂细胞和分化精细胞。因此,睾丸的单细胞剖析将允许我们对生殖系发育的染色质序列进行聚类和排序。所有这些阶段都很容易通过未染色细胞核的显微镜检查来区分,这是我们更偏爱基于阵列的索引的一种情况,因为纳米孔的成像将有助于将图谱分配给不同的细胞类型。我们将跟踪种系特异性基因表达程序的激活和染色体范围的调控变化。果蝇精子发生利用睾丸特异性TBP相关因子(tTAF)广泛激活和调控始于精母细胞阶段的替代基因启动子。我们将使用可用的抗体来剖析TAF5(一种体细胞和早期种系TFIID组分[36])、其初级精母细胞变体Cannonball(Can)[37],以及H3K27Ac和H3K27me3组蛋白修饰。TAF5和Cannonball图谱将被用于从组蛋白修饰图谱中通知单细胞聚类,因为与晚期种系细胞相比,这些tTAF在替代启动子上的结合位点在体细胞与早期种系细胞之间将是独特的。最后,已知一小部分基因仅在减数分裂后的细胞中表达[38],并且这些基因处的读数将被用于对来自这些细胞的条形码进行聚类。

  精子发生过程中有两个主要的染色体重塑事件。首先,在生长的初级精母细胞中,兆碱基大小的Y染色体基因被激活,有证据表明整个X染色体被提前失活。第二,在分化精子细胞时,大多数核心组蛋白从染色质上剥离,并被精蛋白和精子特异性非组蛋白取代。在哺乳动物精子发生过程中,X染色体失活和组蛋白/精蛋白置换都涉及到由H3.3和H2A.Z组蛋白变体引起的染色质重塑,因此我们将在

  果蝇睾丸中剖析这些保守变体。我们的初步细胞学表征表明,果蝇H2A.Z同源物在初级精母细胞中的X染色体上中度富集,这与果蝇中早熟的X失活也可能涉及这种变体的想法一致(数据未显示)。目前还不清楚在任何系统中,组蛋白变异体是否在整个X染色体上或种系染色体失活过程中的特定位点或基因上富集;单细胞染色质剖析将解决这个问题。

  CUT&RUN片段长度作为峰值调用的基础。目前,对特定基因座的表观基因组数据富集的分析通常涉及基于特定靶标(例如,沉默中的H3K27me3或活性基因表达中的H3K4me3)的报道的作用的推断,或对目标区域的多个图谱重叠的分析。这种方法在十多年的表观基因组数据分析中几乎没有改变,需要用于靶标细化和参数优化的复杂方法(例如,[14]),即使在大规模人群中也难以实施。因此,我们寻求利用从CUT&RUN产生的独特信息来改进标准分析范式。除了以ChIP-seq的方式生成全基因组表观基因组谱以外,CUT&RUN还以碱基对的分辨率保留了关于测序片段长度的信息,类似于微球菌核酸酶-seq,但针对特定的靶标表位。片段长度可在单个分子水平上阐明蛋白质结合的性质;例如,TF保护小的足迹,经常留下少于80bp的短片段,而核小体在其两层包裹中保护大约150bp的DNA。我们的实验室使用了来自过去微球菌核酸酶-seq数据的片段长度信息来推断远端调控元件上的TF结合,以及活性转录位点上部分断裂的核小体的存在[20,39]。受此启发,我们开发了计算方法,该方法利用片段大小来以碱基对的分辨率预测CUT&RUN峰内的调控活性位点。我们使用偏离峰中心的片段分布对比片段长度的LOESS回归来鉴定峰内的单个碱基对(在该碱基对处预测片段的大小被最小化),类似于我们的V-plot方法[39],表明结合或调节活性的可能性最高(图60A)。当我们将我们的方法应用于K562细胞中靶向CTCF的实验的CUT&RUN数据时,我们检测到对应于两个主要群体的尖峰:高度富集与CTCF结合基序的重叠的小片段群和与富含GC的序列(其通常有利于核小体)重叠的较大片段群[40](图60B)。这些结果表明,小的DNA片段的尖峰更精确地确定了CTCF结合位点,将它们与裂解的区域内的侧翼核小体区分开。因此,对片段大小进行分层是以高分辨率鉴定因子结合位点的有效方法。

  使用CUT&RUN片段长度来鉴定调控元件。

  CUT&RUN数据的峰值调用算法的比较。现有的用于处理表观基因组数据的分析软件包是专门针对ChIP-seq编写的,因此被设计来从高噪声数据中提取信号。这些方法通常估计整个基因组的背景读数计数,然后使用较高的信号作为直接结合的唯一指标。因为CUT&RUN的背景非常低,所以这些方法不太适合峰值调用。但CUT&RUN数据包含ChIP-seq所缺乏的DNA片段大小信息,因为TF结合位点通常表现为短的DNA片段,并且在也在CUT&RUN[16]中释放的核小体的两侧,表现为约150bp的片段。我们将直接比较常见的峰值调用算法与我们的基于片段大小的算法来确定性能,并开发使用片段大小信息的有效算法。我们将测试MACS2和SPP算法,这两个主要的峰值调用包被用作ENCODE项目的标准。我们将首先使用来自批量实验的CTCF的CUT&RUN数据。CTCF具有定义明确的DNA结合基序,这为测试每种算法的召回率和分辨率提供了“黄金标准”。为了确定每种算法的灵敏度,我们将通过每种算法比较检测到的与CTCF基序重叠的峰的数量。为了确定分辨率,我们将构建CTCF基序至每个峰顶的距离的累积分布函数(CDF)曲线。我们的上述关于基于片段大小的结合位点检测的初步研究使我们确信,我们的方法可以胜过当前的对CUT&RUN数据的峰值调用方。

  利用scCUT&RUN数据的基于片段长度的峰值调用(peak-calling)。单细胞测序技术可以传递关于样品内异质性的重要信息。这是通过降维策略实现的,诸如t分布随机近邻嵌入(tSNE)[31]和一致流形逼近与投影(Uniform Manifold Approximation andProjection)(UMAP)[41]。这些聚类方法使用许多数字维度(例如单个细胞的基因表达值)来区分细胞状况。细胞类型之间的发育轨迹或过渡状态可通过簇的伪时间组织来推断。此类方法使用提供数千个维度的scRNA-seq数据是稳健的,因此即使从数百个单个细胞中稀疏采样维度也足以驱动聚类。然而,尽管scRNA-seq使用读数计数作为表达的定量测量,数据集仍以丰富的转录物为主,并受到高噪声的限制,这需要复杂的方法来消除PCR扩增假象。最近,通过scATAC-seq在单细胞中测量的DNA可及性已被用于对CD34+淋巴细胞进行分类[42]。在这种方法中,假定的调节元件可被鉴定,但是染色质因子在每个特定位点上所结合的是未知的,并且scATAC-seq使用DNA基序来猜测位点上的因子。直接询问调控元件上的因子结合将基于调控元件中的变化以及决定性TF的结合的变化产生细胞类型的轨迹,以了解细胞类型是如何被控制的。然而,基于ChIP的剖析缺乏对单细胞的灵敏度。此外,由于细胞中的DNA分子拷贝数低(G1期二倍体细胞中有2个拷贝),任何单细胞表观基因组剖析技术都受到每个维度的二进制值的限制。

  我们对单细胞表观基因组剖析分析提出了两个改进。我们将使用1)CUT&RUN的灵敏度和2)片段大小信息来最大化被称为单细胞分析的信息化维度的位点数量。Hainer等[23]最近表明,scCUT&RUN的灵敏度比scATAC-seq的灵敏度高一个数量级,这意味着CUT&RUN将为降维策略提供更优的输入。由于CUT&RUN剖析中的DNA片段大小可提供直接TF结合的信息,因此片段大小是减少单细胞染色质剖析中的噪音的理想指标。我们将首先从大量细胞群中确定结合位点,然后将单个细胞中的每个位点表示为该位点处的DNA片段大小。这些值将用作降维策略的输入。主成分分析(PCA)已用于scATAC-seq数据,我们将首先将PCA与从淋巴样细胞生成的关于H3K27Ac和H3K27me3修饰以及PU.1TF的scCUT&RUN数据集一起使用,来确定捕获单细胞数据中的最大变化的关键位点。然后,我们将使用tSNE或UMAP算法和scCUT&RUN数据或PCA定义的亚组。这将测试用于检测已知淋巴样亚群的最佳维数。然后,我们将比较考虑DNA片段大小如何与合并所有片段比较。我们将对果蝇睾丸中的单个细胞进行类似的分析,其中生殖细胞从干细胞到分化精子的发育轨迹是明确的,包括决定性转录因子。我们希望能够控制阶段特异性增强子的激活和基因表达的变化。这些研究是相关的,因为它们将使我们能够评估因子特异性作图与组蛋白修饰(通过scCUT&RUN)、DNA可及性(通过scATAC-seq)和基因表达(通过scRNA-seq)的更一般作图相比的表现。

  根据scCUT&RUN在单细胞中确定增强子和基因表达。RNA聚合酶通过染色质的结合和行进在体内产生动态核小体中间体。我们先前表明,在活性基因[20]的启动子上发现了特征性亚核小体长度的DNA片段。亚核小体片段出现在微球菌核酸酶裂解后和对H3K27Ac修饰进行CUT&RUN后。这些亚核小体片段可用于报告基因表达,甚至存在于在患者血清中发现的无细胞的DNA中,因此可用于在难以获得或不可能获得的情况下确定细胞来源类型[20]。重要的是,亚核体片段并不局限于转录活性启动子,而是CTCF结合位点的特征,在该位点TF结合与核小体竞争。这为鉴定增强子提供了独特的策略,其中我们预计任何TF的结合都将与核小体竞争,产生独特的亚核小体片段。我们将首先在人K562和果蝇S2细胞中使用针对其生成的H3K27Ac的CUT&RUN数据;H3K27Ac的CUT&RUN有效地丰富了基因组中活性调控元件的数据。在训练实验中,我们将推导出细胞群中的核小体位置,并使用我们的片段长度峰值调用方算法来检查亚核小体片段的频率,以确定潜在因子结合位点。我们将在这些细胞系中使用已知的基因表达和增强子的库(分别通过RNA-seq和STARR-seq确定的)来测试这些调用的性能。

  这种策略的优点是亚核小体长度的单个读数应该是活性调节元件的唯一诊断,因此提供了在单个细胞中询问增强子的方法。我们将在基因启动子上用亚核小体片段注释淋巴样细胞类型,对于离启动子更远的片段,提供启动子和调控元件的细胞类型特异性作图。最后,我们的目标是将单个细胞中的启动子与增强子联系起来,以开始推断调控元件的用法。在scCUT&RUN之后,我们将通过在单个细胞的整个基因组中注释亚核小体片段来做到这一点。我们还将在同一实验中通过使用针对组蛋白修饰的抗体来评估增加增强子和启动子的覆盖度。例如,用针对H3K27Ac组蛋白修饰的抗体和针对H3K4me1组蛋白修饰的抗体两者系连pA-微球菌核酸酶可以捕获具有两种组蛋白修饰或任一种组蛋白修饰的增强子(我们可以从单抗体实验中去卷积哪些位点可能是由于哪种修饰引起的)。这些实验的目标是询问在单个细胞中同时匹配哪些对的位点,这一推论目前任何技术都无法实现。如果这种方法是有希望的,那么特别吸引人的配对将是同时用针对H3K4me1的抗体作图活性增强子以及用针对RNAPII-CTD-S5P的抗体作图匹配的启动子。有了足够的覆盖度,这种组合允许评估当靶启动子与RNAPII结合时,基因的多个活性增强子是否被结合,或者增强子-启动子的相互作用是否更加动态。

  实施例8的参考文献(其每一篇通过引用整体并入)

  1.Liu,N.,Hargreaves,V.V.,Zhu,Q.,Kurland,J.V.,Hong,J.,Kim,W.,Sher,F.,Macias-Trevino,C.,Rogers,J.M.,Kurita,R.,et al.(2018).Direct PromoterRepression by BCL11A Controls the Fetal to Adult Hemoglobin Switch.Cell 173,430-442e417.

  2.Skene,P.J.,Henikoff,J.G.,and Henikoff,S.(2018).Targeted in situgenome-wide profiling with high efficiency for low cell numbers.NatProtoc 13,1006-1019.

  3.Solomon,M.J.,and Varshavsky,A.(1985).Formaldehyde-mediated DNA-protein crosslinking:a probe for in vivo chromatin structures.Proc.Natl.Acad.Sci.U.S.A.82,6470-6474.

  4.Rhee,H.S.,and Pugh,B.F.(2011).Comprehensive genome-wide protein-DNAinteractions detected at single-nucleotide resolution.Cell 147,1408-1419.

  5.Skene,P.J.,and Henikoff,S.(2015).A simple method for generatinghigh-resolution maps of genome wide protein binding.eLife 4,e09225.

  6.Zentner,G.E.,and Henikoff,S.(2014).High-resolution digitalprofiling of the epigenome.Nat.Rev.Genet.15,814-827.

  7.He,Q.,Johnston,J.,and Zeitlinger,J.(2015).ChIP-nexus enablesimproved detection of in vivo transcription factor binding footprints.Naturebiotechnology 33,395-401.

  8.Teytelman,L.,Thurtle,D.M.,Rine,J.,and van Oudenaarden,A.(2013).Highly expressed loci are vulnerable to misleading ChIP localization ofmultiple unrelated proteins.Proc.Natl.Acad.Sci.U.S.A.110,18602-18607.

  9.Park,D.,Lee,Y.,Bhupindersingh,G.,and Iyer,V.R.(2013).WidespreadmisinterpretableChIP-seq bias in yeast.PLoS One 8,e83506.

  10.Jain,D.,Baldi,S.,Zabel,A.,Straub,T.,and Becker,P.B.(2015).Activepromoters give rise to false positive'Phantom Peaks'in ChIP-seqexperiments.Nucleic Acids Res 43,6959-6968.

  11.Baranello,L.,Kouzine,F.,Sanford,S.,and Levens,D.(2016).ChIP biasas a function of cross-linking time.Chromosome Res 24,175-181.

  12.Meyer,C.A.,and Liu,X.S.(2014).Identifying and mitigating bias innext-generation sequencing methods for chromatin biology.Nat Rev Genet 15,709-721.

  13.Venkataraman,A.,Yang,K.,Irizarry,J.,Mackiewicz,M.,Mita,P.,Kuang,Z.,Xue,L.,Ghosh,D.,Liu,S.,Ramos,P.,et al.(2018).A toolbox ofimmunoprecipitation-grade monoclonal antibodies to human transcriptionfactors.Nat Methods.

  14.Kasinathan,S.,Orsi,G.A.,Zentner,G.E.,Ahmad,K.,and Henikoff,S.(2014).High-resolution mapping of transcription factor binding sites onnative chromatin.Nature Methods 11,203-209.

  15.Zentner,G.E.,Kasinathan,S.,Xin,B.,Rohs,R.,and Henikoff,S.(2015).ChEC-seq kinetics discriminate transcription factor binding sites by DNAsequence and shape in vivo.NatCommun 6,8733.

  16.Skene,P.J.,and Henikoff,S.(2017).An efficient targeted nucleasestrategy for high-resolution mapping of DNA binding sites.eLife 6,e21856.

  17.Schmid,M.,Durussel,T.,and Laemmli,U.K.(2004).ChIC and ChEC;genomicmapping of chromatin proteins.Mol.Cell 16,147-157.

  18.Thakur,J.,and Henikoff,S.(2018).Unexpected conformationalvariations of the human centromeric chromatin complex.Genes Dev.32,20-25.

  19.Kasinathan,S.,and Henikoff,S.(2018).Non-B-Form DNA Is Enriched atCentromeres.Mol.Biol.Evol.

  20.35,949-962.

  21.Ramachandran,S.,Ahmad,K.,and Henikoff,S.(2017).Transcription andRemodeling Produce Asymmetrically Unwrapped NucleosomalIntermediates.Mol.Cell68,1038-1053 e1034.

  22.Chereji,R.V.,Ocampo,J.,and Clark,D.J.(2017).MNase-SensitiveComplexes in Yeast:Nucleosomes and Non-histone Barriers.Mol.Cell 65,565-577e563.

  23.Kubik,S.,Bruzzone,M.J.,Albert,B.,and Shore,D.(2017).A Reply to\"MNase-Sensitive Complexes in Yeast:Nucleosomes and Non-histone Barriers,\"byChereji et al.Mol.Cell 65,578-580.

24.Hainer,S.J.,A.,Rando,O.J.,and Fazzio,T.G.(2018).Profiling of pluripotency factors in individual stem cells and earlyembryos.bioRxiv.

  25.van Steensel,B.,and Henikoff,S.(2000).Identification of in vivoDNA targets of chromatin proteins using tethered Dam methyltransferase.Nat.Biotechnol.18,424–428.

  26.van Steensel,B.,Delrow,J.,and Henikoff,S.(2001).Chromatinprofiling using targeted DNA adenine methyltransferase.Nat.Genet.27,304–308.

  27.Skene,P.J.,and Henikoff,S.(2017).CUT&RUN:Targeted in situ genome-wide profiling with high efficiency for low cell numbers.biorxivwww.biorxiv.org/content/early/2017/09/24/193219.

  28.Roth,T.L.,Puig-Saus,C.,Yu,R.,Shifrut,E.,Carnevale,J.,Hiatt,J.,Saco,J.,Li,H.,Li,J.,Tobin,V.,et al.(2017).Reprogramming human T cell functionand specificity with non-viral genome targeting.bioRxiv.

  29.Rosenberg,A.B.,Roco,C.M.,Muscat,R.A.,Kuchina,A.,Sample,P.,Yao,Z.,Graybuck,L.T.,Peeler,D.J.,Mukherjee,S.,Chen,W.,et al.(2018).Single-cellprofiling of the developing mouse brain and spinal cord with split-poolbarcoding.Science 360,176-182.

  30.Goldstein,L.D.,Chen,Y.J.,Dunne,J.,Mir,A.,Hubschle,H.,Guillory,J.,Yuan,W.,Zhang,J.,Stinson,J.,Jaiswal,B.,et al.(2017).Massively parallelnanowell-based single-cell gene expression profiling.BMC Genomics 18,519.

  31.Chen,K.,Hu,Z.,Xia,Z.,Zhao,D.,Li,W.,and Tyler,J.K.(2015).TheOverlooked Fact:Fundamental Need for Spike-In Control for Virtually AllGenome-Wide Analyses.Mol.Cell.Biol.36,662-667.

  32.Cao,J.,Packer,J.S.,Ramani,V.,Cusanovich,D.A.,Huynh,C.,Daza,R.,Qiu,X.,Lee,C.,Furlan,S.N.,Steemers,F.J.,et al.(2017).Comprehensive single-celltranscriptional profiling of a multicellular organism.Science 357,661-667.

  33.de Frutos,M.,Raspaud,E.,Leforestier,A.,and Livolant,F.(2001).Aggregation of nucleosomes by divalent cations.Biophys.J.81,1127-1132.

  34.Mezger,A.,Klemm,S.,Mann,I.,Brower,K.,Mir,A.,Bostick,M.,Farmer,A.,Fordyce,P.,Linnarsson,S.,and Greenleaf,W.(2018).High-throughput chromatinaccessibility profiling at single-cell resolution.bioRxiv,http://dx.doi.org/10.1101/310284.

  35.Svensson,V.,Vento-Tormo,R.,and Teichmann,S.A.(2018).Exponentialscaling of single-cell RNA-seq in the past decade.NatProtoc 13,599-604.

  36.Zheng,G.X.,Terry,J.M.,Belgrader,P.,Ryvkin,P.,Bent,Z.W.,Wilson,R.,Ziraldo,S.B.,Wheeler,T.D.,McDermott,G.P.,Zhu,J.,et al.(2017).Massivelyparallel digital transcriptional profiling of single cells.Nat Commun 8,14049.

  37.Wright,K.J.,Marr,M.T.,2nd,and Tjian,R.(2006).TAF4 nucleates a coresubcomplex of TFIID and mediates activated transcription from a TATA-less promoter.Proc.Natl.Acad.Sci.U.S.A.103,12347-12352.

  38.Chen,X.,Hiller,M.,Sancak,Y.,and Fuller,M.T.(2005).Tissue-specificTAFs counteract Polycomb to turn on terminal differentiation.Science 310,869-872.

  39.Barreau,C.,Benson,E.,Gudmannsdottir,E.,Newton,F.,and White-Cooper,H.(2008).Post-meiotic transcription in Drosophila testes.Development 135,1897-1902.

  40.Henikoff,J.G.,Belsky,J.A.,Krassovsky,K.,Macalpine,D.M.,andHenikoff,S.(2011).Epigenome characterization at singlebase-pair resolution.Proc.Natl.Acad.Sci.U.S.A.108,18318-18323.

  41.Kaplan,N.,Moore,I.K.,Fondufe-Mittendorf,Y.,Gossett,A.J.,Tillo,D.,Field,Y.,LeProust,E.M.,Hughes,T.R.,Lieb,J.D.,Widom,J.,et al.(2009).The DNA-encoded nucleosome organization of a eukaryotic genome.Nature 458,362-366.

  42.Becht,E.,Dutertre,C.-A.,Kwok,I.W.H.,Ng,L.G.,Ginhoux,F.,and Newell,E.W.(2018).Evaluation of UMAP as an alternative to t-SNE for single-celldata.biorxiv,doi.org/10.1101/298430.

  43.Buenrostro,J.D.,Corces,M.R.,Lareau,C.A.,Wu,B.,Schep,A.N.,Aryee,M.J.,Majeti,R.,Chang,H.Y.,and Greenleaf,W.J.(2018).Integrated Single-CellAnalysis Maps the Continuous Regulatory Landscape of Human HematopoieticDifferentiation.Cell.

  44.Regev,A.,Teichmann,S.A.,Lander,E.S.,Amit,I.,Benoist,C.,Birney,E.,Bodenmiller,B.,Campbell,P.,Carninci,P.,Clatworthy,M.,et al.(2017).The HumanCell Atlas.eLife 6.

  45.Buenrostro,J.D.,Giresi,P.G.,Zaba,L.C.,Chang,H.Y.,and Greenleaf,W.J.(2013).Transposition of native chromatin for fast and sensitiveepigenomic profiling of open chromatin,DNA-binding proteins and nucleosomeposition.Nat Methods 10,1213-1218.

  46.Corces,M.R.,Buenrostro,J.D.,Wu,B.,Greenside,P.G.,Chan,S.M.,Koenig,J.L.,Snyder,M.P.,Pritchard,J.K.,Kundaje,A.,Greenleaf,W.J.,et al.(2016).Lineage-specific and single-cell chromatin accessibility charts humanhematopoiesis and leukemia evolution.Nat.Genet.48,1193-1203.

  47.Cusanovich,D.A.,Daza,R.,Adey,A.,Pliner,H.A.,Christiansen,L.,Gunderson,K.L.,Steemers,F.J.,Trapnell,C.,and Shendure,J.(2015).Epigenetics.Multiplex single-cell profiling of chromatin accessibility bycombinatorial cellular indexing.Science 348,910-914.

  48.Kester,L.,and van Oudenaarden,A.(2018).Single-Cell TranscriptomicsMeets Lineage Tracing.Cell Stem Cell.

  49.Henikoff,S.,Ahmad,K.,and Malik,H.S.(2001).The centromere paradox:Stable inheritance with rapidly evolving DNA.Science 293,1098–1102.

  实施例9

  改进的CUT&RUN载体

  直到最近,本文公开的我们用于CUT&RUN的所有pA-微球菌核酸酶都来源于原始pK19-pA-MN载体(Schmid等,2004)。然而,由这种构建体产生的融合蛋白需要使用IgG柱从大肠杆菌过表达细胞的裂解物中纯化,并且在用低pH洗脱后进行中和导致批次之间的差异。为了改进纯化方案,我们在pK19-pA-MN中添加了6-His标签(Bornhorst和Falke,2000)。这允许在镍树脂柱上进行简单和温和的纯化(见图61)。另外,我们发现商用6-His-钴树脂试剂盒也提供了非常清洁和高活性的酶(PierceTM Pull-Down PolyHisProtein:ProteinInteraction试剂盒,目录号21277)。

  虽然6-His标签原则上可用于从CUT&RUN上清液中下拉染色质,但实际上这是复杂的,因为需要螯合剂从树脂中释放6-His标签。因此,我们还添加了HA(血凝素)标签,其可应用于CUT&RUN.ChIP(Brahma和Henikoff,2018),其中将CUT&RUN上清液用过量的标签特异性肽处理以释放抗体,从而允许被第二抗体结合以用于染色质免疫沉淀。由于微球菌核酸酶融合构建体上带有HA标签,我们可通过允许利用任何抗体(而不是仅仅针对表位标签诸如HA或3XFLAG的抗体)进行CUT&RUN来增加了该方法的通用性。

  蛋白A只与小鼠IgG微弱结合,因此对于小鼠抗体,通常使用蛋白G。为了进一步提高微球菌核酸酶融合蛋白的通用性,我们在pK19-pA-MN中的蛋白A结构域附近添加了一个蛋白G结构域。这产生了融合蛋白,其能与几乎所有商业抗体强结合,而不需要第二抗体(Eliasson等,1988)。另外,我们突变了蛋白G编码序列中的3个残基,以进一步增加与兔抗体的结合(Jha等,2014)。

  图中显示了所得的pA/G-MN酶构建体的图谱。我们已经发现,对于普通的CUT&RUN应用,其行为非常类似于pA-MN酶,但更容易被纯化并且更加通用,例如允许我们在不需要针对小鼠单克隆一抗的二抗的情况下进行CUT&RUN。

  实施例9的参考文献(其每一篇通过引用整体并入)

  Bornhorst,J.A.,and Falke,J.J.(2000).Purification of proteins usingpolyhistidine affinity tags.Methods Enzymol 326,245-254.

  Brahma,S.,and Henikoff,S.(2018).RSC-associated Subnucleosomes DefineMNase-sensitive Promoters in Yeast.In revision.

  Eliasson,M.,Olsson,A.,Palmcrantz,E.,Wiberg,K.,Inganas,M.,Guss,B.,Lindberg,M.,and Uhlen,M.(1988).Chimeric IgG-binding receptors engineered fromstaphylococcal protein A and streptococcal protein G.J Biol Chem 263,4323-4327.

  Jha,R.K.,Gaiotto,T.,Bradbury,A.R.,and Strauss,C.E.(2014).An improvedProtein G with higher affinity for human/rabbit IgG Fc domains exploiting acomputationally designed polar network.Protein engineering,design&selection:PEDS 27,127-134.

  Schmid,M.,Durussel,T.,and Laemmli,U.K.(2004).ChIC and ChEC;genomicmapping of chromatin proteins.Mol Cell 16,147-157.

  实施例10

  通过免疫系连的插入测序进行的快速靶向表观基因组剖析

  引言

  大规模并行测序的出现和每碱基成本的大幅降低迅速推动了基因组学的革命,然而,表观基因组剖析的全部前景由于用于将染色质片段作图到基因组的方法的局限性而已经落后1。染色质免疫沉淀与测序(ChIP-seq)是目前最广泛使用的染色质剖析方法2。然而,ChIP-seq在分辨率上受到数百个碱基对大小的超声处理的片段的限制,尽管诸如ChIP-exo3、微球菌核酸酶-X-ChIP-seq4和ORGANIC5等变型提供了碱基对的分辨率以充分利用测序平台。然而,仍然存在关于交联、表位掩蔽和交联方法的假象方面的问题,并且低产率需要大量细胞2,6-9。ChIP的替代方案也有所进步,尤其是酶系连方法,包括DamID10、ChEC-seq7和CUT&RUN11,12,在这些方法中,特定目标蛋白质被原位靶向,然后在全基因组范围内对其进行剖析。例如,基于Laemmli的染色质免疫裂解(ChIC)策略13的CUT&RUN,通过向透化细胞连续添加特定抗体和蛋白A/微球菌核酸酶(pA-微球菌核酸酶)融合蛋白(而不发生交联)来靶向目标染色质蛋白或修饰11。通过添加钙激活微球菌核酸酶,片段被释放到上清液中用于提取DNA、文库制备和配对末端测序。CUT&RUN以比ChIP-seq低得多的背景水平提供了特定染色质组分的碱基对的分辨率,极大地降低了全基因组剖析的成本。尽管CUT&RUN可应用于100-1000个细胞而不会显著损失数据质量12,14,但高通量单细胞应用由于需要将含有靶向片段的上清液与含有基因组其余部分的细胞分离而变得复杂。此外,通过将细胞固定在顺磁性珠粒上来提供的简易工作流程必须遵循DNA测序文库制备,这大大增加了整个过程的时间、成本和精力。

  此处,我们通过将高活性的Tn5转座酶15与蛋白A融合,并用载有Illumina相容性嵌合末端寡核苷酸的蛋白A/Tn5复合物取代pA-MN的添加,来克服ChIP-seq和CUT&RUN的局限性。用Mg++激活Tn5导致抗体靶向的加标签,准备用于批量和单细胞应用的PCR扩增。从活细胞开始,我们的单管免疫系连的插入测序(ImmunoTethered Insertion sequencing,ITIS)方案在一天内提供扩增序列就绪文库(amplified sequence-ready libraries)。

  方法

  材料

  试剂

  细胞悬液。我们已使用了人K562细胞。

  伴刀豆球蛋白包被的磁珠(Bangs Laboratories,目录号BP531)

  针对目标表位的抗体。例如,用于通过CUT&RUN1D和3D相互作用的兔α-CTCF多克隆抗体(Millipore 07-729)作图

  针对丰富表位的阳性对照抗体,例如α-H3K27me3兔单克隆抗体(Cell SignalingTechnology,目录号9733)

  第二抗体,例如豚鼠α-兔抗体

  5%洋地黄皂苷(EMD Millipore,目录号300410)

  -20℃的蛋白A–Tn5(pA-Tn5)融合蛋白原液。

  具有Illumina相容性悬突的嵌合末端双链寡核苷酸(序列信息来源于参考文献16,通过Eurofins订购,100μM(于TE缓冲区中))

  嵌合末端_反向[PHO]CTGTCTCTTATACACATCT(SEQ ID NO:2)

  嵌合末端_衔接子A TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG((SEQ ID NO:3)

  嵌合末端_衔接子B GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO:4)

  蒸馏的、去离子的或不含H2O(dH2O例如,Promega,目录号P1197)

  1M氯化锰(MnCl2;Sigma-Aldrich,目录号203734)

  1M氯化钙(CaCl2;Fisher,目录号BP510)

  1M氯化钾(KCl;Sigma-Aldrich,目录号P3911)

  1M氯化镁(MgCl2)

  1M羟乙基哌嗪乙磺酸,pH7.5(HEPES(Na+);Sigma-Aldrich,目录号H3375)

  1M羟乙基哌嗪乙磺酸,pH7.9(HEPES(K+);Sigma-Aldrich,目录号H3375)

  5M氯化钠(NaCl;Sigma-Aldrich,目录号S5150-1L)

  0.5M乙二胺四乙酸(EDTA;Research Organics,目录号3002E)

  2M亚精胺(Sigma-Aldrich,目录号S2501)

  罗氏完全蛋白酶抑制剂无EDTA片剂(Sigma-Aldrich,目录号5056489001)

  2mg/ml糖原(Sigma-Aldrich的1:10稀释物,目录号10930193001)

  RNA酶A、DNA酶和无蛋白酶(10mg/ml;Thermo Fisher Scientific,目录号EN0531)

  10%十二烷基硫酸钠(SDS;Sigma-Aldrich,目录号L4509)

  蛋白酶K(Thermo Fisher Scientific,目录号EO0492)

  AgencourtAMPureXp顺磁性珠粒(Beckman Coulter,目录号A63880)

  1M Tris-HCl pH 8.0

  乙醇(Decon Labs,目录号2716)

  NEBNext HiFi 2x PCR预混合物

  PCR引物(具有独特索引的定制PCR引物的序列源自参考文献17和18)

  设备

  Eppendorf 5810离心机,摇摆斗

  Eppendorf 5424离心机,固定角度转子

  Eppendorf 5415R离心机,冷冻固定角转子

  Macsimag磁选机(Miltenyi,目录号130-092-168),其允许从1.7和2ml微量离心管的底部干净地抽取液体。

  涡旋混合器(例如,WR Vortex Genie)

  微型离心机(如VWR V型)

  1.5-ml微量离心管(Genesee,目录号22-282)

  2-ml微量离心管(Axygen,目录号MCT-200-C)

  管旋转器(Labquake,Thermo Fisher)

  用于1.5-ml微量离心管的带孔加热块

  水浴(设置为37℃、55℃和70℃)

  MaXtract锁相微量离心管(Qiagen,目录号139046)

  毛细管电泳仪(例如Agilent Tapestation 4200)

  量子位荧光计(Life Technologies,目录号Q33216)

  试剂设置

  5%洋地黄皂苷:将洋地黄皂苷粉末(Calbiochem)溶解在DMSO中至5%(w/v)。

  结合缓冲液:混合400μL 1M HEPES-KOH pH 7.9,200μL 1M KCl,20μL 1M CaCl2和20μL 1M MnCl2,并用dH2O使最终体积为20ml。将缓冲液在4℃下储存6个月。

  伴刀豆球蛋白A包被的珠粒:轻轻重悬并提取足够的浆液,使得每个最终样品和/或消化时间点将有10μL。转移到2ml试管中的1.5ml结合缓冲液中。将试管置于磁铁架上清洗(30秒至2分钟)。抽出液体,然后从磁铁架上取下。加入1.5ml结合缓冲液,通过倒置或温和移液进行混合,在微型离心机上用快速脉冲从盖子和侧面移除液体。重悬于与ConA珠粒浆液体积相等的体积(每样品10μL)的结合缓冲液中。

  Tn5-衔接子复合物:使嵌合末端-衔接子A(ME-A)和嵌合末端-衔接子B(ME-B)的每一种与嵌合末端-反向寡核苷酸退火。将16ul的预退火的ME-A和ME-B寡核苷酸的100uM等摩尔混合物与100ul的5.5uM蛋白A-Tn5融合蛋白混合。在室温下,将混合物在旋转平台上孵育1小时,然后在-20℃下储存。

  洗涤缓冲液:混合1ml 1M HEPES pH 7.5、1.5ml 5M NaCl、12.5μL 2M亚精胺,用dH2O使最终体积为50ml,并加入1片罗氏完全蛋白酶抑制剂无EDTA片。将缓冲液在4℃下储存达1周。

  消化洗涤缓冲液:将400μL 5%洋地黄皂苷与40ml洗涤缓冲液混合。将缓冲液在4℃下储存达1天。

  抗体缓冲液:将8μL 0.5M EDTA与2ml消化洗涤缓冲液混合,置于冰上直至使用。

  Dig-med缓冲液:将20ml消化洗涤缓冲液与600μL 5M NaCl混合。将缓冲液在4℃下储存达1天。

  加标签缓冲液:将20μL 1M MgCl2与2ml Dig-med缓冲液混合,置于冰上直至使用。

  程序

  细胞透化和一抗孵育

  计时1.5小时至数天

  1)在室温下收获一份或多份新鲜培养物并计数细胞。相同的方案可用于每样品多达500,000个哺乳动物细胞。

  暂停点:如有必要,可使用Mr.Frosty异丙醇室将细胞在10%DMSO中冷冻保存。我们不建议快速冻结,因为这可导致背景DNA断裂,从而可能影响最终数据质量。

  2)在室温下以600x g离心3分钟,取出液体。

  3)通过温和移液重新悬浮于1.5ml室温洗涤缓冲液中,必要时转移至2ml管中。

  4)在室温下以600x g离心3分钟,取出液体。

  5)重复步骤3和4。

  6)置于设置为低转速(~1100rpm)的涡旋上,重悬于1ml冷抗体缓冲液中。

  7)将细胞浆在1.5ml管中分成100μL等分试样,每份对应每一种待使用的抗体。

  8)添加1-2μL抗体。

  9)室温下旋转1-2小时,或在4℃下旋转数天。

  结合第二抗体

  计时1小时

  10)将每个管置于设置为低转速(~1100rpm)的涡流混合器上,缓慢加入10μL活化的ConA珠粒浆。

  11)在室温下章动或旋转以允许结合(5-10分钟)。

  12)每100μL消化洗涤液混合1-2μL二抗(例如,针对兔一抗的豚鼠抗兔抗体)。

  13)在微型离心机上用快速脉冲从盖子和侧面移除液体,并将管置于磁铁架上以澄清。

  14)吸出所有液体,将每个管以低角度置于设置为低转速(~1100rpm)的涡旋混合器上,并喷出100μL的二抗混合物,同时温和涡旋,以使溶液移出大部分或全部珠粒。轻敲以移出剩余的珠粒。

  15)在室温下章动(nutate)或旋转约30分钟。

  16)快速旋转,置于磁铁架上以澄清,并吸出所有液体。

  17)加入1ml消化洗涤缓冲液,通过倒置混合,或者如果块状物持续存在,通过温和移液混合。

  18)重复步骤16-17两次。

  结合蛋白A-Tn5融合蛋白

  计时1.5小时

  19)在Dig-med缓冲液中混合pA-Tn5复合物,终浓度为1:200,每份样品100μL。

  20)置于磁铁架上,澄清并吸出所有液体。

  21)将每个管以小角度置于设置为低转速(~1100rpm)的涡流混合器上,100μL的pA-Tn5混合物,同时温和涡旋,使溶液移出大部分或全部珠粒。轻敲以移出剩余的珠粒。

  22)在室温下放置在管式章动器转子上1小时。

  23)快速旋转,置于磁铁架上以澄清,并吸出所有液体。

  24)加入1mlDig-med缓冲液,倒置混合,或者如果团块持续存在,通过温和移液混合。

  25)重复步骤23-24两次。

  加标签

  计时1.2小时

  26)快速旋转,置于磁铁架上以澄清并吸出所有液体。

  27)将每个管以低角度置于设置为低转速倍((~1100rpm)的涡流混合器上,沿侧面向每个样品添加1100μL加标签缓冲液,同时温和涡旋,以使溶液移出大部分或全部珠粒。轻敲以移出剩余的珠粒。

  28)在37℃下孵育1小时

  终止加标签及DNA提取

  计时1.5小时

  29)在室温下,向每个样品中加入4.5μL 0.5M EDTA、5.5μL 10%SDS和1μL 20mg/ml蛋白酶K

  30)在55℃下孵育30分钟以消化。

  31)在70℃下孵育20分钟以使蛋白酶K失活。

  32)添加1.1倍体积(122μL)的AMPureXp顺磁性珠粒,并短暂地全速涡旋。

  33)快速旋转,在室温下放置10-15分钟。

  34)置于磁铁上,在小心地抽出液体之前让其澄清。

  35)在磁铁上,在不扰动珠粒的情况下,加入1ml 80%乙醇。

  36)用1ml移液器将液体吸至管底部,并加入1ml 80%的乙醇。

  37)用1ml移液器吸取液体。

  38)用20μL移液器移去剩余液体,并让其干燥4-5分钟。

  39)从磁铁架上取下,加入30μL 10mM Tris-HCl pH 8,并全速涡旋。

  40)5分钟后,置于磁铁架上,让其澄清。

  41)用移液器将液体移至新管中。

  PCR

  计时1小时

  42)混合21μL DNA+2μL定制Ad1_noMX i5+2μL v2_Ad2.?条形码化的i7引物,每个样品使用不同的条形码。

  43)加入25μL NEBNext HiFi 2x PCR预混合物。

  44)混合,快速旋转,置于热循环仪中,用加热的盖子开始循环程序。

  45)循环1:72℃持续5分钟(间隙填充)

  46)循环2:98℃持续30秒

  47)循环3:98℃持续10秒

  48)循环4:63℃持续30秒

  49)重复循环3-4 13次

  50)72℃保持1分钟,并保持在8℃

  为了最大限度地减少大的DNA片段和过量引物的影响,PCR循环至少应为12-14个循环,优选利用10秒60-63℃的退火/延伸组合步骤。

  PCR后的清理

  51)管冷却后,从循环仪中取出,加入1.1倍体积(55μL)AmpureXp珠粒,短暂地全速涡旋。

  52)快速旋转,让其在室温下放置10-15分钟。

  53)置于磁铁上,在小心地抽出液体之前让其澄清。在磁铁上,在不扰动珠粒的情况下,加入200μL 80%的乙醇。

  54)用移液器将液体吸至管底部,并加入200μL 80%的乙醇。

  55)抽取液体,用20μL移液器移去剩余液体,并让其干燥4-5分钟。

  56)从磁铁架上取下,加入30μL 10mM Tris-HCl pH 8,并全速运转涡旋。

  57)5分钟后,置于磁铁架上,让其澄清。

  58)用移液器将液体移至新管中。

  DNA测序和数据处理

  59)通过Agilent 4200TapeStation分析确定文库的大小分布。

  60)根据制造商的建议,混合文库以达到瞄向终浓度所需的等同代表性。

  61)按照制造商的说明对条形码化的文库进行配对末端Illumina测序。

  62)我们使用Bowtie2 2.2.5版将配对末端读数与以下选项对齐:--local--very-sensitive-local--no-unal--no-mixed--no-discordant--phred33-I 10-X 700。为作图用于校准的片段,我们还使用了--no-overlap--no-dovetail选项,以避免实验基因组与加标DNA的交叉作图。

  结果和讨论

  我们的基本ITIS方案涉及:(1)透化细胞,(2)加入一抗并孵育,(3)固定在伴刀豆球蛋白A包被的顺磁性珠粒上,(4)加入二抗,孵育并洗涤,(5)加入pA-Tn5(图62)并洗涤,(6)与Mg++一起孵育,(7)终止反应并用蛋白酶K消化以及(8)加入AmpureXp珠粒进行顺磁性清理(图63A)。所有操作都在单个管或微量滴定板的孔中进行,从磁珠中水洗脱产生PCR即用型DNA文库。14个循环的PCR后10%等分试样的Tapestation展示显示了RNAPII-Ser5和H3K27me3的片段衔接子阶梯,但对于使用两种不同pA-Tn5构建体的IgG对照则未显示所述片段衔接子阶梯(图64)。对于6,000至400,000范围内的细胞数量可看到阶梯(图63B)。对于降至60,000(对于H3K27me3)和20,000(对于RNA聚合酶II丝氨酸-5(RNAPII-Ser5))的细胞数量,图谱几乎相同,显示了小片段(在两个末端上有<100bp+61-bp的衔接子)、单核小体(~170bp+衔接子)和寡核小体。对于CUT&RUN,对于核小体和非核小体表位都观察到相似的核小体阶梯,并解释为通过在两侧的接头区域内裂解而导致的相邻核小体的释放。在细胞数量较低时,片段的平均长度显著增加,小片段和单核体减少,寡核小体增加。我们将这些大小分布和细胞数量的差异解释为由有限数量的一级抗体引起的,因此在较高的细胞数量下,没有足够的抗体结合所有可用的表位,这是我们先前针对CUT&RUN所报道的限制12。随着细胞数量的减少,几乎所有的位点都被抗体饱和,因此对于在结构域中丰富存在的H3K27me3以及对于在转录起始位点和基因中丰富存在的RNAPII-Ser5,在颗粒之间释放片段的可能性更高。假定抗体浓度相等,则H3K27me3的细胞耗竭将多于RNAPII-Ser5的细胞耗竭,因为每个核小体最多有两个拷贝的H3K27me3,但每个RNAPII复合物最多有52个拷贝的C末端结构域(CTD)七聚体19。我们发现一抗孵育几天不会影响ITIS产率。

  我们首先比较了ITIS与CUT&RUN的RNAPII的剖析。通过CUT&RUN,消化的长度决定了片段的产率。消化不足导致低信号,细胞群中只有一小部分位点在目标颗粒的两侧发生裂解,从而将片段释放到上清液中。过度消化会释放pA-MN结合的片段,这可导致非靶向消化,对于高度丰富的表位诸如RNAPII和H3K27ac,这一问题变得严重。为了减少CUT&RUN的非靶向消化,我们修改了方案,使得消化使用低盐和高二价阳离子浓度来进行,所述低盐和高二价阳离子浓度先前已被证明会导致核小体核心颗粒的沉淀。事实上,使用3.5mM HEPESpH 7.5和10mM CaCl2进行CUT&RUN消化时,我们在消化过程中未检测到H3K27ac靶向染色质的释放,但在添加150mMNaCl时有定量释放。该方法通过相关矩阵分析极大地减少了时间点之间的差异(图57),因此我们已经在所有的应用中采用了这个改进的CUT&RUN方案。尽管如此,当我们的改进的CUT&RUN方案应用于使用抗RNAPII-Ser5抗体的RNAPII起始形式时,我们观察到在0℃下从1分钟至27分钟的时间过程中的消化不足和过度消化(图65)。相比之下,在2种不同浓度下使用相同的抗体和两种不同的pA-Tn5构建体的ITIS在启动子上显示出尖锐的峰,其中在基因体上具有低的宽域,并且背景比最佳CUT&RUN时间点(9分钟)低。我们用另外4种抗RNAPII表位(Ser-2、Ser5、Ser2+Ser5和Ser7)的抗体证实了该RNAPII CUT&RUN的一致性。相关矩阵分析显示,所有5种抗体在全基因组范围内给出高度一致的图谱,在同一实验中没有排除不同抗体的生物学重复的聚类,而我们最佳实验的CUT&RUN图谱显示整体一致性较低,尽管事实上时间点是从同一孵育混合物中连续采集的(图66B)。我们的结论是,与使用我们改进的CUT&RUN方案相比,ITIS提供了背景更低的RNAPII的稳健剖析。我们使用不同的方法观察到沉默(H3K27me3)和活性(H3K4me2和H3K27me3)的组蛋白修饰的ITIS剖析具有相似高的稳健性和一致性(图66A)。

  使用Tn5的加标签先前已经按照流行的ATAC-seq方法以非靶向方式应用于超敏位点检测17,ITIS的挑战是避免非靶向加标签,所述非靶向加标签会与抗体靶向剖析相混淆。为了测定非靶向加标签的程度,我们使用了针对H3K27me3的兔单克隆抗体,我们将H3K27me3用作CUT&RUN阳性对照,因为该表位仅在基因组的沉默区域存在,所述沉默区域基本上没有超敏位点。为了鉴定人K562细胞中的超敏位点,我们下载了一组61,153个峰值调用,用于最近发布的ATAC-seq数据集(GSM2695561)。使用每个峰的中点作为超敏位点的位置,我们在添加pA-Tn5复合物期间和/或之后对细胞进行各种处理后,对H3K27me3ITIS产生的片段进行了比对。我们发现,在ITIS使用生理性(~150mM)NaCl时,超敏位点的占用率很高,在pA-Tn5结合后使用短暂的500mM盐洗涤时,超敏位点的占用率略有下降,但使用300mMNaCl进行结合、洗涤和加标签时,超敏部位的占用率则被消除(图69A)。当将所有61,153个ATAC-seq位点按得分排序时,CUT&RUN显示与ATAC-seq得分呈弱负相关,而使用150mM NaCl和仅短暂的00mM NaCl洗涤的ITIS产生了强相关的热图(图67),证实了pA-Tn5在孵育期间与全基因组范围的超敏位点结合,并且在洗涤和加标签期间保留了大量活性酶复合物。引人注目的是,用500mMNaCl进行长时间洗涤,使ATAC-seq站点上的占用率降低至达到对于CUT&RUN所观察到的水平。通过在pA-Tn5结合、洗涤和加标签结果期间使用300mM的NaCl浓度,进一步降低了超敏位点的占用率。我们将这种弱的抗相关性归因于高浓度的超敏位点嵌入其中的K27me3结构域内的表位,导致结合至H3K27me3核小体的pA-Tn5优先释放背景片段,所述背景片段相对于嵌入在无H3K27me3的结构域中的位点位于这些位点的侧翼。这些结果还表明,通过与与一组衔接子复合的未系连的Tn5一起孵育,然后与与不同组衔接子复合的pA-Tn5一起孵育,并省略高盐处理,ITIS和ATAC-seq均可在同一样品上进行。

我们发现离子浓度可以影响ITIS片段的大小分布。ITIS产生代表转录因子的小片段(≤120bp)和代表大多数单核小体和较低水平的二核小体的大片段(图68)。约10-bp的周期性可能反映了系连的裂解的严格限制,类似于对于酵母转录因子的CUT&RUN观察到的不太明显的周期性,我们将这解释为反映了酶进入DNA双螺旋的一面11。通过升高盐浓度以消除未靶向的pA-Tn5,我们还观察到小片段大小的群体的减少(图69B)。另外,我们在下表中观察到作图大肠杆菌基因组的片段数量减少。

  Tn5在300mM NaCl中的结合和加标签减少了人K562细胞中大肠杆菌的DNA污染。

  来自两个不同的ITIS实验的作图的配对末端读取计数。在第一实验中,150mMNaCl氯化钠用于pA-Tn5的结合,随后进行两次短暂的500mM洗涤,然后在150mM NaCl中进行加标签。在第二实验中,将300mM NaCl用于pA-Tn5结合,随后进行三次短暂洗涤和加标签。在纯化过程中,Tn5转座酶与大肠杆菌DNA的可用片段结合,其中一些在纯化过程中保持结合。对于任何一批转座酶,进入反应的大肠杆菌DNA污染的百分比用作“非侵入性”加标替代物,其可用于校准样品,使得可对它们进行定量比较。

  这种污染的发生是因为Tn5编码基因在大肠杆菌中被诱导高水平表达,产生高浓度的与大肠杆菌基因组DNA结合的酶,并且其中一些大肠杆菌基因组DNA在纯化过程中留存下来,同时与细胞DNA一起被加标签。尽管存在用于在纯化过程中去除这种污染物的方案,我们仍然发现我们的300mM NaCl方案将大肠杆菌DNA降低到了微不足道的水平。我们注意到,相对罕见的表位(诸如CTCF),相对于更丰富的表位(诸如组蛋白修饰)显示出更高水平的污染,而仅提供低的一致背景的IgG,显示出极高的污染水平。这表明我们可使用大肠杆菌污染作为用于校准的加标的“非侵入性”替代物。加标校准是比较样品所必需的20,对于诸如CUT&RUN和ITIS等方法,情况尤其如此,在所述方法中背景水平太低而无法用于校准。为了测试污染性大肠杆菌DNA是否可以用作加标的替代物,我们使用K562细胞数据集(来自针对H3K27me3(100-6,000个细胞)和CTCF(1,000-100,000个细胞)所剖析的系列稀释的细胞)将片段作图到大肠杆菌基因组,包括酿酒酵母DNA加标。事实上,对于两种细胞数量范围,酵母加标与大肠杆菌污染之间的相关性非常接近,以至于在可能的测量误差内是相同的(R2=0.96,图70)。因此,污染pA-微球菌核酸酶的大肠杆菌DNA可用于校准CUT&RUN,避免了对加标的需要,证实了我们的证据,即污染pA-Tn5的大肠杆菌DNA可用作用于ITIS的合适的加标替代物。使用大肠杆菌污染作为加标替代物有利于使用异源加样,因为向CUT&RUN样品中添加pA-微球菌核酸酶比向停止缓冲液中添加异源加标DNA更早进行,因此在CUT&RUN过程的早期阶段控制样品间的变化,这一优势扩展至ITIS。大肠杆菌基因组比用于CUT&RUN加标的酵母或果蝇基因组简单,并且不需要重复掩蔽,并且由于其对于所有真核生物都是异源的,因此其应该足以满足几乎所有ITIS应用。

  我们使用RNAPII-Ser5数据集来验证ITIS。已在K562细胞中使用PRO-seq对RNAPII进行了剖析,所述PRO-seq是转录运行法,其对RNAPII的活性位点中的新生链进行作图,因此与基于染色质的方法诸如ChIP-seq、CUT&RUN以及ITIS正交。使用MACS2,利用默认参数,为pA-Tn5和pA-3XFLAG-Tn5数据集(图64,PolIIIS5)调用峰值,每种产生约17,500个峰值。将人K562细胞(SRA GSM1480327)的经处理的PRO-seq数据集与峰值调用对齐。当按ITISMACS2分数排序时,看到PRO-seq占用率与PolII-Ser5ITIS得分之间的密切对应关系,其中蓝色热图值表示对每个峰值调用的3’侧的PRO-seq占用率,黄色值表示对5’侧的PRO-seq占用率(图71)。这提供了直接的验证,即PolII-Ser5ITIS作图到RNAPII的起始形式,而不需要参考任何外部注释。从两种形式的pA-Tn5的峰值调用产生非常相似的PRO-seq热图。我们的结论是,ITIS提供了准确的RNAPII图谱。

  为了确定ITIS是否可以更广泛地用于表观基因组组分,并使方案适应高通量,我们将反应体积减小了一半,将从两个批次采集并透化的K562和H1人胚胎干细胞中的每一种分配到96孔微量板的单个孔中。对于总共96个样品,我们以1:50的浓度向每个样品中加入来自一组20种抗体中的一种抗体。在4℃孵育过夜后,在平板上进行ITIS,加入Ampure珠粒,使用96种不同的条形码,利用14个循环扩增洗脱液,然后将其合并。将基于Tapestation分析的大小分布和基于量子位读数的浓度被用于混合大致等摩尔量的所有96个样品,在单个2-泳道流动池上对所述样品进行测序。我们平均将约300万个配对末端读数作图到人基因组。通过使用层次聚类进行相关矩阵分析,我们发现K562和H1细胞的所有生物学重复无一例外地聚类在一起(图72)。这种惊人的重现性证实了ITIS的稳健性,同时证明了ITIS适用于多种表位,包括组蛋白修饰(H3K4me1-me3、K27ac和me3)和变体(H2A.Z)、转录因子(CTCF、Myc Sox2、Oct4和NPAT)和染色质相关复合物(PolII、Med1、Suz12和Ring1B)的那些表位。

  总之,我们已经描述了新颖的方法,所述方法将系连的酶的抗体靶向与加标签结合起来,从活细胞到测序即用型文库只需要一天。ITIS在剖析RNAPII方面优于我们的CUT&RUN方法,并在剖析组蛋白和CTCF转录因子方面取得了相似的结果。由于ITIS的工作流程与CUT&RUN相似,但更简单,因此其可容易地适应高通量以及应用于组织和肿瘤样品21。此外,ITIS很容易适应遵循相同的已被应用于单细胞ATAC-seq18,22-25的方案的单细胞应用,包括单细胞ChiT/ATAC-Seq。ITIS有可能取代ChIP-seq,成为用于工作台、高通量管道以及最终诊所的剖析染色质景观的特定组分的首要方法。

  实施例10的参考文献(其每一篇通过引用整体并入)

  1.Zentner,G.E.&Henikoff,S.High-resolution digital profiling of theepigenome.Nat Rev Genet 15,814-27(2014).

  2.Policastro,R.A.&Zentner,G.E.Enzymatic methods for genome-wideprofiling of protein binding sites.Brief Funct Genomics 17,138-145(2018).

  3.Rhee,H.S.&Pugh,B.F.Comprehensive genome-wide protein-DNAinteractions detected at single-nucleotide resolution.Cell 147,1408-19(2011).

  4.Skene,P.J.&Henikoff,S.A simple method for generating high-resolution maps of genome wide protein binding.eLife 4,e09225(2015).

  5.Kasinathan,S.,Orsi,G.A.,Zentner,G.E.,Ahmad,K.&Henikoff,S.High-resolution mapping of transcription factor binding sites on nativechromatin.Nature Methods 11,203-9(2014).

  6.Teytelman,L.,Thurtle,D.M.,Rine,J.&van Oudenaarden,A.Highlyexpressed loci are vulnerable to misleading ChIP localization of multipleunrelated proteins.Proc Natl Acad Sci U S A 110,18602-7(2013).

  7.Zentner,G.E.,Kasinathan,S.,Xin,B.,Rohs,R.&Henikoff,S.ChEC-seqkinetics discriminate transcription factor binding sites by DNA sequence andshape in vivo.Nature Communications 6,8733(2015).

  8.Park,D.,Lee,Y.,Bhupindersingh,G.&Iyer,V.R.WidespreadmisinterpretableChIP-seq bias in yeast.PLoS One 8,e83506(2013).

  9.Venkataraman,A.et al.A toolbox of immunoprecipitation-grademonoclonal antibodies to human transcription factors.Nat Methods(2018).

  10.van Steensel,B.,Delrow,J.&Henikoff,S.Chromatin profiling usingtargeted DNA adenine methyltransferase.Nature Genetics 27,304–308(2001).

  11.Skene,P.J.&Henikoff,S.An efficient targeted nuclease strategy forhigh-resolution mapping of DNA binding sites.Elife 6,e21856(2017).

  12.Skene,P.J.,Henikoff,J.G.&Henikoff,S.Targeted in situ genome-wideprofiling with high efficiency for low cell numbers.Nat Protoc 13,1006-1019(2018).

  13.Schmid,M.,Durussel,T.&Laemmli,U.K.ChIC and ChEC;genomic mapping ofchromatin proteins.Mol Cell 16,147-57(2004).

14.Hainer,S.J.,A.,Rando,O.J.&Fazzio,T.G.Profiling ofpluripotency factors in individual stem cells and early embryos.bioRxiv(2018).

  15.Reznikoff,W.S.Tn5 as a model for understanding DNAtransposition.Mol Microbiol 47,1199-206(2003).

  16.Picelli,S.et al.Tn5 transposase and tagmentation procedures formassively scaled sequencing projects.Genome Res 24,2033-40(2014).

  17.Buenrostro,J.D.,Giresi,P.G.,Zaba,L.C.,Chang,H.Y.&Greenleaf,W.J.Transposition of native chromatin for fast and sensitive epigenomicprofiling of open chromatin,DNA-binding proteins and nucleosome position.NatMethods 10,1213-8(2013).

  18.Buenrostro,J.D.et al.Single-cell chromatin accessibility revealsprinciples of regulatory variation.Nature 523,486-90(2015).

  19.Zaborowska,J.,Egloff,S.&Murphy,S.The pol II CTD:new twists in thetail.Nat Struct Mol Biol 23,771-7(2016).

  20.Chen,K.et al.The Overlooked Fact:Fundamental Need for Spike-InControl for Virtually All Genome-Wide Analyses.Mol Cell Biol 36,662-7(2015).

  21.Janssens,D.H.et al.Automated in situ profiling of chromatinmodifications resolves cell types and gene regulatory programs.biorxivdoi.org/10.1101/41868(2018).

  22.Corces,M.R.et al.Lineage-specific and single-cell chromatinaccessibility charts human hematopoiesis and leukemia evolution.Nat Genet 48,1193-203(2016).

  23.Buenrostro,J.D.et al.Integrated Single-Cell Analysis Maps theContinuous Regulatory Landscape of Human Hematopoietic Differentiation.Cell173,1535-1548e16(2018).

  24.Mezger,A.et al.High-throughput chromatin accessibility profilingat single-cell resolution.Nat Commun 9,3647(2018).

  25.Cusanovich,D.A.et al.The cis-regulatory dynamics of embryonicdevelopment at single-cell resolution.Nature 555,538-542(2018).

  实施例11用免疫靶向插入测序进行的低细胞和单细胞表观基因组剖析。

  ChIP-seq的主要限制是其对于需要少于数千个细胞的应用来说效率太低(Brind'Amour et al.,2015)。我们已经表明,CUT&RUN适用于少至100个细胞而不损失数据质量(Skene et al.,2018)。在我们的利用ITIS的大多数实验中,我们已使用了50,000-500,000个人K562或H1ES细胞。为了确定ITIS是否也适用于低细胞数,我们连续稀释K562细胞至20个细胞,并按照我们的标准方案使用14个循环对H3K27me3和RNAPII-Ser2+5进行ITIS。基于Tapestation分析,我们观察到线性恢复(在对数标度上,H3K27me3下降到20个细胞,RNAPII下降到60个细胞(图73)。因此,ITIS可用于要求低细胞数的应用。

  我们对样品进行了测序,并将人数和大肠杆菌片段数绘图(图74)。我们观察到细胞数量与释放片段数量之间的单调关系(R2=0.46),对于最少细胞数量(20-200个细胞)呈现近似线性关系。我们还观察到人片段的数量与大肠杆菌片段的数量之间的反比关系。这证实了大肠杆菌污染可用作用于下降至低细胞数量的ITIS的加标替代物,类似于我们对于CUT&RUN所观察到的情况。

  当检查低细胞数量H27me3ITIS图谱并将所述图谱与CUT&RUN图谱进行比较时,我们观察到下降至200个细胞的数据质量没有损失,60个细胞的信噪比只有略微降低,但仍优于利用100个细胞的CUT&RUN所获得的数据质量(图75)。我们得出结论,ITIS适合低细胞数量。

  若干应用,诸如区分细胞类型,需要单个细胞,其中片段的稀疏性需要数百到数千个单个细胞库来为解卷积提供足够的信息(Buenrostro et al.,2015;Cusanovich etal.,2018;Rosenberg et al.,2018)。对于单细胞应用,我们已经在最近应用于ATAC-seq的Takara ICELL8系统上评估了ITIS(Mezger et al.,2018)。ICELL8使用72x72阵列(包括将单个细胞分选到单个孔的分配器)中的纳米孔。纳米分配器只在一个亚组的孔中沉积单个细胞,其它孔要么无细胞,要么有多个细胞。因此,ICELL8使用荧光显微镜对阵列进行成像,识别具有单细胞的孔,并将试剂和引物仅分配到具有单细胞的孔中。ICELL8与ITIS相容,因为细胞在加标签步骤中保持完整,因此可在通过原位加标签插入衔接子后进行分配。随后用分别水平和垂直排列的72种i7和72种i5条形码化的引物进行扩增,以在将它们的内容物组合进行测序(在配对末端测序过程中使用从每一端读取的多重i7和i5直列条形码(inline barcode))后,区分源自单个纳米孔的DNA片段。

  由于单细胞ITIS在加标签后只需要进行PCR扩增,因此很容易适应其它平台。ATAC-seq已经使用细胞分选分配(Buenrostro et al.,2015)和ICELL8纳米分配(Mezgeret al.,2018)来进行,并且原则上直接适用于微滴封装(Zheng et al.,2017)。我们预计,ITIS将类似地适应这些和其它单细胞平台(包括使用与针对ICELL8所概括的相同的步骤的组合条形编码)。

  为了校准每个细胞,我们省略了盐处理,因此我们获得了叠加在抗体特异性结合的位点上的超敏位点。缺乏盐处理也导致了污染性大肠杆菌DNA的高水平加标签。通过获得超敏位点片段总数与大肠杆菌片段总数的比率,我们可以推断出倍性,因为超敏位点随着倍性而缩放,而大肠杆菌片段随着细胞组分而缩放。这种倍性校准告知了细胞周期阶段和S期进展,因为G2的比率是G1的两倍,S期介于两者之间,这取决于细胞收获时特定细胞中复制了多少基因组。超敏位点片段计数也校准了抗体靶向的ITIS位点,因为两者都与细胞倍性成比例。因此,通过不去除原本不需要的加标签的片段,我们可以获得可提高单细胞剖析的能力的有用的细胞特异性信息。

  ITIS对单细胞的适应使得抗体的多重化成为可能,这也适用于大量人群。例如,与针对RNAPII和H3K27乙酰化的抗体的多路复用将提供关于单细胞中启动子和增强子的信息,类似于使用RNA-seq和ATAC-seq所获得的信息(Cusanovich et al.,2018)。多-ITIS的组合可能性仅受限于针对不同表观遗传学特征的抗体的可用性,而每种多-OMIC方法只针对一对特征。此外,多-ITIS的优点是获得了相同的基因组读出,而没有因使用“多-OMIC”策略所需的两种完全不同的底物的异质性而导致的固有复杂性。多路复用策略的实例是连续添加1)第一兔抗体;2)豚鼠抗兔第二抗体和洗涤;3)与一个衔接子组复合的pA-Tn5和洗涤;4)第一小鼠抗体;5)兔抗小鼠第二抗体和洗涤;6)与第二衔接子组复合的pA-Tn5和洗涤,其中用第一pA-Tn5饱和封闭了兔第一IgG表位和豚鼠第二IgG表位,只留下可用于pA-Tn5结合的兔抗小鼠第二IgG。加标签通常通过添加Mg++来进行,并且对细胞进行纳米分配或将细胞准备用于另一个平台。步骤1-3与我们当前方案中的相同,除了使用不同的IgG分子外,步骤4-6与步骤1-3相同。因此,其可用已经用于ITIS和CUT&RUN的材料(豚鼠抗兔和兔抗小鼠二级抗体)来进行。原则上,该方法可适用于其他亲和系统,诸如链霉抗生物素蛋白/生物素,其将允许额外的多路复用。

  多路复用策略的实例是制备抗体+pA-Tn5+索引的衔接子复合物,并进行连续多轮的将这些复合物与靶标结合,以及用靶标特异性索引加标签,使得每个靶将被独特的条形码标记。在嵌合末端与测序仪衔接子之间插入条形码序列将足以区分第一种第一抗体和第二种第一抗体。在靶向所需数量的不同表位后,对细胞进行纳米分配或将其准备用于另一个平台。

  ITIS的另一个独特应用是,我们可以检测到两种不同蛋白质的相互作用或密切接近,或者同一DNA上的组蛋白修饰。如上所述,可以在体外制备抗体+pA-Tn5+索引的衔接子复合物或更简单的抗体A+pA-Tn5+P5衔接子或抗体B+pA-Tn5+P7衔接子复合物,并且可将这些复合物顺序引入透化的完整细胞。为了避免衔接子交换,在完成第一加标签后引入第二复合物。在文库制备过程中,只有两端都有P5和P7衔接子的片段才能被扩增,因此同时具有这两种蛋白质的DNA分子将在文库中富集。这种方法也将提供关于两种靶蛋白在DNA上的相对取向的信息。这种方法的可能应用包括具有H3K27me3和H3K4me3组蛋白标记的二价核小体、先导转录因子和协同转录因子等。

  此外,Tn5不仅能够标记DNA,还能插入宽的大小范围的DNA插入物。因此,当希望保持染色质的完整性并且需要防止DNA断裂时,可将其用于应用中。

  实施例11的参考文献(其每一篇通过引用整体并入)

  Brind'Amour,J.,Liu,S.,Hudson,M.,Chen,C.,Karimi,M.M.,and Lorincz,M.C.(2015).An ultra-low-input native ChIP-seq protocol for genome-wide profilingof rare cell populations.Nat Commun 6,6033.

  Buenrostro,J.D.,Wu,B.,Litzenburger,U.M.,Ruff,D.,Gonzales,M.L.,Snyder,M.P.,Chang,H.Y.,and Greenleaf,W.J.(2015).Single-cell chromatin accessibilityreveals principles of regulatory variation.Nature 523,486-490.

  Cusanovich,D.A.,Reddington,J.P.,Garfield,D.A.,Daza,R.M.,Aghamirzaie,D.,Marco-Ferreres,R.,Pliner,H.A.,Christiansen,L.,Qiu,X.,Steemers,F.J.,et al.(2018).The cis-regulatory dynamics of embryonic development at single-cellresolution.Nature 555,538-542.

  Mezger,A.,Klemm,S.,Mann,I.,Brower,K.,Mir,A.,Bostick,M.,Farmer,A.,Fordyce,P.,Linnarsson,S.,and Greenleaf,W.(2018).High-throughput chromatinaccessibility profiling at single-cell resolution.Nat Commun 9,3647.

  Rosenberg,A.B.,Roco,C.M.,Muscat,R.A.,Kuchina,A.,Sample,P.,Yao,Z.,Graybuck,L.T.,Peeler,D.J.,Mukherjee,S.,Chen,W.,et al.(2018).Single-cellprofiling of the developing mouse brain and spinal cord with split-poolbarcoding.Science 360,176-182.

  Skene,P.J.,Henikoff,J.G.,and Henikoff,S.(2018).Targeted in situgenome-wide profiling with high efficiency for low cell numbers.Nat Protoc13,1006-1019.

  Zheng,G.X.,Terry,J.M.,Belgrader,P.,Ryvkin,P.,Bent,Z.W.,Wilson,R.,Ziraldo,S.B.,Wheeler,T.D.,McDermott,G.P.,Zhu,J.,et al.(2017).Massivelyparallel digital transcriptional profiling of single cells.Nat Commun 8,14049.

  尽管本文已经示出和描述了某些实施方案,但本领域普通技术人员将会理解,在不脱离本发明范围的情况下,可以用各种各样的替代和/或等效实施方案或实现来代替所示出和描述的实施方案,这些替代和/或等效实施方案或实现旨在实现相同的目的。本领域技术人员将容易理解,实施方案可以以非常多种方式实现。本申请旨在涵盖本文讨论的实施方案的任何修改或变化。因此,很明显,各实施方案仅受权利要求书及其等同物的限制。

  序列表

  <110> Fred Hutchinson Cancer Research Center

  <120> 高效靶向原位全基因组剖析

  <130> 18-010-PCT

  <150> US 62/562,918

  <151> 2017-09-25

  <160> 4

  <170> PatentIn version 3.5

  <210> 1

  <211> 26

  <212> PRT

  <213> 人工序列

  <220>

  <223> 多肽接头

  <400> 1

  Asp Asp Asp Lys Glu Phe Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser

  1 5 1015

  Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser

  2025

  <210> 2

  <211> 19

  <212> DNA

  <213> 人工序列

  <220>

  <223> 合成的寡核苷酸

  <400> 2

  ctgtctctta tacacatct 19

  <210> 3

  <211> 33

  <212> DNA

  <213> 人工序列

  <220>

  <223> 合成的寡核苷酸

  <400> 3

  tcgtcggcag cgtcagatgt gtataagaga cag 33

  <210> 4

  <211> 34

  <212> DNA

  <213> 人工序列

  <220>

  <223> 合成的寡核苷酸

  <400> 4

  gtctcgtggg ctcggagatg tgtataagag acag 34

《高效靶向原位全基因组剖析.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)