欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 一种靶向富集高GC含量目标DNA的方法和试剂盒独创技术20600字

一种靶向富集高GC含量目标DNA的方法和试剂盒

2021-02-02 03:49:30

一种靶向富集高GC含量目标DNA的方法和试剂盒

  技术领域

  本发明涉及针对高GC含量目标DNA的富集方法,该方法尤其适用于高GC含量序列的测序文库的构建,例如在高通量、长读长的测序方法中所用的测序文库。本发明还涉及用于上述方法的试剂盒。

  技术背景

  基因组中富含GC的区域往往与基因表达的调控、染色体结构的变化以及遗传病等都有着密切的关系[1]。由于高GC区的G-C碱基互补配对形成的发夹状二级结构较为稳定,对高GC含量DNA区域(一般GC含量等于或大于80%)的准确测序一直以来存在技术上的困难和挑战。

  虽然以Sanger测序、毛细管电泳等为代表的方法当前在高GC含量DNA的检测中被使用[2,3],但这些方法基本上都是建立在聚合酶链式反应(PCR)的基础之上的,而PCR往往难以对高GC含量DNA,特别是完全由C/G碱基组成的区域进行有效扩增[4]。尽管人们已在改造DNA聚合酶、优化引物设计、优化PCR反应温控条件、使用能够减少DNA二级结构的PCR促进剂(如二甲基亚砜、甜菜碱等)等多个方面做出了努力,并且一定程度上也提高了高GC含量DNA的扩增效率[5-8],但结果并不是十分稳定,因为扩增效果往往取决于DNA模板分子序列和组成的复杂程度。此外,即便是通过PCR扩增获得了高GC含量DNA的少量产物并用高分辨率的毛细管电泳进行检测,该方法也只能检测产物的大小和丰度,无法获得DNA的碱基序列;而能读取DNA序列的Sanger测序技术和第二代高通量测序技术仍然都是基于PCR原理进行的,对高GC区的测序依然存在无法准确读取,甚至测序过程中断等诸多问题。

  综上,针对高GC含量DNA序列的检测主要包括两个方面的技术关键:(1)高GC目标区域的靶向建库或富集;(2)高GC目标区域的测序。先前Loomis等人已经采用单分子实时测序(SMRT)技术对含有高达750个CGG重复单元的目标DNA序列进行了测序[9];这得益于近年来发展的以单分子实时测序和纳米孔测序为主要代表的第三代高通量测序技术的诸多优势,其不仅能够读取更长的读长,而且测序过程无需PCR环节即可对单分子直接进行测序,避免了因PCR而导致的高GC区域测序的限制,真正实现测序覆盖的完整性[10]。然而,Loomis等人方法中用于测序的高GC含量目标DNA,是通过克隆质粒和PCR扩增两种方式获得的[9],克隆质粒的方法费时费力,而PCR扩增依然也面临扩增效率低和扩增错误倾向的问题。此外,Pham等人最近也报道了一种不依赖于扩增或富集的方式对高GC目标DNA进行三代测序的方法:用IIS型限制性内切酶处理基因组DNA,然后连接含特异序列的发夹状接头,再经核酸外切酶处理保留含完整接头连接DNA的分子,最后用含特异序列的SMRThook引物进行靶向测序[11]。但是,Pham等的这个方法[11]也存在几个明显的问题,例如:Pham等人所用的限制性内切酶[11]消化后片段的长度一般是几百个碱基,对较长片段(如kb级以上的)目标DNA的连续测序可能会存在一定的困难;而且该方法因未有模板DNA的富集或扩增过程,所以对起始DNA的含量要求较多。

  鉴于第三代测序平台可以很轻松且准确地对高GC含量DNA进行测序[10],那么现在需要解决的问题主要是如何准确高效地靶向富集从而获得满足测序平台要求的高GC含量的目标DNA。

  靶向富集首先需完成目标区域的定向分离,而现在比较成熟的目标序列捕获技术,可根据基因组目标区域的序列设计合成特异性探针与基因组DNA杂交,从而实现目标序列的定向分离[12]。

  因为通过探针杂交捕获到的产物是单链DNA,所以需要通过技术手段将其转化成可以建库测序的双链DNA并扩增富集。而多重置换扩增(multiple displacementamplification,MDA)技术运用具有链置换活性的DNA聚合酶可完成模板DNA的恒温高效、超长扩增[13],更重要的是MDA技术对高GC区同样可准确高效扩增(图1),可实现高GC含量目标DNA的有效富集并得到双链DNA。因此,本发明结合目标序列捕获技术可定向分离目标区域的特点和MDA技术能对高GC区域有效扩增的优势,提供了一种基于目标区域捕获和多重置换扩增技术的靶向富集高GC含量DNA的方法和试剂盒。

  本发明进一步提供基于上述靶向富集方法的适于长读长测序平台的文库构建方法,所述长读长测序包括,但不限于,单分子实时测序(SMRT)技术和纳米孔测序技术。

  发明内容

  本发明的目的在于解决现有技术中高GC含量序列难以用PCR有效扩增从而导致难以准确测序的问题,提供了一种基于目标区域捕获和多重置换扩增技术的靶向富集高GC含量DNA片段的方法和试剂盒。采用该方法和试剂盒对高GC含量的目标区域进行靶向富集,可避免传统富集方法中因采用PCR扩增所导致的扩增效率低甚至失败以及非特异性扩增的问题,可获得分子长度不小于2kb的DNA片段,适于进一步的长读长高通量测序。

  因此,第一个方面,本发明提供一种靶向富集高GC含量目标DNA的方法,包括以下步骤:

  (a)根据高GC含量目标DNA的特异性侧翼序列设计单链寡核苷酸探针,通过目标序列捕获技术从基因组中捕获目标DNA;

  (b)利用多重置换扩增技术对捕获到的高GC含量目标DNA进行扩增,获得扩增产物;

  (c)对所述扩增产物进行酶切处理以去除分支DNA中间体,获得酶切产物;

  (d)纯化长度不小于2kb的DNA片段,获得富集的高GC含量目标DNA。

  在一个实施方案中,高GC含量DNA的GC含量为80%-100%。

  在一个实施方案中,捕获的目标DNA的长度在2kb-30kb之间。

  在一个实施方案中,所述目标序列捕获技术是将单链寡核苷酸探针与基因组DNA杂交。

  在一个实施方案中,设计单链寡核苷酸捕获探针的方法是本领域技术人员已知的,例如不同的公司如IDT、Nimblegen、Agilent、Illumina等根据各自产品的特点进行设计。不同公司的探针虽在修饰、长度或位置分布等方面可能有所不同,但都是基于与目标序列的碱基互补配对的设计原理进行的。鉴于高GC区在基因组中有较高的冗余性,因此为了更特异地捕获目标区,本发明特意针对高GC区目标DNA的特异性侧翼序列(而不是针对目标序列)进行捕获探针的设计及合成。

  如本文所用,“侧翼序列”是指高GC含量目标DNA两侧的核苷酸序列,其与目标DNA的距离使得杂交后能够成功捕获目标DNA。“特异性侧翼序列”是指该侧翼序列相对于高GC含量的目标DNA而言具有特异性,这种特异性使得针对其设计的单链寡核苷酸捕获探针能够与该侧翼序列结合,而不与其他核苷酸序列结合,从而捕获侧翼序列之间的目标DNA。

  在一个实施方案中,捕获探针带有修饰的标记,例如生物素标记、荧光标记等,优选生物素标记。本领域技术人员已知捕获探针与目标区域DNA杂交的方法,其中杂交条件例如杂交温度、杂交时间以及各试剂的浓度可以通过常规技术进行确定和调整。

  在一个实施方案中,多重置换扩增使用的DNA聚合酶为具有链置换活性的等温扩增酶,优选为phi29。

  在一个实施方案中,多重链置换扩增中使用的引物为3'硫代磷酸酯键修饰的引物。在一个优选的实施方案中,所述引物的长度为6-10个核苷酸,优选6-7个核苷酸。例如,引物可以是5’-NpNpNpNpNpSNpSN-3',其中N代表dA、dT、dC或dG任意碱基,p代表磷酸二酯键,pS代表硫代磷酸酯键。所述引物可根据本领域技术人员熟知的方案进行设计。而且,多重置换扩增的反应条件,例如反应时间、反应温度等也是本领域技术人员已知的。

  如本发明所述,“分支DNA中间体”是指多重置换扩增产物中结构不是标准的双螺旋结构而是带有分支结构的DNA。由于分支DNA中间体的结构不符合第三代测序建库的要求,所以需要通过酶切处理将其去除。在一个实施方案中,使用核酸酶去除扩增产物中的分支DNA中间体,所述核酸酶优选为T7核酸内切酶I。

  在一个实施方案中,在多重置换扩增产物去除分支DNA中间体后,需要尽可能保留长片段DNA以进行第三代测序,因此纯化长度不小于2kb的DNA片段。本领域已知的纯化方法均适用于本发明,包括但不限于,切胶回收、柱回收、及磁珠分选等方法。

  第二个方面,本发明还涉及用于靶向富集高GC含量目标DNA的试剂盒,包括:用于捕获高GC含量目标DNA的试剂、用于多重置换扩增的试剂、用于消除分支DNA中间体的试剂、以及用于纯化DNA片段的试剂。

  在一个实施方案中,所述用于捕获高GC含量DNA的试剂是指适用于从基因组中通过杂交捕获高GC含量DNA的任何试剂,包括但不限于,捕获探针、杂交缓冲液、杂交试剂、纯化试剂等。其中,捕获探针根据高GC含量目标DNA的特异性侧翼序列进行设计,且可以包含标记,例如生物素标记。

  在一个实施方案中,所述用于多重置换扩增的试剂包括但不限于,等温扩增酶、扩增缓冲液等。其中,所述等温扩增酶优选phi29。

  在一个实施方案中,所述用于去除分支DNA中间体的试剂包括核酸酶,优选T7核酸内切酶I。

  在一个实施方案中,所述用于纯化DNA片段的试剂是指本领域技术人员已知的可以纯化长度不小于2kb的DNA片段的任何试剂,包括但不限于,切胶回收、柱纯化、磁珠分选等方法相应的试剂。

  第三个方面,本发明还提供一种用于构建高GC含量目标DNA测序文库的方法,主要包括以下步骤:

  (1)采用本发明所述的靶向富集高GC含量目标DNA的方法,富集获得高GC含量目标DNA;

  (2)将富集的高GC含量DNA连接测序接头,制备测序文库。

  在一个实施方案中,所述测序接头是与测序平台匹配的测序接头,是本领域技术人员根据常规技术可以选择的。

  根据上述方法构建的测序文库尤其适用于长读长的高通量测序平台,例如Pacific Biosciences公司的RSII和Sequel测序平台以及Oxford Nanopore公司的MinIon测序平台等。

  本发明所述的方法和试剂盒,可高特异性地、准确和完整地实现高GC含量目标DNA的富集,以及基于第三代高通量测序平台的测序。本方明所述方法和试剂盒的优异技术效果主要依赖于以下几个方面:

  (1)只根据高GC目标DNA的两端侧翼区的特异序列进行捕获探针的设计,这样可成功规避因高GC区在基因组中的高冗余性导致的高GC区探针设计困难、脱靶等严重问题,从而极大地提升了高GC目标DNA靶向富集的特异性。

  (2)采用多重置换扩增技术对捕获产物进行富集,不仅可有效规避PCR环节对高GC区域有效扩增的巨大阻碍,而且还准确、高效地提供了长片段、足量的高GC含量目标双链DNA。这使得本发明非常适于后续的三代测序,从而有力地保证了高GC含量目标DNA测序的高准确性。

  附图说明

  图1.多重置换扩增(MDA)使用的DNA聚合酶可打开DNA的二级结构,从而保证高GC区的准确扩增。

  图2.本发明所述靶向富集高GC含量目标DNA的流程示意图。

  图3.本发明实施例中得到的测序文库片段大小在2kb以上。L:DNA ladder;1:纯化前对照;2:纯化后的产物。

  图4.采用本发明所述方法对分别来自正常样本(FMR1基因5'UTR(非编码区)含28个CGG重复+1个AGG,图4A)和前突变样本(FMR1基因5'UTR含81个CGG重复,图4B)的FMR1基因5'UTR的高GC区进行靶向富集并在PacBio平台上进行三代测序的结果。

  图5.对FMR1基因5'UTR同时携带29个CGG重复和81个CGG重复的杂合样本,使用PCR/CE FMR1Kit(Asuragen)对基因组DNA(图5A)和经本发明所述方法富集的DNA(图5B)分别进行目的区域的毛细管电泳检测的结果。

  具体实施方式

  下面将参考附图并结合实施例来详细说明本发明。需要说明的是,本领域的技术人员应该理解本发明的附图及其实施例仅为了例举的目的,并不能对本发明构成任何限制。

  实施例1

  本实施例举例说明根据本发明的方法对高GC含量目标DNA进行靶向富集并进行测序的步骤。

  本领域已知,95%以上的脆性X染色体综合征(Fragile X Syndrome)是由于FMR1基因5'非编码区的(CGG)n串联重复数目异常所导致。正常人一般是6-40个CGG单元的重复,而脆性X染色体综合征患者的重复数目显著增多,可达数百甚至上千个重复。

  本实施例所用样本是:(1)FMR1基因5'UTR含28个CGG重复+1个AGG的正常样本,和(2)FMR1基因5'UTR含81个CGG重复的前突变样本。

  按如下步骤,根据本发明的方法对上述正常样本和前突变样本的基因组DNA中FMR1基因5'UTR的高GC区进行靶向富集,并用其构建文库,然后在PacBio平台进行三代测序。

  步骤1:捕获高GC含量目标DNA

  (1)根据FMR1基因5'UTR高GC区的特异性侧翼序列区,设计并合成单链寡核苷酸探针(IDT公司)。采用SeqCap EZ Hybridization and Wash Kit(NimbleGen)进行如下操作:

  取1.5μg基因组DNA按下表体系混匀,

  然后用DNA浓缩仪于60℃将上述体系浓缩至干粉,其中使用Human Cot-1DNA的目的是降低非特异杂交。

  (2)向上述干粉中加入如下试剂:

  充分溶解后,混匀,于95℃反应10min;距离反应还剩30sec结束时(将反应管保持在PCR仪上),加入6μl(3pmole)的单链寡核苷酸探针并充分混匀,然后于47℃杂交16-20h。

  (3)将杂交体系加入清洗过的Streptavidin Dynabeads M270(Thermo Fisher)中,47℃反应45min,每隔15min混匀1次。之后用SeqCap EZ Hybridization and Wash Kit中的洗涤缓冲液按顺序清洗。之后加入50μl不含DNase和RNase的水。

  步骤2:多重置换扩增富集高GC目标DNA

  (1)将上述50μl Dynabeads分成2管进行扩增,扩增过程按反应1-反应2的顺序进行。

  反应1:分别取25μl Dynbeads按下表配制反应液,并于95℃反应3min,然后4℃反应15min。其中随机引物(100μM)采用的是来自Thermo scientific公司的Exo-Resistant随机引物。

  反应2:待反应1完成后,将所得的89μl产物按下表配制反应混合液,并于30℃反应18-20h,然后65℃处理10min。

  反应2完成后,将反应混合液转至1.5ml低吸附离心管,加入已提前在室温平衡30min以上的0.4×AMPure XP beads,混匀后室温放置15min;用200μl的80%乙醇洗涤2次并室温晾干,然后加入30μl EB缓冲液洗脱10min,之后于磁力架上静置5min,吸取上清。

  步骤3:酶切去除分支DNA中间体

  按下表配制反应体系,之后于37℃反应30min。

  步骤4:纯化获得富集的高GC含量目标DNA

  将步骤3所得产物转至1.5ml的低吸附离心管中,从其中取出20~30ng作为纯化前对照。其余部分加入已提前室温平衡30min以上的0.4×AMPure XP beads并混匀,室温静置15min;用200μl的80%乙醇洗涤2次,室温晾干后加入30μl EB缓冲液洗脱10min,静置5min后吸取上清,得到的上清即是已富集并纯化的高GC含量目标DNA。

  从其中取出20~30ng作为纯化后的产物,连同前述的纯化前对照,分别用Agilent2100Bioanalyzer检测DNA片段大小。检测结果如图3所示。与纯化前对照相比,纯化后产物的长度均大于2kb,且长度分布更集中,浓度更高。

  步骤5:高GC含量目标DNA的第三代高通量测序

  将步骤4所得的产物连接测序接头构建文库,并在PacBio平台上进行第三代高通量测序。测序结果如图4所示,FMR1基因5'UTR含28个CGG重复+1个AGG的正常样本(图4A)和含81个CGG重复的前突变样本(图4B)的目标高GC区都能够被准确地测序,并且可以发现其中AGG的存在。这表明,本发明所述方法可完整并准确地实现高GC含量目标DNA的靶向富集和测序。

  实施例2

  本实施例是为了检测本发明方法靶向富集高GC含量目标DNA的效果。

  本实施例采用的是携带FMR1前突变的杂合样本,即在FMR1基因5'UTR区同时携带29个CGG重复和81个CGG重复。根据此样本,我们分别获得两类DNA:(1)原始的基因组DNA,和(2)经本发明所述方法从基因组DNA富集的FMR1 5'UTR的CGG重复区目标DNA。然后,采用PCR/CE FMR1Kit(Asuragen,专利号CN201080032511)分别同时对上述两类DNA中的FMR1 5'UTR的CGG重复区进行片段分析,分析结果(高分辨毛细管电泳)如图5所示。可见,通过本发明所述方法富集的FMR1 5'UTR的CGG重复区(图5B)与原始基因组DNA中的FMR1 5'UTR的CGG重复区(图5A)具有相同的CGG重复数目。这说明,本发明所述的方法能够完整并准确地靶向富集高GC含量的目标DNA。

  需要说明的是,虽然已通过以上实施例阐明了本发明的一些特征,但不能用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。测序文库构建中所涉及的反应试剂、反应条件等等可以根据具体的需要进行相应的调整和改变。因此对于本领域技术人员来说,在不脱离本发明的构思和原则之内,还可做出若干简单替换,这些均应包含在本发明的保护范围之内。

  参考文献

  [1]Jia Q,Wu H,Zhou X,et al.A"GC-rich"method for mammalian geneexpression:a dominant role of non-coding DNA GC content in regulation ofmammalian gene expression.Sci China Life Sci.2010,53(1):94-100.

  [2]Huang W,Xia Q,Luo S,et al.Distribution of fragile X mentalretardation1CGG repeat and flanking haplotypes in a large Chinesepopulation.Mol Genet Genomic Med.2015,3(3):172-181.

  [3]Chen X,Wang J,Xie H,et al.Fragile X syndrome screening in Chinesechildren with unknown intellectual developmental disorder.BMC Pediatr.2015,15:77.

  [4]Kieleczawa J.Fundamentals of sequencing of difficult templates---an overview.J Biomol Tech.2006,17(3):207-217.

  [5]HubéF,Reverdiau P,Iochmann S,Gruel Y.Improved PCR method foramplification of GC-rich DNA sequences.Mol Biotechnol.2005,31(1):81-84.

  [6]Li LY,Li Q,Yu YH,et al.A primer design strategy for PCRamplification of GC-rich DNA sequences.Clin Biochem.2011,44(8-9):692-698.

  [7]Jensen MA,Fukushima M,Davis RW.DMSO and betaine greatly improveamplification of GC-rich constructs in de novo synthesis.PLoS One.2010,5(6):e11024.

  [8]Strien J,Sanft J,Mall G.Enhancement of PCR amplification ofmoderate GC-containing and highly GC-rich DNA sequences.Mol Biotechnol.2013,54(3):1048-1054.

  [9]Loomis EW,Eid JS,Peluso P,et al.Sequencing the unsequenceable:expanded CGG-repeat alleles of the fragile X gene.Genome Res.2013,23(1):121-128.

  [10]Schadt EE,Turner S,Kasarskis A.A window into third-generationsequencing.Hum.Mol.Genet.2010,19(R2):R227-R240.

  [11]Pham TT,Yin J,Eid JS,et al.Single-locus enrichment withoutamplification for sequencing and direct detection of epigeneticmodifications.Mol Genet Genomics.2016,291(3):1491-1504.

  [12]Horn S.Target Enrichment via DNA Hybridization Capture.In:ShapiroB.,Hofreiter M.(eds)Ancient DNA.Methods in Molecular Biology(Methods andProtocols),2012,vol 840.Humana Press.

  [13]Dean FB,Hosono S,Fang L,et al.Comprehensive human genomeamplification using multiple displacement amplification.Proc Natl Acad Sci US A.2002,99(8):5261-5266.

《一种靶向富集高GC含量目标DNA的方法和试剂盒.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)