欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 一种基于单链接头的下一代测序文库的构建方法及其应用独创技术86350字

一种基于单链接头的下一代测序文库的构建方法及其应用

2021-04-07 06:29:33

一种基于单链接头的下一代测序文库的构建方法及其应用

  技术领域

  本发明属于生物医学技术领域,具体涉及一种基于单链接头文库制备(Singlestrand Adaptor Library Preparation,SALP)的下一代测序(next-generationsequencing,NGS)文库的构建方法及其应用。

  背景技术

  自从2005年下一代测序(next-generation sequencing,NGS)出现在市场上以来,这项技术改变了我们在基础、应用和临床研究领域对科学研究方法的看法。随着各种新方法和计算机运算能力的不断发展,NGS平台推动了过去几年生物学知识的爆炸式增长。作为NGS最主要的应用,人类基因组的重测序极大的加深了我们对遗传多样性与健康、疾病之间相互关系的认识。NGS与传统的Sanger测序相比,最大的不同在于NGS需要制备测序文库。随着NGS测序平台数据量产出不断增加,以及各种相关硬件和软件的不断优化,测序文库的制备已经成为应用这项技术的瓶颈。

  现有的标准建库流程全部在体外(in vitro)进行,主要步骤包括:DNA片段化(超声或酶切)(DNA fragmentation)、末端修平(end polishing)、加A(A tailing)、Y接头连接(adaptor ligation)、片段选择(size selection),以及PCR扩增(PCR amplification)。标准建库流程冗长繁琐,许多步骤都需要进行优化,导致样品大量损失。特别是,该建库过程中,为了接头连接步骤的效率,接头连接前须对DNA片段进行多酶混合物处理的末端修平(end polishing)(使DNA片段的两端均成为平末端(blunt end))步骤,以及必不可少的末端加A(A tailing)步骤。虽然有不少公司推出了这些步骤的合并或优化方法,也推出了类似Y接头(如颈环接头)的接头连接等方法,但建库技术没有从根本上得到改变。此外,该种建库方法中,广泛采用了Y型接头,直到最后的PCR步骤才用带有Index的PCR引物进行不同DNA样品的区分,之后混合进行同一通道(lane)的测序。这种每个DNA样品单独经历整个建库建库流程才能混合测序的方法,极大地增大了操作的复杂性、试剂及人力消耗,不仅建库成本高,而且易于造成不同DNA样品在建库期间的人为偏差(bias),不利于不同样品间的测序结果的平行比较。

  为了克服标准建库流程的上述缺点,一种基于Tn5转座体(transposome)切贴技术的NGS建库方法被开发出来。在该方法中,两个包含引物退火位点的mosaic end(ME)接头首先与高活性的Tn5转座酶组装形成转座体,该转座体能够将DNA片段化并将接头连接至DNA的5′端(该过程被称之为“切贴”(cut and paste);专有英文术语为“tagmentation”)。最后,DNA片段通过特定的引物进行低循环次数的PCR扩增,产生与高通量测序平台(如Illumina)兼容的文库。然而,当运用该方法进行文库制备时,由于Tn5转座体切贴反应产生的部分DNA片段(理论上达50%)的两端带有相同的接头,因此只有部分DNA片段(理论上为50%)两端带有不同的接头序列,只有这部分DNA片段能够同时被两条不同的引物扩增并测序。尽管抑制PCR能够再DNA片段的DNA扩增过程中在一定程度可增加具有可测序结构的DNA片段的比例,但仍然使文库中的很多DNA片段无法测序,从而丢失大量信息。

  哺乳动物的生长和发育过程受到DNA结合蛋白与染色质之间的不断相互作用的调节。染色质能够以具有高度细胞特异性的方式限制转录因子与其DNA结合位点之间的结合,即染色质通过其开放状态决定转录因子与其DNA结合位点之间的结合。染色质的开放区提供了转录因子结合其位于染色质的开放区的DNA结合位点的机会,因此在基因表达调控中发挥重要作用。因此,染色质开放状态的鉴定对于发现基因调控区、解析基因表达的调控机理具有重要意义。近年来发展的基于Tn5转座体切割染色体的ATAC-seq(transposase-accessible chromatin using sequencing;转座酶可及染色质测序)技术,是一种能够快速、灵敏地捕获染色质开放区域的新方法,被广泛应用于不同条件下的染色质开放状态的研究。对染色质开放状态的研究同时也能够为发现导致疾病的重要调控元件提供有力帮助。例如,通过利用ATAC-seq鉴定比较食管癌细胞系以及食管癌病人组织样本的染色质开放状态差异,鉴定出转录因子AP1在食管癌的病程中起到关键作用,从而为食管癌的治疗发现了新的靶点。但因上述基于Tn5转座体切割建库方法的局限性,运用基于Tn5转座体切割染色质鉴定染色质开放区的ATAC-seq技术,也具有相同的缺点。由于基于Tn5转座体切割的建库方法不能测出所有DNA片段的序列,ATAC-seq技术会因建库流程而丢失部分开放区信息。

  发明内容

  发明目的:鉴于目前常用Y接头NGS文库构建方法、Tn5转座体NGS文库方法,以及基于Tn5转座体研究染色质开放区的ATAC-seq技术的上述缺陷及不足。本发明提供了一种基于单链接头(single strand adaptor,SSA)的下一代测序(NGS)文库的构建方法——单链接头文库制备(Single strand Adaptor Library Preparation,SALP)。本发明提出的SALP方法,不仅可用于NGS文库构建,测定DNA序列,还可以用于鉴定染色质开放区、基因表达检测(类似RNA-seq的功能)、微量核酸扩增等,因此是一种在核酸检测分析领域具有多种功能和广泛应用价值的新技术。

  本发明还提供SALP方法的应用。

  技术方案:为了实现上述目的,如本发明所述一种基于单链接头(SSA)的NGS文库构建方法——即SALP,其特征在于,包括以下步骤:

  (1)将双链DNA(dsDNA)片段或RNA/DNA杂合体片段变性,使其成为单链DNA(ssDNA);

  (2)在单链DNA的3′端连接一种单链接头;

  (3)对连接单链接头的单链DNA用DNA聚合酶延伸,使其成为双链DNA;

  (4)向双链DNA的无单链接头的一端(连接T接头或者Tn5标签接头;

  (5)通过PCR扩增两端连接接头的双链DNA,使其成为下一代测序(NGS)可测序的DNA文库。

  其中,步骤(1)所述dsDNA片段为任何dsDNA片段,包括双链DNA片段包括超声波剪切的DNA片段、各种酶切产生的DNA片段、基于转座体片段化产生的DNA片段或自然降解的DNA片段。其中dsDNA指基因组DNA(gDNA),其被各种方法剪切成为dsDNA片段,用该建库方法建库并高通量测序时,可用于全基因DNA测序分析或特定目标gDNA(如处于染色质开放区的gDNA)的测序分析。

  其中,所述自然降解的DNA片段为血液等体液中自然产生的循环游离DNA(cfDNA)及循环肿瘤DNA(ctDNA)。使用cfDNA及ctDNA建库时,所扩增的DNA不仅可用于高通量测序分析,亦可用于进一步低通量检测,如特定基因或DNA片段的PCR扩增和突变检测;此时该建库方法的应用价值则成为一种微量核酸样品的扩增放大技术。

  作为优选,所述转座体为由Tn5转座酶与Tn5标签接头组装成形成的转座体。

  进一步地,所述步骤(1)双链DNA片段为基于转座体片段化产生的DNA片段时,步骤(4)向双链DNA的另一端连接Tn5标签接头。若基于转座体建库,运用Tn5与不同Tn5标签接头组装成的转座体处理不同的DNA样品,可将处理产生的不同DNA样品的dsDNA片段进行混合,作为一个DNA片段样品,进行变性、单链接头连接、延伸及PCR扩增;产生包含各种可用Tn5标签接头中的标签序列进行区分的不同DNA样品的混合物用于测序;这种处理极大地简化了多样品的建库操作、消除了建库步骤可能带来的偏差(bias),便于不同DNA样品间测序结果的比较分析。

  其中,所述Tn5标签接头,其序列结构为:5′-引物退火位点序列-标签序列(barcode)-ME序列-3′;其中ME序列为双链,引物退火位点序列及标签序列可为单链或双链;双链ME序列的3′端为羟基、5′端为磷酸基;其中ME序列的一条链为SEQ ID NO.1:5′-AGATGTGTATAAGAGACAG-3′,另一条互补链为SEQ ID NO.2:5′-P-CTGTCTCTTATACACATCT-3′,其中P表示磷酸基。

  作为优选,步骤(1)所述RNA/DNA杂合体为用反转录反应产生的RNA/DNA杂合体;其变性产生的单链DNA为互补DNA(cDNA)。运用RNA/DNA杂合体变性产生的ssDNA进行建库并高通量测序时,该方法可实现全基因组基因表达检测等功能,类似RNA-seq。

  其中,步骤(2)所述单链接头为一段带有粘性末端的双链寡核苷酸;所述单链接头的粘性末端为3′端突出的数个随机核苷酸,所述单链接头的另一3′端为基团封闭的平末端,如氨基。

  作为优选,所述3′端突出的数个随机核苷酸,其长度为1~4个核苷酸。其中以3个核苷酸为最佳。

  进一步地,所述粘性末端的5′端为磷酸基团,所述平末端的5′端为羟基基团。

  其中,步骤(2)所述连接由单链接头的粘性末端与步骤(1)产生的单链DNA的3′端退火(或称杂交),再由核酸连接酶催化单链接头的粘性末端的5′端磷酸基团与步骤(1)产生的单链DNA的3′端羟基基团形成3′-5′磷酸二酯键。所述核酸连接酶为T4DNA连接酶。

  作为优选,所述单链接头为单链标签接头,即在单链接头的双链区中加入标签序列,且标签序列靠近3′端突出的随机核苷酸。

  其中,步骤(3)所述DNA聚合酶包括各种DNA聚合酶;所述DNA聚合酶若为普通TaqDNA聚合酶,则步骤(3)产生的双链DNA的3′端末端自然产生一个突出的A碱基,则DNA聚合酶延伸产物可直接用于步骤(4)连接T接头;所述DNA聚合酶若为其他高保真DNA聚合酶,由于步骤(3)产生的双链DNA的3′端末端不出现一个突出的A碱基,则延伸产物需再用普通TaqDNA聚合酶及其他具有类似功能的酶处理,使延伸产物的3′端末端产生一个突出的A碱基,再用于步骤(4)连接T接头。

  其中,步骤(4)所述T接头为一段带有粘性末端的双链寡核苷酸,所述双链寡核苷酸的粘性末端为3′端突出一个T碱基;所述T碱基可与步骤(3)产生的双链DNA的3′端突出的A碱基退火。

  其中,步骤(4)所述连接由T接头的3′端突出T碱基与步骤(3)产生的双链DNA的3′端突出A碱基退火,再由核酸连接酶催化T接头与步骤(3)产生的双链DNA间形成3′-5′磷酸二酯键。所述核酸连接酶一般为T4DNA连接酶。

  其中,步骤(5)PCR扩增为两端分别连接了单链接头和T接头或者单链接头和Tn5标签接头的双链DNA片段,由单链接头和T接头或者单链接头和Tn5标签接头提供了步骤(5)中PCR引物的退火位点;运用一对可与单链接头和T接头或者单链接头和Tn5标签接头序列退火的引物进行PCR扩增,即可产生DNA片段的PCR扩增产物;所述PCR扩增产物即为下一代测序技术可测序的DNA文库,可进行下一代测序分析。其中,所述PCR引物为NGS测序兼容的引物,如Illumina索引(index)引物。

  本发明所述的下一代测序文库的构建方法在基因组DNA测序、细胞染色质开放分析、基因表达检测、微量核酸扩增中的应用。

  其中,所述在细胞染色质开放分析中的具体步骤为:(1)运用Tn5与不同Tn5标签接头组装成转座体;(2)收集不同细胞,用细胞膜温和裂解法裂解细胞膜但保持细胞核完整;离心收集细胞核,除去细胞膜碎片及胞质成分;(3)用转座体处理细胞核,使其成为染色质片段;(4)分离纯化染色质片段中的基因组双链DNA片段;(5)将双DNA片段变性,使其成为单链DNA;(6)在单链DNA的3′端连接一种单链接头;(7)对连接单链接头的ssDNA用DNA聚合酶延伸,使其成为双链DNA;(8)向双链DNA的无单链接头的一端连接Tn5标签接头;(8)通过PCR扩增两端连接接头的双链DNA,使其成为下一代测序NGS可测序的DNA文库。该建库方法用于染色质开放状态的分析时,所述不同细胞,包括不经某种处理的不同种细胞、经相同处理的不同种细胞、经不同种处理的同种细胞、来源于不同病人的同种肿瘤组织细胞、来源于不同病人的不同种肿瘤组织细胞等;所述不同细胞若为来源于临床病人的肿瘤组织,则该方法在个体化医疗及精准医疗领域具有重要应用价值。

  若基于转座体建库,运用Tn5与不同Tn5标签接头组装成的转座体处理不同的细胞样品,可将处理产生的不同细胞样品的染色质片段进行混合,作为一个染色质片段样品,进行gDNA片段纯化、变性、单链接头连接、延伸及PCR扩增;产生包含各种可用Tn5标签接头中的标签序列进行区分的不同细胞样品的混合物用于测序;这种处理极大地简化了多细胞样品的建库操作、消除了建库步骤可能带来的偏差(bias),便于不同细胞样品间染色质开放状态的比较分析。

  作为优选,所述在核酸分子的线性扩增技术中的应用时需要单链接头、T接头或Tn5标签接头序列中含有T7启动子序列,并对两端连接了接头的双链DNA片段进行体外转录扩增,再进行反转录转换成DNA片段;反转录产生的DNA片段可用于高通量测序分析或低通量检测分析。

  其中,所述单链接头亦可改造为单链标签接头,即在单链接头的双链区中加入标签序列,且标签序列靠近3′端突出的随机核苷酸;运用单链标签接头建库时,可将连接了不同单链标签接头的不同DNA样品混合,再进行延伸、T接头连接、PCR扩增等步骤;这种处理可极大地简化了DNA样品的建库操作、消除了建库步骤可能带来的偏差,便于不同DNA样品间测序结果的比较分析。

  在本发明中(1)DNA测序分析:方式一是基于“单链接头+T接头”的SALP建库测序分析(图1A)。其实验流程为:①将dsDNA片段变性,使其成为ssDNA;其中的dsDNA片段可以是任何来源dsDNA片段,如超声波剪切的DNA、核酸内切酶剪切的DNA、自然降解产生的DNA等;②在ssDNA的3′端连接一种单链接头(SSA);③对连接单链接头的ssDNA用DNA聚合酶延伸,使其成为dsDNA;④连接T接头;⑤PCR扩增两端连接接头(单链接头及T接头)的dsDNA,使其成为NGS可测序的DNA文库。

  该程序中,若要同时对多个DNA样品进行建库测序,可采用该程序的高通量建库流程(图2A),其实验流程为:①将各样品dsDNA片段变性,使其成为ssDNA;②在各样品ssDNA的3′端分别连接一种单链标签接头(SBA);之后将连接了SBA的各样品ssDNA混合,形成一混合DNA样品;③对连接单链接头的ssDNA用DNA聚合酶延伸,使其成为dsDNA;④连接T接头;⑤PCR扩增两端连接接头(单链标签接头及T接头)的dsDNA,使其成为NGS可测序的DNA文库。该程序中,将带有不同SBA的不同DNA样品混合,成为一个DNA混合物,作为一个DNA混合样品,进行DNA片段的延伸、T接头连接及PCR扩增;产生包含各种可用SBA中的标签序列进行区分的不同DNA样品的混合物用于测序;这种处理极大地简化了多DNA样品的建库操作、消除了建库步骤可能带来的偏差(bias),便于不同DNA样品间序列信息的比较分析。

  (2)DNA测序分析:方式二是基于“Tn5接头+单链接头”的SALP建库测序分析(图1B)。其实验流程为:①将Tn5与Tn5接头(TA)组装成转座体;②用Tn5转座体处理DNA样品;③将dsDNA片段变性,使其成为ssDNA;④在ssDNA的3′端连接一种单链接头;⑤对连接单链接头的ssDNA用DNA聚合酶延伸,使其成为dsDNA;⑥PCR扩增两端连接接头(Tn5接头及单链接头)的dsDNA,使其成为NGS可测序的DNA文库。

  该程序中,若要同时对多个DNA样品进行建库测序,可采用该程序的高通量建库流程(图2B),其实验流程为:①运用Tn5与不同Tn5标签接头(BTA)组装成转座体;②用含有不同BTA的Tn5转座体处理不同的DNA样品;之后将Tn5转座体处理的不同的DNA样品混合,成为一个DNA混合物;③将dsDNA片段变性,使其成为ssDNA;④在ssDNA的3′端连接一种单链接头;⑤对连接单链接头的ssDNA用DNA聚合酶延伸,使其成为dsDNA;⑥PCR扩增两端连接接头(Tn5标签接头及单链接头)的dsDNA,使其成为NGS可测序的DNA文库。该程序中,将Tn5转座体处理的不同的DNA样品混合,成为一个DNA混合物,作为一个DNA混合样品,进行gDNA片段纯化、变性、单链接头连接、延伸及PCR扩增;产生包含各种可用Tn5标签接头中的标签序列进行区分的不同DNA样品的混合物用于测序;这种处理极大地简化了多DNA样品的建库操作、消除了建库步骤可能带来的偏差(bias),便于不同DNA样品间序列信息的比较分析。

  (3)染色质开放分析:用SALP技术进行染色质开放分析时,采用基于“Tn5接头+单链接头”的SALP建库方式(图1B)。其实验流程为:①用Tn5与Tn5接头(TA)组装成转座体;②收集细胞,用细胞膜温和裂解法裂解细胞膜但保持细胞核完整;离心收集细胞核,除去细胞膜碎片及胞质成分(胞质成分可用于分离RNA);③用转座体处理细胞核,使其成为染色质片段;④分离纯化染色质片段中的gDNA;⑤将dsDNA片段变性,使其成为ssDNA;⑥在ssDNA的3′端连接一种单链接头;⑦对连接单链接头的ssDNA用DNA聚合酶延伸,使其成为dsDNA;⑧PCR扩增两端连接接头(Tn5接头及单链接头)的dsDNA,使其成为NGS可测序的DNA文库。

  该程序中,若要同时对多个细胞样品进行建库测序,可采用该程序的高通量建库流程(图2C),其实验流程为:①运用Tn5与不同Tn5标签接头(BTA)组装成转座体;②收集不同细胞,用细胞膜温和裂解法裂解细胞膜但保持细胞核完整;离心收集细胞核,除去细胞膜碎片及胞质成分(胞质成分可用于分离RNA);③用转座体处理细胞核,使其成为染色质片段;之后将各细胞样品的染色质片段混合,成为一个染色质混合物;④分离纯化染色质片段中的gDNA;⑤将dsDNA片段变性,使其成为ssDNA;⑥在ssDNA的3′端连接一种单链接头;⑦对连接单链接头的ssDNA用DNA聚合酶延伸,使其成为dsDNA;⑧PCR扩增两端连接接头(Tn5标签接头及单链接头)的dsDNA,使其成为NGS可测序的DNA文库。该程序中,运用Tn5与不同Tn5标签接头组装成的转座体处理不同的细胞样品,可将处理产生的不同细胞样品的染色质片段进行混合,作为一个染色质片段样品,进行gDNA片段纯化、变性、单链接头连接、延伸及PCR扩增;产生包含各种可用Tn5标签接头中的标签序列进行区分的不同细胞样品的混合物用于测序;这种处理极大地简化了多细胞样品的建库操作、消除了建库步骤可能带来的偏差(bias),便于不同细胞样品间染色质开放状态的比较分析。

  该高通量建库方法用于染色质开放分析时,所用不同细胞,包括不经某种处理的不同种细胞、经相同处理的不同种细胞、经不同种处理的同种细胞、来源于不同病人的同种肿瘤组织细胞、来源于不同病人的不同种肿瘤组织细胞等。若不同细胞为来源于临床病人的肿瘤组织,则该方法在个体化医疗及精准医疗领域具有重要应用价值。此外,SALP技术用于染色质开放区的分析时,可使用不同数量的细胞(如500至105个细胞)鉴定染色质开放状态进行,在鉴定细胞染色质开放状态方面具有高灵敏度(500个细胞)。

  (4)基因表达检测:SALP技术用于基因表达检测时,运用基于“单链接头+T接头”的SALP建库方式(图1A;图2B)。任何RNA(如mRNA),只需一步反转录处理后,则成为RNA/DNA杂合体,对其进行变性处理,则产生ssDNA(如cDNA)。对这种ssDNA进行单链接头连接、延伸、T接头连接、PCR扩增后,即成为可测序的文库。测序结果的分析可确定原RNA样品中各种RNA的属性(identity)、丰度(abundance)、拼接(splicing)、编辑(editing)等重要信息。特别是通过对属性和丰度信息的综合,可评价基因的表达水平,绘制基因表达谱,实现类似RNA-seq功能。此外,所扩增的文库,若在扩增期间加入标记信息,可通过与基因芯片的杂交,亦可实现基因表达水平的评价及基因表达谱的绘制。将SALP技术用于基因表达检测时,克服了目前RNA-seq技术中使用随机引物的缺点,可获得更长更完整的cDNA序列及丰度信息、可获得mRNA 3′端的序列信息等。

  (5)微量核酸扩增:SALP技术用于微量核酸扩增时,运用基于“单链接头+T接头”的SALP建库程序(图1A)。对两端连接了接头(单链接头及T接头)的DNA片段,可采用两种方式进行扩增放大。一是指数扩增:即运用与两端接头可退火的一对PCR引物,对两端连接了接头的DNA片段进行不同循环数的PCR扩增(该扩增过程即SALP文库制备的最后一个步骤——PCR扩增,只是应用目的不同)。二是线性扩增:即在单链接头与T接头上分别嵌入T7启动子序列,对两端连接了接头的DNA片段进行不同时间的体外转录扩增,再进行反转录转换成DNA片段,即完成线性扩增。此种应用下,该建库方法则成为一种核酸分子的线性扩增技术,所扩增的DNA同样可用于高通量测序分析(血液游离DNA全测序分析)、或低通量检测分析(特定DNA片段的杂交、扩增、克隆、测序等分析)。线性扩增的效率远低于指数扩增,但因扩增过程不改变样品中分子间的相对比例而有其独特优势。SALP建库技术用于微量核酸扩增,在液体活检(liquid biopsy)、无创产前基因检测(NIPT)等领域具有极其重要的应用价值。这些领域所检测的DNA是血液等体液中自然降解产生的循环游离DNA(cfDNA)、循环肿瘤DNA(ctDNA)、循环胎儿DNA(cffDNA)等,这些DNA片段大小介于100~500bp,在血液中的含量低,是目前检测最限制的因素,但这些DNA则非常适合SALP技术的建库及扩增,经保真扩增放大后,可用于后续检测分析。

  有益效果:本发明提供了一种基于单链接头(SSA)的下一代测序文库的构建方法——单链接头文库制备(Single strand Adaptor Library Preparation,SALP)包括以下优点:

  (1)该方法可对任何DNA片段不经任何修饰处理,即可进行建库。

  (2)不管是采用“单链接头+T接头”,还是采用“Tn5标签接头+单链接头”的建库流程,SALP方法均可早期实现不同DNA或染色质样品的混合,以混合物进行后续建库步骤,极大地简化了建库流程、降低了试剂及人工消耗、避免了建库中的人造偏差(artificialbias),非常有利于多样本快速平行建库及不同样本之间测序信息的比较分析,尤其适合个体化医疗及精准医疗中对大量临床样本的检测分析。

  (3)对SALP方法所构建的文库进行下一代测序(sequencing)(SALP-sequencing,缩写为SALP-seq),则SALP-seq不仅能够像ATAC-seq一样高效捕获染色质开放区,而且克服了ATAC-seq技术的弱点,从而比ATAC-seq发现更多的染色质开放区。

  (4)本发明提出的SALP方法,不仅可用于NGS文库构建,测定DNA序列,还可以用于鉴定染色质开放区、确定基因表达谱(类似RNA测序(RNA-seq)的功能)、微量核酸(如血液游离DNA)的线性(体外转录)或指数(PCR)扩增等,因此是一种在核酸测序、核酸检测分析等领域具有多种功能和广泛应用价值的新技术。

  附图说明

  图1为本发明基于SALP的下一代测序NGS文库构建的原理及流程示意图;其中,(A)普通DNA片段的SALP建库原理及流程,普通DNA片段指用超声及核酸内切酶产生的DNA片段,以及自然产生的DNA片段等;(B)基于Tn5转座体切贴DNA片段的SALP建库原理及流程,用于SALP-seq的Tn5标签接头(BTA),BTA包含19bp的双链转座酶结合位点(ME)以及单链标签序列和PCR引物退火位点,Tn5·BTA复合物(转座体)用于片段化DNA或染色质,单链接头(SSA)是一条3′突出数个随机碱基的双链核苷酸;

  图2为本发明基于SALP的下一代测序(NGS)文库构建的高通量建库(简称SALP高通量建库)示意图;其中,(A)基于单链标签接头(SBA)的SALP高通量建库示意图,单链标签接头(SBA)是一条3′突出数个随机碱基的标签化双链核苷酸;(B)从DNA出发基于Tn5转座体的SALP高通量建库示意图,用不同的Tn5标签接头处理不同DNA,以标签区分不同的DNA样品。(C)从细胞出发基于Tn5转座体的SALP高通量建库示意图。用不同的Tn5标签接头处理不同细胞,以标签区分不同的细胞样品,该程序组要用于高通量分析多种细胞的染色质开放状态;

  图3为本发明中SALP建库方法验证电泳图;其中,(A)Tn5转座体片段化HepG2基因组DNA,与起始DNA相比,片段化后的DNA呈现弥散带,切胶回收HepG2基因组DNA弥散带;(B)3’端突出不同数目随机碱基SSA构建Illumina兼容文库,突出3个随机碱基的SSA连接效率最高;1N-4N:不同突出数目随机碱基的SSA;(C)克隆测序验证4种不同SSA制备的文库结构,由上至下:1N至4N接头构建的文库;

  图4本发明中SALP建库方法的文库结构示意图,Illumina测序平台兼容的SALP测序文库结构;

  图5为本发明中通过SALP-seq与ATAC-seq鉴定GM12878细胞系染色质开放状态的比较示意图;其中,(A)Reads密度分布,Reads密度指1-Mb窗口中的reads数目;(B)两种方法富集得到的peak数目比较;(C)两种方法所得重叠peak中的reads密度比较;(D)不同类型peak的FE比较;ATAC:ATAC-seq富集所得peak;SALP:SALP-seq富集所得peak;Overlap:重叠的ATAC-seq和SALP-seq peak;Not Overlap;SALP-seq未与ATAC-seq重叠的peak;(E)22号染色体上reads分布;(F)UCSC基因组浏览器展示选定区域中SALP-seq与其他方法鉴定得到的染色质开放状态;

  图6为本发明中通过SALP-seq比较四种不同细胞的染色质开放状态示意图;其中,(A)TSS周围的reads分布;(B)Reads密度分布;Reads密度指1-Mb窗口中的reads数目;(C)UCSC track展示特定基因组位置上的SALP-seq peak;染色质开放标记,H3K27Ac track和DNase Cluster;

  图7为本发明的SALP-seq通过不同细胞量鉴定染色质开放状态示意图;其中,(A)全基因组水平不同细胞量reads密度统计;(B)UCSC基因组浏览器展示SALP-seq通过HepG2不同细胞量鉴定出的染色质开放区,ENCODE鉴定得到的开放区展示,用以比较;(C)不同细胞量获得的SALP-seq peak,及不同细胞量之间的重叠peak;(D)不同细胞量获得的SALP-seq peak FE比较;

  图8为SALP建库方法以不同片段化方法打断的DNA构建NGS文库;其中,(A)由HindIII酶切HepG2基因组DNA构建测序文库,上图显示Hind III酶切HepG2基因组DNA,下图显示制备的文库;(B)由超声打碎的HepG2基因组DNA构建测序文库;上图显示超声打碎的HepG2基因组DNA,下图显示制备的文库;

  图9为本发明中通过全基因组水平比较Hind III酶切文库reads密度和Hind III酶切位点分布示意图,分别在全基因组范围内以1M窗口计算Hind III酶切文库reads密度,及Hind III酶切位点数目;

  图10为本发明中通过超声打碎HepG2基因组DNA文库read示意图,在全基因组水平以1M窗口计算超声打碎HepG2基因组DNA文库的reads密度;

  图11为本发明中运用SALP方法制备cDNA的实验步骤示意图及实验结果图;其中,(A)SALP方法制备cDNA的实验步骤示意图;(B)SALP方法制备cDNA实验结果图;M:分子量标准物;T4+:SSA连接反应中加入T4DNA连接酶;T4-:SSA连接反应中不加T4DNA连接酶;Blank,PCR阴性对照。

  具体实施方式

  以下结合附图和实施例对本发明作进一步说明。

  实施例1基于Tn5转座体切贴反应的SALP

  实验方法:

  细胞培养:HepG2细胞使用DMEM培养基培养。培养基含有10%(v/v)胎牛血清,100units/mL青霉素和100μg/mL链霉素。细胞在37℃,5%(v/v)CO2培养箱中培养。细胞来自中国科学院上海生命科学研究院细胞资源中心。

  基因组DNA制备:酚氯仿抽提法提取HepG2细胞的基因组DNA(genomic DNA,gDNA)。

  接头准备:全部寡核苷酸均由上海生工合成(如表1中SEQ ID NO.3-23所示)。制备Tn5标签接头(BTAs),标签和ME寡核苷酸以ddH2O溶解至20μM,等摩尔数混合至PCR管。制备单链接头(SSA),SSA-PN和SSA-PNre以ddH2O溶解至100μM,等摩尔数混合至PCR管。以上寡核苷酸混合物95℃变性5min,自然降温至25℃。

  Tn5转座体制备:根据Robust Tn5转座酶(Robust Tn5Transposase,RobustniqueCorporation Ltd.)说明书,将4μL BTA(10μM)与2μL 10×TPS、1μL Tn5转座酶及13μL H2O混合。25℃孵育30分钟形成Tn5转座体。转座体可存放于-20℃备用。

  SALP单链接头的优化:为了制备Illumina测序平台兼容的测序文库,并优化接头连接效率,设计了3’末端突出4种不同长度(1-4)随机碱基的SSA。为了连接SSA,12.5ngtagmented HepG2gDNA 95℃变性5分钟,迅速冰浴5分钟。变性后的gDNA与SSA于10μL反应体系中连接,反应体系如下,1μL of T4DNA连接酶(NEB,M0202L),1×T4DNA连接酶(ligase)缓冲液,1μL SSA(5μM),16℃连接60分钟。随后与等体积的2×rTaq mix(Takara)混合,72℃反应15分钟。1.2×Ampure XP beads(Beckman Coulter)纯化产物,于50μL反应体系中进行PCR扩增。PCR反应体系为:25μLHot Start HiFi PCR Master Mix(NEB,M0543S),1μL NEBNext Universal PCR Primer(10μM),1μL NEBNext Index Primers(10μM)。PCR反应程序如下:(i)98℃ 5分钟,(ii)98℃ 10s,65℃ 30s,72℃ 1分钟,18个循环,(iii)72℃ 5分钟。琼脂糖凝胶电泳PCR产物,胶回收300-1000bp片段。

  克隆测序:制备所得的文库进行克隆测序。凝胶回收所得的DNA与等体积的2×rTaq mix混合,72℃反应15分钟。纯化后的DNA克隆至PMD19-T Simple vector(Takara,6013)。对克隆DNA片段进行Sanger测序。每种SSA挑取10个克隆进行测序。

  实验结果:

  通过Tn5转座体切贴片段化的DNA片段能够方便的用来构建NGS测序文库,首先利用Tn5转座体切贴片段化DNA,通过SALP方法构建NGS文库,为此设计了一种新型的Tn5标签接头(barcoded Tn5adaptor,BTA)(图1B)。利用这些标签能够将Tn5转座体切贴之后的不同样品混合。由于Tn5具有“剪切和粘贴”的特性,Tn5转座酶与BTA形成的转座体能够有效的将HepG2基因组DNA片段化并将BTA与DNA连接(图3A)。片段化的DNA随后被变性,与单链接头连接(single strand adaptor,SSA)。SSA是一种3′端突出1-4个随机碱基的双链核苷酸。连接接头后的基因组DNA经Taq聚合酶延伸,以分别与BTA和SSA退火的引物进行PCR扩增。扩增结果显示,突出3个碱基的SSA连接效率最高(图3B)。为进一步验证DNA文库的结构,PCR产物被克隆至T载体,挑选40个克隆进行克隆PCR鉴定并进行Sanger测序。克隆PCR显示,插入T载体的DNA片段长度均在150至1000bp之间(图3C)。40个克隆1N-1至1N-10,2N-1至2N-10,3N-1至3N-10,4N-1至4N-10克隆测序结果如序列SEQ ID NO.24-63所示显示,运用四种SSA构建的文库均符合要求,能够与Illumina测序平台兼容(图4B)。根据以上结果,选择3碱基突出的SSA(即由表1中寡核苷酸SSA-PN与寡核苷酸SSA-PNrev-3N退火形成的SSA),用于后续的SALP建库实验。

  表1 SALP寡核苷酸接头和PCR引物

  

  

  Note:5'-P is for ligation;3'-NH2prevents undesired ligation.

  实施例2 SALP-seq鉴定不同细胞系的染色质开放状态

  实验方法:

  细胞培养:HeLa,HepG2和293T使用DMEM培养基培养,GM12878细胞于RPMI 1640培养基中培养,培养基含有10%(v/v)胎牛血清,100units/mL青霉素和100μg/mL链霉素。细胞在37℃,5%(v/v)CO2培养箱中培养。细胞来自中国科学院上海生命科学研究院细胞资源中心。

  接头准备:全部寡核苷酸均由上海生工合成(表1)。制备Tn5标签接头(BTAs),标签和ME寡核苷酸以ddH2O溶解至20μM,等摩尔数混合至PCR管。制备单链接头(SSA),SSA-PN和SSA-PNre以ddH2O溶解至100μM,等摩尔数混合至PCR管。以上寡核苷酸混合物95℃变性5min,自然降温至25℃。

  Tn5转座体制备:根据Robust Tn5转座酶(Robust Tn5Transposase,RobustniqueCorporation Ltd.)说明书,将4μL BTA(10μM)与2μL 10×TPS、1μL Tn5转座酶及13μL H2O混合。25℃孵育30分钟形成Tn5转座体。转座体可存放于-20℃备用。

  染色质剪切:分别计数100,000个GM12878、HeLa、HepG2和293T细胞。500g 4℃离心5分钟收集细胞,50μL预冷PBS洗涤细胞。50μL预冷的细胞膜裂解缓冲液(10mM Tris-HCl,pH7.4,10mM NaCl,3mM MgCl2,0.1%IGEPAL CA-630)重悬细胞。500g 4℃离心10分钟收集细胞核。对染色质进行Tn5转座体切贴反应时,100,000个细胞于30μL反应体系中进行,组分为20μL Tn5转座体、3μL DMF及1×LM缓冲液。不同的反应体系混合均匀后,37℃孵育30分钟,孵育过程中每10分钟混匀一次,以提高剪切效率。在剪切反应中,不同细胞样品使用不同的Tn5标签接头(BTA)(见表2)。

  文库制备:Tn5转座体切贴反应后,混合四种不同细胞系的染色质,得到一个染色质混合物。向染色质混合物加添1%SDS和20mg/mL Proteinase K(Sigma)至终浓度分别达0.1%和400μg/mL。混合物于65℃孵育1小时,加1×TE缓冲液至200μL。随后通过酚氯仿抽提法抽提DNA。所得DNA样品进行SSA连接、rTaq酶延伸及Illumina兼容Index PCR扩增(方法同实施例1)。扩增产物琼脂糖凝胶电泳,回收150~1000bp范围片段,以获得更多的核小体缺失序列。在文库制备过程中,根据优化结果,均使用3碱基突出的SSA接头。

  NGS测序:通过Illumina兼容Index PCR扩增(表3),制备了文库NGS-L1(四种细胞系tagmented染色质)。将该文库与利用SALP构建的其他3个NGS文库,包括NGS-L2(五种细胞数量tagmented染色质;实施例3)、NGS-L3(HindIII酶切gDNA;实施例4)及NGS-L4(超声打碎gDNA;实施例4),根据DNA质量以4:1:1:1(NGS-L1:NGS-L2:NGS-L3:NGS-L4)的比例混合,形成可利用单个通道(lane)进行测序的DNA样品。混合DNA样品经Agilent Bioanalyzer 2100进行质控并定量检测后,交由南京世和基因生物技术有限公司,通过Illumina Hiseq XTen平台测序。

  数据分析:原始数据根据index和barcode通过Perl脚本分割。ME(19bp)和barcode(6bp)从双端测序的read 2的5′端去除。全部reads截至30bp,通过Bowtie(version 1.1.2)程序比对至人基因组(版本hg19),使用参数:-X 2000,以保证长片段能够比对至基因组。Peak calling通过macs2程序进行,参数如下:-f BEDPE–keep-dup=2。Peak注释通过Homer软件进行。全部peak track均由UCSC基因组浏览器进行展示,相关统计分析通过R软件和Perl脚本进行。GM12878细胞的ATAC-seq数据由GEO数据库下载(accession number:GSE47753),并与SALP-seq分析过程相同,用以比较。

  实验结果:

  GM12878细胞系的染色质开放状态已经被利用DNase-seq,FAIRE-seq和ATAC-seq等方法研究。通过SALP-seq对该细胞系的染色质开放状态进行鉴定,用以与其他方法的鉴定结果进行比较。首先,在全基因组水平比较SALP-seq和ATAC-seq的读长(read)分布,结果显示由两种方法所得的reads分布相似(图5A)。尽管对于部分reads富集区,两种方法的鉴定结果存在一定差异。通过比较两种方法富集得到的峰(peak)的数量,可以发现,当测序深度被标准化后,SALP-seq能够比ATAC-seq鉴定出更多数量的peak(图5B)。比较两种方法鉴定出的重叠peak中的reads密度,发现较ATAC-seq,SALP-seq的peak中的reads数目更多(图5C)。通过peak的富集倍数(Fold enrichment,FE)比较,发现低FE的peak更容易被SALP-seq富集得到(图5D)。Reads分布的比较表明,SALP-seq能够获得与ATAC-seq相同的reads密度分布,说明SALP-seq可靠性高(图5E)。为了进一步证明SALP-seq鉴定染色质开放状态的可靠性,对一个被其它方法高度关注的区域中的peak进行比较(图5F)。结果表明,SALP-seq、ATAC-seq、FAIRE以及DNase-seq均鉴定出相同的染色质开放状态。并且,SALP-seq富集得到的peak,与H3K27Ac track以及DNase Cluster高度重合,进一步表明SALP-seq鉴定得到的染色质开放区具有高可靠性。

  利用本实施例设计的BTA,GM12878,HepG2,HeLa和293T四种细胞系的NGS文库通过SALP以高通量的流程进行制备(图2C)。通过计算转录起始位点(transcription startsite,TSS)周围的reads密度,发现TSS区域具有较高的reads密度(图6A),表明TSS区域周围的染色质开放程度较高。为了在全基因组水平上对四种不同细胞系的染色质开放状态进行比较,分别统计了不同细胞系的reads密度(图6B)。结果表明,部分区域在不同细胞系中均被鉴定为为染色质开放区,如位于5号染色体上的区域。选择位于19号染色体上的区域,对不同细胞中该区域的染色质开放状态进行展示(图6C),该区域中四种细胞系中的SALP-seqpeak均与ENCODE计划中所得的H3K27Ac位点以及DNase cluster高度重合(图6C)。在基因组水平上,不同细胞之间有多个peak相互重叠,表明在不同细胞之间存在许多共同的染色质开放区。然而,这些共同染色质开放区的开放程度存在差异。另外,不同细胞系之间存在细胞特异的peak,说明在存在染色质开放状态的细胞特异性。这些数据表明,SALP-seq是一种能够综合比较不同细胞系的染色质开放状态的有效、简单、易用的方法。

  表2 Tn5转座体标签及样品对应关系

  表3测序Reads数目统计

  

  

  实施例3 SALP-seq通过不同细胞数量鉴定染色质开放状态

  实验方法:

  细胞培养:HepG2使用DMEM培养基培养。培养基含有10%(v/v)胎牛血清,100units/mL青霉素和100μg/mL链霉素。细胞在37℃,5%(v/v)CO2培养箱中培养。

  接头准备:全部寡核苷酸均由上海生工合成(表1)。制备Tn5标签接头(BTAs),标签和ME寡核苷酸以ddH2O溶解至20μM,等摩尔数混合至PCR管。制备单链接头(SSA),SSA-PN和SSA-PNre以ddH2O溶解至100μM,等摩尔数混合至PCR管。以上寡核苷酸混合物95℃变性5min,自然降温至25℃。

  Tn5转座体制备:根据Robust Tn5转座酶(Robust Tn5Transposase,RobustniqueCorporation Ltd.)说明书,将4μL BTA(10μM)与2μL 10×TPS、1μL Tn5转座酶及13μL H2O混合。25℃孵育30分钟形成Tn5转座体。转座体可存放于-20℃备用。

  染色质剪切(tagmentation):分别计数50,000、10,000、5,000、2,500及500个HepG2细胞。500g 4℃离心5分钟收集细胞,50μL预冷PBS洗涤细胞。50μL预冷的细胞膜裂解缓冲液(10mM Tris-HCl,pH 7.4,10mM NaCl,3mM MgCl2,0.1%IGEPAL CA-630)重悬细胞。500g 4℃离心10分钟收集细胞核。染色质剪切(tagmentation)反应时,50000和10000个细胞于30μL反应体系中进行,组分为4μL Tn5转座体、3μL DMF及1×LM缓冲液;5,000、2,500及500个细胞在5μL反应体系中进行,组分为1μL Tn5转座体、0.5μL DMF及1×LM缓冲液。不同的反应体系混合均匀后,37℃孵育30分钟,孵育过程中每10分钟混匀一次,以提高剪切(tagmentation)效率。在剪切(tagmentation)反应中,不同细胞样品使用不同的Tn5标签接头(BTA)(见表2)。

  文库制备:Tn5转座体切贴反应后,混合五个不同数量HepG2细胞的染色质,得到一个染色质混合物。向染色质混合物加添1%SDS和20mg/mL Proteinase K(Sigma)至终浓度分别达0.1%和400μg/mL。混合物于65℃孵育1小时,加1×TE缓冲液至200μL。随后通过酚氯仿抽提法抽提DNA。所得DNA样品进行SSA连接、rTaq酶延伸及Illumina兼容Index PCR扩增(方法同实施例1)。扩增产物琼脂糖凝胶电泳,回收150~1000bp范围片段,以获得更多的核小体缺失序列。在文库制备过程中,根据优化结果,均使用3碱基突出的SSA接头。

  NGS测序:通过Illumina兼容Index PCR扩增(表3),制备了文库NGS-L2(五种细胞数量tagmented染色质)。将该文库与利用SALP构建的其他3个NGS文库,包括NGS-L1(四种细胞系tagmented染色质;实施例2)、NGS-L3(HindIII酶切gDNA;实施例4)及NGS-L4(超声打碎gDNA;实施例4),根据DNA质量以4:1:1:1(NGS-L1:NGS-L2:NGS-L3:NGS-L4)的比例混合,形成可利用单个通道(lane)进行测序的DNA样品。混合DNA样品经Agilent Bioanalyzer 2100进行质控并定量检测后,交由南京世和基因生物技术有限公司,通过Illumina Hiseq XTen平台测序。

  数据分析:原始数据根据index和barcode通过Perl脚本分选。ME(19bp)和barcode(6bp)从双端测序的read 2的5′端去除。全部reads截至30bp,通过Bowtie(version 1.1.2)程序比对至人基因组(版本hg19),使用参数:-X 2000,以保证长片段能够比对至基因组。Peak calling通过macs2进行,参数如下:-f BEDPE–keep-dup=2。Peak注释通过Homer软件进行。Gene ontology分析通过上传基因列表至PANTHER网站进行(http://pantherdb.org/)。重叠peak的检测通过BEDTools intersect程序进行。全部peak track均由UCSC基因组浏览器进行展示,相关统计分析通过R软件和Perl脚本进行。

  实验结果:

  作为鉴定染色质开放状态的方法,FAIRE-seq和DNase-seq通常需要1-5×106个细胞,而ATAC-seq仅需500到50000个细胞。为了证明SALP-seq能够利用不同数量的细胞鉴定染色质开放状态,选取6个不同细胞数量(100,000、50,000、10,000、5,000、2,500及500个)的HepG2细胞进行SALP-seq。统计全基因组水平上不同细胞量的reads密度,结果表明不同细胞量鉴定得到的高染色质开放水平的区域重合(图7A、7B)。SALP-seq鉴定得到的染色质开放区与ENCODE中的H3K27Ac和DNase Cluster匹配(图7B)。然而,当起始细胞数目较少时,灵敏度会降低(图7C)。当所用的细胞量较少时,仅有高富集倍数(fold enrichment,FE)的区域被鉴定出来(图7D)。这表明,通过500个细胞,SALP-seq也能够对染色质开放程度较高的区域进行捕获。

  实施例4 SALP-seq以酶切或超声片段化基因组DNA构建NGS文库

  实验方法:

  细胞培养:HepG2细胞使用DMEM培养基培养,培养基含有10%(v/v)胎牛血清,100units/mL青霉素和100μg/mL链霉素。细胞在37℃,5%(v/v)CO2培养箱中培养。基因组DNA制备:酚氯仿抽提法提取HepG2细胞的基因组DNA(genomic DNA,gDNA)。

  gDNA片段化:50ng gDNA于30μL反应体系中55℃孵育15分钟进行tagmentation反应,其组分为:1×LM缓冲液,3μL Dimethylformamide(DMF),4μL Tn5转座体。利用MinElutePCR Purification Kit(QIAGEN,28004)纯化片段化后的gDNA。Hind III酶切反应,1μg基因组DNA于50μL反应体系中37℃酶切过夜,反应体系组分为:1×FastDigst缓冲液及5μLFastDigest Hind III(Thermo Fisher,ER0501)。超声打碎gDNA,1μg基因组DNA利用BRANSON超声仪,超声条件为:70%power,20s on,20s off进行20个循环。所有片段化后的DNA,95℃变性5分钟,迅速冰浴5分钟,于1.5%琼脂糖凝胶中电泳,QIAquick GelExtraction Kit(QIAGEN,28704)胶回收200至1000bp片段。

  T接头准备:全部寡核苷酸均由上海生工合成(表1)。制备单链接头(SSA)时,SSA-PN和SSA-PNre以ddH2O溶解至100μM,等摩尔数混合至PCR管。制备T接头时,TOA和TOArev寡核苷酸以ddH2O溶解至100μM,等摩尔数混合至PCR管。以上寡核苷酸混合物95℃变性5min,自然降温至25℃。

  文库制备:Hind III酶切和超声打碎的gDNA通过与Tn5处理DNA相同的步骤连接3个随机碱基突出的SSA,并延伸。延伸产物与T接头在10μL反应体系中进行连接,反应体系条件如下,1μL T接头(5μM),1×T4DNA连接酶反应缓冲液,1μL T4DNA连接酶,16℃孵育2h。1.2×Ampure XP beads纯化连接产物,以不同的NEB index引物进行扩增(表1)。PCR体系反应程序同上。扩增产物琼脂糖凝胶电泳回收300~1000bp DNA片段。

  NGS测序:通过Illumina兼容的Index PCR扩增(表1),利用SALP构建了文库NGS-L3(HindIII酶切gDNA)与NGS-L4(超声打碎gDNA)。将两个文库DNA与基于Tn5建立的两个文库,即文库NGS-L1(四种细胞系tagmented染色质)与NGS-L2(五种细胞数量tagmented染色质),根据DNA质量以4:1:1:1(NGS-L1:NGS-L2:NGS-L3:NGS-L4)的比例混合,形成可利用单个通道(lane)进行测序的DNA样品。混合DNA样品经Agilent Bioanalyzer 2100进行质控并定量检测后,交由南京世和基因生物技术有限公司,通过Illumina Hiseq X Ten平台测序。

  数据分析:原始数据根据index通过Perl脚本分选。全部reads截至30bp,通过Bowtie(version 1.1.2)程序比对至人基因组(版本hg19)上,使用参数:-X 2000,以保证长片段能够比对至基因组。Reads密度计算:统计每1Mb窗口中的Reads数,绘制全基因组Reads密度,以染色体为单位展示。HindIII酶切位点密度的统计方法为:在人全基因组序列中搜索HindIII酶切位点序列(5'-AAGCTT-3'),统计每1Mb窗口中的HindIII酶切位点个数,绘制全基因组HindIII酶切位点密度,以染色体为单位展示。

  实验结果:

  为了证明SALP能够以不同方式片段化的DNA构建NGS文库,以Hind III酶切和超声打碎后的HepG2基因组DNA(gDNA)通过改进的SALP方法构建NGS文库,在该方法中,SSA连接延伸后,3′端突出碱基T的T接头(T adaptor)被连接至DNA片段末端。随后,通过两个分别退火在SSA和T接头上的引物对DNA进行扩增,产生与Illumina测序平台兼容的文库(图1A;图4A)。结果表明,通过改进的SALP方法,可用限制性内切酶(如Hind II)I酶切和超声打碎后的HepG2基因组DNA(gDNA)构建NGS文库(图8)。该方法能够通过酶切(图9)和超声打碎的gDNA成功构建NGS文库(图10),并与Tn5片段化的DNA一起通过Illumina Hiseq平台进行测序。

  为了证明两个文库对基因组的覆盖度,分别在全基因组水平上统计两文库的reads密度。结果表明,两文库测得的reads在不同染色体上均匀分布(图9、图10),表明SALP能够通过酶处理和物理方法片段化的gDNA成功构建NGS文库。另外,通过预测得到的HindIII酶切位点密度分布在基因组上的分布与NGS测得的reads密度分布基本一致(图9)。在部分染色体(5,9和11号染色体)上(图9),两者存在较为明显的差异,是由于参考基因组(hg19)和HepG2细胞基因组之间存在的序列差异导致。

  实施例5基于SALP方法制备cDNA

  实验方法:

  细胞培养:HepG2使用DMEM培养基培养。培养基含有10%(v/v)胎牛血清,100units/mL青霉素和100μg/mL链霉素。细胞在37℃,5%(v/v)CO2培养箱中培养。cDNA制备:Trizol法提取HepG2细胞的总RNA(total RNA)。用Takara公司反转录试剂盒(RR036A)反转录总RNA获得cDNA。

  接头准备:全部寡核苷酸均由上海生工合成(表1)。制备单链接头(SSA),SSA-PN和SSA-PNre以ddH2O溶解至100μM,等摩尔数混合至PCR管。以上寡核苷酸混合物95℃变性5min,自然降温至25℃。

  cDNA制备:反转录所得的cDNA样品进行SSA连接、rTaq酶延伸,以oligo dT(Takara公司反转录试剂盒;RR037A)和NEBNext Universal PCR Primer进行PCR扩增。PCR反应体系为:20μL连接产物,1μL NEBNext Universal PCR Primer,1μL oligo dT,25μLHS(Premix)(R040Q),ddH2O补足50μL。PCR反应程序如下:(i)98℃ 5分钟;(ii)98℃ 30s;50℃ 30s;72℃ 90s;35个循环;(iii)72℃ 5分钟。所得产物1.5%琼脂糖凝胶电泳。

  实验结果:

  为了证明SALP方法能够用于制备cDNA,我们以反转录所得的cDNA为起始物,与SSA连接并延伸后,通过两个分别退火在SSA和ployA上的引物对连接产物进行扩增,获得cDNA(图11)。结果表明,与未加T4DNA连接酶的SSA连接对照组(T4-)及未加模板的PCR阴性对照组(Blank)相比,实验组(T4+)出现明显的扩增产物,说明通过SALP方法成功制备得到cDNA。

  由于目前cDNA扩增中常用随机引物,很难获得完整的cDNA 3′端序列,因此无法获得全长cDNA片段。本发明中,我们将SSA连接在cDNA 3′端,并延伸产生双链DNA,因此,获得的cDNA包含全长cDNA。

  序列表

  <110>东南大学

  <120>一种基于单链接头的下一代测序文库的构建方法及其应用

  <160>63

  <170>SIPOSequenceListing 1.0

  <210>1

  <211>19

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>1

  agatgtgtat aagagacag 19

  <210>2

  <211>19

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>2

  ctgtctctta tacacatct 19

  <210>4

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>4

  gactggagtt cagacgtgtg ctcttccgat cttagcttag atgtgtataa gagacag 57

  <210>4

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>4

  gactggagtt cagacgtgtg ctcttccgat ctcttgtaag atgtgtataa gagacag 57

  <210>5

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>5

  gactggagtt cagacgtgtg ctcttccgat ctgccaatag atgtgtataa gagacag 57

  <210>6

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>6

  gactggagtt cagacgtgtg ctcttccgat cttgaccaag atgtgtataa gagacag 57

  <210>7

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>7

  gactggagtt cagacgtgtg ctcttccgat ctatcacgag atgtgtataa gagacag 57

  <210>8

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>8

  gactggagtt cagacgtgtg ctcttccgat ctacttgaag atgtgtataa gagacag 57

  <210>9

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>9

  gactggagtt cagacgtgtg ctcttccgat ctcgatgtag atgtgtataa gagacag 57

  <210>10

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>10

  gactggagtt cagacgtgtg ctcttccgat ctacagtgag atgtgtataa gagacag 57

  <210>11

  <211>57

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>11

  gactggagtt cagacgtgtg ctcttccgat ctcagatcag atgtgtataa gagacag 57

  <210>12

  <211>19

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>12

  ctgtctctta tacacatct 19

  <210>13

  <211>33

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>13

  agatcggaag agcgtcgtgt agggaaagag tgt 33

  <210>14

  <211>34

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>14

  acactctttc cctacacgac gctcttccga tctn34

  <210>15

  <211>35

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>15

  acactctttc cctacacgac gctcttccga tctnn 35

  <210>16

  <211>36

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>16

  acactctttc cctacacgac gctcttccga tctnnn36

  <210>17

  <211>37

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>17

  acactctttc cctacacgac gctcttccga tctnnnn 37

  <210>18

  <211>33

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>18

  gactggagtt cagacgtgtg ctcttccgat ctt 33

  <210>19

  <211>32

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>19

  agatcggaag agcacacgtc tgaactccag tc32

  <210>20

  <211>58

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>20

  aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct58

  <210>21

  <211>66

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>21

  caagcagaag acggcatacg agattgttga ctgtgactgg agttcagacg tgtgctcttc60

  cgatct 66

  <210>22

  <211>66

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>22

  caagcagaag acggcatacg agatacggaa ctgtgactgg agttcagacg tgtgctcttc60

  cgatct 66

  <210>23

  <211>66

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>23

  caagcagaag acggcatacg agattctgac atgtgactgg agttcagacg tgtgctcttc60

  cgatct 66

  <210>24

  <211>449

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>24

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gtagttagat gctgtcattg gatgacattg 120

  ggcaagcttg tcatgtgtct tctgatgtct cccttgtcct ttatcaactc accttcttgc 180

  tgaacacttt tggagtttct tgtgtgttta ttggctactg aatctccttc caactaaatt 240

  atgtagagtc taggaaacac agttctgaaa tttaatcctg gttcatttgc tagaactctg 300

  gatttttttc cccaaatagt ttggtttctt atacactaat caggaccatt ttcctagttg 360

  gaaaaaagca ggcacaaggt gtggtggcag aagatcggaa gagcgtcgtg tagggaaaga 420

  gtgtagatct cggtggtcgc cgtatcatt 449

  <210>25

  <211>501

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>25

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggaagtgttc ttgataaaga agaaagatga 120

  cttgattgca ttaaggccag tgagttccac tctcatcctg gaaacaaaag aatatacttc 180

  tagtagagca gatctggcaa atgatagatg gagaaggcaa aacaacacta ctcatgcctt 240

  aagcctgctg ctttcttaaa ttgaacacac aagaaaaaaa agatgaaaac aagtattttg 300

  tttttacata attttatttc aaaattttaa gtttcagaaa agagagttgc atgatgtatt 360

  gttataataa gaaatgctac ttgaaaggac ttttgaataa attgagaaaa acaagaaagt 420

  gataccaagg agcactgaga cagagatcgg aagagcgtcg tgtagggaaa gagtgtagat 480

  ctcggtggtc gccgtatcat t 501

  <210>26

  <211>391

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>26

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctggcc aatagatgtg tataagagac aggattataa ttcaatacat taaaaataaa 120

  attaaaatgc agagtaacat tcttctatag tgaagaatgc cagctattaa acactgaaca 180

  aagatcgaat tagaaaagca caatttaaaa aatgcacagt ttattagata aggataattg 240

  atgaaatcaa tggatattgg aaaccatggg tgaaagattt tatgggaata agatatttac 300

  atagtccaaa ataattcagc caaaattcat cccagatcgg aagagcgtcg tgtagggaaa 360

  gagtgtagat ctcggtggtc gccgtatcat t391

  <210>27

  <211>457

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>27

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gagaaaacac actggccaaa tcttagctat 120

  ttgaggaatg tagggagaaa agccaccttc tctctctatg tctgaaggtt cccatggctg 180

  tctctttgcc caaggggcaa actttccatc agggcatctt ctgtgcctct gaggatcatt 240

  ttccaattat aggcaatggt agtacgtgtt tcagtgcaga atgagataga gttgtttaat 300

  ttgacaataa agcgatgcgt caaaaacctc agtcaacaca gtaagtgttt tcttgttttc 360

  ctgctgacca acctaattct ggtttcatac agggcagcca gatcggaaga gcgtcgtgta 420

  gggaaagagt gtagatctcg gtggtcgccg tatcatt457

  <210>28

  <211>343

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>28

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggggtggttt gctttccaag gggcatggag 120

  atggagatgc tacagaacat gccacgcttg atacacttcg catcgcccag gtgcccctac 180

  tgcgtgtcat gtgacggtgg gtgtgcctgg ttgaggacac cttctagtct catgtgtgaa 240

  acacaagctt gtttgtttga catagtctgt tgtgtagtta atgttagatc ggaagagcgt 300

  cgtgtaggga aagagtgtag atctcggtgg tcgccgtatc att 343

  <210>29

  <211>545

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>29

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggtctcacct tcaaccactg tgtgctaatc 120

  ccagcaggct gggtgaggtg tgtagatggt atctcacgtg gagatcttgc agggtaaacc 180

  ttaagatcta ctgacaaata ctgattccag ttggaagcat tagtacattt tgaaatattt 240

  aataatttta acttttctta gatatgcccc acttggggac tatctttaag ggccatgaaa 300

  ccggtatgat agtaattctt aagattttta aatgaagaaa agcaggagaa atgttggtaa 360

  taggatcagt caaatatctg ctagttgaaa ccaccagatg caaatgtttt aagtttcttc 420

  ccactgctac tttccactct aatatagctt gttgaaagaa aataaaattt gatcatgcgg 480

  gctagtcaga tcggaagagc gtcgtgtagg gaaagagtgt agatctcggt ggtcgccgta 540

  tcatt 545

  <210>30

  <211>495

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>30

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggcctgtagg tttttttctt ttaacttgtg 120

  atttttaaaa tgaagtaatt taaaaattgg gaaatttcac ataaaaaccc agatttttgg 180

  aaaaatcaga tgatctagca caactatgct tggattcaac gtgatgatga tcctggccac 240

  gcgagggggc tgcctgtttc cactgagata tctgctctct gcctgacagc tgttcccatc 300

  aggccccaca gtcttgcatc tgcctgcctt ccacagtggc ctcacctgtg ggcttgcata 360

  catccctgag tttggaactc atgttctgtt gatcatttct cacttaacta atacccatgg 420

  gcttcaaaga cttcagcaga tcggaagagc gtcgtgtagg gaaagagtgt agatctcggt 480

  ggtcgccgta tcatt495

  <210>31

  <211>455

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>31

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gtatttggat tctgggctac cattttattt 120

  catgcatttt gttttgctgg tttaatttcc tttttctctt ctttggagtt gacttctatc 180

  attcaatttt tcttctcctc tacttgtttg gtttctattt ttaatgtata cattgtatgc 240

  actatgtata catgtatata gtgtatataa gcatatgtat atgtatcatg tatgtgtata 300

  tgtatatata tgcctacaaa tgaagattac ttaaatctta gcaactagtc taaaataatg 360

  aaggcttaga aactggaagg gaagagagct tagtggtaga tcggaagagc gtcgtgtagg 420

  gaaagagtgt agatctcggt ggtcgccgta tcatt455

  <210>32

  <211>531

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>32

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggtgcattca actcaccgag tgcaacattc 120

  ctcttgatag agcagtttgg aaacattgtt tctgtagaat ctgcaagtgg atatatggac 180

  cgctttgagg ccttcgttgg aaacgggatt tcttcctata aacccagaca gaagaattct 240

  cagagatttc tttgtgatgt gtgaattcaa ctcacagtgt ggatccttcc ttttgataga 300

  gcagttttga aacaccgttt ttgtagtatt tccaagcgga tatttggaac gccttgaagc 360

  gtatggtaga aaaggaaata tcttcccata aaacctagac agaaccaatc tcagaaacga 420

  ctttgtgatg tctgcattca actcacagag ttgaacattt ctcttgatag agcagatcgg 480

  aagagcgtcg tgtagggaaa gagtgtagat ctcggtggtc gccgtatcat t531

  <210>33

  <211>568

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>33

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggagaacagt attgaaatat gggcatccag 120

  gccaattgca agaggacaga tcttgagtcc taatccattt gagtttatta caaggacaga 180

  agtgaagtga aagggaatta ctcatttttg tttttcaaca tttgcctctt gaatcaagag 240

  agagggtgga gcctctcttg cttgtgaggc agggtgtttc cacatactcg taacttgaac 300

  tctaggaaga aaaaggtagc aggataaatt ttacagaaaa gggaagtaga gcagcatgct 360

  ttgcccaagc actcatctcc tttgatacag ttccttcaga tactttgaaa tgactaatgc 420

  attatattta aggccactag tactagtcat tgtgttttca aggaaatcag aggtattccc 480

  tgcttcacta aatgtatttg tcatgaccaa agatcggaag agcgtcgtgt agggaaagag 540

  tgtagatctc ggtggtcgcc gtatcatt568

  <210>34

  <211>716

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>34

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggctgtcaac ctgagtcatg ggggtgggat 120

  gagggtaggg ggcagagtaa tgttttctct aggtcacata ctttgtattc aacttatagc 180

  ttgaatcttc agattggcaa caagtgcaac attggcaaat cttacaattc ccttgcaatt 240

  cacaagttac aaagcacttt aaccagaaca tcctcagaac aacatactgt aacattggta 300

  gagttggtat tatcatcact ttttaaggaa aagatatagg aagcttagta aagctaagca 360

  aactattcaa attcacacag agagtaatta gaagaaaagg attaaaaaca ggtctctaga 420

  gttctctcca aagtaccatg gtactccaaa aataaattat tgcagcgttc tttgaatata 480

  tcatcacact tcatttttat aaaacatttg ggctatttat atgtatgcat atacaactga 540

  tactttcaaa caattatacc atcctttcat aaacacttgt actccaactt tttaataaat 600

  gaagtcaggt ctagaaaaat atacccttaa gttccaccaa aatatagact gctgcacaag 660

  atcggaagag cgtcgtgtag ggaaagagtg tagatctcgg tggtcgccgt atcatt 716

  <210>35

  <211>484

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>35

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gggtcatttt accttctcag ttaaaattaa 120

  acatttattc tttgtgtcaa tagcacttga atgtatagtt agaatactta tcaaattatt 180

  gtgcttgttt atatatttat ttccctgatt aagagaggaa aaaaagaata actttctatt 240

  tcatttcctc agaatctgcc ctgatgttta gctcaaatag atgttaatga gtatttattg 300

  aattaagaat gaaaaaattt aagccaacaa atgtataact gtgttctctg tcttgttcaa 360

  gttgaggaat acataaacta ggttacttta gagaataaat gagcaaagaa aatgagcttt 420

  tagtgcagat cggaagagcg tcgtgtaggg aaagagtgta gatctcggtg gtcgccgtat 480

  catt484

  <210>36

  <211>402

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>36

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gcttccgtct cccccactgg actctgaatt 120

  ccttgagggt agggattgtg cccttcttcc cagtgcctgc cacagaaacg gtgcccagta 180

  aacacgtatt tgtggaattg atgaattgga gttggtctct gccctgggtg tttcccatca 240

  gtctcgctgt cccgcccttc tgcccttctg aagcccataa aacagagtct gctccccaag 300

  ctggcctggc tcgggtcggg gctcgcagcg tcccctcccc agcaagatcg gaagagcgtc 360

  gtgtagggaa agagtgtaga tctcggtggt cgccgtatca tt402

  <210>37

  <211>566

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>37

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggtgtgggaa ggtgggtgga aaatgagttt 120

  ttgttaatat tcaaaggcat gaaaacattt ttaccagttt atgttttcct ggtgcattta 180

  gaaatctgtg gatccttggg gatggtgtat gcaggcaaat agagaatcca gtacttgtga 240

  atctgcctga atccacaggt ttgggaataa gggcagggac ttgagggttc acagatgtga 300

  aggttgtaca cagaactcat gcagagagat acaagatctt tttgttcccc ctttgattag 360

  aaagaatagg acatgaaagt acttaattgt caacttcgtc ttcaccataa gcccagtatt 420

  gatgcaaaaa tgataataat aatgagaaca agcatttatt gagtattggg tattctaatt 480

  gcttaaatca actcatgtaa ttctcacaag atcggaagag cgtcgtgtag ggaaagagtg 540

  tagatctcgg tggtcgccgt atcatt566

  <210>38

  <211>566

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>38

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggtgtgggaa ggtgggtgga aaatgagttt 120

  ttgttaatat tcaaaggcat gaaaacattt ttaccagttt atgttttcct ggtgcattta 180

  gaaatctgtg gatccttggg gatggtgtat gcaggcaaat agagaatcca gtacttgtga 240

  atctgcctga atccacaggt ttgggaataa gggcagggac ttgagggttc acagatgtga 300

  aggttgtaca cagaactcat gcagagagat acaagatctt tttgttcccc ctttgattag 360

  aaagaatagg acatgaaagt acttaattgt caacttcgtc ttcaccataa gcccagtatt 420

  gatgcaaaaa tgataataat aatgagaaca agcatttatt gagtattggg tattctaatt 480

  gcttaaatca actcatgtaa ttctcacaag atcggaagag cgtcgtgtag ggaaagagtg 540

  tagatctcgg tggtcgccgt atcatt566

  <210>39

  <211>409

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>39

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gatacattag aaatggaaag ctatggaaga 120

  ttccacaaag agaaatagat aatattttga aaccttactc taaggaatat gacaatgtgg 180

  gatatcctcc ctgccctcaa ccctccccct tgttcccatt ccatttcttc tcctttagag 240

  ctttgaagaa aacgcatttg gtatttagta atcaggatta aacaatataa gcacatcaca 300

  cctcttagct cactttttct gataactgca cagaaacaag actctgtcat aagatcggaa 360

  gagcgtcgtg tagggaaaga gtgtagatct cggtggtcgc cgtatcatt 409

  <210>40

  <211>499

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>40

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggaacactga actatgggag ggtacaccca 120

  acattgctgg agacaccatg cccttcacag ggtcctccca aagcgctcca gacaccagca 180

  ccctggataa agaacctgcc actttgtccc aggggctgag gcttctctcc agtctcctgc 240

  gtctacccca ttttcaagcc ctcttgcttt ggtctcatgt gcccacactt tcaacccaaa 300

  ctgtgccttt ctggccagtc tctatggatg aatacctcag ctgaactgtc tacctggctt 360

  tccataagat catctttggt tccaggatct acaataaaag caccagacct gatctatccc 420

  agtctgctct gacctcatca agatccggaa gagcgtcgtg tagggaaaga gtgtagatct 480

  cggtggtcgc cgtatcatt499

  <210>41

  <211>509

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>41

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggagtgtaca tcttaaataa ccaatttgta 120

  ataaatttaa tcagctagaa aacaagtgta acttttgcaa cttttgaaaa acacacatct 180

  ctgggcatca atgaaaactc ttccctctac agtaagccta atgaagtgca actaaaaata 240

  acagtcatca actgtgtttt aaaggcagta tttcaacata atcaaatgtg tcaaatattc 300

  atccttacag cttcttatgc tgtgggttat aagtaagttt catttcttgg gaatgactga 360

  acataaccca cctggggctc tgccatctgt gaattactta tatgtgaaca ctctttaaga 420

  gatggaaatt ttgattgttt tttcttcctg tagatcggaa gagcgtcgtg tagggaaaga 480

  gtgtagatct cggtggtcgc cgtatcaat 509

  <210>42

  <211>458

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>42

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gcttttggat ttttttaaat attttatttt 120

  ttataattca agcaaagatc aaaaaaatat taaaaaaata attgctcgac actatcaata 180

  ctttagtgtt aaagaaactc taaaaaaatt tgataaaaat tcaaataaag ttggaattgt 240

  atgacatgtt caaggttcag gtaaatccct tacaatggta atgttgacta agttgttaag 300

  aacaattgaa aagaatttaa cagttattgt ggtaactgat agaattgatc ttcaagatca 360

  attgaacaac acttttaata actttcataa atatattggt agatcggaag agcgtcgtgt 420

  agggaaagag tgtagatctc ggtggtcgcc gtatcatt 458

  <210>43

  <211>644

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>43

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gttacaatcc tgctcttgtg gctgggatca 120

  ggaatatgag caaaggaggc cacgagaagg aatcacatgt gtaaaaggtg gcttgaatta 180

  ttatttttta aaatatcatg gaggcttatt atgagacaaa tcatcaagat agctgacaat 240

  agatataatg ttcagccact tcaggtcttt gccttttctg tccacactat atttatttgc 300

  acacaaatac caccaatgcc actaccactg tcactagtcc cagttagcct tattgttctc 360

  catagcattg agcacaacta gtcattccac gtattttacc tttttatttt ctttatctta 420

  tgcctcattc taccagcatg gaaactcaaa taaatcattg atttgtttat ttttcatttg 480

  tgcaccctca atacctaaaa cagtacgtgg cacagggcag ggattcaaaa agtgtttgtt 540

  gactgaatgg tcagatctat tattttttga gacattctct ctagaaagat cggaagagcg 600

  tcgtgtaggg aaagagtgta gatctcggtg gtcgccgtat catt644

  <210>44

  <211>416

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>44

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gggcatatac attctaaata ttctaataaa 120

  aacttttaga gattaccaaa caagtacttt tatttttcca tttaaaatag gatagaatgg 180

  atagtcaaga tctatccagt cttctgtttc actttgggaa aatccccatt tgcctcatat 240

  tagtttgtaa acatctcacg tttttcccaa gtctcagtag ttttaagtgc aaatgttacc 300

  accaacaatc acatttttaa ctatatctat ttcgtcccta aaaaaactgg tgtttctcag 360

  atcggaagag cgtcgtgtag ggaaagagtg tagatctcgg tggtcgccgt atcatt 416

  <210>45

  <211>508

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>45

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggggagagga tcaggaaaaa taactaatgg 120

  gtactaggct taatacctgg gtgataaaat aatctgtaca acaaaccccc atgacacaag 180

  tttacctatg aaacaaacct gcacttgtac ccctgaactt aaaagttaaa aaaagtgcat 240

  atatacaatg aacaactatt cagccaaaaa aaatgaatga gatcctgtca tttccaatag 300

  catgaaagga actgaaagac attaagtgaa gtaagtcagg cacagaaaga caaactttgc 360

  atgttctcac atattcgtga gagctaaaaa attaaaacaa ttgaaatcat gcagatagag 420

  agtagaatta tggttaccag aggctgggaa agatcggaag agcgtcgtgt agggaaagag 480

  tgtagatctc ggtggtcgcc gtatcatt508

  <210>46

  <211>418

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>46

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gctatataaa catctgactt ctcaacataa 120

  atagtggaaa ttaacagaca ctggaatgat aattcaaagt gctgaagatg aaaaatcaag 180

  aattctatat ttaatgaaat tatcttttta aaatggaggc caaaaataca tttttcagat 240

  caacaaaatc taagataatt tgattgtaac aaatttatac ttcaggatgg acaagaagtt 300

  ctgtcagctg atgagaaatg atgccagatg gtaactcaga tatacaagaa atactgaaat 360

  agatcggaag agcgtcgtgt agggaaagag tgtagatctc ggtggtcgcc gtatcatt 418

  <210>47

  <211>446

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>47

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gaccatatgg aatgagatga taaaattatt 120

  ggatttaaca gaacagtgtg ggaggtaaaa aaaaaaatca agaattttat tggcacaaat 180

  tactggtttc tatcccctat tttctcaact ataattcttt tacattcctt cattctttcc 240

  tctggaccca atcataatgt aattcctaaa tctagtggtt tttgtcagca ttcatcctac 300

  ttgaactttc ttacagtgtt tgacaaacta cattctaatt ctggagctct gtcttttcac 360

  atcactctat ctcagcttcc agaatactag atcggaagag cgtcgtgtag ggaaagagtg 420

  tagatctcgg tggtcgccgt atcatt446

  <210>48

  <211>593

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>48

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gatataatgc agtgcctcag acataattaa 120

  aaaccttata gaactgaatt gaatgtccat gccatttatg gctggatgat ggcaagaaaa 180

  cagattgtag gaaggaaaaa tcttgccatc atgtccagtt gggatgccga aatgcttcag 240

  actttttttt tttttttttt aagaaaaaga atttgtgtct actggacagg aaattaattc 300

  atttccagaa caagtttttt cttaaaacac gctaaggtca aacttcccat aatgcctact 360

  gtcatggtgg ttgtctatga ttggtatagg cacatcccaa agcaataaat tcatctccta 420

  aaggaccact gtgctaatgc ttgcctgaca acctgcttca agaaaatgtg tctaactcca 480

  ttactaacat tgagtcatca ctgtccaatt ctttctcttt aatgtttaag agtaaagatc 540

  ggaagagcgt cgtgtaggga aagagtgtag atctcggtgg tcgccgtatc att593

  <210>49

  <211>569

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>49

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggaattgaat catcaccaaa ttgagtcgaa 120

  tggaatcatc aaatggagtg aaatggaatc atcatcgaag ggaatggaat agaatcatcg 180

  aattgactcg aaagaataat catcgaaggg aacggaaagg aattatccaa tggaatacaa 240

  gagaaacatc atcaaatgga atcgaatgga atcatcatcg aaaggaatcc aatggaataa 300

  tcatcaaatg gattcatacg gaatgataat cgaatggaat tcaaaggaat catcatcgaa 360

  gggaatcgaa tgcaacaatc gaatggaatc taatggaatc atcatcgaat ggaatcgacc 420

  ggaatcatcg aatggaagag aagagaatca tcattgaatg gaattgaatg gaatcgtcaa 480

  tgaatggaat cgaatggaat aatcagagaa tagatcggaa gagcgtcgtg tagggaaaga 540

  gtgtagatct cggtggtcgc cgtatcatt 569

  <210>50

  <211>495

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>50

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gatacaggag aactccaaac caagaaaggt 120

  tttttttttt tttttggcca gactctgaaa aagtaggctg taatatatat ttttaaaaag 180

  tctataccca tgaaggaccg tgtgaggaga tgctatctta tatagaatag ggctgaggct 240

  tattgaggct ttgccaagat ttcagagtaa atcttattca ctttgaataa gaaatttgtc 300

  ttatgagaaa actattggct tgaaatgtgg tgaatacaag ggctgaggga gactccagtg 360

  ggtttgtacc tattctcagc cttacccagg agctggctga aatgggttag ttgatggaaa 420

  aatctctttg tgtgtgtaga tcggaagagc gtcgtgtagg gaaagagtgt agatctcggt 480

  ggtcgccgta tcatt495

  <210>51

  <211>399

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>51

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gatcatcaag ttcaaactgc ttatcctagc 120

  aatgcaaact gacagcatat gcacatacat aatcaaatgg gaaataataa tagtatgtct 180

  cggcggactg cctaacacaa gaaagtcaac ggcccaaggg atatgtcaag aataatttct 240

  ttgcatgcat tgctctgatg ctatgctttg acacaggatt atttcatcag tggagagtgt 300

  atgaaactct taggcaacaa actggatttt ccttttcagc cagatcggaa gagcgtcgtg 360

  tagggaaaga gtgtagatct cggtggtcgc cgtatcatt399

  <210>52

  <211>687

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>52

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggcagtagat agtgaagttt ccttttttca 120

  gtagaactga aacaatcaaa gaaatgttat tttagtaaat gttgatctct tttcattctt 180

  tctccctgga cattctctga aatctctgtc aatggaattt gtttactcca aatcacatct 240

  ttgttgcctt tgagtattac catgtttgaa tgtttaccac tcaaatccag cataaaagtg 300

  tcttcttttt taggtaagat caggcaaaga ggtactgaat gaataacact tgattgggaa 360

  tggtaaataa ccatgcaatt aaactgtaaa cactgtgtgt ggtgatttta atgtaatttg 420

  aggacttgta aattatatgg tcataaaatg gcacttgggc ttatgcttta caaaaatatc 480

  catgtttgta tgagattaat tagcgcagtt tgcataaaga cattgagtaa agcactttct 540

  gaacattctc atttgtaagg ttttcttatt tataaggctt tctttttatt tctttctgtg 600

  gtcttgaaga aattattatc attgtccaca gatcggaaga gcgtcgtgta gggaaagagt 660

  gtagatctcg gtggtcgccg tatcatt 687

  <210>53

  <211>537

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>53

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggtgcaccct cacagttcaa acctgtgttg 120

  ttcaagggtc aactgtatat ccaagttcat acatatcgta aatggtagaa ctaagatgca 180

  atttcagatc caaattcaga ttttcaaatt cagtttccaa gtcatatgat gacactactt 240

  agaaaatcaa aattagtttc cagcttttac aaatcaagct gctagtagta attctaatac 300

  cattatatga ttattaataa tgccaccaca ttgatggctc agctgaggac tagaaaataa 360

  gtctttaaca aaatttccta tttgtatttt atttttcttg caatgatgca cagctgagaa 420

  cagaaaataa gtcttaacac tctcccaaag atggcaagat gcacagtcac catgtctaaa 480

  gatcggaaga gcgtcgtgta gggaaagagt gtagatctcg gtggtcgccg tatcatt537

  <210>54

  <211>506

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>54

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gctttcaatg ttcacttcaa cacttccggg 120

  tatcaatctt tgtgtatagg aagatcctta acacacttcc tatacacaaa gctctggctc 180

  agagtcaact tccccagaaa cagagaacct gacttcaaac aatcccttat taaaacataa 240

  aaggtatcgt aagtttagaa atcagaaagg ccatgagtat aaatagctaa aatatgaatg 300

  cagcagaaaa taccttcctt agaacattgt tttagaagtg gcaaactagg aaactttgaa 360

  aagaggtcag tatgaaactg tgattttttt aaaaaagatt tcattttgac ttagttttaa 420

  gggtgtttca gcctgcagtt atttcagaag atcggaagag cgtcgtgtag ggaaagagtg 480

  tagatctcgg tggtcgccgt atcatt506

  <210>55

  <211>451

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>55

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggttcagttt ccaatcctgt ggttatcttc 120

  tttgcaatgt tgcagcagtt ttcagaagtt taaaagcttt aataattgaa atctctgata 180

  tgctttatag caatgtacac gcatatgctt ttattctgta ataatttact gacaaaattt 240

  accacctgac tgctcgaagt tctttcagac ttaggagatg tttttccagc agctcaagaa 300

  atgctttctt gggaggactt cccatgctcc agggacttta cacgcctcat ttctcttaat 360

  tctcacaagc agccaaagag atgggtgata ccaagatcgg aagagcgtcg tgtagggaaa 420

  gagtgtagat ctcggtggtc gccgtatcat t451

  <210>56

  <211>364

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>56

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgtgccaata gatgtgtata agagacaggc caatagatgt gtataagaga cagtgtgtac 120

  atatgtaaca aacctgcacg ttgtgcacat gtaccctaga acttaaagta tagtaaataa 180

  aaaaaaggaa aaaaattgct cacaagactg tggagaaaaa agaatgctta tatcatgttg 240

  gtaggactgt aaattagttc agccattgtg gaaaggagtt tgatgatttc ttaaagaact 300

  taaaacagat cggaagagcg tcgtgtaggg aaagagtgta gatctcggtg gtcgccgtat 360

  catt364

  <210>57

  <211>434

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>57

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gcttagataa atatctacaa aacataattt 120

  attaaaactg acttaagcaa aaaaccaaaa ggtaaaactt gaataatgct ataattatta 180

  aagaaaaatt attctcacac acacacaaaa agtaccaagc ccccatgggt ttacaggtga 240

  ggtgaaattt tcaaggacca gatcatctag acaaaagaaa ttcttccgga caaaagaaaa 300

  attcttccag acaaaagaaa atgagggatt actccctaac tcctcttata aggggagatg 360

  ttaaaggaga atggacagat cggaagagcg tcgtgtaggg aaagagtgta gatctcggtg 420

  gtcgccgtat catt 434

  <210>58

  <211>501

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>58

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gggccaccag agatatttaa aaatcagaaa 120

  atcagaaaaa atcagagcca tcattttcaa aaattagtct tctagcaggg aatgaactga 180

  agaagaaagg ggcaaaaggt atggaaagta attaggacag agcttttagg gctccatatg 240

  tcatgctttt cacaataaca tgcagaatcc acatcctcat ttaggtgtga taatatcatt 300

  actctcttct ctctccaatg tctacttaga agtagcgcaa cagtaagtct tttttctgga 360

  gatggtcatg gcttatacct gtagtcctgg tgaaattaat aatagtgccc ccattcactc 420

  tcgaaagtat tctggtttgg acaagatcgg aagagcgtcg tgtagggaaa gagtgtagat 480

  ctcggtggtc gccgtatcat t 501

  <210>59

  <211>306

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>59

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggaaccagtg agcttgaaga taggacattt 120

  gaaattatcc agtcaaataa taaaaaaaga atgaagaaag cctccaggaa ttatgggata 180

  ccatcaagag acccaacatt cacataataa aagttgctga aggagaaaag agagaaaaag 240

  agccagaaag atcggaagag cgtcgtgtag ggaaagagtg tagatctcgg tggtcgccgt 300

  atcatt306

  <210>60

  <211>482

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>60

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca gacatgatac agtggaagga atactagagt 120

  aggggtcagg aaaatcaaat actgtgaagt gtggaagtgc ctggcacaga gtagaaactt 180

  aatcaatgta aatccctcat cccctcccat tgtgcatcat gagcttccca acacagccca 240

  taaaatctcc aagttgtaat gctgaaagaa gggccacaac cttgtcaatg acgcaaaaga 300

  gctttcatca gactgtgcat aatttagaat gtgaatctct gagaaatgag agctgatgag 360

  agcagacttt agtaatcccc taaactctca atcatctgtg ttttggtaaa acaggagcac 420

  tagcagatcg gaagagcgtc gtgtagggaa agagtgtaga tctcggtggt cgccgtatca 480

  tt482

  <210>61

  <211>742

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>61

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggggtaagga atggtgctga aagctttttc 120

  tcagtgttcc agctccacca tgagctttat tatgtacctg tcccagagga agtctcatgc 180

  ctccttctgt cccttcctgg tggtaggctg ctgttgcttg tttctgaggg ttgtatttat 240

  ggcatgggta gagaggagga ggttttctta gggaataata cttgaattaa ctcatatttc 300

  cacatatttt cttgcttaaa aaggtatttt aatgatccaa ataagtgttt tgacaagttt 360

  tcatttatag ctacctcatt gaattattgg actagtaact ttaagaaagc aaaaataagt 420

  agtgatttta gacataattt ttttttggaa tgaagtactg gctcctggta attgttgttt 480

  actctacaga gcctatgaaa tcacacataa ttgattcaat aatattttat ggaaacttgc 540

  cagaagtcga tgtcaaaaga acccatctct agattacaga atcaaacgcc cttttttttt 600

  taacctggaa taataatttc tcttctataa ttttctatat cttcctcaca ttctctgggg 660

  tttaaagtgg tttacataat cacaagatcg gaagagcgtc gtgtagggaa agagtgtaga 720

  tctcggtggt cgccgtatca tt742

  <210>62

  <211>451

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>62

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggttcagttt ccaatcctgt ggttatcttc 120

  tttgcaatgt tgcagcagtt ttcagaagtt taaaagcttt aataattgaa atctctgata 180

  tgctttatag caatgtacac gcatatgctt ttattctgta ataatttact gacaaaattt 240

  accacctgac tgctcgaagt tctttcagac ttaggagatg tttttccagc agctcaagaa 300

  atgctttctt gggaggactt cccatgctcc agggacttta cacgcctcat ttctcttaat 360

  tctcacaagc agccaaagag atgggtgata ccaagatcgg aagagcgtcg tgtagggaaa 420

  gagtgtagat ctcggtggtc gccgtatcat t451

  <210>63

  <211>455

  <212>DNA

  <213>人工序列(Artificial Sequence)

  <400>63

  caagcagaag acggcatacg agataaggcc acgtgactgg agttcagacg tgtgctcttc60

  cgatctgcca atagatgtgt ataagagaca ggtagccaat tgatttttga ccagggaacc 120

  acatttattc agtggggaaa gatagttcac caaatggtgc tagatttctg catacaaaag 180

  aacaaagtta gacccctacc ttacaccata tacaaaaatc aactcaaaat tgaaaaacaa 240

  cctaaatata agagttaaaa taccaagact cttagaagaa aacacagggg taaatcttta 300

  tgaccttgga tttaacagtg gattcttaga tgtgtcacca aaagcacaag caacaaaaga 360

  aaaaatagat aaatttgact tcatcagact ttaaactaga tcggaagagc gtcgtgtagg 420

  gaaagagtgt agatctcggt ggtcgccgta tcatt455

《一种基于单链接头的下一代测序文库的构建方法及其应用.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)