一种测序文库构建的方法、建库试剂及其应用
技术领域
本申请涉及测序文库构建领域,特别是涉及一种测序文库构建的方法、建库试剂及其应用。
背景技术
地中海贫血是由基因缺陷引起的,血红蛋白中一种或者一种以上珠蛋白合成异常,导致的贫血或病理状态,其基因突变类型多样,包括多种缺失型及点突变型。地中海贫血的检测方法包括sanger测序、qPCR、NGS、探针捕获测序、基因芯片分型等。使用高通量测序检测地贫突变具有成本低、通量高、准确度高的特点。
现有技术中,基于Illumina Hiseq2500测序平台构建地中海贫血文库的方法主要包括以下步骤:
(1)使用带有特定标签序列的特异性引物扩增人血红蛋白基因,其目的是获得富集的测序靶标基因;
(2)混合PCR产物并纯化打断,其目的是将富集的靶标基因打断成适合于测序的长度;
(3)将打断的DNA进行末端修复;
(4)在已修复的DNA片段的3’端加上一个“A”碱基,并纯化;
(5)用DNA连接酶将特异性接头连接至DNA片段的两端,纯化;步骤(3)至步骤(5)的目的是在打断的片段两端添加测序接头,以方便测序;
(6)对加接头的DNA序列进行琼脂糖胶电泳,切胶回收一定大小的片段,纯化;切胶回收的目的是去除步骤(3)至步骤(5)中添加的试剂,以方便测序;
(7)使用Agilent Bioanalyzer2100和qPCR检测上述构建文库的片段大小和浓度,之后使用Illumina测序平台进行高通量测序。
以上测序文库构建的方法或基于该文库的地中海贫血检测方法,存在自身的局限性,例如:第一,以上方法中最终产出的数据需同时具备文库标签及特异性引物标签才能区分样本信息,而部分DNA片段因为打断而丢失了特异性引物标签成为无用数据,造成数据浪费而提高了测序成本;其中文库标签包含在以上步骤(5)的特异性接头中,是对文库来源进行特异性标识的一段6-10bp的核酸序列;特异性引物标签即步骤(1)中的特异性引物所带的特定标签序列,是对特异性引物所扩增的靶标片段进行特异性标识的一段核苷酸序列,其长度可以结合特异性引物的自身情况调整。第二、以上方法使用PE测序进行片段补全,从而达到基因序列的全覆盖;片段选择范围较大且切胶选择片段步骤繁琐。第三、建库周期长,并且,多步纯化造成DNA文库的损失并增加了文库构建的成本。
发明内容
本申请的目的是提供一种新的测序文库构建的方法,该建库方法所使用的建库试剂,以及建库方法和建库试剂的应用。
为了实现上述目的,本申请采用了以下技术方案:
本申请一方面公开了一种测序文库构建的方法,包括采用简并引物对富集的靶标基因进行恒温扩增,然后对恒温扩增产物进行末端修复、加“A”碱基、加接头,纯化获得测序文库;其中,简并引物的5’端具有标签序列,3’端为随机序列。
需要说明的是,本申请的测序文库构建方法,与现有的建库方法不同的是,第一,本申请的建库方法通过简并引物恒温扩增获得DNA片段,并且简并引物中包含有引物特异性标签序列,避免了打断环节,也避免了由此造成的引物特异性标签序列丢失,进而造成无用数据的问题;在本申请的一种实现方式中,以基于Illumina测序平台的地中海贫血高通量检测文库构建为例,按照本申请的文库构建方法,数据利用率大于90%,而现有技术的数据有效利用率仅有约60%,大大提高了数据利用率,降低了测序成本。第二,本申请的建库方法简化了建库流程,缩短了建库周期;同样以地中海贫血高通量检测文库构建为例,按照本申请的建库方法,建库只需要两天即可完成,而现有技术整个建库周期约需要四天;本申请的建库方法无需物理打断、减少了纯化步骤、手工操作时间缩短,更加适用于自动化建库。
优选的,简并引物中,标签序列可重复的选自Seq ID No.1至Seq ID No.16所示序列的至少一个。具体的,标签序列如表1所示。
表1 可供选用的标签序列
需要说明的是,简并引物中的标签序列,其作用是对引物或者扩增产物进行特异性标识,每一组简并引物所采用的标签序列是一样的,不同组的简并引物采用另外一个标签序列,这样就可以有效的区分两组简并引物分别获得的扩增产物;本申请提供了16个标签序列,可以用于16组简并引物,实现对16个靶标或者扩增产物的特异性标识,完全可以满足目前的高通量测序需求。可以理解,如果需要更多的分组,还可以采用更多的标签序列,不仅限于本申请的16个标签序列。
优选的,靶标基因采用PCR扩增进行富集,PCR扩增产物采用磁珠纯化后,用于恒温扩增。
优选的,恒温扩增产物在进行末端修复之前还包括对恒温扩增产物进行磁珠纯化;并且,在添加接头后,纯化获得测序文库,同样采用的磁珠纯化。
本申请的另一面公开了一种用于测序文库构建的建库试剂,该建库试剂包括至少一组简并引物,简并引物具有式一所示通式,
式一5’-(N)x-NNNNNN-3’,
式一中,5’端的(N)x表示序列长度为x的标签序列,x的值为6-10bp,3’端的NNNNNN表示6bp的随机序列。
优选的,(N)x可重复的选自Seq ID No.1至Seq ID No.16所示序列的至少一个。
需要说明的是,本申请的建库试剂,其中包含的简并引物,实际上就是本申请测序文库构建方法中所采用的简并引物;可以理解,本申请的建库方法提供了一种全新的文库构建途径,其中采用的简并引物,当然可以作为一种新的建库试剂,单独提供或售卖。
优选的,本申请的建库试剂还包括一组特异性引物,该特异性引物由第一引物对、第二引物对和第三引物对中的至少一对组成;第一引物对的上下游引物分别为Seq ID No.17和Seq ID No.18所示序列,第二引物对的上下游引物分别为Seq ID No.19和Seq ID No.20所示序列,第三引物对的上下游引物分别为Seq ID No.21和Seq ID No.22所示序列;
Seq ID No.17:5’-AGCATAAACCCTGGCGCGC-3’
Seq ID No.18:5’-ATGCCTGGCACGTTTGCTGAG-3’
Seq ID No.19:5’-CAAGCATAAACCCTGGCGCGC-3’
Seq ID No.20:5’-CCATTGTTGGCACATTCCGGGATA-3’
Seq ID No.21:5’-GCCAGTGCCAGAAGAGCC-3’
Seq ID No.22:5’-GCACTGACCTCCCACATTCC-3’。
需要说明的是,第一引物对、第二引物对和第三引物对,实际上就是本申请的一种实现方式中,特别针对地中海贫血的血红蛋白基因而设计的特异性扩增引物;因此,本申请的建库试剂将其涵盖其中,可以作为地中海贫血测序文库构建的专用试剂。
本申请的另一面公开了一种用于测序文库构建的试剂盒,其中就包含了本申请的建库试剂。可以理解,测序文库构建需要采用多种试剂,例如核酸纯化试剂、末端修复试剂、加A的试剂、接头连接的试剂等,这些都可以包含在本申请的试剂盒中,以方便使用;或者,也可以另外单独购买,在此不做具体限定。
需要说明的是,本申请的试剂盒中可以单独包含简并引物,也可以包含简并引物和第一引物对、第二引物对和第三引物对组成的特异性引物;如果单独包含简并引物,则可以采用自行设计的特异性引物对靶标基因进行扩增,然后再采用简并引物进行恒温扩增;而本申请的优选方案中提供了特异性引物,使其成为地中海贫血测序文库构建的专用试剂盒。
本申请的再一面公开了本申请的方法或本申请的建库试剂在地中海贫血检测中的应用。
需要说明的是,本申请的方法或本申请的建库试剂在地中海贫血检测中的应用,具体来说,就是采用本申请的文库构建方法或者本申请的建库试剂或试剂盒,对地中海贫血基因或其相关基因进行文库构建,然后通过高通量测序,检测地中海贫血。
本申请的再一面公开了一种地中海贫血基因突变的检测方法,包括采用简并引物对富集的血红蛋白基因进行恒温扩增,然后对恒温扩增产物进行末端修复、加“A”碱基、加接头,纯化获得测序文库,通过对测序文库进行高通量测序和测序结果分析,检测待测对象的地中海贫血基因突变情况;其中,简并引物的5’端具有标签序列,3’端为随机序列。
优选的,简并引物中,标签序列可重复的选自Seq ID No.1至Seq ID No.16所示序列的至少一个;血红蛋白基因采用PCR扩增进行富集,PCR扩增产物采用磁珠纯化后,用于恒温扩增;血红蛋白基因的PCR扩增由一组特异性引物进行,特异性引物由第一引物对、第二引物对和第三引物对中的至少一对组成;第一引物对的上下游引物分别为Seq ID No.17和Seq ID No.18所示序列,第二引物对的上下游引物分别为Seq ID No.19和Seq ID No.20所示序列,第三引物对的上下游引物分别为Seq ID No.21和Seq ID No.22所示序列。
由于采用以上技术方案,本申请的有益效果在于:
本申请的测序文库构建方法,通过简并引物对靶标基因进行恒温扩增,得到适合于测序的片段化DNA,省略了打断步骤,避免了由此造成的标签序列丢失和测序无用数据。本申请的测序文库构建方法简化了建库流程、缩短了建库周期、降低了建库成本、提高了数据利用率,为高通量测序提供了一种新的建库方案。
附图说明
图1是本申请实施例中基于本申请的测序文库构建方法进行高通量测序的覆盖深度分析结果图;
图2是本申请实施例中作为对照的基于现有测序文库构建方法进行高通量测序的覆盖深度分析结果图。
具体实施方式
本申请在对地中海贫血的高通量测序检测中发现,其建库流程复杂繁琐、建库周期长,并且容易产生无用数据。为此,本申请特意研发了一种新的测序文库构建方法,即采用简并引物对富集的靶标基因进行恒温扩增,然后对恒温扩增产物进行末端修复、加“A”碱基、加接头,纯化获得测序文库,其中,简并引物的5’端具有标签序列,3’端为随机序列。
可以理解,本申请的测序文库构建方法虽然是针对地中海贫血高通量测序检测而研发设计的,但并不只限于地中海贫血高通量测序的文库构建。原则上,本申请的测序文库构建方法,适用于所有高通量测序,特别是基于Hiseq测序平台或BGISEQ-500测序平台的高通量测序。此外,本申请的测序文库构建方法还特别适用于含有一些特殊结构的序列的分析,例如含有重复区序列或indel序列的靶标基因。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例采用地中海贫血患者的血液样本进行试验,提取血液样本的DNA后,分别按照背景技术中提到的建库方法和本申请的建库方法,对相同的DNA样品进行文库构建,然后采用相同的测序平台分别进行高通量测序,比较分析基于两种建库方法的测序数据利用率和测序覆盖深度。详细如下:
本例改进的测序文库构建方法:
(1)血液样本的DNA提取
本例采用Magen血液DNA提取试剂盒HiPure Blood DNA Midi Kit III提取血液DNA,具体操作步骤参考试剂盒使用说明书。
(2)血红蛋白基因PCR扩增
使用血红蛋白基因特异性引物对步骤(1)提取的DNA进行PCR扩增,扩增产物大小范围为600bp-950bp,获得富集的血红蛋白基因靶标基因。
本例的血红蛋白基因特异性引物包括第一引物对、第二引物对和第三引物对,引物序列如表2所示。
表2 血红蛋白基因特异性引物
3对引物对分别对DNA进行PCR扩增,PCR体系相同,都是25μL反应体系,其中包含:DNA模板约8ng/μL,正反向引物各2ng/μL,dNTPs 1.2mmol/L,1×GC buffer,Takara Taq Hs polymerase 1U。
PCR反应条件为:95℃预变性10min,然后进入32个循环:95℃30s、退火30s、72℃1min,循环结束后72℃延伸5min,最后15℃待机。
其中,第一引物对和第二引物对的退火温度为64℃,第三引物对的退火温度为55℃。
(3)PCR扩增产物纯化
本例PCR扩增产物纯化采用AMpure XP磁珠纯化试剂盒进行,在步骤(2)的PCR产物中加入1倍体积的AMpure XP磁珠,按照试剂盒使用说明书进行PCR扩增产物纯化。
(4)恒温扩增
以步骤(3)纯化的PCR扩增产物为模板,采用简并引物对其进行恒温扩增。其中,简并引物具有式一所示通式,
式一5’-(N)x-NNNNNN-3’,
式一中,5’端的(N)x表示序列长度为x的标签序列,x的值为6-10bp,3’端的NNNNNN表示6bp的随机序列。本例的标签序列可重复的选自Seq ID No.1至Seq ID No.16所示序列的至少一个,标签序列如表1所示。
本例具体的,采用了三组简并引物分别对第一引物对、第二引物对和第三引物对,这三对引物的PCR扩增产物进行恒温扩增,即第一组简并引物对第一引物对的PCR扩增产物进行恒温扩增,第二组简并引物对第二引物对的PCR扩增产物进行恒温扩增,第三组简并引物对第三引物对的PCR扩增产物进行恒温扩增。三组简并引物分别采用了不同的标签序列,第一组简并引物采用Seq ID No.1所示序列的标签序列,第二组简并引物采用Seq ID No.2所示序列的标签序列,第三组简并引物采用Seq ID No.3所示序列的标签序列。
恒温扩增的具体方法和条件如下:
首先将10×Axiom2.0Denat Soln 1μL、Axiom Water 9μL、纯化的PCR扩增产物10μL,混匀放置10min;再加入65μL Axiom 2.0Neutral Soln,混匀离心后,加入试剂Axiom 2.0Amp Soln 112.5μL、Axiom 2.0Amp Enzyme 2.5μL,混匀离心,37摄氏度反应30min。即得到恒温扩增产物。
恒温扩增产物中加入1.8倍体积的AMpure XP磁珠,采用步骤(3)相同的方法进行纯化。三个恒温扩增产物可以合在一起进行纯化,或者纯化后再合在一起进行后续的末端修复、加“A”等步骤。
(5)末端修复和加“A”
本例的末端修复和加“A”采用NEB DNA超快速文库制备试剂盒,配制好反应体系后,在PCR仪上进行反应,条件为:37℃30min、65℃15min。具体的反应体系参考试剂盒使用说明书。
(6)加接头
根据不同的测序平台,采用相应的试剂盒添加测序平台的接头。例如,如果文库在Illumina Hiseq平台测序,向步骤(5)所得的产物中加入NEB DNA超快速文库制备试剂盒提供的加接头试剂,然后在PCR仪中反应:23℃60min,完成加接头步骤。如果文库在BGISEQ-500平台进行测序,则向步骤(5)所得的产物中加入BGISEQ-500测序平台配套提供的ONE-TUBE建库试剂中的接头连接试剂和配套接头,然后在PCR仪中反应:23℃60min,完成加接头步骤。
本例具体采用的测序平台为Illumina Hiseq平台,因此,向步骤(5)所得的产物中加入NEB DNA超快速文库制备试剂盒提供的加接头试剂,具体的反应体系参考配套提供的加接头使用说明书。
(7)加接头产物纯化
本例加接头产物的纯化采用AMpure XP磁珠纯化试剂盒进行,在步骤(6)的产物中加入1.8倍体积的AMpure XP磁珠,按照试剂盒使用说明书进行纯化。
经过步骤(7)的纯化即获得可以直接用于后续测序的文库。
本例采用Illumina Hiseq2500平台对构建的文库进行测序,测序采用的试剂盒为TruSeq SBS Kit v3品牌@ILLUMINA/A/规格&200cycles试剂盒。
分析下机数据中,测序数据利用率和测序覆盖深度,结果如图1所示。
作为对比,本例进一步的采用传统的建库方法对相同的DNA样品进行建库,并测序。
传统的建库方法:
(1)使用带有特定标签序列的特异性引物扩增人血红蛋白基因
本例具体的,在表2的三对引物对的基础上,分别在每一对引物的5’端添加不同的标签序列,即在第一引物对的5’端添加Seq ID No.1所示序列的标签序列,第二引物对的5’端添加Seq ID No.2所示序列的标签序列,第三引物对的5’端添加Seq ID No.3所示序列的标签序列,采用添加了标签序列的引物分别对提取的DNA进行PCR扩增。PCR扩增的反应体系和条件与本例改进的测序文库构建方法中步骤“(2)血红蛋白基因PCR扩增”相同。
(2)混合PCR产物纯化和打断
PCR产物纯化采用AMpure XP磁珠纯化试剂盒进行,在步骤(1)的PCR产物中加入1倍体积的AMpure XP磁珠,按照试剂盒使用说明书进行PCR扩增产物纯化。
然后对纯化产物进行打断,本例使用超声打断,打断参数为:duty cycle:21,PIP:500,CPB:500,treatment times:20s,cycles:6。
采用凝胶电泳对打断产物进行检测,结果显示,本例的打断产物片段分布在100bp-950bp范围内;符合建库和测序的使用需求。
(3)打断的DNA末端修复、加“A”和加接头
末端修复、加“A”和加接头的具体方法和条件与本例改进的测序文库构建方法中步骤“(5)末端修复和加“A””和“(6)加接头”相同。
然后,对加接头的DNA序列进行琼脂糖胶电泳,切胶回收加接头的产物。本例切胶回收采用的试剂盒为QIAquick Gel Extraction Kit。切胶回收的产物即传统建库方法获得的测序文库。
采用与本例改进的测序文库构建方法相同的测序方法,对传统建库方法获得的测序文库进行测序;并分析下机数据中,测序数据利用率和测序覆盖深度,结果如图2所示。
图1为基于本例改进的测序文库构建方法,即本申请的测序文库构建方法,进行高通量测序的覆盖深度分析结果图;图2为基于现有测序文库构建方法,即传统的建库方法,进行高通量测序的覆盖深度分析结果图;两个图中HBA1图为HBA1基因的分析结果、HBA2图为HBA2基因的分析结果、HBB1和HBB2为HBB基因的分析结果。比较图1和图2的结果显示,本例改进的测序文库构建方法,其序列中部区域覆盖深度显著提高,相同数据量情况下最低平均深度大于3000×;而采用传统的建库方法,其序列中部区域的区域覆盖深度低,最低平均深度小于100×;可见,本例改进的测序文库构建方法能够大大提高测序覆盖深度。
此外,对测序下机数据中有效数据的分析显示,本例改进的测序文库构建方法,其数据利用率大于90%;而采用传统的建库方法,其数据有效利用率仅有约60%;可见,本例改进的测序文库构建方法,由于省略了打断步骤,避免了由此造成的引物特异性标签序列丢失,避免了无用数据产生,大大提高了数据利用率;因此,在相同测序深度情况下,采用本例改进的测序文库构建方法,能够节约测序成本约30%。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
SEQUENCE LISTING
<110> 深圳华大基因股份有限公司
<120> 一种测序文库构建的方法、建库试剂及其应用
<130> 17I24053
<160> 22
<170> PatentIn version 3.3
<210> 1
<211> 6
<212> DNA
<213> 人工序列
<400> 1
atcacg 6
<210> 2
<211> 6
<212> DNA
<213> 人工序列
<400> 2
cgatgt 6
<210> 3
<211> 6
<212> DNA
<213> 人工序列
<400> 3
ttaggc 6
<210> 4
<211> 6
<212> DNA
<213> 人工序列
<400> 4
tgacca 6
<210> 5
<211> 6
<212> DNA
<213> 人工序列
<400> 5
acagtg 6
<210> 6
<211> 6
<212> DNA
<213> 人工序列
<400> 6
gccaat 6
<210> 7
<211> 6
<212> DNA
<213> 人工序列
<400> 7
cagatc 6
<210> 8
<211> 6
<212> DNA
<213> 人工序列
<400> 8
acttga 6
<210> 9
<211> 6
<212> DNA
<213> 人工序列
<400> 9
actgat 6
<210> 10
<211> 6
<212> DNA
<213> 人工序列
<400> 10
atgagc 6
<210> 11
<211> 6
<212> DNA
<213> 人工序列
<400> 11
attcct 6
<210> 12
<211> 6
<212> DNA
<213> 人工序列
<400> 12
caaaag 6
<210> 13
<211> 6
<212> DNA
<213> 人工序列
<400> 13
caacta 6
<210> 14
<211> 6
<212> DNA
<213> 人工序列
<400> 14
caccgg 6
<210> 15
<211> 6
<212> DNA
<213> 人工序列
<400> 15
cacgat 6
<210> 16
<211> 6
<212> DNA
<213> 人工序列
<400> 16
cactca 6
<210> 17
<211> 19
<212> DNA
<213> 人工序列
<400> 17
agcataaacc ctggcgcgc 19
<210> 18
<211> 21
<212> DNA
<213> 人工序列
<400> 18
atgcctggca cgtttgctga g 21
<210> 19
<211> 21
<212> DNA
<213> 人工序列
<400> 19
caagcataaa ccctggcgcg c 21
<210> 20
<211> 24
<212> DNA
<213> 人工序列
<400> 20
ccattgttgg cacattccgg gata 24
<210> 21
<211> 18
<212> DNA
<213> 人工序列
<400> 21
gccagtgcca gaagagcc 18
<210> 22
<211> 20
<212> DNA
<213> 人工序列
<400> 22
gcactgacct cccacattcc 20