一种接头序列及其应用
技术领域
本发明属于分子生物学技术领域,涉及一种接头序列及其应用,尤其涉及一种接头序列及其在构建文库、制备单基因遗传病携带者筛查试剂盒中的应用。
背景技术
携带者筛查是指当某一种遗传病在特定群体中发病率较高时,为预防该病在群体中的进一步发展,采用经济、准确的方法从群体中筛选出表型正常的携带者,对其进行风险评估和婚育指导。“携带者”一词在医学领域含义广泛,在遗传病领域,主要是指携带有致病基因(杂合状态),但是直到检测时仍然处于健康状态的个体。
携带者筛查,可以为致病基因携带者提供风险评估和生育指导。根据OMIM数据库显示,目前明确的单基因遗传病已超过8000种。单基因遗传病虽然罕见,但是综合发病率已达1/100。在各种出生缺陷中,单基因遗传病的比例高达22.2%。自20世纪70年代开始,人们便逐渐提出以特定人群为基础对单基因遗传病携带者进行筛查。早期,建议对特定单基因遗传病的高危夫妻进行筛查,如1970年在美国和加拿大社区开展的育龄德系犹太人Tay-Sachs Disease(TSD)携带者筛查项目。这种策略使得特定疾病在高危人群中的发病率显著下降。但受制于检测技术和成本,早期的携带者筛查仅针对特定疾病和特定人群。
高通量测序技术的出现极大地改善了检测效能、周期和成本,使得特定人群和没有家族史的普通人群均能在孕前/产前进行多种遗传病的筛查。目前筛查主要采用液相捕获技术和二代测序技术,一次性对人体的多种常见单基因遗传病进行检测,即可得到致病基因的携带情况。
在现有技术中文库的构建就显得格外重要。现有的建库流程一般如下:(1)片段化全基因组DNA;(2)对片段化产物进行末端修复;(3)修复产物连接接头;(4)连接产物进行扩增富集。在此步骤中至少需要进行三次磁珠纯化步骤,且建库步骤繁琐、耗时长,多次的磁珠纯化步骤不可避免地导致DNA损失。有些技术虽然简化了步骤,将片段化全基因组DNA和末端修复同时进行,但是仍然需要进行两次纯化,造成部分DNA损失。
另外,在DNA样本连接接头后进行PCR扩增,会产生大量的重复序列,在分析测序结果前需要去除重复的读长,降低扩增和测序偏向性导致的数据偏倚率。常用的去除重复序列的方法包括:将读长比对到参考基因组中的位置例如起始位点去除重复读长,该方法的优点在于不增加实验复杂性和成本,缺点是准确性较低,因为存在比对到参考基因组相同位置的读长不一定来源于同一条DNA的情况。
因此,有必要进一步简化建库步骤,提供一种新的建库方法,提高检测的准确性。
发明内容
针对现有技术的不足和实际需求,本发明提供了一种接头序列及其应用,所述接头序列中含有若干碱基组成的分子标签和基于不同测序平台的测序接头,在文库构建前期连接在片段化DNA上,测序接头连接后对DNA直接进行上机测序,分析测序结果过程中根据分子标签去除读长中的重复片段,提高了测序准确性。
为达此目的,本发明采用以下技术方案:
第一方面,本发明提供了一种接头序列,所述接头序列包括若干碱基组成的分子标签和基于测序平台的测序接头;
所述分子标签位于所述测序接头的3’端;
所述接头序列通过分子标签连接在片段化DNA上。
本发明中,将含有若干碱基组成的分子标签和基于不同测序平台的测序接头相结合,构建的接头序列在文库构建前期连接在片段化DNA的一端和/或两端,实现对原始的DNA片段的标记作用,测序接头连接后对DNA直接进行上机测序,保留了原始序列,实现了追溯DNA片段的原始来源的技术效果,分析测序结果过程中根据分子标签去除读长中的重复片段,提高了测序准确性。
优选地,所述测序接头包括基于Illumina测序平台的P5接头和P7接头,或基于IonTorrent、IonPGM、IonProton或IonS5/S5XL测序平台的A接头和P接头。
优选地,所述分子标签包括SEQ ID NO:1~20所示的核酸序列,和与所述SEQ IDNO:1~20反向互补的核酸序列;
SEQ ID NO:1:CTCATCGT;
SEQ ID NO:2:TCTGACGT;
SEQ ID NO:3:CGCATAGT;
SEQ ID NO:4:GACGATCT;
SEQ ID NO:5:TATCAGCT;
SEQ ID NO:6:TGCTCACT;
SEQ ID NO:7:GACTGTAT;
SEQ ID NO:8:CGTCGTAT;
SEQ ID NO:9:GAGCTGAT;
SEQ ID NO:10:ATGTCGAT;
SEQ ID NO:11:CGAGCGAT;
SEQ ID NO:12:GCTGTCAT;
SEQ ID NO:13:GTCTACAT;
SEQ ID NO:14:CTCGAGTG;
SEQ ID NO:15:GCAGTCTG;
SEQ ID NO:16:GTACGCTG;
SEQ ID NO:17:TATCTGCG;
SEQ ID NO:18:CTCAGACG;
SEQ ID NO:19:CGTGCTAG;
SEQ ID NO:20:ACAGTGAG。
第二方面,本发明提供了一种文库构建试剂盒,所述试剂盒包括第一方面所述的接头序列。
第三方面,本发明提供了一种文库构建方法,所述方法包括:
将提取的基因组DNA进行片段化和末端修复,连接第一方面所述的接头序列,构建得到文库。
第四方面,本发明提供了一种测序文库,所述测序文库采用第三方面所述的方法构建得到。
本发明中,采用第三方面所述的方法构建得到的测序文库可用数据比率高,扩增和测序偏向性导致的数据偏倚率低,保证了数据分析的有效性和准确性,测序后读长中不仅包括样本DNA的序列信息,还包括分子标签的序列信息,通过分子标签识别真正意义的重复序列,并将这些重复序列去除,提高了测序准确性。
第五方面,本发明提供了一种测序方法,所述方法包括:
利用第一方面所述的接头序列对DNA样本进行文库构建;
对文库进行杂交前封闭,将封闭的文库与捕获探针杂交,将获得的捕获序列进行测序;
分析测序结果,根据分子标签去除读长中的重复片段。
本发明中,通过向测序接头中引入分子标签,对原始的DNA序列进行标记,有利于准确识别出不同来源的DNA读长,相比于利用读长起始位置去除重复读长的方法,利用分子标签进行识别的方法能够保留更多的DNA片段,有助于进一步提高检测结果的准确性,结合捕获探针实现对突变位点的准确检测。
本发明中,将连接有接头序列的样本不经过PCR扩增、直接进行测序,不仅避免了PCR引入的点突变错误,而且实现了追溯DNA片段的原始来源的技术效果。
第六方面,本发明提供了一种单基因遗传病携带者筛查试剂盒,所述试剂盒包括第一方面所述的接头序列。
优选地,所述试剂盒还包括特异性捕获探针。
优选地,所述捕获探针靶向基因突变位点。
本发明中,综合考虑突变基因的高重复区域、高GC区域、复杂结构区域等因素,设计捕获探针,可以有效提高检测准确率。
第七方面,本发明提供了一种单基因遗传病携带者筛查装置,所述装置包括:
建库单元:利用第一方面所述的接头序列对携带者的DNA样本进行文库构建;
测序单元:对文库进行杂交前封闭,将封闭的文库与基因突变位点的捕获探针杂交,将获得的捕获序列进行测序;
分析单元:根据分子标签去除读长中的重复片段,得到筛查结果。
与现有技术相比,本发明具有如下有益效果:
(1)本发明将含有若干碱基组成的分子标签和基于不同测序平台的测序接头相结合,构建的接头序列在文库构建前期连接在片段化DNA上,实现对原始的DNA片段的标记作用,测序接头连接后对DNA直接进行上机测序,保留了原始序列,实现了追溯DNA片段的原始来源的技术效果,分析测序结果过程中根据分子标签去除读长中的重复片段,提高了测序准确性;
(2)本发明的建库方法弥补了现有的文库构建方法耗时较长、操作繁琐、原始DNA损耗多等不足;
(3)采用本发明的方法构建的文库可用数据比率高,扩增和测序偏向性导致的数据偏倚率低,保证了数据分析的有效性和准确性;
(4)本发明的接头序列与基因突变位点的捕获探针相结合,实现了对单基因遗传病携带者的快速准确筛查。
附图说明
图1为接头序列的结构示意图;
图2为实施例2的结果;
图3为实施例3的结果;
图4为实施例1的结果。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
(1)提取基因组DNA
采用MagPure基因组DNA提取试剂盒对20例样本进行DNA提取,提取后的DNA短期保存于-20℃冰箱中,长期保存于-80℃冰箱中;
(2)片段化和末端修复
采用凯杰公司WGS-IT Frag酶通过一步反应对提取的DNA样本进行片段化和末端修复,将各试剂混匀后离心,置于冰盒上,按照表1配制反应体系;
混匀后置于PCR仪进行反应,反应条件为:4℃1min,32℃15min,65℃30min,4℃保存;
反应结束后,将反应产物瞬时离心,进行下一步连接反应。
表1
(3)接头序列连接
将片段化和末端修复产物直接进行接头序列连接,其中,分子标签(SEQ ID NO:1~20之一)结合在A接头的3’端,分子标签的反向互补链结合在P接头的3’端,与修复产物连接后进行延伸反应,得到如图1所示的结构;
将连接产物、缓冲液(Buffer)和接头序列等混匀后瞬时离心,冰盒上进行,最后加入DNA连接酶,配制得到如表2所示的体系;
混匀后置于PCR仪进行反应,反应条件为:20℃15min,4℃保存;
反应结束后,取出产物,按照0.8×磁珠纯化留磁珠,20μL回溶,纯化后的产物采用Qubit定量检测文库浓度;
表2
实施例2
与实施例1相比,本实施例还包括对文库进行PCR扩增的步骤,PCR扩增体系如表3所示,条件为:72℃5min,98℃2min,98℃20s、58℃30s、72℃30s、4个循环,72℃5min,16℃保存;
反应结束后,采用磁珠法进行产物纯化,0.8×留上清,1.2×磁珠纯化留磁珠,溶于20μL后检测文库浓度;
表3
实施例3
与实施例2相比,接头序列中不包括分子标签部分,其他条件与实施例2相同。
实施例4
使用SureSelect TE Reagent Kit(Agilent)试剂盒,按说明书操作,分别将实施例1、2、3的DNA文库进行杂交前封闭;
将针对探针捕获区域的探针配制成探针混合液,与封闭的DNA文库进行20小时的杂交捕获;
将探针捕获产物采用Dynabeads MyOne Streptavidin T1(Invitrogen)进行洗脱,将捕获的靶序列进行PCR扩增,体系为:捕获的靶序列36.5μL、5×HerculaseⅡReactionBuffer 10μL、dNTPs(25mM)0.5μL、引物对2μL、HerculaseⅡFusion DNA Polymerase 1μL;条件为:98℃预变性2min,98℃变性30s、58℃退火30s、72℃延伸1min、10个循环,72℃延伸10min;采用Agencourt AMPureXP Kit进行产物纯化,获得待测序产物;
采用Ion Torrent平台测序,对测序结果进行生物信息学分析。
各实施例的文库浓度如表4所示。
表4
待测序产物的Qubit定量结果如表5所示。
表5
测序数据分析结果如表6所示,可以看出,实施例1的数据质量明显优于实施例2和3的数据质量,实施例1的数据有效利用率和平均深度较高,保留了更多的有效序列,进一步提高了检测结果的准确性。
表6
实施例5 DMD基因突变携带者筛查
本实施例基于proton测序平台和杂交捕获技术进行DMD基因突变检测,以中南大学湘雅医院提供的1例DMD基因突变携带者为例进行基因突变检测,捕获探针的靶向区域为X染色体的31139740~31140068位点。
该样本采用实施例2或3的方法的检测结果如图2、图3所示,DMD基因5号外显子的信号值比对照样本稍高,Z值也处于疑似外显子重复和拷贝数正常的临界值范围;
该样本采用实施例1的方法的检测结果如图4所示,DMD基因的5号外显子明显高于对照样本,之后经Q-PCR验证,如表7所示,说明该样本携带DMD基因5号外显子杂合重复。
表7
综上所述,本发明将含有若干碱基组成的分子标签和基于不同测序平台的测序接头相结合,构建的接头序列在文库构建前期连接在片段化DNA上,测序接头连接后对DNA直接进行上机测序,保留了原始序列,实现了追溯DNA片段的原始来源的技术效果,分析测序结果过程中根据分子标签去除读长中的重复片段,提高了测序准确性;建库方法弥补了现有的文库构建方法耗时较长、操作繁琐、原始DNA损耗多等不足;构建的文库可用数据比率高,扩增和测序偏向性导致的数据偏倚率低,保证了数据分析的有效性和准确性;在单基因遗传病携带者的快速准确筛查领域具有广泛应用前景。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
SEQUENCE LISTING
<110> 东莞博奥木华基因科技有限公司
<120> 一种接头序列及其应用
<130> 20200426
<160> 20
<170> PatentIn version 3.3
<210> 1
<211> 8
<212> DNA
<213> 人工序列
<400> 1
ctcatcgt 8
<210> 2
<211> 8
<212> DNA
<213> 人工序列
<400> 2
tctgacgt 8
<210> 3
<211> 8
<212> DNA
<213> 人工序列
<400> 3
cgcatagt 8
<210> 4
<211> 8
<212> DNA
<213> 人工序列
<400> 4
gacgatct 8
<210> 5
<211> 8
<212> DNA
<213> 人工序列
<400> 5
tatcagct 8
<210> 6
<211> 8
<212> DNA
<213> 人工序列
<400> 6
tgctcact 8
<210> 7
<211> 8
<212> DNA
<213> 人工序列
<400> 7
gactgtat 8
<210> 8
<211> 8
<212> DNA
<213> 人工序列
<400> 8
cgtcgtat 8
<210> 9
<211> 8
<212> DNA
<213> 人工序列
<400> 9
gagctgat 8
<210> 10
<211> 8
<212> DNA
<213> 人工序列
<400> 10
atgtcgat 8
<210> 11
<211> 8
<212> DNA
<213> 人工序列
<400> 11
cgagcgat 8
<210> 12
<211> 8
<212> DNA
<213> 人工序列
<400> 12
gctgtcat 8
<210> 13
<211> 8
<212> DNA
<213> 人工序列
<400> 13
gtctacat 8
<210> 14
<211> 8
<212> DNA
<213> 人工序列
<400> 14
ctcgagtg 8
<210> 15
<211> 8
<212> DNA
<213> 人工序列
<400> 15
gcagtctg 8
<210> 16
<211> 8
<212> DNA
<213> 人工序列
<400> 16
gtacgctg 8
<210> 17
<211> 8
<212> DNA
<213> 人工序列
<400> 17
tatctgcg 8
<210> 18
<211> 8
<212> DNA
<213> 人工序列
<400> 18
ctcagacg 8
<210> 19
<211> 8
<212> DNA
<213> 人工序列
<400> 19
cgtgctag 8
<210> 20
<211> 8
<212> DNA
<213> 人工序列
<400> 20
acagtgag 8