高苯丙氨酸血症相关基因外显子突变的测序文库构建方法
技术领域
本发明涉及基因检测技术领域和二代高通量测序技术领域,特别是涉及一种高苯丙氨酸血症相关基因外显子突变的测序文库构建方法。
背景技术
高苯丙氨酸血症(HPA)是一种常见的先天性、常染色体隐性遗传的氨基酸代谢病。其中以苯丙酮尿症(PKU)较为典型,另外还有四氢生物蝶呤代谢酶缺乏症也会产生类似症状。该疾病是一种先天性氨基酸代谢障碍病,以苯丙氨酸羟化酶活性缺乏,致血浆苯丙氨酸浓度升高为特征,常造成严重智能迟缓。
根据我国HPA的新生儿筛查资料统计,全国HPA的发病率约在1/11000水平。新生儿期患儿无任何临床表现,新生儿筛查即是通过血液生化检测在群体中对每个新生儿进行筛检。新生儿筛查尽管能够早期鉴别诊断,早期明确病因、对症治疗,但并不能从根本上杜绝该遗传病的发生。
由于高苯丙氨酸血症这种遗传病的发生的主要原因在于苯丙氨酸羟化酶(PAH)或者辅酶(PTS)的功能缺陷。而这两个相关基因上发生的突变则是导致该两种酶之一产生功能缺陷的原因。迄今为止,已经在这两个基因上发现500余种不同的基因突变。现有技术对育龄夫妇、胎儿或者新生儿的PAH或BH4等相关基因测序和突变分析可在一定程度上预知新生儿的发病风险,甚至可以采用产前诊断或胚胎植入前诊断预防缺陷患儿的出生。
作为金标准的一代测序需要对每个基因的多个外显子单独进行扩增和测序,试剂消耗大,周期长,操作繁琐,效率极低。作为高通量的二代并行测序目前普遍采用的全基因组或者全外显子组测序的手段虽然可以覆盖PAH和PTS两个基因,但是会产生大量与诊断无关的冗余数据,使得单位有效碱基的测序价格高昂,无疑增加了检测成本。因此,亟待提供一种检测准确、省时、省力、省钱的快速检测高苯丙氨酸血症有关突变的方法。
发明内容
本发明的目的在于提供一种高度特异、操作简单、成本相对低廉的快速构建检测高苯丙氨酸血症相关基因外显子突变的高通量测序文库的方法。
本发明针对高苯丙氨酸血症(HPA)两个相关基因PAH和PTS共20个外显子,基于多重PCR技术,设计出一套引物组合,可实现对全部20个外显子的同步扩增,所述引物组合含有针对高苯丙氨酸血症两个相关基因PAH和PTS的共23对PCR引物,
针对PAH基因的引物共16对,分别为SEQ ID NO:1-32所示的引物;以及
针对PTS基因的引物对共7对,分别为SEQ ID NO:33-46所示的引物。
本发明根据特定原则将上述引物优化配制组合为两管,具体如下:
引物组合1:SEQ ID NO.1-24,SEQ ID NO.27-28,SEQ ID NO.31-32;
引物组合2:SEQ ID NO.11-12,SEQ ID NO.21-26,SEQ ID NO.29-30,SEQ ID NO.33-46。
以上引物序列均含有自行设计用于与PAH和PTS基因外显子区域特异性结合的靶向序列,此外还包含测序平台所需的通用序列,本发明中采用最常见的Illumina平台通用序列。
上述的引物组合经替换或去除测序平台通用序列部分后所保留的靶向序列的近似引物及其衍生物也属于本发明的保护范围。
本发明提供了上述引物组合在制备检测高苯丙氨酸血症相关遗传突变试剂盒中的应用。
上述靶向疾病相关基因的特征引物组合序列,结合特定高通量测序平台(例如Illumina)特异性扩增以及测序延伸引物序列的寡核苷酸结构设计均属于本发明的保护范围,在此基础上,如采用其它高通量测序平台而修改相关通用序列也属于本发明的保护范围。
含有上述引物组合的试剂盒属于本发明的保护范围。
含有本发明引物组合的上述试剂盒可用于检测高苯丙氨酸血症相关遗传突变。
本发明还提供一种快速构建检测高苯丙氨酸血症相关基因外显子突变的高通量测序文库的方法,所述方法包括以下步骤:
(1)以待测样本DNA作为模板,使用优化配制的2管引物混合物:引物组合1及引物组合2,针对PAH基因和PTS基因进行多重PCR反应,等量混合两管PCR产物;其中,针对PAH基因的引物共16对,分别为SEQ ID NO:1-32所示的引物;针对PTS基因的引物对共7对,分别为SEQ ID NO:33-46所示的引物;
(2)以步骤(1)得到的PCR混合产物作为模板,并利用带有Illumina高通量测序通用连接序列的引物进行第一轮PCR;其中,所述带有Illumina高通量测序通用连接序列的引物序列如SEQ ID NO:47-48所示;
(3)以步骤(2)得到的第一轮PCR产物作为模板进行第二轮PCR,在第一轮PCR产物的一端添加barcode序列,构建得到的DNA文库用于二代高通量测序。从而通过一次上机解决多个样本多个区域的遗传病基因分型和突变扫描。
前述的方法,步骤(3)中所述barcode序列为Illumina二代测序平台的接头序列。例如,通用接头序列Index 2(SEQ ID NO:49)。
本发明中采用的Illumina二代测序平台包括但不限于Illumina Hiseq 2500。第二轮PCR使用的引物序列如SEQ ID NO:47和49所示。
前述的方法,步骤(1)中针对基因PAH、PTS的多重PCR反应体系及反应程序参见Chamberlain,Gibbs et al.1988,Ballabio,Ranier et al.1990。
多重PCR反应程序:
前述的方法,步骤(2)和(3)中第一轮PCR、第二轮PCR的反应体系及反应程序如下:
第一轮PCR反应程序:
第二轮PCR反应程序:
本发明进一步提供一种用于构建高苯丙氨酸血症相关基因外显子突变测序文库的试剂盒,所述试剂盒包括针对PAH基因的SEQ ID NO:1-32所示的引物、针对PTS基因的SEQ ID NO:33-46所示的引物、用于Illumina二代测序平台的通用连接序列(例如,SEQ ID NO:47-49所示的引物)、用于Illumina二代测序平台的barcode序列(例如接头序列Index 2)、dNTPs、Taq DNA聚合酶、Mg2+、PCR反应缓冲液、标准阳性模板等中的至少一种。
本发明针对高苯丙氨酸血症两个相关基因PAH和PTS设计了23对PCR引物,以待测血样或其它活检物提取的DNA作为模板,进行多重PCR反应,再将反应产物作为模板,并以传统PCR方法生成二代测序文库从而进一步完成高通量的深度测序。对二代测序数据的分析可以精确地搜索并确认该疾病在不同患者/携带者中的家族特异性突变标签,评估待测者的患病风险。测序结果显示各个样本对该遗传疾病预测的基因区间覆盖完全,在单个样本仅约100M byte fastq测序数据量情况下,所有扩增子能够达到100×以上的基因覆盖率,从而达到精确确认基因突变体的测序深度要求。此外,本发明提供的高苯丙氨酸血症相关基因高通量测序文库的构建方法与现有的全外显子测序技术相比,具有操作简单,操作周期短,试剂耗材消耗少等优点,可用于样本的大批量测序文库的快速制备和同步检测。
附图说明
图1为本发明实施例2中多重PCR反应原理图。
图2为本发明实施例2中第一轮PCR反应原理图。
图3为本发明实施例2中第二轮PCR反应原理图。
图4为本发明实施例2中针对高苯丙氨酸血症相关基因PAH的Illimina高通量测序结果的IGV图(Integrative Genomics Viewer)。
图5为本发明实施例2中针对高苯丙氨酸血症相关基因PTS的Illimina高通量测序结果的IGV图。
图6为本发明实施例2中多重PCR反应产物的琼脂糖凝胶电泳图。
图7为本发明实施例2中第一轮PCR反应产物的琼脂糖凝胶电泳图。
图8为本发明实施例2中第二轮PCR反应产物的琼脂糖凝胶电泳图。
图9为本发明实施例2中第二轮PCR反应产物切胶回收后的琼脂糖凝胶电泳图。
图6-图9中,A代表引物组合1的扩增结果,B代表引物组合2的扩增结果;图A和B中,左侧泳道为DNA分子量标准,右侧泳道为DNA样品。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例均按照常规实验条件,如Sambrook等分子克隆实验手册(Sambrook J&Russell DW,Molecular Cloning:a Laboratory Manual,2001),或按照制造厂商说明书建议的条件。
实施例1 针对高苯丙氨酸血症两个相关基因PAH和PTS的引物设计
本实施例针对高苯丙氨酸血症(HPA)两个相关基因PAH和PTS共20个外显子,基于多重PCR技术,设计出一套引物组合,可实现对全部20个外显子的同步扩增,所述引物组合含有针对高苯丙氨酸血症两个相关基因PAH和PTS的共23对PCR引物,针对PAH基因的引物共16对,分别为SEQ ID NO:1-32所示的引物;以及针对PTS基因的引物对共7对,分别为SEQ ID NO:33-46所示的引物。
将上述引物优化配制组合为两管,具体如下:
引物组合1:SEQ ID NO.1-24,SEQ ID NO.27-28,SEQ ID NO.31-32;
引物组合2:SEQ ID NO.11-12,SEQ ID NO.21-26,SEQ ID NO.29-30,SEQ ID NO.33-46。
实施例2 快速构建高苯丙氨酸血症相关基因高通量测序文库的方法
包括以下步骤:
1、采集待测血样或其它活检物,提取DNA作为模板,使用优化配制的2管引物混合物:引物组合1及引物组合2,针对PAH基因和PTS基因进行多重PCR反应,等量混合两管PCR产物(图1)。其中,针对PAH基因的引物共16对,分别为SEQ ID NO:1-32所示的引物;针对PTS基因的引物对共7对,分别为SEQ ID NO:33-46所示的引物。
针对基因PAH、PTS的多重PCR反应体系及反应程序参见Chamberlain,Gibbs et al.1988,Ballabio,Ranier et al.1990。
多重PCR反应程序:
多重PCR反应完成后,对扩增产物进行1.2%琼脂糖凝胶电泳,结果分别如图6A和B所示。
2、以步骤1得到的PCR混合产物作为模板,并利用带有Illumina高通量测序通用连接序列的引物进行第一轮PCR(图2)。其中,所述带有Illumina高通量测序通用连接序列的引物序列如SEQ ID NO:47-48所示。
第一轮PCR反应完成后,对扩增产物进行1.2%琼脂糖凝胶电泳,结果分别如图7A和B所示。
3、以步骤2得到的第一轮PCR产物作为模板进行第二轮PCR,在第一轮PCR产物的一端添加barcode序列,构建得到的DNA文库用于二代高通量测序(图3)。其中,所述barcode序列为Illumina二代测序平台Illumina Hiseq 2500的接头序列Index 2(SEQ ID NO:49)。
第二轮PCR使用的序列如SEQ ID NO:47和49所示。
第二轮PCR反应完成后,对扩增产物进行1.2%琼脂糖凝胶电泳,结果分别如图8A和B所示。切胶回收扩增产物,再次用1.2%琼脂糖凝胶电泳,结果分别如图9A和B所示。
其中,第一轮PCR、第二轮PCR的反应体系及反应程序如下:
第一轮PCR反应程序:
第二轮PCR反应程序:
4、上机完成高通量测序。
测序结果表明23对引物完全覆盖住了高苯丙氨酸血症相关的两个基因PAH(图4)及PTS(图5)的全部外显子区域,为进一步确定基因突变区域及引起高苯丙氨酸血症的发生原因奠定了基础。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,例如在采用其它高通量测序平台而修改相关接头引物序列,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
序列说明
SEQ ID NO:1-32为特异性扩增PAH基因的引物序列。
SEQ ID NO:33-46为特异性扩增PTS基因的引物序列。
SEQ ID NO:47-48为带有Illumina高通量测序通用连接序列的引物序列。
SEQ ID NO:49为Index 2接头序列。
其中,1、3、5…等单号序列为正向引物,2、4、6…等双号序列为反向引物;1和2组成一对引物,3和4组成一对引物,5和6组成一对引物,以此类推。此外,47和48组成一对引物,47和49组成一对引物。
参考文献
Ballabio,A.,J.E.Ranier,J.S.Chamberlain,M.Zollo and C.T.Caskey(1990)."Screening for steroid sulfatase(STS)gene deletions by multiplex DNA amplification."Hum Genet 84(6):571-573.
Chamberlain,J.S.,R.A.Gibbs,J.E.Ranier,P.N.Nguyen and C.T.Caskey(1988)."Deletion screening of the Duchenne muscular dystrophy locus via multiplex DNA amplification."Nucleic Acids Res 16(23):11141-11156.
序列表
<110> 林巍
<120> 高苯丙氨酸血症相关基因外显子突变的测序文库构建方法
<130> KHP161115045.6Q
<160> 49
<170> PatentIn version 3.5
<210> 1
<211> 37
<212> DNA
<213> 人工序列
<400> 1
acgctcttcc gatctgctta catggaggtg cttttct 37
<210> 2
<211> 38
<212> DNA
<213> 人工序列
<400> 2
tgtgctcttc cgatctcaag cctgtggttt tggtctta 38
<210> 3
<211> 38
<212> DNA
<213> 人工序列
<400> 3
acgctcttcc gatctggttt gcttttcgga ctttttct 38
<210> 4
<211> 38
<212> DNA
<213> 人工序列
<400> 4
tgtgctcttc cgatctcttt gcactgagga cacttgaa 38
<210> 5
<211> 37
<212> DNA
<213> 人工序列
<400> 5
acgctcttcc gatctagaaa aggagggtgg agaacat 37
<210> 6
<211> 38
<212> DNA
<213> 人工序列
<400> 6
tgtgctcttc cgatcttaga aggaatcggg gtgagatg 38
<210> 7
<211> 37
<212> DNA
<213> 人工序列
<400> 7
acgctcttcc gatctgttgc tgtagacatt ggagtcc 37
<210> 8
<211> 38
<212> DNA
<213> 人工序列
<400> 8
tgtgctcttc cgatcttaga aggaatcggg gtgagatg 38
<210> 9
<211> 37
<212> DNA
<213> 人工序列
<400> 9
acgctcttcc gatctgctgc taaggtacca atcactg 37
<210> 10
<211> 38
<212> DNA
<213> 人工序列
<400> 10
tgtgctcttc cgatctctgg tttactgtgg agtttggg 38
<210> 11
<211> 37
<212> DNA
<213> 人工序列
<400> 11
acgctcttcc gatcttgcaa atgtaaccca ccacatt 37
<210> 12
<211> 38
<212> DNA
<213> 人工序列
<400> 12
tgtgctcttc cgatctaagt gaaaacaaag ggccaagt 38
<210> 13
<211> 37
<212> DNA
<213> 人工序列
<400> 13
acgctcttcc gatctgagga tgagtgattc accaacc 37
<210> 14
<211> 38
<212> DNA
<213> 人工序列
<400> 14
tgtgctcttc cgatcttgat cccaacctct gcatatca 38
<210> 15
<211> 37
<212> DNA
<213> 人工序列
<400> 15
acgctcttcc gatcttcaca ggatgaccaa atctcca 37
<210> 16
<211> 38
<212> DNA
<213> 人工序列
<400> 16
tgtgctcttc cgatcttctt cttttcatcc cagcttgc 38
<210> 17
<211> 37
<212> DNA
<213> 人工序列
<400> 17
acgctcttcc gatctatgaa cacatgcaca cacagaa 37
<210> 18
<211> 38
<212> DNA
<213> 人工序列
<400> 18
tgtgctcttc cgatctcaga cctcttccta tgaagcct 38
<210> 19
<211> 37
<212> DNA
<213> 人工序列
<400> 19
acgctcttcc gatctgccct cgtgtaaata ggaacac 37
<210> 20
<211> 38
<212> DNA
<213> 人工序列
<400> 20
tgtgctcttc cgatctttgc cttctctgtg tttcagtg 38
<210> 21
<211> 37
<212> DNA
<213> 人工序列
<400> 21
acgctcttcc gatcttaatc ccccaaacag tcttcca 37
<210> 22
<211> 38
<212> DNA
<213> 人工序列
<400> 22
tgtgctcttc cgatcttgaa ctctccattt tgttgcgt 38
<210> 23
<211> 37
<212> DNA
<213> 人工序列
<400> 23
acgctcttcc gatcttgttg aaactgacaa ggcacat 37
<210> 24
<211> 38
<212> DNA
<213> 人工序列
<400> 24
tgtgctcttc cgatctagtt catgcttgct ttgtccat 38
<210> 25
<211> 37
<212> DNA
<213> 人工序列
<400> 25
acgctcttcc gatcttcagc ttccaacgaa ttcagac 37
<210> 26
<211> 38
<212> DNA
<213> 人工序列
<400> 26
tgtgctcttc cgatctctcc ctagtgcgag gttaaaac 38
<210> 27
<211> 35
<212> DNA
<213> 人工序列
<400> 27
acgctcttcc gatcttttgc ttccgcaaaa taaca 35
<210> 28
<211> 37
<212> DNA
<213> 人工序列
<400> 28
tgtgctcttc cgatcttcct gttctggttc tgcatct 37
<210> 29
<211> 35
<212> DNA
<213> 人工序列
<400> 29
acgctcttcc gatctaatcc tcccccaact ttctg 35
<210> 30
<211> 36
<212> DNA
<213> 人工序列
<400> 30
tgtgctcttc cgatctgatg gcagctcaca ggttct 36
<210> 31
<211> 35
<212> DNA
<213> 人工序列
<400> 31
acgctcttcc gatctatcca cagcctcagg tgttt 35
<210> 32
<211> 36
<212> DNA
<213> 人工序列
<400> 32
tgtgctcttc cgatctctaa cctgcgttct gctgtg 36
<210> 33
<211> 34
<212> DNA
<213> 人工序列
<400> 33
acgctcttcc gatctagcgg agacgcactt ccta 34
<210> 34
<211> 34
<212> DNA
<213> 人工序列
<400> 34
tgtgctcttc cgatctgaca ctccagcccc catc 34
<210> 35
<211> 37
<212> DNA
<213> 人工序列
<400> 35
acgctcttcc gatcttatcc caaatcttgc tctccga 37
<210> 36
<211> 37
<212> DNA
<213> 人工序列
<400> 36
tgtgctcttc cgatctctcc gttaaccatc aagctcc 37
<210> 37
<211> 37
<212> DNA
<213> 人工序列
<400> 37
acgctcttcc gatcttgcca tggtttgtga cgtatac 37
<210> 38
<211> 38
<212> DNA
<213> 人工序列
<400> 38
tgtgctcttc cgatctttca aggctcaaag cattcaca 38
<210> 39
<211> 37
<212> DNA
<213> 人工序列
<400> 39
acgctcttcc gatcttttac acccttttca gccttgg 37
<210> 40
<211> 38
<212> DNA
<213> 人工序列
<400> 40
tgtgctcttc cgatctgcaa tctgcaaaaa ccacacaa 38
<210> 41
<211> 37
<212> DNA
<213> 人工序列
<400> 41
acgctcttcc gatctctctg cacattgtac tgccttt 37
<210> 42
<211> 38
<212> DNA
<213> 人工序列
<400> 42
tgtgctcttc cgatcttccg ttaagtcacc aaaacacc 38
<210> 43
<211> 37
<212> DNA
<213> 人工序列
<400> 43
acgctcttcc gatctcagct gggcctgact ttatttt 37
<210> 44
<211> 38
<212> DNA
<213> 人工序列
<400> 44
tgtgctcttc cgatctcagc tacattttca gtcgtgct 38
<210> 45
<211> 37
<212> DNA
<213> 人工序列
<400> 45
acgctcttcc gatctactgt atcttgcctt atgtgga 37
<210> 46
<211> 38
<212> DNA
<213> 人工序列
<400> 46
tgtgctcttc cgatcttaaa taggcactcc agagcaca 38
<210> 47
<211> 58
<212> DNA
<213> 人工序列
<400> 47
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 48
<211> 34
<212> DNA
<213> 人工序列
<400> 48
gtgactggag ttcagacgtg tgctcttccg atct 34
<210> 49
<211> 43
<212> DNA
<213> 人工序列
<400> 49
caagcagaag acggcatacg agatacatcg gtgactggag ttc 43