一种单分子标签免疫组库高通量测序文库构建方法
技术领域
本发明属于医学检测领域,具体涉及一种单分子标签免疫组库高通量测序文库构建方法。
背景技术
免疫组库是指在任意指定时间点、个体内所有特异性不同的T淋巴细胞和B淋巴细胞克隆的总和。免疫组库测序是运用高通量测序技术来研究TCR或BCR编码基因多样性的一项技术,通过该技术可以反应T/B细胞克隆变化与疾病的关系,此方法目前在肿瘤、自身免疫性疾病、感染性疾病及移植等多个领域得到广泛应用。
DNA和RNA均可成为免疫组库的研究对象。但是,以DNA作为免疫组库测序模板有以下缺点:①扩增过程使用大量的引物对,但是引物之间不可能完美地匹配扩增,易产生非真实性的重组序列;②J-C区之间存在大量内含子使其下游引物必须位于J区;③引物设计来自已知的参考序列,无法捕获未知的序列。使用RNA作为模板建库,下游引物可以选自C区,具有高度的敏感性,而且使用一对引物即可从低丰度的转录本中快速扩增cDNA的5’末端,可最大限度避免PCR扩增偏好性,并且可以捕获未知的转录本。但是其也具有不可忽视的缺陷,例如,采用RACE方法进行建库,其生成的文库只包含可变区的一部分,只能对免疫组库的TCR或BCR,或部分亚型进行建库,并不能称为真正的免疫组库。
中国专利201410442470.3以全血mRNA为模板,基于5’RACE方法进行建库,但是只能单一检测TCR-β免疫组库,并不能检测TCR-α和BCR免疫组库,并且在PCR过程中会引入错配。
中国专利201510488029.3以cfDNA为模板,采用多重PCR扩增技术,能够实现BCR H链和TCRβ链的免疫组库检测,但是一方面由于多重PCR本身的技术缺点,会偏好性地扩增某个区域,会存在非特异性扩增,另一方面此专利并没有对TCR-α和BCR的轻链进行检测,不能说是完整的免疫组库。
除此之外,还有利用5’RACE或类似5’RACE方法进行建库的方法,但多是利用dTPrimer进行RT,然后进行两次PCR,最后再连接测序接头进行建库。这些方法,只能利用具有Poly A尾的RNA进行RT,对低丰度的转录本有局限性。
发明内容
本发明的目的是提供单分子标签免疫组库高通量测序文库构建方法。
根据本发明具体实施方式的单分子标签免疫组库高通量测序文库构建方法,所述方法包括以下步骤:
(1)提取样本总RNA;
(2)以步骤(1)得到的总RNA为模板,先后加入RT1引物、单分子标签进行逆转录和模板转换反应,得到带单分子标签的cDNA;
(3)以一链合成物为模板,加入TS-index引物和RT2引物,进行半巢式扩增,特异性扩增目标区域,并添加测序接头,得到带单分子标签的DNA;
(4)将特异性扩增产物分选纯化后,加入P7接头引物、P5接头引物,进行PCR扩增,得到测序文库。
优选地,所述步骤(2)中,所述的单分子标签的序列如SQE ID NO.1所示。
优选地,步骤(2)中,所述单分子标签的3’末端还连接有多个简并碱基,所述简并碱基的个数为1-20个。
优选地,所述简并碱基为原始碱基和/或修饰碱基,所述修饰碱基包括硫代修饰、甲基化修饰、LNA修饰和/或次黄嘌呤修饰。
优选地,所述RT1引物包括如SEQ ID NO.2、SEQ ID NO.3、SEQ ID NO.4、SEQ IDNO.5、SEQ ID NO.6、SEQ ID NO.7、SEQ ID NO.8、SEQ ID NO.9、和/或SEQ ID NO.10所示的序列。
优选地,所述RT2引物包括如SEQ ID NO.11、SEQ ID NO.12、SEQ ID NO.13、SEQ IDNO.14、SEQ ID NO.15、SEQ ID NO.16和/或SEQ ID NO.17所示的序列。
优选地,所述RT2引物的3’末端还连接有原始碱基或修饰碱基,其中,所述修饰碱基包括硫代修饰、甲基化修饰、LNA修饰和/或次黄嘌呤修饰。
优选地,步骤(3)中,所述TS-index引物的序列如SEQ ID NO.18所示。
优选地,TS-index引物3’端部分碱基可以与带单分子标签的TS-3G引物模板转换后的接头互补,5’端包含P7结合序列、Index序列和Read 2测序序列。
优选地,步骤(4)中,P7接头引物的序列如SEQ ID NO.19或SEQ ID NO.18所示,P5接头引物的序列如SEQ ID NO.20所示。
优选地,步骤(2)中,所述逆转录反应的反应温度为25-50℃,反应时间为30-90min。
优选地,所述样本包括人源TCRα、TCRβ、BCR重链H、BCR轻链L、BCR轻链K的CDR区域。
优选地,所述方法适用的技术平台为第二代测序平台。
优选地,本发明所用的引物序列如下:
注:其中Index-I7为illumina中公开的现有技术。
本发明的有益效果为:
本发明可特异性捕获并无偏好扩增人源RNA中所有低丰度TCRα、TCRβ、BCR重链H、BCR轻链L、BCR轻链K的整个CDR区域(可以单独捕获扩增其中一项,也可以同时捕获扩增所有项目),并采取一种简单高效的方式对其进行高通量测序文库的构建,从而进行TCR和BCR免疫组库分析。
本发明的构建免疫组库文库方法可以用于Roche、Illumina、ThermoFisher、Pacific Biosciences、华大基因、Oxford Nanopore Technologies、华因康、瀚海基因等高通量测序平台。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示免疫组库文库构建原理图;
图2显示免疫组库文库构建实验流程图;
图3显示本发明实施例1中1.5%琼脂糖凝胶电泳文库检测结果;
图4显示本发明实施例2中1.5%琼脂糖凝胶电泳文库检测结果;
图5显示本发明实施例3中1.5%琼脂糖凝胶电泳文库检测结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
以Illumina平台为例,结合实施例对本发明进一步说明。
本发明免疫组库文库构建方法的原理图和实验流程图分别如图1和图2所示:
首先获得总RNA,然后取一定量的总RNA,先后加入RT1引物组、单分子标签引物TS-3G-N和相应的反应试剂,在一定温度条件下反应合成带单分子标签的一链产物。
取获得的一链产物,加入特异性扩增引物RT2和P7接头引物,加入PCR1反应的试剂,按照相应的反应条件,扩增特异性的完整免疫组库。
最后通过PCR2,给获得的完整免疫组库添加上接头,获得两端分别包含P5和P7序列的上机免疫组库文库。
本发明所用引物如下:
1.免疫组库特异性PCR引物组RT1的序列见表1:
表1 RT1引物组序列
使用过程中可以将引物组RT1中的一类或几类的组合应用。
采用半巢式策略,进一步特异性合成扩增目标片段,RT2和RT1一起使用,双重校对,大大提高特异性。免疫组库特异性PCR引物组RT2序列见表2:
表2 RT2引物组序列
引物组RT2选择性和引物RT1组的同一类型的一类或几类的组合使用。
将RT1引物与RT2引物组合可用于构建不同的文库,具体如下表:
如果想同时构建TCRα和TCRβ文库,只需将序号1和2的引物混合一起即可,比如TCR-RT1-A和TCR-RT1-B混合做为RT1引物,TCR-RT2-A和TCR-RT2-B混合作为RT2引物,其它情况以此类推。
带单分子标签的TS-3G-N引物序列:
5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNNNNNX-3'。
其中,“N”代表简并碱基,单分子标签可以是1-20个的简并碱基组成,并不是只有这里列出的12个“N”,“N”的数量为1-20中任意自然数。同时,“N”不但可以是原始碱基,而且可以是修饰碱基,碱基修饰包括硫代、甲基化、LNA、次黄嘌呤等。
TS-index序列:
5'-CAAGCAGAAGACGGCATACGAGAT[Index-I7]GTGACTGGAGTTCAGACGTGT-3';
P7序列:5'-CAAGCAGAAGACGGCATACGAGAT-3';
P5接头引物(TS-Primer1)序列:
5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGAC-3'。
实施例1采用健康人全血RNA进行BCR重链H建库测序
1.1人源总RNA提取
按照全血总RNA提取试剂盒提取步骤进行总RNA的提取。
1.2 RT预处理
将总RNA与RT1引物进行预处理,按下表配制反应体系,混匀,置PCR仪上72℃处理3min,反应后立即置冰上2min。
1.3 First-strand cDNA合成和模板转换
在步骤1.2预处理的9μl反应物中,按下表加入RT反应试剂,进行First-strandcDNA合成和模板转换。
其中,TS-3G-N选择8个简并碱基作为分子标签,共有4的8次方种分子标签,可以标记65536种克隆型,序列为:
5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNX-3';
混匀瞬离后,PCR仪上25-50℃反应30-90min,70℃反应15min终止反应,得到产物A。
1.4 PCR扩增特异性的的完整免疫组库
取产物A,按下表配制反应体系,进行PCR反应。
PCR结束后使用AMPure XP beads分选纯化,保留500bp~1000bp的产物,用24μLNF水进行洗脱,得到产物B。
1.5 PCR2获得上机的免疫组库文库
按下表配制PCR2反应体系,并进行PCR反应:
PCR结束后,使用AMPure XP beads片段纯化,用30μL NF水进行洗脱。取其中5μL纯化产物进行1.5%琼脂糖凝胶电泳检测。取2μL纯化产物进行Qubit定量,按照MiSeq测序仪操作流程进行文库变性、稀释以及测序。
文库电泳检测分析结果。结果如图3所示,文库主条带在600bp-700bp之间,条带明亮清晰,与预期结果一致。
对纯化产物进行Qubit定量分析,结果显示,Qubit浓度为30.46ng/μl,构建的文库达到上机要求浓度,可用于上机测序。
通过生信分析和数据比对,上机结果数据统计见下表:
结果如上表所示,文库的数据95.61%能够匹配上,而且匹配上的数据几乎完全是BCR重链H,结果特异性非常好。通过单分子标签,可以使克隆型数从53380降低到26810,降低了49.8%,说明单分子标签具有很强的校正能力。
文库测序的各免疫组库类型数据量排前10克隆结果见下表:
从克隆型结果结果看,本发明完整捕获了BCR重链的CDR3区,并且没有频率特别高的克隆型,这符合健康人的免疫组库的结果,表明结果正确。
特别地,数据分析时不引入分子标签分析,会出现下表所示的结果:
序号1和2的数据CDR3区几乎一致,只有其中一个碱基“C”变成了“T”,导致氨基酸编码由“P”变成了“L”,所以认为是两种克隆。但是通过引入分子标签,我们可以发现1和2的分子标签一致,说明由同一模板扩增而来,是同一种克隆,其中2号序列只占了极少部分,说明“T”是由于PCR扩增产生的错误。以上数据说明单分子标签对于结果的校正起到了非常重要的作用,这也解释了为什么加了分子标签分析后,克隆型数目会变少,因为单分子标签去除了很多误判的结果。
实施例2采用健康人全血RNA进行BCR轻链K和L建库测序
2.1人源总RNA提取
按照全血总RNA提取试剂盒提取步骤进行总RNA的提取。
2.2RT预处理
将总RNA与RT1引物进行预处理,按下表配制反应体系,混匀,置PCR仪上72℃处理3min,反应后立即置冰上2min。
2.3First-strand cDNA合成和模板转换
在步骤2.2预处理的9μl反应物中,按下表加入RT反应试剂,进行First-strandcDNA合成和模板转换。
其中,TS-3G-N选择12个简并碱基作为分子标签,共有4的12次方种分子标签,可以标记16777216种克隆型,序列为:
5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNNNNNX-3'。
混匀瞬离后,PCR仪上25-50℃反应30-90min,70℃反应15min终止反应,得到产物A。
2.4 PCR扩增特异性的的完整免疫组库
取产物A,按下表配制反应体系,进行PCR反应。
PCR结束后使用AMPure XP beads分选纯化,保留500bp~1000bp的产物,用24μLNF水进行洗脱,得到产物B。
2.5 PCR2获得上机的免疫组库文库
按下表配制PCR2反应体系,并进行PCR反应:
PCR结束后,使用AMPure XP beads片段纯化,用30μL NF水进行洗脱。取其中5μL纯化产物进行1.5%琼脂糖凝胶电泳检测。取2μL纯化产物进行Qubit定量,按照MiSeq测序仪操作流程进行文库变性、稀释以及测序。
文库电泳检测分析结果。结果如图4所示,文库主条带在500bp-600bp之间,条带明亮清晰,与预期结果一致。
对纯化产物进行Qubit定量分析,结果如下:
因此,构建的文库达到上机要求浓度,可用于上机测序。
上机数据统计见下表:
结果表明,轻链K和轻链L文库的数据几乎完全能够匹配上,而且匹配上的数据几乎完全是BCR轻链,结果特异性好。通过单分子标签,可以使克隆型数分别降低了46.58%和42.41%,说明单分子标签具有很强的校正能力。
文库测序的各免疫组库类型数据量排前10克隆结果见下表:
从克隆型结果看,本发明完整捕获了BCR轻链的CDR3区,并且没有频率特别高的克隆型,符合健康人的免疫组库的结果,表明结果正确。
特别地,数据分析时不引入分子标签分析,会出现下表所示的结果:
序号1和2的数据CDR3区几乎一致,只有其中一个碱基“A”变成了“T”,导致氨基酸编码由“Y”变成了“F”,所以认为是两种克隆。但是通过引入分子标签,本发明发现1和2的分子标签一致,说明由同一模板扩增而来,是同一种克隆,其中2号序列只占了极少部分,说明“T”是由于PCR扩增产生的错误。同理,序号3和4也是同一情况,通过分子标签,本发明证明它们其实是同一种克隆,碱基“A”是碱基“G”在PCR扩增时产生的错误扩增。以上两组数据说明,单分子标签对于结果的校正起到了非常重要的作用,也解释加了分子标签分析后克隆型数目变少的原因,因为单分子标签去除了很多误判的结果。
实施例3采用健康人全血RNA进行TCRα/β、BCR重链H、轻链K和L建库测序
3.1人源总RNA提取
按照全血总RNA提取试剂盒提取步骤进行总RNA的提取。
3.2 RT预处理
将总RNA与RT1的所有引物进行预处理,按下表配制反应体系,混匀,置PCR仪上72℃处理3min,反应后立即置冰上2min。
3.3 First-strand cDNA合成和模板转换
在步骤3.2预处理的9μl反应物中,按下表加入RT反应试剂,进行First-strandcDNA合成和模板转换。
其中,TS-3G-N选择12个简并碱基作为分子标签,共有4的12次方种分子标签,可以标记16777216种克隆型,序列为:
5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNNNNNX-3'。
混匀瞬离后,PCR仪上25-50℃反应30-90min,70℃反应15min终止反应,得到产物A。
3.4 PCR扩增特异性的的完整免疫组库
取产物A,按下表配制反应体系,进行PCR反应。
PCR结束后使用AMPure XP beads分选纯化,保留500bp~1000bp的产物,用24μLNF水进行洗脱,得到产物B。
3.5 PCR2获得上机的免疫组库文库
按下表配制PCR2反应体系,并进行PCR反应:
PCR结束后,使用AMPure XP beads片段纯化,用30μL NF水进行洗脱。取其中5μL纯化产物进行1.5%琼脂糖凝胶电泳检测。取2μL纯化产物进行Qubit定量,按照MiSeq测序仪操作流程进行文库变性、稀释以及测序。
文库电泳检测分析如图5所示,文库主条带在600bp-800bp之间,条带明亮清晰,与预期结果一致。
对纯化产物进行Qubit定量分析,结果显示,Qubit浓度为60.12ng/μl,构建的文库达到上机要求浓度,可用于上机测序。
上机数据统计见下表:
结果如上表所示,文库数据95.21%的reads能够匹配上,而且TRA、TRB、IGH、IGK、IGL的数据量相差不多,说明本发明方法的均一性好、特异性好。通过单分子标签,可以使克隆型数从31679减少到了24211,降低了23.57%,本发明的单分子标签具有很强的校正能力。
文库测序的各免疫组库类型数据量排前5的克隆结果见下表:
从克隆型结果看,本发明完整捕获了免疫组库的CDR3区,并且各种亚型没有频率特别高的克隆型,这符合健康人的免疫组库的结果,表明结果正确。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
序列表
<110>湖南大地同年生物科技有限公司
<120>一种单分子标签免疫组库高通量测序文库构建方法
<141>2019-10-13
<160>20
<170>SIPOSequenceListing 1.0
<210>1
<211>34
<212>DNA
<213>人工序列(Artificial Sequence)
<400>1
gtgactggag ttcagacgtg tgctcttccg atct34
<210>2
<211>18
<212>DNA
<213>人工序列(Artificial Sequence)
<400>2
gtctagcaca gttttgtc18
<210>3
<211>17
<212>DNA
<213>人工序列(Artificial Sequence)
<400>3
gtatctggag tcattga 17
<210>4
<211>20
<212>DNA
<213>人工序列(Artificial Sequence)
<400>4
aggcaggcga tgaccacgtt20
<210>5
<211>28
<212>DNA
<213>人工序列(Artificial Sequence)
<400>5
cttgaccagg cagcccaggg ccgctgtg 28
<210>6
<211>29
<212>DNA
<213>人工序列(Artificial Sequence)
<400>6
agtcacggag gtggcattgg agggaatgt29
<210>7
<211>29
<212>DNA
<213>人工序列(Artificial Sequence)
<400>7
agggggaaaa gggttggggc ggatgcact29
<210>8
<211>29
<212>DNA
<213>人工序列(Artificial Sequence)
<400>8
tggggaacac atccggagcc ttggtgggt29
<210>9
<211>27
<212>DNA
<213>人工序列(Artificial Sequence)
<400>9
gctcatcaga tggcgggaag atgaaga27
<210>10
<211>29
<212>DNA
<213>人工序列(Artificial Sequence)
<400>10
tcacggctcc cgggtagaag tcacttatg29
<210>11
<211>52
<212>DNA
<213>人工序列(Artificial Sequence)
<400>11
gtgactggag ttcagacgtg tgctcttccg atctgtcact ggatttagag tc52
<210>12
<211>55
<212>DNA
<213>人工序列(Artificial Sequence)
<400>12
gtgactggag ttcagacgtg tgctcttccg atcttgcttc tgatggctca aacac 55
<210>13
<211>58
<212>DNA
<213>人工序列(Artificial Sequence)
<400>13
acactctttc cctacacgac gctcttccga tctcttcggg gatgctgagg agacggtg58
<210>14
<211>70
<212>DNA
<213>人工序列(Artificial Sequence)
<400>14
acactctttc cctacacgac gctcttccga tctcttacgt ttaaattcta ctcacgtttg60
atttccacct 70
<210>15
<211>69
<212>DNA
<213>人工序列(Artificial Sequence)
<400>15
acactctttc cctacacgac gctcttccga tctcttacga gacagatgta cttacgtttg60
atatccact69
<210>16
<211>63
<212>DNA
<213>人工序列(Artificial Sequence)
<400>16
acactctttc cctacacgac gctcttccga tctcttactg aaaaatgctt acgtttaatc60
tcc63
<210>17
<211>55
<212>DNA
<213>人工序列(Artificial Sequence)
<400>17
acactctttc cctacacgac gctcttccga tctctgcctt gggctgacct aggac 55
<210>18
<211>45
<212>DNA
<213>人工序列(Artificial Sequence)
<400>18
caagcagaag acggcatacg agatgtgact ggagttcaga cgtgt45
<210>19
<211>24
<212>DNA
<213>人工序列(Artificial Sequence)
<400>19
caagcagaag acggcatacg agat 24
<210>20
<211>45
<212>DNA
<213>人工序列(Artificial Sequence)
<400>20
aatgatacgg cgaccaccga gatctacact ctttccctac acgac45