一种基于特有识别序列的绝对定量转录组文库构建方法
技术领域
本发明属于基因测序技术领域,具体涉及一种基于特有识别序列UID的绝对定量转录组文库构建方法。
背景技术
mRNA占细胞总RNA的3%左右,但由于其最终翻译成蛋白质,参与物种的表型构成,一直是研究的焦点。近十年来,二代测序的高速发展推动着生命科学的不断进步,伴随着二代测序技术的大规模应用,研究者对生命科学领域的认识也更加深入。与基因组相比,转录组包含了时间和空间的限定,而且转录组远小于基因组,相同覆盖倍数的情况下,所需的测序数据量也远远小于基因组所需数据量,使得转录组测序成为更经济、更有效的研究方案。
Duplication指测序数据中reads的重复。测序文库构建过程中,通常会进行10轮左右的PCR扩增循环,然后上机测序,扩增引入重复。另一方面,建库时的RNA随机打断也能产生长度和序列完全一致的片段,这部分重复片段可称为天然重复(真重复),这与PCR扩增重复(假重复)存在本质区别,需要区分。同时扩增过程是不均一的,容易PCR扩增的模板分子会得到更多的扩增片段,即更高的duplication。这导致基因表达定量不准确。
然而目前的常规转录组测序是以PCR后的转录本丰度来反映原始样本中的转录本丰度,因此PCR偏好性产生的扩增重复对表达量分析必然造成干扰。另一方面,如果在分析时去除所有的重复reads,留下完全不重复的reads。虽然可以去除所有扩增重复,但天然重复也被剔除,还会造成有效测序数据量减少。因此如何区分真假重复是表达量准确定量的关键。
因此需要开发一种技术,保留样本中的天然重复,并去掉扩增引入的重复。
发明内容
本发明针对现有技术中常规转录组测序的PCR偏好性产生的扩增重复对表达量分析造成干扰、以及在分析时去除所有的重复reads,造成天然重复被剔除的技术问题,提供一种基于特有识别序列UID的绝对定量转录组文库构建方法,该方法在文库扩增之前为每一条RNA片段加上带有特有识别序列UID的接头,因此同一个片段扩增出来的产物均带有相同的标签,而天然重复片段则带有不同的标签。测序完成后利用UID序列过滤数据,将相同标记的扩增产物进行合并,就能准确去除PCR扩增重复、同时保留样本的天然重复,一比一准确还原样本扩增前的原始状态,真正实现表达量的精准化、数字化定量分析。另外,PCR扩增和测序错误同样可以被纠正。扩增和测序过程中的错误会使得相同UID序列对应多个不同的序列,那么只需比较这些序列的相似性,基于相似性即可纠正这些错误,并将最后的一致性序列作为样本中的原始序列。本发明提供的方法具有建库效率高,建库步骤少,RNA起始量低的特点,尤其是能够彻底解决现有技术无法对转录本精确定量的不足。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种带有特有识别序列UID的建库接头,其特征在于:为UID-5a和UID-5b通过退火形成部分双链及部分单链的接头,其中UID-5a的序列从5’到3’依次为illumina/Life文库PCR引物的识别序列5a序列、UID序列、anchor序列、5~10个随机碱基N和3’NH2修饰;其中5a序列与5b序列互补配对,UID序列为5~10个随机碱基N,anchor序列为4~10个固定的碱基,用于确定UID序列的位置,N为四种碱基A、T、C、G中的任意一种;UID-5b的序列从5’到3’依次为5’PO4修饰、anchor’序列、UID’序列和5b序列;其中anchor’序列与anchor序列互补配对,UID’序列与UID序列互补配对,5b序列与5a序列互补配对;UID-5a和UID-5b通过退火形成UID-5a的3’末端突出的部分双链结构;反应溶液中的建库接头为混合物。
第二方面,本发明提供一种基于特有识别序列UID的绝对定量转录组文库构建方法,包括以下步骤:
1)从生物样品中分离所述RNA样品;
2)RNA片段化:
使用高温离子打断法将RNA片段化,获得长度约为200~500bp的RNA片段;
3)逆转录合成cDNA:
使用随机通用引物池进行所述RNA片段的逆转录,随机通用引物的序列从5’到3’依次为一段通用接头序列和一段随机序列,其中随机序列为4~10个随机碱基N,N为四种碱基A、T、C、G中的任意一种,引物池中为随机通用引物的混合物;
4)使用夹板连接法连接接头:
使用T4连接酶将上述带有特有识别序列UID的建库接头连接到步骤3)的cDNA片段的3’端;
5)文库扩增:
以步骤4)加了UID接头的cDNA为模板,用上下游引物对进行PCR扩增;所述上游引物PCR-F-primer的3’端序列与步骤4)的建库接头的5b序列互补配对,下游引物PCR-R-primer的3’端序列与步骤3)的随机通用引物的通用接头序列配对的,且带有区别不同样本的index。
优选地,上述步骤3)中使用的随机通用引物的序列如SEQ ID NO:1所示,步骤4)中特有识别序列UID的建库接头的UID-5a的序列如SEQ ID NO:2所示,其带有3’NH2修饰,UID-5b的序列如SEQ ID NO:3所示,其带有5’PO4修饰;步骤5)使用的上游引物PCR-F-primer的序列如SEQ ID NO:4所示,下游引物PCR-R-primer的序列如SEQ ID NO:5所示。
进一步地,上述步骤1)所述的RNA样品是mRNA、lncRNA、miRNA、紫外交联免疫沉淀回收的RNA和RNA免疫共沉淀获得的RNA中的一种。
本发明第三方面,提供一种构建绝对定量转录组文库的试剂盒,包括:
(1)随机通用引物池,引物池为随机通用引物的混合物,随机通用引物的序列从5’到3’依次为一段通用接头序列和一段随机序列,其中随机序列为4~10个随机碱基N,N为四种碱基A、T、C、G中的任意一种;
(2)带有特有识别序列UID的建库接头,为UID-5a和UID-5b通过退火形成部分双链及部分单链的接头,其中UID-5a的序列从5’到3’依次为和illumina/Life文库PCR引物的识别序列(5a序列)、UID序列、anchor序列、5~10个随机碱基N和3’NH2修饰;其中5a序列与5b序列互补配对,UID序列为5~10个随机碱基N,anchor序列为4~10个固定的碱基,用于确定UID序列的位置,N为四种碱基A、T、C、G中的任意一种;UID-5b的序列从5’到3’依次为5’PO4修饰、anchor’序列、UID’序列和5b序列;其中anchor’序列与anchor序列互补配对,UID’序列与UID序列互补配对,5b序列与5a序列互补配对;UID-5a和UID-5b通过退火形成UID-5a的3’末端突出的部分双链结构;反应溶液中的建库接头为混合物;
(3)文库扩增上下游引物对,所述上游引物PCR-F-primer的3’端序列与(2)的建库接头的5b序列互补配对,下游引物PCR-R-primer的3’端序列与(1)的随机通用引物的通用接头序列配对的,且带有区别不同样本的index。
优选地,上述试剂盒中,随机通用引物的序列如SEQ ID NO:1所示,特有识别序列UID的建库接头的UID-5a的序列如SEQ ID NO:2所示,其带有3’NH2修饰,UID-5b的序列如SEQ ID NO:3所示,其带有5’PO4修饰;文库扩增使用的上游引物PCR-F-primer的序列如SEQID NO:4所示,下游引物PCR-R-primer的序列如SEQ ID NO:5所示。
与现有技术中常规转录组测序建库方法相比较,本发明有以下进步和优势:
1、本发明所提供的的一种转录组建库方法,仅需一步逆转录,一步接头连接和一步PCR反应就能实现对文库的构建,相比常规RNA建库技术,本发明能够极大的降低建库成本,提高建库速度。
2、本发明利用splint ligation方法快速地在cDNA的3’端加上测序接头,在省去了末端修复和末端修复后纯化的实验步骤基础上保证接头能够稳定的连接到cDNA分子上,接头连接效率得到提高,可降低RNA建库起始量。
3、本发明使用的接头中带有的特有识别序列UID,能够保证数据分析的时候可以准确还原PCR前的cDNA片段组成。本发明同现有常规转录组技术相比,最重要的是能够彻底解决现有技术只能对转录本相对定量的不足,实现对转录本的精确定量。
附图说明
图1为本发明转录组文库构建的流程示意图;
图2为本发明实施例绝对定量转录组文库Agilent DNA 1000kit检测结果;
图3为本发明实施例绝对定量转录组文库1%琼脂糖凝胶电泳结果;
图4为本发明实施例绝对定量转录组测序基于UID的定量检测原理;
图5为NC1样本的clean data的duplication水平;
其中,横坐标为reads重复的次数,纵坐标为重复次数对应的reads占总reads的比例,以reads的总数作为100%;
图6为分别使用100ng、500ng、1μg的Hela细胞的总RNA作为建库起始量构建绝对定量转录组文库,1%琼脂糖凝胶电泳结果;
图7为分别使用100ng、500ng、1μg的Hela细胞的总RNA作为建库起始量构建绝对定量转录组文库,文库测序结果的相关性分析结果;
图8为使用本发明构建转录组文库测序结果和qPCR检测结果的相关性分析结果;
图9为RIP(RNA免疫沉淀)获得的RNA使用本发明构建绝对定量文库,1%琼脂糖凝胶电泳结果;
具体实施方式
通过以下详细说明结合附图可以进一步理解本发明的特点和优点。所提供的实施例仅是对本发明方法的说明,而不以任何方式限制本发明揭示的其余内容。
本实施例所使用的接头和引物序列如表1所示,N为随机碱基,即A、T、C、G中任意一种碱基,UID-5a和UID-5b通过退火形成部分双链及部分单链的接头,random primer为用于逆转录的通用引物。
表1
【实施例1】基于特有识别序列的绝对定量转录组文库构建
一、mRNA捕获
1、从对照细胞(NC)和GAS5敲低的Hela细胞(Si_GAS5)中提取高质量的总RNA并从中捕获mRNA。在采用本发明的技术方案进行转录组文库构建的同时,进行常规转录组建库。
2、在Nuclease-free PCR管中,将0.1~4μg总RNA溶解于Nuclease-free H2O,至总体积50μL,冰上放置备用。吸取50μL清洗好的磁珠(Roche,11787896001)与RNA样品混合,吸打混匀后,将其放入PCR仪中65℃孵育5min,然后20℃孵育5min。将样品置于磁力架上5min(待溶液澄清),小心移除上清;将样品从磁力架上取出,加入200μL Washing Buffer(Roche,11787896001),吹打混匀;瞬时离心,将样品置于磁力架上5min(待溶液澄清),小心移除上清。将样品从磁力架上取出,加入50μL nuclease free H2O重悬磁珠,轻轻吸打混匀。在PCR仪中70℃洗脱2min,20℃保温。取出样品,加入50μL binding buffer(Roche,11787896001),吹打混匀,瞬时离心;室温静置孵育5min,使mRNA重新结合到磁珠上;将样品置于磁力架上5min(待溶液澄清),小心移除上清。
3、将样品从磁力架上取出,加入200μL Washing Buffer重悬磁珠,吹打混匀;将样品置于磁力架上5min(待溶液澄清),小心移除上清;使用10μL移液器彻底吸干净管内所有液体;加11μL nuclease free H2O,吹打混匀磁珠,在PCR仪中80℃洗脱3min;将9μL上清(捕获的mRNA)转移至一个新的Nuclease-free PCR管中。
二、mRNA片段化
向捕获的mRNA溶液中加入下列组分:
表2
在94℃的PCR仪中孵育5min,冰上放置2min。
三、逆转录获得cDNA
对片段化后的mRNA进行逆转录处理,反应体系如表3:
表3
吹打混匀;在PCR仪中20℃孵育10min,42℃孵育60min;94℃10min。四、回收cDNA;
1、将DNA Clean Beads(Vazyme,N411-01)提前30分钟从2~8℃取出,静置使其温度平衡至室温;
2、旋涡振荡使DNA Clean Beads充分混匀,吸取40μL(2×)加入到cDNA样品中,用移液器吹打10次充分混匀,室温静置孵育10min;
3、将cDNA样品置于磁力架上,静置5分钟(待溶液澄清)后,小心移除上清;
4、保持样品始终处于磁力架中,加入200μL新鲜配制的80%乙醇漂洗磁珠(注意使用新鲜配制的80%乙醇漂洗磁珠,且不要吹散磁珠),室温孵育30sec,小心移除上清;
5、重复上一步,总计漂洗磁珠2次;
6、保持样品始终处于磁力架中,开盖空气干燥磁珠5~10min;应避免磁珠过分干燥(龟裂)而降低回收效率;
7、将样品从磁力架中取出,加入16μL nuclease free H2O,轻轻吹打10次充分混匀液体,室温静置2分钟。将样品置于磁力架上,静置5分钟,(待溶液澄清)后,小心吸取14μL上清至一个新的nuclease free PCR管中。
五、连接带UID序列的接头
在cDNA分子上通过夹板连接(splint ligation)的方法加上带UID序列的建库接头。按下表顺序向每管中依次加入下列组分:
表4
吹打混匀,放入PCR仪中,20℃连接1h;
六、磁珠纯化连接产物
1、将DNA Clean Beads提前30分钟从2~8℃取出,静置使其温度平衡至室温;
2、涡旋振荡使DNA Clean Beads充分混匀,吸取40μL(2×)加入到cDNA样品中,用移液器吹打10次以充分混匀,之后室温放置10min;
3、磁力架上静置5分钟;待溶液澄清后,保持样品始终处于磁力架中,小心移除上清;
4、保持样品始终处于磁力架中,加入200μL新鲜配制的80%乙醇漂洗磁珠(注意不要吹散磁珠),室温孵育30sec,小心移除上清;
5、重复上一步,总计漂洗2次;
6、保持样品始终处于磁力架上,开盖,空气中干燥磁珠5~10min;
7、将样品从磁力架上取出,加入22μL nuclease free H2O,涡旋振荡混匀,室温静置2分钟。在磁力架上静置5分钟,待溶液澄清后,小心吸取20μL上清(连接接头的LigatedDNA)至一个新的nuclease free PCR管中。
七、文库扩增
1、将Super HiFi PCR Mix(天根,KT212-12)从-20℃取出,解冻后颠倒混匀;
2、配制如下PCR mix:
表5
3、将样品置于PCR仪中,执行如下程序,扩增文库:
表6
八、文库回收
1、将DNA Clean Beads提前30分钟从2~8℃取出,静置使其温度平衡至室温;
2、将PCR产物补水至100μL,混匀后加入50μL重悬好的DNA Clean Beads,用移液器吹打10次以彻底混匀,之后室温放置10min;
3、磁力架上静置3分钟;待溶液澄清后,保持样品始终处于磁力架中,转移上清至新的PCR管中,加入40μL DNA Clean Beads,用移液器吹打10次以彻底混匀,之后室温放置10min;
4、保持样品始终处于磁力架中,加入200μL新鲜配制的80%乙醇漂洗磁珠(注意不要吹散磁珠),室温孵育30秒,小心移除上清;
5、重复上一步,总计漂洗2次;
6、保持样品始终处于磁力架中,开盖,空气干燥磁珠5分钟;
7、将样品从磁力架中取出,加入22μL nuclease free H2O,涡旋振荡混匀,室温静置2分钟。在磁力架上静置3分钟,待溶液澄清后,小心吸取20μL上清至一个新nucleasefree离心管中。
九、文库检测
用Agilent DNA 1000kit或1%琼脂糖凝胶电泳对构建好的文库进行检测,如图3。
对比本发明的方法和常规基于dUTP链特异性的RNA建库方法可以看出,本发明的方法由于采用基于单链加接头的splint ligation方法,省去了cDNA第二链的合成、修复和加A的步骤。相比常规方法同时构建8个文库所需的8~10小时,本发明建库总时长只需6~8小时,总共缩短25%。
表7
【实施例2】测序数据分析流程
S1:对raw data进行质量控制,去除低质量的碱基和截掉相应的接头;
S2:解析reads上的UID序列,把相同的UID序列下的reads作为一个聚类(cluster);
S3:根据以上原理,由于相同UID序列下的reads来源于同一个分子,因此将每个cluster下面的reads进行一致性组装,变成一条一致性read。如图4所示,该组装的过程中,其实就实现了去重的功能,即来源相同的分子最终被归并为一条序列。同时还实现了纠错的目的,因为同一个cluster下面的reads在PCR扩增或上机测序过程中引入的错误碱基会基于多条reads的一致性序列予以纠正。由此得到的结果作为最终的reads;
S4:将这些reads比对到参考基因组上;
S5:根据比对的结果进行后续基因表达量的计算和其它高级的分析。
raw data进行质量控制后,测序数据(clean data)重复reads水平结果如图5所示:不计算UID特有识别序列时,重复次数为1的reads(unique reads)的比例约为18%,计算UID特有识别序列时,unique reads的比例提高到约28%。在总reads中,PCR扩增产生的重复reads约占10%。
从表8可以看出,平均每个特有识别序列UID标记一到两个reads。
表8:平均每个特有识别序列UID标记的reads数量
以上结果表明利用本发明进行的转录组测序可以有效区分相同的reads是由扩增引起还是来自于本身的天然重复片段,这是常规转录组做不到的。
表9:本发明基于特有识别序列UID去重后的reads在CDS区的占比与常规
转录组比较
依据表9的结果对NC样本常规转录组和本发明比较:
依据表9的结果对Si_GAS5样本常规转录组和本发明比较:
从以上数据可以看出,本发明进行的转录组建库经特有识别序列UID去重后的reads在CDS区的占比显著高于常规转录组,这一结果进一步表明本发明进行的基于特有识别序列UID去重可以有效避免来自不同转录本的相同reads被当做PCR重复而去掉,从而精确还原PCR前的片段组成,实现绝对定量的目的。
【实施例3】不同建库起始量建库测序
提取Hela细胞的总RNA,分别使用100ng、500ng、1ug作为建库起始量,根据【实施例1】的步骤进行建库,用1%琼脂糖凝胶电泳对构建好的文库进行检测,如图6。根据【实施例2】的步骤进行测序数据分析。并将不同建库起始量的测序结果进行相关性分析,皮尔逊相关系数关系数R2越接近于1,说明RNA表达模式相似度越高。不同建库起始量的测序结果相关性均在0.97以上。如图7所示。
【实施例4】使用本发明建库测序与qPCR检测结果
样本NC1根据【实施例1】的步骤进行建库,根据【实施例2】的步骤进行测序数据分析。选取50个基因,计算其与内参基因GAPDH的表达倍数差异,同时用qPCR检测这50个基因,计算其与基因GAPDH的表达倍数差异。结果如图8所示,测序结果和qPCR检测结果的皮尔逊相关系数R2为0.985。
本发明并不受上述实施方式的限制,其他的任何未背离本发明的精神实质与原理下所做的改变,修饰,替代,组合,简化均应为等效的置换方式,都包含在本发明的保护范围之内。
【实施例5】RIP(RNA免疫沉淀)获得的RNA使用本发明构建绝对定量文库一、磁珠的准备:
1.吸取重悬好的磁珠(Protein G Magnetic Beads,Thermo Scientific,88848)至两个nuclease free EP管中,每管50μL,分别标记为input和IP;
2.每管加入500μL RIP Wash Buffer(Solarbio,P1020),轻轻吹打10次充分混匀液体,室温静置2分钟。将磁珠置于磁力架上,静置5分钟,(待溶液澄清)后,去上清。重复一次;
3.用100μL的RIP Wash Buffer重悬磁珠,input中加入2~10ug Anti-ATF6抗体(Abcam,ab134561),IP中加入2~5ug IgG,室温孵育30min;
4.将磁珠置于磁力架上,静置5分钟,弃上清。加入500μL RIP Wash Buffer,充分吹打混匀后弃上清,重复一次;
5.加入500μL RIP Wash Buffer,充分吹打混匀后置于冰上;
二、细胞准备:
1.收集培养好的Hela细胞,取100uL放入EP管中,用与细胞等体积的RIPA裂解和提取缓冲液(Thermo Scientific,89900)重悬细胞,轻轻吹打混匀后置于冰上静置5min;
三、RIP(RNA免疫沉淀):
1.将第一步准备好的磁珠置于磁力架上,静置5分钟,去上清。每管加入900uL RIPImmunoprecipitation Buffer(含Rnasin的PBS);
2.将第二步制备的细胞裂解液,14,000rpm,4℃离心10min。吸取100μL上清液于第一步的磁珠-抗体复合物中,使得总体积为1mL。4℃孵育3h至过夜;
3.短暂离心,将EP管放在磁力架上,静置5分钟,(待溶液澄清)后,弃上清。加入500μl RIP Wash Buffer,涡旋震荡后将nuclease free EP管放在磁力架上,静置5分钟,(待溶液澄清)后,弃上清,重复清洗6次;
四、RNA洗脱和纯化:
1.nuclease free EP管中加入500uL Trizol,使用移液器重悬磁珠,室温静置5min;置于磁力架上,静置5分钟,(待溶液澄清)后,将上清转移到新的EP管中;
2.加入100uL氯仿,剧烈晃动15s,室温放置5min分层;4℃,12000g离心15min;
3.吸取500uL上清转移到新的EP管中,加入等体积异丙醇,-20℃沉淀20min,4℃,12000g离心15min,弃掉上清;
4.用80%乙醇冲洗一次,14,000rpm,4℃离心15min,小心去上清,空气中晾干。用10~20uL DEPC水回溶;
五、构建绝对定量转录组文库:
将9μL纯化的RNA转移至一个新的Nuclease-free PCR管中。从【实施例1】的第二步RNA片段化开始继续完成建库。构建好的文库用1%琼脂糖凝胶电泳检测,如图9所示。
序列表
<110>武汉康测科技有限公司
<120>一种基于特有识别序列的绝对定量转录组文库构建方法
<160>5
<170>SIPOSequenceListing 1.0
<210>1
<211>39
<212>DNA
<213>人工序列(Artificial Sequence)
<220>
<221>misc_feature
<222>(34)..(39)
<223>n=a或g或c或t
<400>1
gtgactggag ttccttggca cccgagaatt ccannnnnn 39
<210>2
<211>52
<212>DNA
<213>人工序列(Artificial Sequence)
<220>
<221>misc_feature
<222>(27)..(36)
<223>n=a或g或c或t
<220>
<221>misc_feature
<222>(47)..(52)
<223>n=a或g或c或t
<400>2
gttcagagtt ctacagtccg acgatcnnnn nnnnnncgca gtggtcnnnn nn52
<210>3
<211>46
<212>DNA
<213>人工序列(Artificial Sequence)
<220>
<221>misc_feature
<222>(11)..(20)
<223>n=a或g或c或t
<400>3
gaccactgcg nnnnnnnnnn gatcgtcgga ctgtagaact ctgaac 46
<210>4
<211>50
<212>DNA
<213>人工序列(Artificial Sequence)
<400>4
aatgatacgg cgaccaccga gatctacacg ttcagagttc tacagtccga 50
<210>5
<211>65
<212>DNA
<213>人工序列(Artificial Sequence)
<400>5
caagcagaag acggcatacg agattcgcct tagtgactgg agttccttgg cacccgagaa60
ttcca65