基因融合变异文库构建方法、检测方法、装置、设备及存储介质
技术领域
本发明涉及分子生物学及生物信息学技术领域,尤其是涉及一种基因融合变异文库构建方法、检测方法、装置、设备及存储介质。
背景技术
细胞遗传学研究发现,在一系列血液肿瘤,包括AML、ALL、CML与NHLs 等存在多发的染色体易位,导致癌基因的异常表达与/或融合基因的转录表达,皆促进癌细胞转化与生存。这些核心驱动基因(如MLL,ALK等)往往存在多个融合基因伴侣(partner),而且与同一融合基因也可能有不同的断裂点 (breakpoint),从而形成不同亚型,例如MLL基因存在54种已知的融合伴侣,且COSMIC数据库收录KMT2A -AFF1融合基因有多达15种融合亚型(https://cancer.sanger.ac.uk/cosmic/fusion/overview?fid=359723&gid=271430)。这些融合基因变异影响临床预后,同时能够指导血液肿瘤的分子分型与靶向治疗。因此开发一种基因组检测试剂以鉴定血液肿瘤中的基因融合变异是当下的未竟之需。
RT-PCR与荧光原位杂交(FISH)是常用的两种基因融合检测技术。两者均检测单一特定类型的已知基因融合,适用范围窄且效率低,更无法检测新发的基因融合变异。因此融合基因检测技术的不足仍然限制了血液肿瘤的辅助诊断与精准医疗。
发明内容
基于此,有必要提供一种适用范围宽、检测效率高且能够检测新发的基因融合变异的基因融合变异文库构建方法、检测方法、装置、计算机设备及计算机存储介质。
一种基因融合变异文库构建方法,包括如下步骤:
提取样本总RNA,并去除其中的rRNA;
将去除rRNA后的总RNA逆转录并合成双链cDNA,在合成所述双链cDNA 的第二条链时使用dUTP代替dTTP进行合成;
对合成的所述双链cDNA进行末端修复和添加连接接头;
酶切消化末端修复和添加连接接头后的双链DNA中的dUTP,使所述双链 cDNA产生缺口;
扩增酶切消化后的所述双链DNA,构建cDNA预文库;
使用融合基因捕获探针杂交捕获所述cDNA预文库中的目标融合cDNA,所述目标融合cDNA是由至少两个不同基因融合构成的,所述融合基因捕获探针含有能够与所述目标融合cDNA的其中一个基因的序列互补配对的序列;
对捕获的所述目标融合cDNA进行扩增,得到所述基因融合变异文库。
在其中一个实施例中,所述融合基因捕获探针的设计原则如下:
(1)所述融合基因捕获探针是针对目标融合cDNA中的核心基因进行设计,所述核心基因是指有多个基因伴侣且易发生融合变异的基因,或者是细胞生长或增值信号通路中的关键基因,或者是驱动基因;
(2)所述融合基因捕获探针是针对所述核心基因的转录本序列设计;
(3)所述融合基因捕获探针是针对hg19参考基因组中的核心基因设计,覆盖密度为2×覆瓦式序列;
(4)所述融合基因捕获探针的长度为120bp;
(5)所述融合基因捕获探针在设计时需比对至人转录组序列,统计所有 Blast匹配的数目,若Blast匹配的数量不大于50则说明合格,若Blast匹配的数量大于50,则以替换错配碱基的方式重新设计,直至获得对目的基因序列有最高的匹配性且Blast匹配的数量不大于50。
在其中一个实施例中,所述融合基因捕获探针的5’端标记有用于捕获的连接物;
可选地,所述连接物为生物素或链霉亲和素。
在其中一个实施例中,所述样本总RNA为外周血或者骨髓样本的总RNA。
在其中一个实施例中,所述末端修复是在合成的所述双链cDNA的3’末端添加一个dATP;
所述添加连接接头引入的接头格式是P5-Real1primer-DNAINSERT-IndexReadprimer-index-P7,具体是: 5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCT TCCGATC*T-待测DNA片段序列-GTTCGTCTTCTGCCGTATGCTCTA-index-C ACTGACCTCAAGTCTGCACACGAGAAGGCTAG-P,其中,P5和P7为接头, Real1primer和IndexReadprimer为引物序列,DNAINSERT是待测DNA片段序列,index为12nt的独有样本标签,p为磷酸基团。
在其中一个实施例中,所述扩增酶切消化后的所述双链DNA以及对捕获的所述目标融合cDNA进行扩增是使用与接头P5和P7序列配对的引物进行扩增。
一种基因融合变异检测方法,包括如下步骤:
获取基因融合变异文库的测序数据,所述基因融合变异文库是通过融合基因捕获探针来杂交捕获待测样本的转录序列所得到的目标融合基因的扩增文库,所述目标融合基因是由至少两个不同基因融合构成的,所述融合基因捕获探针含有能够与所述目标融合基因的其中一个基因的序列互补配对的序列;
将所述测序数据与人类转录组和基因组数据进行比对,筛选能够同时匹配到至少两个基因的reads;
分析所述能够同时匹配到至少两个基因的reads是否满足预设的阈值要求,如果满足,则说明该reads所包含的多个基因发生了基因融合。
在其中一个实施例中,在所述将所述测序数据与人类转录组和基因组数据进行比对,筛选能够同时匹配到至少两个基因的reads的步骤之前还包括:
对所述测序数据进行质量评估,剔除低质量reads,得到干净的测序数据。
在其中一个实施例中,所述剔除低质量reads包括:
去除含接头序列的reads;
去掉质量值低于15的低质量碱基占比≧50%的reads;
去掉含N占比大于1%的reads。
在其中一个实施例中,还包括将所述测序数据与人类转录组和基因组数据进行比对之后按照预设的控制标准剔除所述干净的测序数据中假阳性事件的步骤;
具体地,对筛选得出的基因融合变异事件进行注释,去伪存真,对符合以下标准的基因融合变异事件以剔除:
融合基因的不同基因之间彼此互为旁系同源;
融合基因的不同基因为假基因;
该基因融合变异已经在正常健康人中检出。
在其中一个实施例中,所述预设的阈值要求是指:若该融合基因变异具有临床意义,则同时匹配到该两个基因的唯一spanning reads超3个;若该融合基因变异是临床意义未明,则同时匹配到该两个基因的唯一spanning reads超10 个。
在其中一个实施例中,还包括:
按照如下公式计算融合基因的变异比例:
其中,
所述fusion supporting read pairs是指支持该基因融合的reads对数;
所述#mappable reads是指比对上基因组的reads条数;
所述weighted-average of Insertsize-read length是指文库插入cDNA片段的加权平均长度;
所述refgeneFPKM为内参基因的归一化表达值;
所述FPKM定义为Reads Per Kilobase of exon model per Million mappedreads,即每1百万个比对上的reads中比对到某外显子的每1K个碱基上的reads 个数。
一种基因融合变异检测装置,包括:
测序数据获取模块,用于获取基因融合变异文库的测序数据,所述基因融合变异文库是通过融合基因捕获探针来杂交捕获待测样本的转录序列所得到的目标融合基因的扩增文库,所述目标融合基因是由至少两个不同基因融合构成的,所述融合基因捕获探针含有能够与所述目标融合基因的其中一个基因的序列互补配对的序列;
比对筛选模块,用于将所述测序数据与人类转录组和基因组数据进行比对,筛选能够同时匹配到至少两个基因的reads;以及
融合分析模块,用于分析所述能够同时匹配到至少两个基因的reads是否满足预设的阈值要求,如果满足,则说明该reads所包含的多个基因发生了基因融合。
在其中一个实施例中,还包括:
变异比例计算模块,用于按照如下公式计算融合基因的变异比例:
其中,
所述fusion supporting read pairs是指支持该基因融合的reads对数;
所述#mappable reads是指比对上基因组的reads条数;
所述refgeneFPKM为内参基因的归一化表达值;
所述weighted-average of Insertsize-read length是指文库插入cDNA片段的加权平均长度;
所述FPKM定义为Reads Per Kilobase of exon model per Million mappedreads,即每1百万个比对上的reads中比对到某外显子的每1K个碱基上的reads 个数。
一种计算机设备,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的基因融合变异检测方法的步骤。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述任一实施例所述的基因融合变异检测方法的步骤。
单一驱动基因可以与其他多个基因(伴侣基因)发生基因融合,融合基因转录之后形成核心基因外显子与伴侣基因外显子的接合(即断裂点)。本发明的上述基因融合变异文库构建方法、基因融合变异检测方法及装置基于DNA探针杂交捕获多基因RNA靶向测序技术,通过融合基因捕获探针杂交捕获目标融合基因,构建基因融合变异文库,该文库可用于高通量测序,经过生物信息学分析,可以鉴定构成断裂点的核心基因及其伴侣基因。
该基因融合变异文库构建方法、基因融合变异检测方法及装置可用于检测多种血液肿瘤热点融合基因相关的已知或新发的基因重排、基因缺失与基因重复等基因变等信息。本发明的技术构思与传统的例如荧光定量法比较,更全面、高效,同时兼具效率与经济。
进一步,本发明还设计一种融合基因定量分析方法,通过计算可以得到融合基因的变异比例,进而可以得到融合基因的准确的表达量值,该融合基因定量分析方法具有开创性,解决了NGS法检测融合基因的定量分析问题。
附图说明
图1为本发明一实施例的融合基因变异检测方法的流程示意图;
图2为本发明一实施例的融合基因变异检测装置的模块结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本文所述融合基因是指不同基因坐标上的基因通过染色体重排等机制拼接到一起并且转录形成新的融合蛋白的基因,其表示形式为基因A/基因B,或基因A-基因B,如BCR-ABL1,基因A与基因B互为融合基因伴侣。
所选基因系关键的核心融合基因,所述核心基因是指该基因发生融合变异的频率较高,研究发现其有多种融合基因伴侣,或是指细胞生长或增殖信号通路中的关键基因,或是驱动基因(driver gene)。
所述的“reads”是指高通量测序得到的序列片段。
所述的测序质量是指read序列中碱基的准确程度。
所述的“人类转录组”是人细胞中所有基因表达的产物组合。
所述的人类基因组是hg19。
所述旁系同源(Paralogs)是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。
所述假基因可视为基因组中与编码基因序列非常相似的非功能性基因组 DNA拷贝。
所述Body Map 2.0是一组人正常组织的转录组测序数据。
所述的“基因距离”是指两个基因的基因坐标之间的间距。
本发明提供了一种基因融合变异文库构建方法,其包括如下步骤:
提取样本总RNA,并去除其中的rRNA;
将去除rRNA后的总RNA逆转录合成双链cDNA,在合成双链cDNA的第二条链时使用dUTP代替dTTP进行合成;
对合成的双链cDNA进行末端修复和添加连接接头;
酶切消化末端修复和添加连接接头后的双链DNA中的dUTP,使双链cDNA 产生缺口;
扩增酶切消化后的双链DNA,构建cDNA预文库;
使用融合基因捕获探针杂交捕获cDNA预文库中的目标融合cDNA,目标融合cDNA是由至少两个不同基因融合构成的,融合基因捕获探针含有能够与目标融合cDNA的其中一个基因的序列互补配对的序列;
对捕获的目标融合cDNA进行扩增,得到基因融合变异文库。
在一个具体示例中,样本总RNA为外周血或者骨髓样本的总RNA。在提取样本的总RNA后,优选地,还包括测定核酸浓度以及A260/A280值的步骤。
在一个具体示例中,所述去除其中的rRNA是将总RNA与rRNA合成单链 DNA探针杂交,通过rRNA合成单链DNA探针与总RNA中的rRNA杂交结合,而将rRNA去除。
在一个具体示例中,末端修复是在合成的双链cDNA的3’末端添加一个 dATP;添加连接接头引入的接头格式是: P5-Real1primer-DNAINSERT-IndexReadprimer-index-P7。具体地,该接头序列是: 5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC*T-待测DNA片段序列-GTTCGTCTTCTGCCGTATGCTCTA-index-C ACTGACCTCAAGTCTGCACACGAGAAGGCTAG-P,其中,P5 (5'-AATGATACGGCGACCACCGA-3',SEQ ID NO:1)和P7 (5'-CAAGCAGAAGACGGCATACGAGAT-3',SEQ ID NO:2)为接头, Real1primer(GATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,SEQ ID NO:3)和IndexReadprimer(GTTCGTCTTCTGCCGTATGCTCTA,SEQ ID NO:4) 为引物序列,DNAINSERT是待测DNA片段序列,index为12nt的独有样本标签,p为磷酸基团。
在一个具体示例中,融合基因捕获探针的设计原则如下:(1)所述融合基因捕获探针是针对目标融合cDNA中的核心基因进行设计,所述核心基因是指有多个基因伴侣且易发生融合变异的基因,或者是细胞生长或增值信号通路中的关键基因,或者是驱动基因;
(2)所述融合基因捕获探针是针对所述核心基因的转录本序列设计;
(3)所述融合基因捕获探针是针对hg19参考基因组中的核心基因设计,覆盖密度为2×覆瓦式序列(2×tiling);
(4)所述融合基因捕获探针的长度为120bp;
(5)所述融合基因捕获探针在设计时需比对至人转录组序列,统计所有 Blast匹配(BLAST hits)的数目,若Blast匹配的数量不大于50则说明合格,若Blast匹配的数量大于50,则以替换错配碱基的方式重新设计,直至获得对目的基因序列有最高的匹配性且Blast匹配的数量不大于50。
例如,在一些具体示例中,可以针对血液系统肿瘤(白血病与淋巴瘤)选择54核心基因,即ABL1、CREBBP、CRLF2、MECOM、TP53、TSLP、LMO2、 PRDM16、MYC、ETV6、RARA、NUP214、BCL6、MYB、IRF4、CBFB、CEBPB、 ZNF384、RUNX1、FGFR3、MALT1、ERG、NPM1、PAX5、JAK2、PICALM、FLT3、GLIS2、PDGFRB、PML、TLX1、ITK、FGFR1、IL2RB、TAL1、WT1、 NTRK3、NUP98、EPOR、RBM15、CSF1R、KMT2A、BCL2、BCR、LYN、TLX3、 CCND1、TCF3、CEBPA、ABL2、ALK、PDGFRA、IGLL5、IGHA2,从Ensembl 数据库获取转录本序列号,根据其序列设计重叠式2×覆瓦式序列(tiling)(探针5’端标记生物素用于捕获),得到探针库。
进一步,融合基因捕获探针的5’端标记有用于捕获的连接物,例如标记有生物素或链霉亲和素等用于固定在基底上的连接物。
在一个具体示例中,扩增酶切消化后的双链DNA以及对捕获的目标融合cDNA进行扩增是使用与接头P5和P7序列配对的引物进行扩增。
如图1所示,本发明还提供了一种基因融合变异检测方法,其包括如下步骤:
步骤S110:获取基因融合变异文库的测序数据,基因融合变异文库是通过融合基因捕获探针来杂交捕获待测样本的转录序列所得到的目标融合基因的扩增文库,目标融合基因是由至少两个不同基因融合构成的,融合基因捕获探针含有能够与目标融合基因的其中一个基因的序列互补配对的序列;
步骤S120:将测序数据与人类转录组和基因组数据进行比对,筛选能够同时匹配到至少两个基因的reads;
步骤S130:分析能够同时匹配到至少两个基因的reads是否满足预设的阈值要求,如果满足,则说明该reads所包含的多个基因发生了基因融合。
在一个具体示例中,可以使用但不限于Novaseq 6000高通量测序仪对基因融合变异文库进行高通量测序,测序深度可以是但不限于5000X。
在一个具体示例中,在将测序数据与人类转录组和基因组数据进行比对,筛选能够同时匹配到至少两个基因的reads的步骤之前还包括:
对测序数据进行质量评估,剔除低质量reads,得到干净的测序数据。
具体地,可以使用但不限于bcl2fastq软件对原始数据转换得到raw fastq文件,经fastQC软件对raw fastq数据进行质量评估,可利用但不限于Trimmomatic 软件剔除低质量reads,得到所述干净的测序数据。
进一步,在一个具体示例中,所述剔除低质量reads包括:
去除含接头序列的reads;
去掉质量值低于15的低质量碱基占比≧50%的reads;
去掉含N占比大于1%的reads。
在一个具体示例中,基因融合变异检测方法还包括将测序数据与人类转录组和基因组数据进行比对之后按照预设的控制标准剔除干净的测序数据中假阳性事件的步骤;
具体地,对筛选得出的基因融合变异事件进行注释,去伪存真,对符合以下标准的基因融合变异事件以剔除:
融合基因的不同基因之间彼此互为旁系同源;
融合基因的不同基因为假基因;
该基因融合变异已经在正常健康人中检出(如Body Map 2.0是一个正常人组织的转录组数据集,分析该数据检出的基因融合变异判定为假阳性。)。
具体地,可以使用但不限于BOWTIE、STAR、SPOTLIGHT等软件将所有 reads与人类转录组和基因组比对,筛选同时匹配到两个基因的转录本的reads。然后通过一系列标准,如旁系同源(paralog)、假基因、Body Map 2.0、基因距离等剔除假阳性事件。如果同时匹配到某两个基因的reads超过预设的阈值要求,就认定这两个基因发生了基因融合。
更具体地,预设的阈值要求是指:若该融合基因变异具有临床意义,则同时匹配到该两个基因的唯一spanning reads超3个(spanning read是指比对到基因融合交接处(junction)的reads);若该融合基因变异是临床意义未明,则同时匹配到该两个基因的唯一spanning reads超10个。
进一步,本发明提供的基因融合变异检测方法还包括按照如下公式计算融合基因的变异比例:
其中,
所述fusion supporting read pairs是指支持该基因融合的reads对数;
所述#mappable reads是指比对上基因组的reads条数;
所述weighted-average of Insertsize-read length是指文库插入cDNA片段的加权平均长度;
所述refgeneFPKM为内参基因的归一化表达值;
所述FPKM定义为Reads Per Kilobase of exon model per Million mappedreads,即每1百万(109)个比对上的reads中比对到某外显子的每1K个碱基上的reads个数。
这是一个基因转录本的量化模型,根据stringtie软件计算得到,主要是针对pair-end测序表达量进行计算。FPKM和RPKM的区别就是一个是fragment,一个是read。对于单末端测序数据,由于Cufflinks计算的时候是将一个read当做一个fragment来算的,故而FPKM等同于RPKM(RPKM=total exon reads/ (mapped reads(Millions)*exon length(KB)))。对于双末端测序而言,如果一对 paired-read都比对上了,那么这一对paired-read称之为一个fragment,而如果一对paired-Read中只有一个比对上了,另外一个没有比对上,那么就将这个比对上的read称之为一个fragment。
基于与上述检测方法相同的思想,如图2所示,本发明还提供了一种基因融合变异检测装置200,其包括:
测序数据获取模块210,用于获取基因融合变异文库的测序数据,基因融合变异文库是通过融合基因捕获探针来杂交捕获待测样本的转录序列所得到的目标融合基因的扩增文库,目标融合基因是由至少两个不同基因融合构成的,融合基因捕获探针含有能够与目标融合基因的其中一个基因的序列互补配对的序列;
比对筛选模块220,用于将测序数据与人类转录组和基因组数据进行比对,筛选能够同时匹配到至少两个基因的reads;以及
融合分析模块230,用于分析能够同时匹配到至少两个基因的reads是否满足预设的阈值要求,如果满足,则说明该reads所包含的多个基因发生了基因融合。
可选地,该基因融合变异检测装置200还包括:
变异比例计算模块240,用于按照如下公式计算融合基因的变异比例:
其中,
所述fusion supporting read pairs是指支持该基因融合的reads对数;
所述#mappable reads是指比对上基因组的reads条数;
所述weighted-average of Insertsize-read length是指文库插入cDNA片段的加权平均长度;
所述refgeneFPKM为内参基因的归一化表达值;
所述FPKM定义为Reads Per Kilobase of exon model per Million mappedreads,即每1百万(109)个比对上的reads中比对到某外显子的每1K个碱基上的reads个数。
基于如上所述的实施例,本发明还提供了一种可用于基因融合变异检测的计算机设备,具有处理器和存储器,存储器上存储有计算机程序,处理器执行该计算机程序时实现上述任一实施例的基因融合变异检测方法的步骤。
本领域普通技术人员可以理解实现上述方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory, RAM)等。
据此,本发明还提供了一种可用于基因融合变异检测的计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现上述任一实施例的基因融合变异检测方法的步骤。
单一驱动基因可以与其他多个基因(伴侣基因)发生基因融合,融合基因转录之后形成核心基因外显子与伴侣基因外显子的接合(即断裂点)。本发明的上述基因融合变异文库构建方法、基因融合变异检测方法及装置基于DNA探针杂交捕获多基因RNA靶向测序技术,通过融合基因捕获探针杂交捕获目标融合基因,构建基因融合变异文库,该文库可用于高通量测序,经过生物信息学分析,可以鉴定构成断裂点的核心基因及其伴侣基因。
该基因融合变异文库构建方法、基因融合变异检测方法及装置可用于检测多种血液肿瘤热点融合基因相关的已知或新发的基因重排、基因缺失与基因重复等基因变等信息。本发明的技术构思与传统的例如荧光定量法比较,更全面、高效,同时兼具效率与经济。
进一步,本发明还设计一种融合基因定量分析方法,通过计算可以得到融合基因的变异比例,进而可以得到融合基因的准确的表达量值,该融合基因定量分析方法具有开创性,解决了NGS法检测融合基因的定量分析问题。
以下结合具体文库构建、检测方法的案例对本发明的基因融合变异文库构建方法和检测方法作进一步详细的说明。
1)基于mRNA序列的DNA探针设计
本案例通过DNA探针杂交捕获融合基因的转录序列,并进行高通量测序,经生物信息分析即可获得融合基因参与的热点或者新发的融合形式。
针对血液系统肿瘤(白血病与淋巴瘤),选择54核心基因,即ABL1、 CREBBP、CRLF2、MECOM、TP53、TSLP、LMO2、PRDM16、MYC、ETV6、 RARA、NUP214、BCL6、MYB、IRF4、CBFB、CEBPB、ZNF384、RUNX1、 FGFR3、MALT1、ERG、NPM1、PAX5、JAK2、PICALM、FLT3、GLIS2、PDGFRB、 PML、TLX1、ITK、FGFR1、IL2RB、TAL1、WT1、NTRK3、NUP98、EPOR、 RBM15、CSF1R、KMT2A、BCL2、BCR、LYN、TLX3、CCND1、TCF3、CEBPA、 ABL2、ALK、PDGFRA、IGLL5、IGHA2。从Ensembl数据库获取转录本序列号,根据其序列设计重叠式2×覆瓦式序列(探针5’端标记生物素用于捕获),得到探针库。
2)样本总RNA提取
采用QIAGEN公司QIAsymphony RNA Kit(Cat#931636)试剂盒提取白血病淋巴瘤患者的外周血或骨髓样本的总RNA。具体操作步骤详见厂家的说明书。
采用(1)NanoDrop分光光度仪测定核酸浓度及A260/A280值(预期值在 1.9-2.1之间);(2)采用QubitTM RNA HS Assay Kit(Cat.#Q32855)测定核酸浓度。
3)消除核糖体rRNA
将500ng步骤2)中提取的总RNA与rRNA合成单链DNA探针杂交,并经RNaseH酶切rRNA,具体操作步骤详见NEBNext rRNA Depletion Kit试剂盒的说明书。采用
4)逆转录合成cDNA
在PCR仪中,94℃孵育6分钟,使RNA片段化。使用逆转录酶(Reversetranscriptase)将片段化的RNA反转录成单链c'DNA。
5)合成cDNA第二链
使用DNA Polymerase I,Large(Klenow)Fragment将单链的c'DNA合成双链 cDNA。此处使用dUTP代替dTTP。因此第二链cDNA嵌入dUTP。采用AMPure XP Beads纯化双链cDNA。
6)末端修复
使用NEBNext Ultra II End Prep Enzyme Mix处理双链cDNA,并在3’末端添加一个dATP。
7)连接接头
将连接酶Ligase、含12nt唯一序列的Index接头与末端修复cDNA混合,在PCR仪中,16℃孵育60分钟,获得连接接头的cDNA文库。
接头格式:P5-Read1primer-DNA INSERT-IndexReadprimer-index-P7。
8)酶切制造cDNA第二链缺口
将uracil DNA glycosylase(UDG)与Endonuclease VIII mix加入到以上体系,二者协同消化cDNA文库片段中的dUTP,使之产生缺口。
9)文库扩增
使用KAPA HiFi HotStart ReadyMix、与接头P5、P7序列配对的引物(P5: 5'-AATGATACGGCGACCACCGA-3',SEQ ID NO:1;P7: 5'-CAAGCAGAAGACGGCATACGAGAT-3',SEQ IDNO:2)将以上cDNA文库在PCR仪中进行扩增。采用AMPure XP Beads纯化cDNA预文库。
10)探针捕获杂交
将100ng制备好的cDNA文库与
将以上体系与链霉素亲和素磁珠
使用KAPA HiFi HotStart ReadyMix、与接头P5、P7序列配对的引物(P5: 5'-AATGATACGGCGACCACCGA-3',SEQ ID NO:1;P7: 5'-CAAGCAGAAGACGGCATACGAGAT-3',SEQ IDNO:2)对以上杂交捕获的 cDNA文库在PCR仪中进行扩增。采用AMPure XP Beads纯化目的cDNA文库,得到待测序的文库。
11)Illumina平台测序
待测序的文库使用Novaseq 6000高通量测序仪进行测序,测序深度为平均5000x。测序操作步骤详见厂家的说明书。
12)测序数据分析
A.测序数据预处理
使用bcl2fastq软件对原始数据转换得到raw fastq文件,经fastqc软件对rawfastq数据进行质量评估,利用Trimmomatic软件剔除低质量reads,得到clean fastq文件。
B.融合基因鉴定
用BOWTIE、STAR、SPOTLIGHT软件将所有reads与人类转录组和基因组比对,筛选同时匹配到两个基因的转录本的reads。然后通过一系列标准,如旁系同源(paralog)、假基因、Body Map 2.0、基因距离等剔除假阳性事件。如果同时匹配到某两个基因的reads超过设定的阈值,就认定这两个基因发生了基因融合。
C.融合基因检测数据分析结果实例
应用本发明,我们检测3例白血病样本,获得以下结果:
该3个样本均具有MLL(KMT2A)参与的融合基因,仅通过靶向MLL基因转录本序列的探针即可同时抓取MLL基因与其partner基因的断裂点序列,从而通过比对分析而鉴定其具体融合形式,并计算fusionFPKM作为其表达量的指标。
结果见下表1。
表1
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
序列表
<110> 广州金域医学检验集团股份有限公司
<120> 基因融合变异文库构建方法、检测方法、装置、设备及存储介质
<140> 2019114192739
<141> 2019-12-31
<160> 7
<170> SIPOSequenceListing 1.0
<210> 1
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
aatgatacgg cgaccaccga 20
<210> 2
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
caagcagaag acggcatacg agat 24
<210> 3
<211> 38
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
gatctacact ctttccctac acgacgctct tccgatct 38
<210> 4
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
gttcgtcttc tgccgtatgc tcta 24
<210> 5
<211> 86
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
tccccgccca agtatccctg taaaacaaaa accaaaagaa aagtctgaac aacccagtcc 60
tgccagctcc agctccagct ccagct 86
<210> 6
<211> 86
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
tccccgccca agtatccctg taaaacaaaa accaaaagaa aaggaaatga cccattcatg 60
gccgcctcct ttgacagcaa tacata 86
<210> 7
<211> 86
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
aattccagca gatggagtcc acaggatcag agtggacttt aaggattctg tttcactgag 60
gccatctatc cgatttcaag gaagcc 86