一种单细胞基因组拷贝数变异的检测方法及试剂盒
技术领域
本发明涉及生物技术领域,特别涉及一种单细胞基因组拷贝数变异的快速检测方法及试剂盒。
背景技术
单细胞全基因组测序技术是在单细胞水平对全基因组进行扩增与测序的一项新技术。其原理是将分离的单个细胞的微量全基因组DNA进行扩增,获得高覆盖率的完整的基因组后进行高通量测序,可用于检测单细胞基因组拷贝数变异(包含染色体非整倍体和染色体微扩增微缺失),揭示细胞群中个体差异和细胞进化关系。
对于单细胞全基因组测序来说,单细胞扩增产物的文库构建流程涉及到 DNA片段化、末端补平、腺苷化、接头连接、PCR扩增,每个反应步骤后均需磁珠纯化。随着文库构建技术发展,一些快速建库方法可将末端补平和腺苷化一步完成,此步骤反应完成后可不进行磁珠纯化,在一定程度上简化了建库流程,但整个文库构建仍需3-4步才能完成,存在多次转管和纯化,易导致核酸损失和导致均一性较低,染色体微扩增微缺失(CNV)检出准确性降低。
基于转座酶的文库构建方法越来越多的应用于高通量测序中,与传统建库方法相比,基于转座酶的文库构建方法可实现片段化、末端补平和接头连接一步反应,反应后进行一步PCR扩增即可完成文库构建,整个流程中需两步纯化。该方法较传统建库方法反应步骤有所降低,但片段化步骤后仍需进行纯化,无法实现单管一步反应。此外,现有的商品化Tn5酶只能针对某一固定数值的核酸量进行酶切(如illumina Nextera试剂盒只能针对50ng, 1ng~5ng分别采用不同规格的试剂盒进行建库)。
对单细胞进行CNV检测的数据分析流程主要步骤是将测序数据比对到参考基因组上,然后将基因组划分成连续的窗口,对每个窗口比对上的reads 数进行标准化,最后筛选出比对上的reads数连续偏高或偏低的窗口作为候选CNV。现有技术对于窗口长度和CNV的选取常导致假阳性结果。现有技术对于窗口长度的选择通常是针对特定的研究目的,测序数据量不同,检出 CNV分辨率要求不同,需要的最优窗口长度也不一样,同样的数据使用窗口过大可能导致假阴性结果,窗口过小可能导致假阳性结果。同时在检测CNV 过程中,由于基因组存在一些结构特殊区域(重复区域,低比对区域等),容易检出假阳性结果,对这些检出的候选CNV进行显著性评估显得尤为重要。因此,提供一种操作简便、成本较低、特异性强、敏感性高的单细胞基因组 CNV检测方法具有重要的现实意义。
发明内容
有鉴于此,本发明提供了组合物、试剂盒及其用途。本发明不需要借助正常样本即可对每个窗口比对上的reads数进行标准化,使每个窗口的reads 数分布更均一,不仅可以节约成本还能简化分析过程。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供了Tn5蛋白复合物,包括Tn5蛋白和oligo,所述oligo包括 OligoA、Oligo5X和Oligo7X中的一种或两者以上的混合物;
其中,OligoA的核苷酸序列如SEQ ID No.1所示;
Oligo5X的核苷酸序列如SEQ ID No.2所示;
Oligo7X的核苷酸序列如SEQ ID No.3所示。
Oligo5X的核苷酸序列由核心序列和barcode序列组成,其中barcode序列位于Oligo5X核苷酸序列的第22位到第29位;Oligo7X的核苷酸序列由核心序列和barcode序列组成,其中barcode序列位于Oligo7X核苷酸序列的第28位到第35位。
在本发明的一些具体实施方案中,所述Oligo5X或所述Oligo7X的核苷酸序列中的N为A、T、C、G碱基中的任意一种,设计符合如下原则:(1) 碱基个数为6-8个;(2)不可三个或三个以上连续碱基;(3)其组成不可与人类基因组序列同源。
在本发明的一些具体实施方案中,所述Oligo5X或所述Oligo7X的核苷酸序列中的N如SEQ ID No.4~23所示。
本发明还提供了所述的Tn5蛋白复合物的制备方法,取OligoA、Oligo5X 和Oligo7X混合后经90-98℃温浴3-6min后21~25℃放置1-3h。
在本发明的一些具体实施方案中,取OligoA、Oligo5X和Oligo7X混合后经94℃温浴5min后21~25℃放置1h。
本发明还提供了一种组合物,包括片段化buffer、本发明所述的或按照本发明所述制备方法制得的Tn5蛋白复合物、扩增buffer、通用引物、扩增酶中的一种或两者以上的混合物。
在本发明的一些具体实施方案中,组合物包括如下组分:
在本发明的一些具体实施方案中,所述片段化buffer的组成为:50mM TAPS-NaOH(pH 8.5,25℃),25mMMgCl2,50%v/v DMF;Tn5蛋白复合物由Tn5蛋白和oligo组成,Tn5蛋白购自诺唯赞公司,oligo序列如SEQ ID No.1~3所示;扩增buffer和扩增酶购自KAPABiosystems公司,分别为Fidelity Buffer(含dNTPs)和KAPA HiFiDNA polymerase。
本发明还提供了上述组合物在单细胞基因组文库构建或单细胞基因组测序中的应用。
本发明还提供了一种试剂盒,包括上述的组合物。
本发明还提供了上述的试剂盒在单细胞基因组文库构建或单细胞基因组测序中的应用。
本发明还提供了上述的组合物或上述的试剂盒的使用方法,取单细胞扩增产物预处理后与所述组合物按照质量为(1~100):24混合,扩增;
所述扩增的程序为:
55℃,10min;72℃,3min;94~98℃,30s;
94~98℃,15s;60~62℃,30s;72℃,3min,13~18cycles;
72℃,5min;
16℃,保温。
在本发明的一些具体实施方案中,扩增程序为:
55℃,10min;72℃,3min;98℃,30s;
98℃,15s;60℃,30s;72℃,3min,13~18cycles;
72℃,5min;
16℃,保温。
在本发明的一些具体实施方案中,所述预处理具体为:
1.1单细胞挑取
使用口吸管或流式细胞仪挑取单个羊水细胞。
1.2单细胞扩增
1.2.1细胞裂解
1.2.1.1根据反应的数量,混合Cell Lysis Buffer和Cell Lysis Enzyme,用于准备细胞裂解混合液。
1.2.1.2将单细胞收集在含有2.5μL细胞裂解混合液的PCR管中。
1.2.1.3在预热的PCR仪中孵育样本,条件如下:
1.2.1.4程序结束后,短暂离心收集反应液。
1.2.2预扩增
1.2.2.1混和Pre-Amp Buffer和Pre-Amp Enzyme Mix,用于准备预扩增混合液。
1.2.2.2将15μL预扩增混合液加入在装有2.5μL的细胞裂解样品的管壁上(此时反应总体积为17.5μL)。
1.2.2.3在PCR仪中孵育,反应条件如下:
1.2.2.4程序结束后,短暂离心10s收集反应液。
1.2.3指数式扩增
1.2.3.1混合Amplification Buffer和Amp Enzyme Mix,准备扩增混合液。
1.2.3.2将15μL扩增混合液加在装有17.5μL的预扩增混合产物的管壁上。
1.2.3.3在PCR仪中孵育,反应条件如下:表6
1.2.3.4程序结束后,立即进行Ampure磁珠纯化。
1.3接头制备和包埋
1.3.1接头序列
OligoA:5'-CTGTCTCTTATACACATCT-3'(如SEQ ID No.1所示);
Oligo5X:
5'-TCGTCGGCAGCGTCTCCACGCNNNNNNGCGATCGAGGACGGCAGAT GTGTATAAGAGACAG-3'(如SEQ ID No.2所示);
Oligo7X:
5′-GTCTCGTGGGCTCGGCTGTCCCTGTCCNNNNNNCACCGTCTCCGCCT CAGATGTGTATAAGAGACAG-3′(如SEQ ID No.3所示)。
其中,N为barcode,barcode的序列如下所示:
1.3.2将上述oligo溶解稀释到100nM,并将oligoA和oligo5X等比例混合,形成oligoA5X,oligoA和oligo7X等比例混合,形成oligoA7X。
1.3.3混合后的oligoA5X和oligoA7X置于PCR仪上94℃温浴5min后室温放置1h。
1.3.4使用1.5mL离心管按照下表配制Mix,震荡混匀离心收集反应液。
1.3.5将Mix按照每孔8.6μL分装到装有各0.7μL的oligoA5X和oligoA7X的 0.2mL PCR反应管中,振荡混匀,短暂离心收集反应液。
1.3.6将上述混合液置于PCR仪上30℃反应1小时。
本发明还提供了单细胞基因组文库的构建方法,以ng/μL计,取单细胞扩增产物待扩增样本预处理后与上述的组合物或上述的试剂盒中的所述组合物按照质量体积比为(1~100):24混合,扩增;
所述扩增的程序为:
55℃,10min;72℃,3min;94~98℃,30s;
94~98℃,15s;60~62℃,30s;72℃,3min,13~18cycles;
72℃,5min;
16℃,保温。
在本发明的一些具体实施方案中,扩增程序为:
55℃,10min;72℃,3min;98℃,30s;
98℃,15s;60℃,30s;72℃,3min,13~18cycles;
72℃,5min;
16℃,保温。
在本发明的一些具体实施方案中,预处理同1.1~1.3.6操作。
在本发明的一些具体实施方案中,所述单细胞扩增产物的可检测范围为1~100ng。
本发明还提供了单细胞基因组拷贝数变异的检测方法,取待测样本通过上述的组合物或上述的试剂盒扩增,构建文库,分析,获得结果。
在本发明的一些具体实施方案中,所述扩增程序为:
55℃,10min;72℃,3min;94~98℃,30s;
94~98℃,15s;60-62℃,30s;72℃,3min,13~18cycles;
72℃,5min;
16℃,保温。
在本发明的一些具体实施方案中,扩增程序为:
55℃,10min;72℃,3min;98℃,30s;
98℃,15s;60℃,30s;72℃,3min,13~18cycles;
72℃,5min;
16℃,保温。
在本发明的一些具体实施方案中,所述分析包括测序、质控、比对、窗口划分、GC矫正、确定候选断点、显著性评估的步骤:
(1)质控:将测序得到的reads进行质控,去除接头和低质量的碱基。
(2)比对:将质控后的reads比对到人类参考基因组上,确定每条reads在基因组上的位置。
(3)窗口划分:根据基因组上每个位点的mappability score信息将基因组划分成连续的动态窗口,确保每个窗口可唯一比对的reads数相同。
(4)GC矫正:a)统计每个窗口比对上的reads数和GC含量,根据窗口GC含量对reads数进行矫正,RCi’=RCi*m/mgc,其中RCi’是第i个窗口矫正后的 Reads数,m表示常染色体所有窗口reads数的中位数,mgc表示具有相同GC 含量的窗口reads数的中位数。b)根据正常参考样本对待检样本进行矫正,降低基因组上特殊区域等对检测结果的影响,RCRi=RCi/RCi’,其中RCi是待检样本第i个窗口矫正后的reads数,RCi’是参考样本第i个窗口矫正reads数的均值。
(5)确定候选断点:根据前面步骤计算的RCR值以及每个RCR值对应窗口在染色体上的所在位置得到一个向量X1,X2…Xn,遍历向量中的每个元素,进行循环迭代,寻找候选CNV两端的断点。对于第i个元素到第j个元素,计算Si=X1+X2+…+Xi,1≤i≤n,Sj=X1+X2+…+Xj,1≤j≤n以及似然比统计量 Zij={1/(j-i)+1/(n-j+i)}-1/2{(Sj-Si)/(j-i)-(Sn-Sj+Si)/(n-j+i)},找出统计量最大的元素,记为ZB=max1≤i<j≤n|Zij|。若统计值ZB大于一定阈值,则认为ZB=|Zij|中第i个元素和第j个元素对应的两个窗口中间构成的区域是要找的候选CNV。
(6)显著性评估:将(5)找出的异常区域,即候选CNV,与其他正常区域进行比较,利用游程检测确定异常区域的显著性,满足显著性阈值的区域确定为拷贝数变异区域。
所述窗口划分的窗口长度为0.1Mb~0.5Mb;
所述显著性评估的检验方法为游程检测。
本发明的优点在于:
1、MALBAC单细胞扩增技术是目前常用的单细胞全基因组扩增技术,本申请对原有的反应体系和操作步骤进行优化,所用原有的半体系并将原有的3个步骤反应优化为2个,降低了反应成本和操作的繁琐程度。
2、目前单细胞全基因组文库构建方法通常包括DNA片段化、末端修复、腺苷化、加接头以及PCR等步骤,该流程存在操作繁琐、反应时间长的问题;为解决上述问题采用基于转座酶的高通量样本制备方法,该方法可实现DNA 片段化、末端修复、加A、加接头、PCR扩增一步反应、单管操作,极大程度上避免了污染,节约了人工成本。
3、现有的CNV检测分析方法,首先是将基因组划分成连续的窗口,然后统计每个窗口比对上的reads数。一方面对基因组划分连续窗口的时候,根据CNV最低检出分辨率的要求,根据实验数据优化了窗口长度的选择;另一方面,在对每个窗口的reads数进行标准化时,一些分析方法比如Segseq需要正常样本作为对照,这样会导致成本增加。本发明可以以自身基因组为对照,进行全基因组reads数的标准化,降低实验测序成本。
4、通过对单细胞进行全基因组扩增、测序来检测CNV过程中,全基因组扩增引入的偏差,尤其是GC含量对扩增的影响会限制CNV检测的敏感性和特异性,基因组上特定区域(比如重复区域)在数据比对上的偏差也会影响CNV的检测。本发明根据参考基因组的GC含量和测序reads的GC含量开发了一种有权重的GC校正策略,有效降低了GC含量不同导致的扩增偏差。对于 GC含量不同的窗口具体权重计算方法是全基因组水平上每个窗口覆盖的平均reads数除以具有相应GC含量的窗口的平均reads数,然后用该窗口比对的实际reads数乘以对应权重值,即可得到该窗口完成GC校正后的reads数。同时针对基因组上特定区域对于比对的影响,本发明根据同一批检测样本中对应同一窗口的相对覆盖度进行样本间的矫正,有效改善测序数据的均一性。
5、利用全基因组测序数据检测CNV非常重要的一点是寻找CNV区域所在断点,目前常用的方法有二元分割、循环二元分割等方法,利用这些方法找到候选断点后,并没有统计候选CNV区域中每个窗口的相对覆盖度的分布与正常区域每个窗口相对覆盖度分布的差异。本发明在筛选出候选CNV区域断点后,还利用游程检验统计了CNV区域与正常区域测序数据相对覆盖度的分布差异,在最后结果中输出每个候选CNV的显著性P值,根据自定义的P值阈值筛选出信号显著的区域作为最后的CNV,同时游程检验与其他检验方法 (U test)相比,有效降低了假阳性结果(表13)。
6、通过以上方法的建立,可以实现使用更少的数据量检出更小的CNV 片段,从而降低成本和提高检测分辨率。
本发明不需要借助正常样本即可对每个窗口比对上的reads数进行标准化,使每个窗口的reads数分布更均一,不仅可以节约成本还能简化分析过程。本发明将单细胞扩增、基于转座酶的高通量测序样本制备方法和配套的信息分析方法作为一套整体解决方案,针对低覆盖度的高通量数据解决高分辨率(1M)的染色体微扩增微缺失的快速检出。节约反应时间,降低操作复杂性,降低成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1示本发明的技术流程。
具体实施方式
本发明公开了组合物、试剂盒及其用途,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明中。本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
本发明提供的组合物、试剂盒及其用途中所用原料及试剂均可由市场购得。
片段化buffer的组成为:50mM TAPS-NaOH(pH8.5,25℃),25mM MgCl2,50%v/v DMF;Tn5蛋白复合物由Tn5蛋白和oligo组成,Tn5蛋白购自诺唯赞公司,oligo序列如SEQ ID No.1~3所示;扩增buffer和扩增酶购自KAPA Biosystems公司,分别为Fidelity Buffer(含dNTPs)和KAPA HiFi DNA polymerase。
下面结合实施例,进一步阐述本发明:
实施例1
1.1单细胞挑取
使用口吸管或流式细胞仪挑取单个羊水细胞。
1.2单细胞扩增
1.2.1细胞裂解
1.2.1.1根据反应的数量,混合Cell Lysis Buffer和Cell Lysis Enzyme,用于准备细胞裂解混合液。
表1
1.2.1.2将单细胞收集在含有2.5μL细胞裂解混合液的PCR管中。
1.2.1.3在预热的PCR仪中孵育样本,条件如下:
表2
1.2.1.4程序结束后,短暂离心收集反应液。
1.2.2预扩增
1.2.2.1混和Pre-Amp Buffer和Pre-Amp Enzyme Mix,用于准备预扩增混合液。
表3
1.2.2.2将15μL预扩增混合液加入在装有2.5μL的细胞裂解样品的管壁上(此时反应总体积为17.5μL)。
1.2.2.3在PCR仪中孵育,反应条件如下:
表4
1.2.2.4程序结束后,短暂离心10s收集反应液。
1.2.3指数式扩增
1.2.3.1混合Amplification Buffer和Amp Enzyme Mix,准备扩增混合液。
表5
1.2.3.2将15μL扩增混合液加在装有17.5μL的预扩增混合产物的管壁上。
1.2.3.3在PCR仪中孵育,反应条件如下:
表6
1.2.3.4程序结束后,立即进行Ampure磁珠纯化。
1.4接头制备和包埋
1.3.1接头序列
OligoA:5'-CTGTCTCTTATACACATCT-3'(如SEQ ID No.1所示);
Oligo5X:
5′-TCGTCGGCAGCGTCTCCACGCNNNNNNGCGATCGAGGACGGCAGAT GTGTATAAGAGACAG-3′(如SEQ ID No.2所示);
Oligo7X:
5′-GTCTCGTGGGCTCGGCTGTCCCTGTCCNNNNNNCACCGTCTCCGCCT CAGATGTGTATAAGAGACAG-3′(如SEQ ID No.3所示)。
其中,N为barcode,barcode的序列如下所示:
1.3.2将上述oligo溶解稀释到100nM,并将oligoA和oligo5X等比例混合,形成oligoA5X,oligoA和oligo7X等比例混合,形成oligoA7X。
1.3.3混合后的oligoA5X和oligoA7X置于PCR仪上,按照下表中程序进行反应。
1.3.4使用1.5mL离心管按照下表配制Mix,震荡混匀离心收集反应液。
表7包埋混合液
1.3.5将Mix按照每孔8.6μL分装到装有各0.7μL的oligoA5X和oligoA7X的 0.2mL PCR反应管中,振荡混匀,短暂离心收集反应液。
1.3.6将上述混合液置于PCR仪上30℃反应1小时。
1.4片段化和PCR扩增
1.4.1 Mix配制及分装
1.4.1.1按照表8制备PCR反应混合液,混合后吹吸5次混匀,短暂离心10s 收集反应液。
表8 PCR反应混合液
1.4.1.2将Mix按照24μL每孔分装到装有25ng单细胞扩增产物的PCR反应管中。
1.4.2 PCR扩增
1.4.2.1 PCR反应板短暂离心10s后放入PCR仪中,设置PCR仪热盖温度为 105℃。
1.4.2.2 PCR反应:
1.4.2.3程序结束后,立即进行Ampure磁珠纯化。
1.4.2.4文库质控结果:
表9
经对比,可见本方法可以有效的制备Tn5蛋白复合物,该复合物可用于 DNA片段化和文库构建。
实施例2~4
1.1单细胞挑取
使用口吸管或流式细胞仪挑取单个羊水细胞。
1.2单细胞扩增
1.2.1细胞裂解
1.2.1.1根据反应的数量,混合Cell Lysis Buffer和Cell Lysis Enzyme,用于准备细胞裂解混合液。
表10
1.2.1.2将单细胞收集在含有2.5μL细胞裂解混合液的PCR管中。
1.2.1.3在预热的PCR仪中孵育样本,条件如下:
表11
1.2.1.4程序结束后,短暂离心收集反应液。
1.2.2预扩增
1.2.2.1混和Pre-Amp Buffer和Pre-Amp Enzyme Mix,用于准备预扩增混合液。
表12
1.2.2.2将15μL预扩增混合液加入在装有2.5μL的细胞裂解样品的管壁上(此时反应总体积为17.5μL)。
1.2.2.3在PCR仪中孵育,反应条件如下:
表13
1.2.2.4程序结束后,短暂离心10s收集反应液。
1.2.3指数式扩增
1.2.3.1混合Amplification Buffer和Amp Enzyme Mix,准备扩增混合液。
表14
1.2.3.2将15μL扩增混合液加在装有17.5μL的预扩增混合产物的管壁上。
1.2.3.3在PCR仪中孵育,反应条件如下:
表15
1.2.3.4程序结束后,立即进行Ampure磁珠纯化。
1.3接头制备和包埋
1.3.1接头序列
OligoA:5'-CTGTCTCTTATACACATCT-3'(如SEQ ID No.1所示);
Oligo5X:5′- TCGTCGGCAGCGTCTCCACGCNNNNNNGCGATCGAGGACGGCAGATGT GTATAAGAGACAG-3′(如SEQ ID No.2所示);
Oligo7X:
5′-GTCTCGTGGGCTCGGCTGTCCCTGTCCNNNNNNCACCGTCTCCGCCT CAGATGTGTATAAGAGACAG-3′(如SEQ ID No.3所示)。
其中,N为barcode,barcode的序列如下所示:
1.3.2将上述oligo溶解稀释到100nM,并将oligoA和oligo5X等比例混合,形成oligoA5X,oligoA和oligo7X等比例混合,形成oligoA7X。
1.3.3混合后的oligoA5X和oligoA7X置于PCR仪上,按照下表中程序进行反应。
1.3.4使用1.5mL离心管按照下表配制Mix,震荡混匀离心收集反应液。
表16包埋混合液
1.3.5将Mix按照每孔8.6μL分装到装有各0.7μL的oligoA5X和oligoA7X的 0.2mL PCR反应管中,振荡混匀,短暂离心收集反应液。
1.3.6将上述混合液置于PCR仪上30℃反应1小时。
1.4片段化和PCR扩增
1.4.1 Mix配制及分装
1.4.1.1按照表17制备PCR反应混合液,混合后吹吸5次混匀,短暂离心10s 收集反应液。
表17 PCR反应混合液
1.4.1.2将Mix按照24μL每孔分装到装有25ng单细胞扩增产物的PCR反应管中。
1.4.2 PCR扩增
1.4.2.1 PCR反应板短暂离心10s后放入PCR仪中,设置PCR仪热盖温度为 105℃。
1.4.2.2 PCR反应:
1.4.2.3程序结束后,立即进行Ampure磁珠纯化。
1.4.2.4文库质控结果:
表18
1.5高通量测序
使用Illumina Hiseq2500高通量测序平台对文库进行测序,测序读长为50bp。 1.6质控:将测序得到的reads进行质控,去除接头和低质量的碱基。
1.7比对:将质控后的reads比对到人类参考基因组上,确定每条reads在基因组上的位置。
1.8窗口划分:根据基因组上每个位点的mappability score信息将基因组划分成连续的动态窗口,确保每个窗口可唯一比对的reads数相同。
1.9 GC矫正:a)统计每个窗口比对上的reads数和GC含量,根据窗口GC含量对reads数进行矫正,RCi’=RCi*m/mgc,其中RCi’是第i个窗口矫正后的 Reads数,m表示常染色体所有窗口reads数的中位数,mgc表示具有相同 GC含量的窗口reads数的中位数。b)根据正常参考样本对待检样本进行矫正,降低基因组上特殊区域等对检测结果的影响,RCRi=RCi/RCi’,其中RCi是待检样本第i个窗口矫正后的reads数,RCi’是参考样本第i个窗口矫正reads 数的均值。
2.0确定候选断点:根据前面步骤计算的RCR值以及每个RCR值对应窗口在染色体上的所在位置得到一个向量X1,X2…Xn,遍历向量中的每个元素,进行循环迭代,寻找候选CNV两端的断点。对于第i个元素到第j个元素,计算Si=X1+X2+…+Xi,1≤i≤n,Sj=X1+X2+…+Xj,1≤j≤n以及似然比统计量 Zij={1/(j-i)+1/(n-j+i)}-1/2{(Sj-Si)/(j-i)-(Sn-Sj+Si)/(n-j+i)},找出统计量最大的元素,记为ZB=max1≤i<j≤n|Zij|。若统计值ZB大于一定阈值,则认为ZB=|Zij|中第 i个元素和第j个元素对应的两个窗口中间构成的区域是要找的候选CNV。 2.1显著性评估:将2.0找出的异常区域,即候选CNV,与其他正常区域进行比较,利用游程检测确定异常区域的显著性,满足显著性阈值的区域确定为拷贝数变异区域。
对比例
1.1、单细胞扩增:按照亿康全基因组扩增试剂盒的标准操作流程进行扩增;
1.2、DNA片段化
a.DNA起始量为100ng,取4.5μlDNA于PCR管中,补水至35μl;
b.将10X酶切反应液和片段化酶震荡混匀,瞬时离心5s后放置冰上;
c.加5μl的10X酶切反应液于PCR管中;
d.加10μl片段化酶,吹吸20次混匀,勿用涡旋混匀,避免产生气泡,瞬时离心5s使液体汇集于管底;
e.37℃孵育35min;
f.孵育后立即加入5μl终止液,vortex彻底混匀,瞬时离心后置于冰上;
g.将上述DNA全部转入至一个1.5ml无核酸酶离心管中,加入99μl平衡到室温且充分混匀的纯化磁珠(约1.8倍样本体积)纯化。
1.3使用NEBNext Ultra II DNA文库制备试剂盒进行文库构建
1.3.1末端修复和加A:按照下表配置反应液
将上述反应液置于PCR仪中并执行下列程序:
30minutes,20℃
30minutes,65℃
Hold at 4℃
1.3.2接头连接:按照下表配置反应液
将上述反应液置于PCR仪中并执行下列程序:
20℃,15minutes
Hold at 4℃
反应结束后立即进行磁珠纯化。
1.3.3 PCR扩增:按照下表配置反应液
将上述反应液置于PCR仪中并执行下列程序:
反应结束后立即进行磁珠纯化。
实施例5数据分析
表19
分析结论:
从以上分析结果中可以看出,本案方法的数据质量Q30和均一性明显高于对比方案,在更小的数据量(0.05Gb)和更低的覆盖度(1.2%)条件下实现了更小的染色体微扩增微缺失检出。
实施例6对已知样本(通过核型分析已知核型)的检测
1.测序:对单细胞进行全基因组扩增(同实施例2),将扩增后的DNA分子随机打断,对得到的DNA片段进行测序,获得每个DNA片段的序列信息(reads)。
2.质控:将测序得到的reads进行质控,去除接头和低质量的碱基。
3.比对:将质控后的reads比对到人类参考基因组上,去除PCR重复序列,确定每条reads在基因组上唯一比对的位置。
4.窗口划分:根据基因组上每个位点的mappability score信息 (http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeMa pability/)将基因组划分成连续的动态窗口,确保每个窗口可唯一比对的位点数相同。最优窗口大小与测序数据量有关,通过选择不同大小的窗口,统计检测结果的假阳性率,确定适合不同测序量的最优窗口长度(表20,对六个实施例样本分别在不同窗口长度下进行相同步骤数据分析结果)。该步骤不需要通过模拟测序数据或引入正常对照样本测序数据来确定每个窗口的边界位点。
表20不同窗口长度的检测性能
表21不同窗口长度的检测结果
5.GC矫正:在实际测序数据中,由于GC偏好性以及染色体的重复区域等影响会导致每个窗口比对上的reads数具有一定的偏差,需要进行矫正。具体矫正方法有两步:a)统计每个窗口比对上的reads数和GC含量,根据窗口GC含量对reads数进行矫正,RCi’=RCi*m/mgc,其中RCi’是第i 个窗口矫正后的Reads数,m表示常染色体所有窗口reads数的中位数, mgc表示具有相同GC含量的窗口reads数的中位数。b)根据正常参考样本对待检样本进行矫正,降低基因组上特殊区域等对检测结果的影响, RCRi=RCi/RCi’,其中RCi是待检样本第i个窗口矫正后的reads数,RCi’是参考样本第i个窗口矫正reads数的均值。通过a)步骤的矫正可以使不同GC含量的窗口比对上的reads数达到均衡状态,通过b)步骤的矫正可以消除基因组特殊区域对检测结果的影响。
6.确定候选断点:根据步骤5.计算的RCR值以及每个RCR值对应窗口在染色体上的所在位置得到一个向量X1,X2…Xn,遍历向量中的每个元素,进行循环迭代,寻找候选CNV两端的断点。对于第i个元素到第j个元素,计算Si=X1+X2+…+Xi,1≤i≤n,Sj=X1+X2+…+Xj,1≤j≤n以及似然比统计量 Zij={1/(j-i)+1/(n-j+i)}-1/2{(Sj-Si)/(j-i)-(Sn-Sj+Si)/(n-j+i)},找出统计量最大的元素,记为ZB=max1≤i<j≤n|Zij|。若统计值ZB大于一定阈值,则认为ZB=|Zij|中第i 个元素和第j个元素对应的两个窗口中间构成的区域是要找的候选CNV。
7.显著性评估:将步骤6.找出的异常区域,即候选CNV,与其他正常区域进行比较,利用游程检测(run test)确定异常区域的显著性,满足显著性阈值的区域确定为拷贝数变异区域。其中表22-23是对六个样本在显著性评估中使用不同检验方法得到的结果。
表22两种不同检验方法比较
表23
由表20~21可知,随着分析窗口长度的减少,检测结果的特异性降低,敏感性升高,本发明提供的最优窗口长度使检测结果的特异性和敏感性均达到了100%,优于其他窗口长度的检测效果。
由表22~23可知,根据本发明提供的显著性检测方法得到的检测结果与核型分析结果一致,特异性和敏感性均达到100%,优于其他显著性检测方法(U test)。
实施例7对未知样本的检测(通过核型分析对结果进行验证)
1.测序:对单细胞进行全基因组扩增(同实施例2),将扩增后的DNA分子随机打断,对得到的DNA片段进行测序,获得每个DNA片段的序列信息(reads)。
2.质控:将测序得到的reads进行质控,去除接头和低质量的碱基。
3.比对:将质控后的reads比对到人类参考基因组上,去除PCR重复序列,确定每条reads在基因组上唯一比对的位置。
4.窗口划分:根据基因组上每个位点的mappability score信息 (http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeMapability/)将基因组划分成连续的动态窗口,确保每个窗口可唯一比对的位点数相同。最优窗口大小与测序数据量有关,通过选择不同大小的窗口,统计检测结果的假阳性率,确定适合不同测序量的最优窗口长度(表15)。该步骤不需要通过模拟测序数据或引入正常对照样本测序数据来确定每个窗口的边界位点。
表24不同窗口长度的检测效果
5.GC矫正:在实际测序数据中,由于GC偏好性以及染色体的重复区域等影响会导致每个窗口比对上的reads数具有一定的偏差,需要进行矫正。
具体矫正方法有两步:a)统计每个窗口比对上的reads数和GC含量,根据窗口GC含量对reads数进行矫正,RCi’=RCi*m/mgc,其中RCi’是第i 个窗口矫正后的Reads数,m表示常染色体所有窗口reads数的中位数, mgc表示具有相同GC含量的窗口reads数的中位数。b)根据正常参考样本对待检样本进行矫正,降低基因组上特殊区域等对检测结果的影响, RCRi=RCi/RCi’,其中RCi是待检样本第i个窗口矫正后的reads数,RCi’是参考样本第i个窗口矫正reads数的均值。通过a)步骤的矫正可以使不同GC含量的窗口比对上的reads数达到均衡状态,通过b)步骤的矫正可以消除基因组特殊区域对检测结果的影响。
6.确定候选断点:根据步骤5)计算的RCR值以及每个RCR值对应窗口在染色体上的所在位置得到一个向量X1,X2…Xn,遍历向量中的每个元素,进行循环迭代,寻找候选CNV两端的断点。对于第i个元素到第j个元素,计算Si=X1+X2+…+Xi,1≤i≤n,Sj=X1+X2+…+Xj,1≤j≤n以及似然比统计量 Zij={1/(j-i)+1/(n-j+i)}-1/2{(Sj-Si)/(j-i)-(Sn-Sj+Si)/(n-j+i)},找出统计量最大的元素,记为ZB=max1≤i<j≤n|Zij|。若统计值ZB大于一定阈值,则认为ZB=|Zij| 中第i个元素和第j个元素对应的两个窗口中间构成的区域是要找的候选 CNV。
7.显著性评估:将6)找出的异常区域,即候选CNV,与其他正常区域进行比较,利用游程检测(run test,表21)确定异常区域的显著性,满足显著性阈值的区域确定为拷贝数变异区域。
表25两种不同检验方法比较
表26不同方法检测结果比较
对照组2(文献方法):详见Zhang C,Zhang C,Chen S,et al.A single cell level based method for copy number variation analysis by low coverage massively parallel sequencing[J].PloS one,2013,8(1):e54236。
由表24~26可知,本发明提供的方法的检测结果与核型分析结果一致,特异性优于对照组1和对照组2,表明本发明提供的方法具有可行性。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
序列表
<110> 博奥生物集团有限公司
<120> 一种单细胞基因组拷贝数变异的检测方法及试剂盒
<130> MP1728671
<160> 23
<170> SIPOSequenceListing 1.0
<210> 1
<211> 19
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 1
ctgtctctta tacacatct 19
<210> 2
<211> 61
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (1)..(61)
<223> N(28)=SEQ ID No4~23所示核苷酸序列;N(29)=SEQ ID No4~23所示核苷酸序列;N(30)=SEQ ID No4~23所示核苷酸序列;N(31)=SEQ ID No4~23所示核苷酸序列;N(32)=SEQ ID No4~23所示核苷酸序列;N(33)=SEQ ID No4~23所示核苷酸序列;
<400> 2
tcgtcggcag cgtctccacg cnnnnnngcg atcgaggacg gcagatgtgt ataagagaca 60
g 61
<210> 3
<211> 67
<212> DNA
<213> 人工序列(Artificial sequence )
<220>
<221> misc_feature
<222> (1)..(67)
<223> N(22)=SEQ ID No4~23所示核苷酸序列;N(23)=SEQ ID No4~23所示核苷酸序列;N(24)=SEQ ID No4~23所示核苷酸序列;N(25)=SEQ ID No4~23所示核苷酸序列;N(26)=SEQ ID No4~23所示核苷酸序列;N(27)=SEQ ID No4~23所示核苷酸序列;
<400> 3
gtctcgtggg ctcggctgtc cctgtccnnn nnncaccgtc tccgcctcag atgtgtataa 60
gagacag 67
<210> 4
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 4
tatagcct 8
<210> 5
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 5
atagaggc 8
<210> 6
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 6
cctatcct 8
<210> 7
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 7
ggctctga 8
<210> 8
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 8
aggcgaag 8
<210> 9
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 9
taatctta 8
<210> 10
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 10
caggacgt 8
<210> 11
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 11
gtactgac 8
<210> 12
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 12
cgagtaat 8
<210> 13
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 13
tctccgga 8
<210> 14
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 14
aatgagcg 8
<210> 15
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 15
ggaatctc 8
<210> 16
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 16
ttctgaat 8
<210> 17
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 17
acgaattc 8
<210> 18
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 18
agcttcag 8
<210> 19
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 19
gcgcatta 8
<210> 20
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 20
catagccg 8
<210> 21
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 21
ttcgcgga 8
<210> 22
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 22
gcgcgaga 8
<210> 23
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence )
<400> 23
ctatcgct 8