欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 组合标签、组合标签接头及其应用独创技术45024字

组合标签、组合标签接头及其应用

2021-02-04 19:33:54

组合标签、组合标签接头及其应用

  技术领域

  本发明涉及基因测序领域,具体涉及一种组合标签、组合标签接头及其应用,尤其涉及组合标签、组合标签接头、试剂盒及基因文库的构建方法。

  背景技术

  目前,DNA测序技术已经广泛应用于科研及医疗领域。随着研究及应用的深入,对其灵敏性及特异性要求也越来越高,因此DNA文库接头会被加上一些功能元件。其中被广泛认可的设计有两种:(1)UMI(Unique Molecular Identifier),通过在接头上引入一段随机序列,使每个待检测DNA分子带上唯一的标识序列,可提高测序深度;(2)DNA文库双标签(Dual Index)。每个样本两端各带上一条特异DNA序列,与单标签相比,可有效降低测序文库的相互污染。

  但是这些功能性设计还不能满足测序的需求,还需要进一步改进。

  发明内容

  本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种组合标签、组合标签接头、试剂盒及基因文库的构建方法。

  本发明的发明人在研究过程中发现:

  在测序的过程中,为了保证灵敏性和特异性性,在DNA接头两端引入一段UMI序列,UMI序列一端长度通常大于3个,两端加起来大于6个,因此有大于4096(4^6)种序列组合,确保天然拥有相同起止坐标的DNA片段能够被分辨出来。但是这些UMI序列在PCR及测序过程中容易发生变异,引起分子标签“失真”,从而引入一定的背景噪音。为了解决这一问题,通常采用的两种做法有:(1)将UMI分子加长,加强其序列特异性同时也增加了种类;(2)大数据量高深度测序,确保真实UMI有足够的重复信息,以此剔除重复度不够的“失真”标签信息。但是这些解决方案也存在很多不足,一方面,UMI接头的制备成本高。目前UMI接头采用一一对应的方法进行退火。因为UMI种类较多,例如3碱基UMI,需要订购64对(4^3)序列两两退火混合才能制备出一个接头。而且UMI种类冗余,且校正困难,数据需求量大。在PCR或测序中UMI标签会发生变异,从而变成另一个标签。为了纠正这种错误,需要比平时多几倍的测序数据量。因此,会极大的增加测序和分析成本,因此UMI技术常被用在科研中而不适合放到临床诊断产品中。

  另外,由于二代测序仪通量高,可以满足多个样本同时测序。多个样本同时测序时,会将样本混合在一起上机,这样就需要文库的标签序列来进行区分。因此,在测序过程中,样本两端各带上一条特异DNA序列,构成DNA文库双标签,也已经被广泛应用到测序领域中。双标签可以解决大部分单标签在测序过程中存在的样本间数据串扰(sample cross-talk)问题,也就防止了样本间相互污染。但是,由于添加了双标签,使得在后续PCR扩增的过程中,两条扩增引物都带有标签序列,两条扩增引物的长度通常都大于40个碱基,在实验过程中也会引入较强的非特异性扩增。而且测序过程中,会存在拆分率低、样本下机数据量少的现象。

  为此,本发明的发明人针对以上两种功能元件设计方案进行了综合考虑以及改进,形成了组合标签的设计方式。在实用性方面,减少UMI数量并同时增强其特异性,使测序成本能够得到控制的同时,有效增加测序深度。样本交叉污染方面,采用组合标签纠错方法,有效屏蔽了这种污染。

  具体而言,本发明提供了如下技术方案:

  根据本发明的第一方面,本发明提供了一种组合标签,包括至少两组标签,所述至少两组标签的每一组含有至少两个标签序列,所述至少两组标签的每一组内任意标签序列间的汉明距离大于等于2,优选大于等于3,所述至少两组标签的每一组间任意标签序列间的汉明距离大于等于1,优选大于等于2。

  “汉明距离”是针对两个数而言,在二进制中,比较两个数中不相同的位的个数,即为汉明距离。在本文中,通过汉明距离的大小能够指示标签序列之间的分辨程度。以核酸序列AATGAG和核酸序列TAAGTG为例,这两个核酸序列的汉明距离为:3。两个核酸序列的汉明距离的大小,可以反映两个核酸序列的相似程度,汉明距离太小,核酸序列比较相似,如果作为标签序列会容易发生串扰,导致标签失真;汉明距离太大,考虑到组合标签在应用时会损失一部分测序读长,从而增加测序成本。因此,在一些实施例中,组合标签中标签序列的长度不超过10个碱基长度。

  上述组合标签,组内标签序列间的汉明距离大于等于2,优选大于等于3,组间标签序列间的汉明距离大于等于1,优选大于等于2,其应用于测序过程中,将每组标签用于标记一个样本,能够有效的增加测序深度,极大的降低了测序成本。而且由于考虑了标签之间的辨识能力,一个样本对应了唯一的一组标签,因此样本间串扰的情况可以很容易的被发现。由此应用于测序领域,可以减少样本间污染,同时可以提升测序深度。

  根据本发明的实施例,以上所述的组合标签可以进一步包括如下技术特征:

  在本发明的一些实施例中,所述标签序列至少为4个碱基,在至少一些实施例中,所述标签序列为4~10个碱基,优选为4~6个碱基。为了保证标签间的汉明距离,标签序列也不宜太短。以标签序列的长度为3个为例,汉明距离为3,可以设计出ACT、TGA、CTG、GAC四个标签序列,按照每组含有2个标签序列,可以分成两组标签,服务于2个样本,组合标签的实用性很差。因此可以将标签序列设置为至少4个碱基,标签序列的长度越长,标签序列在应用时,分辨程度越高,而且在相同分辨程度下,可设计的标签种类也就会越多。考虑到组合标签在应用时位于待测核酸分子的两侧,从而会损失一定的测序长度,因此标签序列不宜过长。因此,4~10个碱基长度的标签序列即可以保证测序长度,还能够保证测序质量。例如4~8个碱基长度的标签序列测序效果较优。

  在本发明的一些实施例中,所述标签序列的GC含量为20~80%,例如为50%。GC含量在20%~80%之间的标签序列能够保证标签序列较好的退火。

  在本发明的一些实施例中,所述标签序列上任意位置处碱基A、T、C、G占比分别为25%。从而可以进一步提升组合标签的测序质量。

  本发明的一些实施例中,所述标签序列不含有连续3个相同的碱基。从而可以进一步提升组合标签的测序质量。

  在本发明的一些实施例中,所述至少两组标签的每一组标签用于标记同一个样本。

  根据本发明的第二方面,本发明提供了一种组合标签接头,含有接头序列和组合标签,所述接头序列位于所述组合标签的上游,所述组合标签为本发明第一方面任一实施例所述的组合标签。

  在本发明的一些实施例中,所述组合标签接头包括选自下列中的至少一组:SEQID NO:1~SEQ ID NO:4;SEQ ID NO:5~SEQ ID NO:8;SEQ ID NO:9~SEQ ID NO:12;SEQID NO:13~SEQ ID NO:16;SEQ ID NO:17~SEQ ID NO:20;SEQ ID NO:21~SEQ ID NO:24;SEQ ID NO:25~SEQ ID NO:28;SEQ ID NO:29~SEQ ID NO:32。

  根据本发明的第三方面,本发明提供了一种试剂盒,包括组合标签和/或组合标签接头,所述组合标签为本发明第一方面任一实施例所述的组合标签,所述组合标签接头本发明第二方面所述的组合标签接头。

  根据本发明的第四方面,本发明提供了组合标签和/或组合标签接头在基因测序领域中的用途,所述组合标签为本发明第一方面所述的组合标签,所述组合标签接头为本发明第二方面所述的组合标签接头。应用本发明提供的组合标签或者组合标签接头进行基因文库的构建、测序等,可以有效避免样本间的污染,提升测序深度。

  根据本发明的第五方面,本发明提供了一种基因文库的构建方法,包括:

  基于待测核酸样本,进行末端修复,加A,以便获得经修复的末端加A的核酸样本;

  将所述经修复的末端加A的核酸样本和组合标签接头进行连接,以便获得连接有组合标签接头的核酸样本;

  基于所述连接有组合标签接头的核酸样本,进行第一扩增,以便获得所述测序文库,所述组合标签接头为本发明第二方面所述的组合标签接头。

  在本发明的一些实施例中,利用引物进行所述第一扩增,所述引物的部分序列能够与所述组合标签接头的部分序列进行互补配对,所述引物上含有分子标签序列。采用组合标签接头,同时实现双index的防样本污染功能,又起到UMI标签的剔除重复度、降低背景信号,提高检测性能。例如,每一组接头序列3’端含有一段已知的6bpUMI功能序列,相比传统未知序列UMI能有效的控制合成过程、质量、数量;在接头连接步骤,该序列与样本DNA片段结合,每个样本的连接产物均含有一段特定的已知序列(UMI功能);在PCR过程中,通过PCR引物为每个样本带上特定的另一段标签序列。在数据分析过程中,通过PCR引物上带有分子标签序列,可以拆分出每个样本的数据,通过接头引入的标签序列起到UMI标签功能,以此进行数据去重复,提高有效测序深度。采用上述模式,可以快速发现样本间的串扰情况。另外实验过程中的接头污染、引物污染等也能够通过组合信息被发现并被过滤掉,降低背景信号,提高检测性能。

  在本发明的一些实施例中,在所述第一扩增之后进一步包括:利用液相探针对所述扩增产物进行杂交捕获,以便获得目标区域产物;基于所述目标区域产物进行第二扩增,以便获得所述测序文库。借助于液相探针可以针对性的富集与肿瘤相关基因中目标区域,实验通过一次DNA检测进行多基因多位点的深度高通量测序,同时检测基因的多种变异类型,包括点突变,缺失,插入,融合基因,拷贝数变异,并可同时输出MSI、TMB和分子分型检测结果,在检测广度上优于现有的技术。

  附图说明

  图1是根据本发明的实施例提供的一种设计组合标签的方案的示意图。

  图2是根据本发明的实施例提供的一种设计组合标签的方案的示意图。

  图3是根据本发明的实施例提供的组合标签接头的制备流程图。

  图4是根据本发明的实施例提供的组合标签接头退火后的质控结果图。

  图5是根据本发明的实施例提供的利用不同接头对HD777-1%突变频率标准品进行测序,测序平均深度结果图。

  图6是根据本发明的实施例提供的基于接头利用不同流程对不同标准品进行测序,测序平均结果图。

  图7是根据本发明的实施例提供的利用不同流程来证明组合标签接头有效性方案的示意图。

  具体实施方式

  下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

  在对待检测核酸分子进行测序的过程中,通常引入标签序列使得每个待检测的核酸恩分子上带有唯一的表示序列,来提高测序深度。为了行使标签序列的识别功能以及防污染功能,标签序列设计长度、种类、汉明距离等参数均有一定的要求。例如设计的标签序列的长度为3,汉明距离为3的标签只有四条,数量太少在应用上不太现实。因此设计可用的测序效果较佳的标签序列,用于测序,对于节约测序成本,提高测序质量很重要。

  在设计标签序列时,通常情况下的设计思路是首先确定某个具体应用中一个样本所需要的标签数量,然后确定一次NGS测序最大能够检测多少个样本,两者相乘即为总标签数量。根据需求标签的数量选择标签的最短长度,来获取标签序列,用于测序领域。

  在本发明的至少一些实施方式中,通过下述方法获取组合标签:(1)根据标签长度设计多个标签序列;(2)对所述多个标签序列进行分组,每组至少2条标签序列,其中组内任意两个标签序列的汉明距离大于等于2,优选至少为3,组间任意两个标签序列的汉明距离大于等于1,优选至少为2。通过该方法获取的组合标签,每组标签对应到一个样本index上,从而实现样本的区分。

  在至少一些实施方式中,例如如图1所示,(1)首先按照组合标签长度(例如长度为6)、一定GC含量(例如50%)来进行设计;(2)将长度为6的标签序列按照2个碱基一组分为三部分,每部分GC含量50%,因此每部分可得到AC、T G、C T、G A、AG、T C、C A、G T这8个短序列,且这8个序列中两两之间汉明距离大于等于1;(3)将三个部分的序列进行组合,可得到512条(8×8×8)长度为6的标签,且标签互相之间汉明距离至少为1,每条标签GC含量仍然为50%,且不会存在连续3个相同碱基的情况。对512条序列进行分组,例如如图2所示,实施例中每组包含2条标签,例如组A中含有标签序列1和标签序列2,组B中含有标签序列3和标签序列4,依次类推;通过分组获得组内汉明距离大于等于2,组间汉明距离大于等于1的标签。

  在确定标签长度时,所确定的标签长度可以是4-8个不等,所确定的每个标签序列中的GC含量可以在20~80%之间。另外,在对多个标签序列进行分组时,也可以根据需要,每组含有2~8个标签,例如可以每组含有两个标签序列,含有四个标签序列或者含有六个标签序列等。通过分组使得组内任意2个标签之间汉明距离大于等于2,优选大于等于3,组间任意两个标签之间汉明距离大于等于1,优选大于等于2。

  为此,在本发明的至少一些实施方式中,本发明提供了一种组合标签,包括至少两组标签,所述至少两组标签的每一组含有至少两个标签序列,所述至少两组标签的每一组内任意标签序列间的汉明距离大于等于2,优选大于等于3,所述至少两组标签的每一组间任意标签序列间的汉明距离大于等于1,优选大于等于2。

  上述组合标签应用于测序过程中,每组标签用于标记一个样本,能够有效增加测序深度。例如设计的一组组合标签A,包括标签序列1和标签序列2,其在测序过程中,考虑到连接到待测核酸分子的两端,会产生四种组合,例如标签序列1-标签序列1,标签序列1-标签序列2,标签序列2-标签序列1,标签序列2-标签序列2,这样针对同一个样本,就会产生四种组合;同样地,涉及一组组合标签B,包括标签序列3和标签序列4,相似地,在测序过程中也会产生四种组合。由此通过多种组合,增加测序深度。而且一个样本对应了唯一的一组标签,不同样本对应不同的标签组合,可以减少样本之间的污染。

  组合标签位于待测核酸分子两侧,即两者共用同一个测序引物。这种设计方式会损失一定的测序长度,因此分子标签不宜过长,为了保证标签间汉明距离,标签也不会太短。标签长度4-10碱基比较合适,标签长度4-6碱基测序效果较优。为了保证标签的测序质量,对于不同标签的同一位置,A/T/G/C 4种碱基百分比各为25%为最优,标签序列中避免出现连续的3个碱基。为了保证标签正常退火,标签本身GC含量应大于20%,小于80%,最适为50%。

  下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。例如可以通过一些市售的试剂盒中的试剂或者借助于本领域成熟的技术和条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。

  实施例1组合标签及其制备

  实施例1提供了一种组合标签的设计方案。所提供的设计方案参照图1和2所示:

  1)首先按照组合标签长度为6、GC含量50%来进行设计标签序列;

  2)将长度为6的标签序列按照2个碱基一组分为三部分,每部分GC含量50%,因此每部分可得到AC、T G、C T、G A、AG、T C、C A、G T这8个短序列,且这8个序列中两两之间汉明距离大于等于1;

  3)将三个部分的序列进行组合,可得到512条(8×8×8)长度为6的标签,且标签互相之间汉明距离至少为1,每条标签GC含量仍然为50%,且不会存在连续3个相同碱基的情况。

  4)对512条序列进行挑选和分组,实施例中每组包含2条标签,通过分组获得组内汉明距离大于等于2,组间汉明距离大于等于1的标签,根据标签信息订制接头序列。

  基于上述方案所设计的组合标签为:

  以组合标签A为例,其含有标签序列ACGTAC和TGCATG(已示在实施例2表1中组合标签接头A中,下划线处的碱基即为所设计的标签序列)。

  以组合标签B为例,其含有标签序列GAACGT和CTTGCA已示在实施例2表1中组合标签接头A中,下划线处的碱基即为所设计的标签序列)。

  具体的其他的组合标签C、组合标签D、组合标签E、组合标签F、组合标签G、组合标签H中含有的标签序列已经在实施例2表1中组合标签接头C、组合标签接头D、组合标签接头E、组合标签接头F、组合标签接头G、组合标签接头H中示出。

  实施例2组合标签接头制备方法

  将实施例1所设计的组合标签和接头连接,获得组合标签接头,以BGI-SEQ500测序平台序列为例,订购以下标签接头序列,其中在组合标签接头的一端(3’末端)设计为单碱基突出末端,所述单碱基突出末端为T,能够在建库时方便与末端加A的DNA进行连接:

  表1组合标签接头

  

  

  以组合标签接头A为例,参照图3所示,组合标签接头A中包含两种组合标签接头,即A1和A2,以A1为例,图3下半部分方框中ACGTAC即代表组合标签接头中含有的标签序列,同一方框中下方序列TGCATG代表该标签序列的反向互补序列。两条序列反向互补(加粗区域即为互补区),然后通过退火形成双链A1。A2也进行相同的操作,获得双链A2。将A1和A2等体积混合,形成最终组合标签接头A。具体可以参照如下操作:

  首先进行接头正负链退火,然后将同一组的标签接头混合、稀释制备组合标签接头工作液:

  将以上序列使用OAB缓冲液稀释为100μM并按照对应编号退火,例如YUC192_2X2AD_L_A1与YUC192_2X2AD_R_A1等体积混合,混合后编号为YUC192_2X2AD_A1并放到PCR仪上退火。退火程序为:95℃,2min;1℃/min降温速率降温至20℃。退火后的接头再次两两等体积混合,例如将YUC192_2X2AD_A1与YUC192_2X2AD_A2等体积混合,制备接头母液,编号为YUC192_2X2AD_A。制备的母液使用OAB缓冲液稀释5倍,即得到工作液。

  将所获得的工作液利用bio-analyzer2100进行质控检测,其结果如图4所示,从图4可以看出,所有接头的峰型均正常。

  实施例3组合标签接头对测序深度的提升及样本间污染的评估

  1、获取DNA样本。

  测试使用horizon公司商业标准品作为DNA样本,具体设置如下表2所示:

  表2不同DNA样本所使用的接头

  其中,YUC192_2*2AD_A代表实施例2所述的组合标签接头A,YUC192_2*2AD_B代表组合标签接头B,依次类推。常规接头-1,常规接头-2,常规接头-3分别指的是:Oseq-T产品文库构建试剂盒中所用到的商用接头,该商用接头中不含有组合标签序列,但该商用接头中含有index序列;本申请提供的组合标签接头中不含有index序列,通过后续PCR引入index序列。

  2、DNA文库构建及纯化。

  对以上标准品取50ng进行文库构建,使用KAPA LTP Library Preparation Kit试剂盒。首先配置以下组分,进行DNA末端修复:

  反应条件为:20℃,30分钟;4℃,holding,获得末端修复产物。

  然后使用试剂盒内磁珠在200μL PCR管中进行纯化。在70μL末端修复产物中加入120μL磁珠,最终溶解在30μL水中。

  然后按以下组分配置加“A”反应液:

  反应条件为:30℃,30min;4℃,holding。

  反应完成后,加入90μL的PEG/NaCl SPRI Solution开始纯化,溶解在32ul水中,按照以下组分配置连接反应液:

  反应条件为:16℃,连接过夜(12-16h)。然后加入50μL的PEG/NaCl SPRI Solution开始纯化,最终使用50μL的10mM Tris-Hcl(pH8.0)回溶。再次加入50μL的PEG/NaCl SPRISolution开始纯化,最终使用20μL的10mM Tris-Hcl(pH8.0)回溶,带磁珠PCR。

  3、DNA文库预扩增及纯化。

  采用表3中的各引物序列,按照以下组分配置PCR反应液,其中YUC_pre_Rx(x为index号,分别用于样本1~样本8的扩增),YUC_pre_L为通用序列:

  表3各引物序列

  

  将配置好的溶液放到PCR仪中,运行以下程序:

  

  

  PCR反应完成后,使用AMPure XP磁珠在200μLPCR管中进行纯化。步骤为:

  100μL PCR产物中加入100ul AMPure XP磁珠,室温放置10分钟,上磁力架静置3分钟,吸弃上清。加入150μL 75%乙醇,静置30秒,吸弃上清。加入150μL75%乙醇,静置30秒,吸弃上清并吸走残留液体。室温晾干至磁珠表面呈哑光,加入35μLNF水,吹打混匀并静置5分钟,上磁力架并收集上清。

  然后使用Qubit HS定量试剂盒定量。

  4、目标区域捕获、扩增及纯化。

  将8个样本进行混样,每个样本500ng,总量为4μg。按照下表配置混合液:

  使用旋转蒸发仪60℃蒸干以上混合液,再加入以下组分:

  其中,Block_1和Block_2为常规寡核苷酸序列,与接头序列部分互补,用来封闭接头序列,以免影响后续目标区域的捕获。将配好的反应液放置在PCR仪上,运行程序:95℃,10min。反应完成后,待反应液平衡至室温,加入4.5μl的Exome library,并吹打混匀。将反应液放入PCR仪中,运行程序:47℃,64h,热盖温度57℃。

  上述反应将要完成时,取出100μl的M280链霉亲和素磁珠(M280SA)加入到200μlPCR管中,上磁力架,吸弃上清。使用200μl的binding buffer洗涤、上架、弃上清,此过程再重复2次,最后使用100μl的binding buffer重悬磁珠。将上述杂交反应液转移至重悬的磁珠中,并涡旋混匀,放入PCR仪中,47℃孵育45分钟,热盖温度57℃,每15分钟取出涡旋混匀一次。磁珠结合完毕后,反应液上磁力架,弃上清并加入预热至47℃的100μl 1×washbuffer#1,涡旋10次,上磁力架弃上清。加入预热至47℃的200μl 1×stringent,在PCR仪上47℃孵育5分钟,上磁力架弃上清,此步骤重复一次。加入预热至47℃的200μl 1×washbuffer#2,涡旋1分钟,上磁力架弃上清。加入预热至47℃的200μl 1×wash buffer#3,涡旋30秒,上磁力架弃上清。最后加入40μl的NF水重悬磁珠。在装有M-280SA磁珠的PCR管中加入以下反应液:

  捕获后PCR引物为通用引物,序列见下表4:

  表4PCR引物

  

  将配置好的溶液放到PCR仪中,运行以下程序:

  

  PCR反应完成后,使用AMPure XP磁珠在200μl PCR管中进行纯化。50μl PCR产物中加入75μlAMPure XP磁珠,室温放置10分钟,上磁力架静置3分钟,吸弃上清。加入150μl75%乙醇,静置30秒,吸弃上清。加入150μl 75%乙醇,静置30秒,吸弃上清并吸走残留液体。室温晾干至磁珠表面呈哑光,加入35μl NF水,吹打混匀并静置5分钟,上磁力架并收集上清。使用Qubit HS定量试剂盒定量。

  5、测序及数据分析。

  将上步构建好的文库经电泳检测合格后进行BGISEQ-500/1000测序仪测序。取构建的单链环状DNA文库进行DNA纳米球制备、BGISEQ-500/1000上机测序。测序过程严格按照BGISEQ-500/1000的标准操作流程进行上机操作。通过对测序得到的序列进行比对、去重等处理,对样本的有效测序深度进行分析。

  同一样本数据分别使用三套流程进行分析,如图7所示:(1)常规分析。将组合标签隐去,对测序数据进行分析;(2)使用常规分析+UMI分析。使用分子标签来区分起止坐标相同的DNA分子,如深度增加说明UMI发挥功能;(3)使用常规分析+UMI分析+纠错分析。对一个样本的分子标签进行区分,如标签不属于此样本的组合种类,但属于其他样本的组合种类,则可判定为串扰(污染)数据。如发现此类情况,则可判断纠错功能发挥作用,由于纠错后会损失掉一些数据,推测深度会有所降低。分别使用三套流程分析,统计去重复后平均有效深度,基本符合预期(表5)。

  表5不同处理的测序深度结果

  

  表5示出的结果以样本1为例,首先使用常规分析,即在分析时将标签序列剪切掉,再进行分析,获得的测序深度为946.81。然后使用标签序列的UMI功能,能够发现测序深度增加了,为1060。最后同时使用标签序列的UMI功能,并且使用标签的防污染功能进行数据过滤,深度降低了一部分,为1039,相当于去掉了一些污染(1060-1039=21)。

  分析样本1、2、3、9、10、11,同一标准品,相同起始量,分别采用组合标签接头(UMI功能+纠错功能)与常规接头相比,测序深度有显著提升。分别将样本1、样本2和样本3使用组合标签接头所获得的测序深度求平均值,与样本9、样本10和样本11使用常规接头分析所获得的平均测序深度进行比较,如图5所示。

  同时分析前8例样本,分析如下几种情况:

  (1)无标签序列参考时有效深度;(2)分析流程使用组合标签接头的UMI功能时的有效深度;(3)分析流程使用组合标签接头的UMI和纠错功能时的有效深度。

  其结果如图6所示,8例样本在使用组合标签接头的UMI功能后,有效深度增加了10%左右,加入纠错功能后深度降低了1%。加入纠错功能后引起的深度略微降低,是有效排除了样本之间污染引起的。

  将样本index信息与组合标签信息进行比对,其比对结果如表6所示,其中大部分组合标签对应到了正确的index上。但是有少量不对应的情况,即为样本间的污染,说明组合标签序列能够有效的屏蔽样本间的污染。

  表6样本间串扰结果

  

  其中,表6中以样本1为例,其使用的为组合标签接头A,所用到的引物为index1,理想情况下,样本1的数据中都含有组合标签接头A以及index1的序列。但是实际上发现,含有index1的数据中有一部分带有组合标签接头B、组合标接头C、组合标签接头D、组合标签接头E、组合标签接头F、组合标签接头G、组合标签接头H等。若带有组合标签接头B,由于组合标签接头B应该和index2连锁,因此如果有组合标签接头B和index1连锁的情况,说明该数据是从样本2串扰过来的。由此,计算污染样本1的污染比例为(4610+7536+8221+20122+9770+11340+22699)/52514729*100%=0.16%。

  如果没有使用组合标签接头,只靠index序列来分辨样本,不能看到这种样本数据串扰污染的情况。

  其变异检出情况进行列表显示,如表7所示,8例样本变异信息与标准品信息相符。

  表7变异检测结果

  

  

  实施例4模拟引物污染,验证组合标签防污染性能

  1、测试样本选择及制备。

  测试使用HD777-阴性标准品及H1975细胞系基因组DNA。取50ng的H197550基因组DNA,使用不含核酸酶超纯水将其体积补齐至80ul。将液体转移至打断管内,放入核酸打断仪(Bioruptor pico)中。打断仪预冷至4℃,打断参数为:

  打断后使用AMPure XP磁珠在200ul PCR管中进行纯化。80ul打断产物中加入120ul AMPure XP磁珠,室温放置10分钟,上磁力架静置3分钟,吸弃上清。加入150ul 75%乙醇,静置30秒,吸弃上清。加入150ul 75%乙醇,静置30秒,吸弃上清并吸走残留液体。室温晾干至磁珠表面呈哑光,加入30ul NF水,吹打混匀并静置5分钟,上磁力架并收集上清。使用Qubit HS定量试剂盒定量。

  2、文库构建、捕获及测序。

  此实施例实验过程与实施例3一致,不再重复描述。其中,模拟H1975样本引物污染到HD777-阴性标准品中的情况,具体见下表:

  

  其中样本2(H1975细胞DNA)为强阳性样本,在其文库中加入比例20%的YUC_pre_R1引物,因此其数据会有一部分在样本1(HD777-阴性标准品)中体现,即样本2污染了样本1。

  3、数据分析。

  分析样本1与样本2变异信息,如表8所示。由于H1975为EGFR基因T790M、L858R变异强阳性样本,频率分别为72.51%和67.68%,并且一部分数据通过实验人为串扰到HD777-阴性样本中,在无组合标签纠错时,HD777-阴性样本检出了相应的变异,频率分别为2.32%和3.64%,属于假阳性。通过组合标签纠错,两个位点的变异均被过滤掉,因此组合标签序列有效防止了由于引物污染所带来的样本间数据串扰。

  表8样本变异信息

  

  

  此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

  在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

  尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

  SEQUENCE LISTING

  <110> 天津华大医学检验所有限公司,深圳华大基因股份有限公司

  <120> 组合标签、组合标签接头及其应用

  <130> PIDC3192971

  <160> 43

  <170> PatentIn version 3.5

  <210> 1

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_A1

  <400> 1

  gaacgacatg gctacgatcc gacttacgta ct 32

  <210> 2

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_A2

  <400> 2

  gaacgacatg gctacgatcc gactttgcat gt 32

  <210> 3

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_A1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 3

  gtacgtaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 4

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_A2

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 4

  catgcaaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 5

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_B1

  <400> 5

  gaacgacatg gctacgatcc gacttgaacg tt 32

  <210> 6

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_B2

  <400> 6

  gaacgacatg gctacgatcc gacttcttgc at 32

  <210> 7

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_B1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 7

  acgttcaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 8

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_B2

  <220>

  <221> misc_feature

  <222> (1)..()

  <223> 磷酸化

  <400> 8

  tgcaagaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 9

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_C1

  <400> 9

  gaacgacatg gctacgatcc gacttacacg tt 32

  <210> 10

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_C2

  <400> 10

  gaacgacatg gctacgatcc gactttgtgc at 32

  <210> 11

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_C1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 11

  acgtgtaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 12

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_C2

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 12

  tgcacaaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 13

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_D1

  <400> 13

  gaacgacatg gctacgatcc gacttgagta ct 32

  <210> 14

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_D2

  <400> 14

  gaacgacatg gctacgatcc gacttctcat gt 32

  <210> 15

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_D1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 15

  gtactcaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 16

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_D2

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 16

  catgagaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 17

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_E1

  <400> 17

  gaacgacatg gctacgatcc gacttaccaa ct 32

  <210> 18

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_E2

  <400> 18

  gaacgacatg gctacgatcc gactttggtt gt 32

  <210> 19

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_E1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 19

  gttggtaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 20

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_E2

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 20

  caaccaaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 21

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_F1

  <400> 21

  gaacgacatg gctacgatcc gacttgatgg tt 32

  <210> 22

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_F2

  <400> 22

  gaacgacatg gctacgatcc gacttctacc at 32

  <210> 23

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_F1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 23

  accatcaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 24

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_F2

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 24

  tggtagaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 25

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_G1

  <400> 25

  gaacgacatg gctacgatcc gacttactgg tt 32

  <210> 26

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_G2

  <400> 26

  gaacgacatg gctacgatcc gactttgacc at 32

  <210> 27

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_G1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 27

  accagtaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 28

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_G2

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 28

  tggtcaaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 29

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_H1

  <400> 29

  gaacgacatg gctacgatcc gacttgacaa ct 32

  <210> 30

  <211> 32

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_L_H2

  <400> 30

  gaacgacatg gctacgatcc gacttctgtt gt 32

  <210> 31

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_H1

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 31

  gttgtcaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 32

  <211> 38

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC192_2X2AD_R_H2

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 32

  caacagaagt cggaggccaa gcggtcttag gaagacaa 38

  <210> 33

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R1

  <400> 33

  tgtgagccaa ggagttgatc ggacctattg tcttcctaag accgcttggc c 51

  <210> 34

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R2

  <400> 34

  tgtgagccaa ggagttggat tccgtccttg tcttcctaag accgcttggc c 51

  <210> 35

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R3

  <400> 35

  tgtgagccaa ggagttgcgg cagtaagttg tcttcctaag accgcttggc c 51

  <210> 36

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R4

  <400> 36

  tgtgagccaa ggagttgtca attaggtttg tcttcctaag accgcttggc c 51

  <210> 37

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R5

  <400> 37

  tgtgagccaa ggagttgcgg atacgaattg tcttcctaag accgcttggc c 51

  <210> 38

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R6

  <400> 38

  tgtgagccaa ggagttggct cgttaccttg tcttcctaag accgcttggc c 51

  <210> 39

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R7

  <400> 39

  tgtgagccaa ggagttgtta tacgttgttg tcttcctaag accgcttggc c 51

  <210> 40

  <211> 51

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_Pre_R8

  <400> 40

  tgtgagccaa ggagttgaac gcgacgtttg tcttcctaag accgcttggc c 51

  <210> 41

  <211> 17

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> YUC_pre_L

  <400> 41

  gaacgacatg gctacga 17

  <210> 42

  <211> 17

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> Flowcell primers F

  <220>

  <221> misc_feature

  <222> (1)..(1)

  <223> 磷酸化

  <400> 42

  gaacgacatg gctacga 17

  <210> 43

  <211> 17

  <212> DNA

  <213> Artificial Sequence

  <220>

  <223> Flowcell primers R

  <400> 43

  tgtgagccaa ggagttg 17

《组合标签、组合标签接头及其应用.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)