欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 用于定相测序的方法和组合物独创技术144857字

用于定相测序的方法和组合物

2021-02-04 10:59:57

用于定相测序的方法和组合物

  交叉引用

  本申请要求于2016年8月30日提交的美国临时申请62/381,547的权益,该临时申请通过引用以其全文并入本文。

  背景技术

  下一代测序(NGS)技术可以允许对来自不同来源的大量核酸分子进行同时的高通量测序。然而,测序读取长度的限制可能使得难以确定在测序反应中可读取的遗传变异是源自相同的核酸分子还是源自不同的核酸分子。

  援引并入

  本说明书中所提到的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。如果通过引用而并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾,则本说明书旨在取代和/或优先于任何这样的矛盾材料。

  发明内容

  在一些方面,本公开内容提供了一种方法,其包括:a)提供包含多个核酸的样品,其中所述多个核酸包含核酸链,其中所述核酸链包含含有延长序列和分子条形码的衔接子,其中所述延长序列与所述核酸链中的核酸序列的至少一部分互补;b)使所述延长序列与所述核酸链中的所述核酸序列的所述部分退火,从而生成部分双链体核酸链,其中所述部分双链体核酸链包含含有单链区的5’部分和含有与所述核酸序列的所述部分形成分子内双链体的所述延长序列的3’部分;以及c)使用所述部分双链体核酸链的所述5’部分作为模板,用聚合酶延伸所述延长序列,从而生成延伸的核酸。在一些实施方案中,所述核酸链在单链核酸中。在一些实施方案中,所述核酸链在双链核酸中。在一些实施方案中,所述核酸链的3’端包含所述衔接子。在一些实施方案中,所述衔接子的3’端包含所述延长序列。在一些实施方案中,所述延伸的核酸包含含有杂交区和非杂交区的茎环结构。在一些实施方案中,所述杂交区包含第一链和第二链,其中所述第一链包含所述延伸的核酸的5’端,并且所述第二链包含所述延伸的核酸的3’端。在一些实施方案中,所述第二链的5’端包含所述延长序列。在一些实施方案中,所述非杂交区在所述第一链的3’侧。在一些实施方案中,所述非杂交区的3’端包含所述分子条形码。在一些实施方案中,所述核酸链包含DNA。在一些实施方案中,所述核酸链包含cDNA。在一些实施方案中,所述核酸链包含基因组DNA。在一些实施方案中,包含所述衔接子的所述核酸链由基因组DNA生成。在一些实施方案中,包含所述衔接子的所述核酸链由无细胞核酸生成。在一些实施方案中,包含所述衔接子的所述核酸链由来自细胞的核酸生成。在一些实施方案中,包含所述衔接子的所述核酸链由来自生物样品的核酸生成。在一些实施方案中,包含所述衔接子的所述核酸链由来自无细胞样品的核酸生成。在一些实施方案中,所述核酸链由RNA生成。在一些实施方案中,所述方法进一步包括在步骤a)之前逆转录所述RNA。在一些实施方案中,所述方法进一步包括将所述衔接子附加到核酸分子上,以生成包含所述衔接子的所述核酸链。在一些实施方案中,所述附加通过连接进行。在一些实施方案中,所述附加通过聚合酶链反应(PCR)进行。在一些实施方案中,所述PCR用包含与所述第一衔接子互补的序列的寡核苷酸进行。在一些实施方案中,所述寡核苷酸进一步包含与模板核酸的至少一部分互补的序列。在一些实施方案中,所述寡核苷酸的3’端包含与所述模板核酸的所述至少一部分互补的所述序列。在一些实施方案中,与所述模板核酸的所述至少一部分互补的所述序列包含随机序列。在一些实施方案中,与所述模板核酸的所述至少一部分互补的所述序列包含与所述模板核酸的所述部分的完全互补性。在一些实施方案中,所述方法进一步包括在所述附加后纯化包含所述第一衔接子的所述核酸链。在一些实施方案中,所述纯化包括在步骤a之前去除一个或多个未附加的衔接子。在一些实施方案中,所述纯化包括酶消化所述一个或多个未附加的衔接子。在一些实施方案中,所述酶消化包括使用外切核酸酶。在一些实施方案中,所述一个或多个未附加的衔接子包含尿嘧啶,其中所述去除所述一个或多个未附加的衔接子包括使用尿嘧啶-DNA糖基化酶、内切核酸酶或两者。在一些实施方案中,所述纯化包括使用固相可逆固定来去除所述一个或多个未附加的衔接子。在一些实施方案中,所述纯化包括使用基于柱的固相提取来去除所述一个或多个未附加的衔接子。在一些实施方案中,所述纯化包括使用凝胶过滤。在一些实施方案中,所述方法进一步包括在步骤a)之前对包含所述衔接子的所述核酸链进行扩增。在一些实施方案中,所述方法进一步包括在步骤a)之前使包含所述第一衔接子的双链DNA分子变性,从而生成包含含有所述第一衔接子的所述核酸链的单链核酸。在一些实施方案中,所述变性包括使用酶来降解所述双链DNA分子的链。在一些实施方案中,所述酶是外切核酸酶。在一些实施方案中,所述外切核酸酶是λ外切核酸酶。在一些实施方案中,所述变性包括:对所述双链DNA分子的链进行生物素化,以生成生物素化的双链DNA分子;使所述生物素化的双链DNA分子与链霉亲和素包被的表面结合;以及洗涤所述表面以释放非生物素化的DNA链,从而使所述双链DNA分子变性。在一些实施方案中,所述变性包括加热所述双链DNA分子。在一些实施方案中,所述变性包括碱变性。在一些实施方案中,所述延长序列包含随机序列。在一些实施方案中,所述延长序列与所述核酸序列的所述部分基本上或完全互补。在一些实施方案中,所述分子条形码包含随机或半随机序列。在一些实施方案中,所述样品中的所述多个核酸包含含有独特分子条形码的第一衔接子。在一些实施方案中,所述多个核酸中的所述第一衔接子进一步包含所述多个单链核酸中的每一个所共有的第二条形码。在一些实施方案中,通过所述延伸的核酸中的所述延伸生成的3’延伸部分包含约100个碱基至约400个碱基的长度。在一些实施方案中,通过所述延伸的核酸中的所述延伸生成的3’延伸部分包含约400个碱基至约500个碱基的长度。在一些实施方案中,所述方法进一步包括将另外的衔接子附加到所述延伸的核酸上。在一些实施方案中,所述附加通过连接进行。在一些实施方案中,所述附加通过聚合酶链反应进行。在一些实施方案中,所述聚合酶链反应包括使用一个或多个寡核苷酸,所述一个或多个寡核苷酸包含含有所述另外的衔接子的5’部分和含有与通过所述延伸的核酸中的所述延伸生成的3’延伸部分互补的序列的3’部分。在一些实施方案中,所述另外的衔接子附加在所述延伸的核酸的3’端。在一些实施方案中,所述方法进一步包括对附加到所述另外的衔接子上的所述延伸的核酸进行扩增。在一些实施方案中,所述扩增用第一引物和第二引物进行,其中所述第一引物与所述第一衔接子或其互补体退火,并且其中所述第二引物与所述第二衔接子或其互补体退火。在一些实施方案中,所述方法进一步包括对所述扩增的产物进行测序以生成测序读取。在一些实施方案中,所述测序包括大规模平行测序。在一些实施方案中,所述方法进一步包括对所述测序读取进行定相,以确定所述多个核酸中两个或更多个感兴趣的核酸序列的分子起源。在一些实施方案中,所述方法进一步包括使挂锁探针(padlock probe)与所述延伸的核酸退火,其中所述挂锁探针包含通过连接体序列连接的5’端和3’端。在一些实施方案中,所述方法进一步包括延伸所述挂锁探针的所述3’端,以生成包含所述挂锁探针和与所述核酸序列的所述部分互补的序列的延伸核酸。在一些实施方案中,所述方法进一步包括连接包含所述挂锁探针和与所述核酸序列的所述部分互补的所述序列的所述延伸核酸的5’端和3’端,从而生成包含所述挂锁探针和与所述核酸序列的所述部分互补的所述序列的环化核酸。在一些实施方案中,所述方法进一步包括对所述环化核酸进行扩增,从而生成包含所述分子条形码和与测序引物互补的序列的线性化核酸。在一些实施方案中,所述扩增通过PCR进行。在一些实施方案中,所述方法进一步包括对所述线性化核酸进行测序以生成测序读取。在一些实施方案中,所述测序包括大规模平行测序。在一些实施方案中,所述方法进一步包括对所述测序读取进行定相,以确定所述多个核酸中两个或更多个感兴趣的核酸序列的分子起源。

  在一些方面,本公开内容提供了一种茎环核酸,其包含:含有第一链和第二链的杂交区,其中所述第一链包含所述茎环核酸的5’端,其中所述第二链包含所述茎环核酸的3’端,其中所述第二链的所述杂交区的5’部分包含衔接子的第一部分,该衔接子的第一部分与所述第一链的所述杂交区的3’部分杂交;以及在所述第一链的所述杂交区的3’侧的非杂交区,其中所述非杂交区包含含有所述衔接子的第二部分的3’部分,其中所述第二部分包含条形码。在一些实施方案中,所述茎环核酸包含DNA。在一些实施方案中,所述茎环核酸包含cDNA。在一些实施方案中,所述茎环核酸由RNA通过逆转录生成。在一些实施方案中,所述茎环核酸包含基因组DNA。在一些实施方案中,所述茎环核酸由基因组DNA生成。在一些实施方案中,所述茎环核酸由无细胞核酸生成。在一些实施方案中,所述茎环核酸由来自细胞的核酸生成。在一些实施方案中,所述茎环核酸由来自生物样品的核酸生成。在一些实施方案中,所述茎环核酸由来自无细胞样品的核酸生成。在一些实施方案中,所述条形码包含随机序列。在一些实施方案中,所述杂交区具有约100个碱基对至约500个碱基对的长度。在一些实施方案中,所述杂交区具有约400个碱基对至约500个碱基对的长度。

  在一些方面,本公开内容提供了一种茎环核酸,其包含:含有第一链和第二链的杂交区,其中所述第一链包含所述茎环核酸的5’端,其中所述第二链包含所述茎环核酸的3’端,其中所述第二链的5’端包含与所述第一链的3’端杂交的衔接子的第一部分;以及在所述第一链的3’侧的非杂交区,其中所述非杂交区包含含有所述衔接子的第二部分的3’端,其中所述第二部分包含条形码。在一些实施方案中,所述茎环核酸包含DNA。在一些实施方案中,所述茎环核酸包含cDNA。在一些实施方案中,所述茎环核酸由RNA通过逆转录生成。在一些实施方案中,所述茎环核酸包含基因组DNA。在一些实施方案中,所述茎环核酸由基因组DNA生成。在一些实施方案中,所述茎环核酸由无细胞核酸生成。在一些实施方案中,所述茎环核酸由来自细胞的核酸生成。在一些实施方案中,所述茎环核酸由来自生物样品的核酸生成。在一些实施方案中,所述茎环核酸由来自无细胞样品的核酸生成。在一些实施方案中,所述条形码包含随机序列。在一些实施方案中,所述杂交区具有约100个碱基对至约500个碱基对的长度。在一些实施方案中,所述杂交区具有约400个碱基对至约500个碱基对的长度。

  在一些方面,本公开内容提供了一种茎环核酸,其包含:含有第一链和第二链的杂交区,其中所述第一链包含所述茎环核酸的5’部分,其中所述第二链包含所述茎环核酸的3’部分,其中所述第二链的5’端包含与所述第一链的3’端杂交的衔接子的第一部分;以及在所述第一链的3’侧的非杂交区,其中所述非杂交区包含含有所述衔接子的第二部分的3’部分,其中所述第二部分包含条形码。在一些实施方案中,所述茎环核酸包含DNA。在一些实施方案中,所述茎环核酸包含cDNA。在一些实施方案中,所述茎环核酸由RNA通过逆转录生成。在一些实施方案中,所述茎环核酸包含基因组DNA。在一些实施方案中,所述茎环核酸由基因组DNA生成。在一些实施方案中,所述茎环核酸由无细胞核酸生成。在一些实施方案中,所述茎环核酸由来自细胞的核酸生成。在一些实施方案中,所述茎环核酸由来自生物样品的核酸生成。在一些实施方案中,所述茎环核酸由来自无细胞样品的核酸生成。在一些实施方案中,所述条形码包含随机序列。在一些实施方案中,所述杂交区具有约100个碱基对至约500个碱基对的长度。在一些实施方案中,所述杂交区具有约400个碱基对至约500个碱基对的长度。

  在一些方面,本公开内容提供了一种核酸链,其在3’端包含衔接子,其中所述衔接子包含条形码和延长序列,其中所述延长序列被配置成与所述核酸链的一部分杂交,其中所述延长序列被配置成允许聚合酶进行延伸反应,以生成与所述核酸链互补的链的至少一部分。在一些实施方案中,所述核酸链包含DNA。在一些实施方案中,所述核酸链包含cDNA。在一些实施方案中,所述核酸链由RNA通过逆转录生成。在一些实施方案中,所述核酸链包含基因组DNA。在一些实施方案中,所述核酸链由基因组DNA生成。在一些实施方案中,所述核酸链由无细胞核酸生成。在一些实施方案中,所述核酸链由来自细胞的核酸生成。在一些实施方案中,所述核酸链由来自生物样品的核酸生成。在一些实施方案中,所述核酸链由来自无细胞样品的核酸生成。在一些实施方案中,所述条形码包含随机序列。在一些实施方案中,所述衔接子的3’端包含所述延长序列。在一些实施方案中,所述延长序列包含随机序列。在一些实施方案中,所述延长序列包含与所述核酸链的所述部分互补的序列。在一些实施方案中,所述核酸链在单链核酸中。在一些实施方案中,所述核酸链由包含所述衔接子的双链DNA分子生成。

  在一些方面,本公开内容提供了一种寡核苷酸,其包含:a)条形码;以及延长序列,其中所述延长序列或其互补体被配置成在将所述寡核苷酸附加到核酸链上时与所述核酸链的第一区域发生分子内退火。在一些实施方案中,所述延长序列的反向互补体被配置成在将所述寡核苷酸附加到所述核酸链上时与所述核酸链的所述第一区域发生分子内退火。在一些实施方案中,所述延长序列在所述寡核苷酸的5’端。在一些实施方案中,所述寡核苷酸进一步包含与所述核酸链的第二区域的至少一部分互补的序列。在一些实施方案中,与所述第二区域的所述至少一部分互补的所述序列在所述寡核苷酸的3’端。在一些实施方案中,所述附加包括聚合酶链反应。在一些实施方案中,所述附加包括连接。在一些实施方案中,所述条形码包含随机序列。在一些实施方案中,所述延长序列包含随机序列。在一些实施方案中,所述延长序列包含与所述核酸链的所述第一区域互补的序列。在一些实施方案中,延长序列被配置成允许聚合酶进行延伸反应,以生成与所述核酸链互补的链的至少一部分。

  在一些方面,本公开内容提供了一种试剂盒,其包含本公开内容的寡核苷酸。在一些实施方案中,试剂盒进一步包含使用说明。

  在一些方面,本公开内容提供了一种方法,其包括:a)将第一衔接子附加到多个核酸中的核酸上,从而生成包含所述第一衔接子的条形码化核酸,其中所述第一衔接子包含分子条形码,其中所述核酸包含第一靶区域和第二靶区域;b)对所述条形码化核酸进行扩增,从而生成扩增的条形码化核酸;c)将延长序列附加到所述扩增的条形码化核酸中的条形码化核酸上,从而生成包含所述延长序列的条形码化核酸,其中所述延长序列与所述条形码化核酸的链中的核酸序列的至少一部分互补,其中所述链包含所述延长序列和所述第一衔接子;d)使所述延长序列与所述条形码化核酸的所述链中的所述序列的所述部分退火,从而生成部分双链体核酸,其中所述部分双链体核酸包含含有单链区的5’部分和含有与所述核酸序列的所述部分形成分子内双链体的所述延长序列的3’部分;e)使用所述部分双链体核酸链的5’部分作为模板,用聚合酶延伸所述延长序列,从而生成延伸的核酸;f)将第二衔接子附加到所述延伸的核酸上,从而生成包含所述第一衔接子和所述第二衔接子的延伸核酸,其中所述第二衔接子包含与测序引物互补的序列;以及g)用第一引物和第二引物对包含所述第一衔接子和所述第二衔接子的所述延伸核酸进行扩增,其中所述第一引物与所述第一衔接子或其互补体退火,并且其中所述第二引物与所述第二衔接子或其互补体退火。在一些实施方案中,所述方法进一步包括对所述扩增的产物进行测序以生成测序读取。在一些实施方案中,所述方法进一步包括对所述测序读取进行定相,以确定所述第一靶区域和所述第二靶区域的分子起源。在一些实施方案中,所述方法进一步包括将包含条形码的第一衔接子附加到所述多个核酸中的两个或更多个核酸上,从而生成附加到所述第一衔接子上的多个核酸,其中附加到所述第一衔接子的所述多个核酸中的每一个中的所述条形码是独特的。在一些实施方案中,所述延长序列的所述附加通过PCR进行。在一些实施方案中,所述PCR包括使用包含所述延长序列的互补体的寡核苷酸。在一些实施方案中,所述第一衔接子的所述附加通过PCR进行。在一些实施方案中,所述PCR包括使用包含所述第一衔接子的互补体和与所述核酸中的核酸序列的至少一部分互补的序列的寡核苷酸。在一些实施方案中,所述延长序列在包含所述延长序列的所述条形码化核酸的3’端。在一些实施方案中,所述核酸包含基因组DNA、cDNA或RNA。在一些实施方案中,所述核酸由基因组DNA或RNA生成。在一些实施方案中,所述第一靶区域和所述第二靶区域在所述核酸中相距约200个碱基至约25,000个碱基。在一些实施方案中,所述第一靶区域和所述第二靶区域在所述核酸中相距约500个碱基至约20,000个碱基。在一些实施方案中,所述第一靶区域和所述第二靶区域在所述核酸中相距约1000个碱基至约15,000个碱基。在一些实施方案中,所述第一靶区域、所述第二靶区域或两者包含相对于野生型序列的单核苷酸变化。在一些实施方案中,所述第一靶区域和所述第二靶区域包含由内含子分隔开的外显子组的区域。在一些实施方案中,所述第一靶区域、所述第二靶区域或两者包含基因组DNA或RNA中的单核苷酸多态性、拷贝数变异或序列重排事件。在一些实施方案中,所述方法进一步包括在步骤c)之前纯化包含所述第一衔接子的所述条形码化核酸。在一些实施方案中,所述纯化包括去除一个或多个未附加的第一衔接子。在一些实施方案中,所述纯化包括酶消化所述一个或多个未附加的第一衔接子。在一些实施方案中,所述酶消化包括使用外切核酸酶。在一些实施方案中,所述第一衔接子包含尿嘧啶,其中所述去除所述一个或多个未附加的第一衔接子包括使用尿嘧啶-DNA糖基化酶、内切核酸酶或两者。在一些实施方案中,所述纯化包括使用固相可逆固定来去除所述一个或多个未附加的第一衔接子。在一些实施方案中,所述纯化包括使用基于柱的固相提取来去除所述一个或多个未附加的第一衔接子。在一些实施方案中,所述纯化包括使用凝胶过滤。

  在一些方面,本公开内容提供了一种方法,其包括a)将条形码附加到来自多个亲本多核苷酸的亲本核酸上,其中所述亲本核酸包含第一靶区域和第二靶区域,从而生成条形码化核酸;b)从所述条形码化核酸生成第一核酸分子和第二核酸分子,其中所述第一核酸分子和所述第二核酸分子的长度比所述亲本核酸短,其中所述第一核酸分子包含所述条形码和所述第一靶区域但不包含所述第二靶区域,其中所述第二核酸分子包含所述条形码和所述第二靶区域但不包含所述第一靶区域;c)对所述第一核酸分子和所述第二核酸分子进行测序以获得测序读取;以及d)对所述测序读取进行定相,以确定所述第一靶区域和所述第二靶区域的分子起源;其中,相对于在不存在步骤c)的情况下直接对所述亲本核酸进行测序,所述定相的测序覆盖度降低至少约10倍。在一些实施方案中,相对于在不存在步骤c)的情况下对所述亲本核酸测序,所述定相的测序覆盖度降低至少约20倍。在一些实施方案中,相对于在不存在步骤c)的情况下对所述亲本核酸进行测序,所述定相的测序覆盖度降低至少约30倍。在一些实施方案中,相对于在不存在步骤c)的情况下对所述亲本核酸进行测序,所述定相的测序覆盖度降低至少约40倍。在一些实施方案中,所述方法进一步包括在步骤c)之前将一个或多个延长序列附加到所述条形码化核酸上,其中所述一个或多个延长序列包含与所述条形码化核酸的链的至少一部分互补的序列,其中所述链包含所述条形码。

  在一些实施方案中,本公开内容的方法包括对所述方法的一个或多个步骤进行多重化。

  附图说明

  本公开内容的新颖特征在所附的权利要求书中具体阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述和附图,将会获得对本公开内容的特征和优点的更好理解,在这些附图中:

  图1描绘了用于对核酸分子进行标记和扩增的说明性方案。

  图2描绘了用于制备用于NGS的条形码化且扩增的核酸(例如,DNA)分子的说明性方案。

  图3图示了包含分子特异性条形码的示例性衔接子。该衔接子可包含或可不包含延长引发序列。

  图4示出了用于将衔接子附加到例如RNA分子上的说明性方案。可在逆转录或第二链的cDNA链生成期间附加衔接子。附加可通过例如连接或延长进行。

  图5示出了用于将衔接子附加到例如DNA(例如,cDNA、基因组DNA、无细胞DNA)分子上的说明性方案。附加可通过例如连接或延长进行。

  图6示出了用于附加可不包含延长引发序列的衔接子的说明性方案。

  图7示出了用于对标记的核酸进行扩增的说明性方案,该标记的核酸在例如5’末端处包含延长引发序列或其互补体。

  图8示出了用于对标记的核酸进行扩增的说明性方案,该标记的核酸在例如5’末端处包含PCR引发序列或其互补体。

  图9示出了用于对不包含延长引发序列或其互补体的标记的核酸进行扩增的说明性方案。可以使用例如扩增引物将延长引发序列或其互补体附加到标记的核酸上。

  图10示出了用于从标记的核酸中去除末端PCR引物区段的说明性方案。

  图11示出了当已经通过例如dUTP和平端化去除PCR引发序列时从双链核酸(例如,dsDNA)生成单链核酸(例如,ssDNA)的说明性方案。

  图12示出了当PCR引物区段不在5’末端并且尚未去除时从双链核酸生成单链核酸的说明性方案。

  图13示出了使用链霉亲和素包被的珠子从双链核酸生成单链核酸的说明性方案。

  图14示出了用于单链核酸分子的分子内延长的说明性方案。该延长可以是完整的或部分的。

  图15图示了一种选项,其中单链核酸的分子内延长可限制于NGS读取长度。

  图16图示了聚合酶和随机寡核苷酸(randomer)长度对标记的长核酸分子的覆盖度均匀性的影响。

  图17图示了聚合酶和随机寡核苷酸长度对标记的核酸分子的序列覆盖度完整性的影响。

  图18图示了延长序列组成对标记的长DNA分子的覆盖均匀性和完整性的影响。

  图19图示了反应条件对标记的长DNA分子的覆盖度均匀性和完整性的影响。

  图20图示了用从双链核酸生成单链核酸的不同方法观察到的效率差异。

  图21示出了通过序列非依赖性方法生成NGS文库的说明性方案,该方法可包括使用连接来附加第二测序衔接子。

  图22示出了通过序列非依赖性方法生成NGS文库的说明性方案,该方法可包括通过PCR对包含第一测序衔接子和第二测序衔接子的标记的核酸进行扩增。

  图23示出了通过序列依赖性方法生成NGS文库的说明性方案,该方法可包括使用序列特异性PCR扩增来添加第二测序衔接子。

  图24图示了用包含不同延长序列的引物对标记的DNA分子的扩增。

  图25图示了使用与特定基因座退火的不同延长引发序列的序列依赖性延长的实例。

  图26图示了使用扩增引物来富集延长产物的实例,该扩增引物包含测序衔接子和对延长基因座下游的基因座具有特异性的靶标特异性序列。

  图27图示了在使用源自深红红螺菌(Rhodospirillum rubrum)的标记的dsDNA进行从头装配和参考映射后,短读取序列信息的位置。

  图28图示了在使用源自复杂微生物组的标记的dsDNA进行从头装配和参考映射后,短读取序列信息的位置。

  图29图示了源自深红红螺菌的定相的标记的16s分子的丰度和分类。

  图30图示了源自复杂微生物组的定相的标记的16s分子的丰度和分类。

  图31图示了图32-图35中使用的缩写。

  图32图示了用于生成本公开内容的标记的茎环核酸的方案。

  图33图示,对于单个长核酸(例如,DNA)分子,可以使用不同的延长序列发生许多不同的自延长反应,这些延长序列可以在长单链核酸分子的整个长度上共同分配条形码区段。

  图34示出了用于附加挂锁探针的说明性方案。挂锁探针可具有与感兴趣的区域引物(ROIP)区段互补的一条臂和与自延长核酸分子内的区段互补的另一条臂。

  图35示出了使用P5和P7衔接子引物从挂锁条形码化核酸生成测序就绪文库的说明性方案。

  图36图示了图32-图35中所呈现的方案如何可以针对许多不同的分子多重地进行,例如,通过将EP和ROIP区段合成为合并的文库,其中每个ROIP具有几个均匀覆盖由ROIP区段扩增的基因的EP区段。

  具体实施方式

  本文所用的章节标题仅仅是为了组织编排目的,而不应解释为以任何方式限制所描述的主题。

  在对各个实施方案的这种详细描述中,出于解释的目的,阐明了许多具体细节,以提供对所公开的实施方案的彻底理解。然而,本领域技术人员将理解,可以在有或没有这些具体细节的情况下实施这些各个实施方案。在其他情况下,结构和装置以框图形式示出。此外,本领域技术人员可以容易地理解,呈现和执行方法的具体顺序是说明性的,并且预期该顺序可以变化并且仍然保持在本文公开的各个实施方案的精神和范围内。

  除非另有描述,否则本文使用的所有技术和科学术语具有如本文所述的各个实施方案所属领域的普通技术人员所通常理解的含义。

  除非上下文另有明确指定,否则如在本文和本说明书所附的权利要求书中使用的,单数形式“一个”、“一种”和“该”包括复数的指示对象。因此,例如,提及“一个DNA分子”是提及一个或多个DNA分子及其等同物,“一个多核苷酸”包括单个多核苷酸以及两个或更多个相同或不同的多核苷酸,并且提及“一个核酸”包括单个核酸以及两个或更多个相同或不同的核酸。

  如本文所用,术语“约”或“大约”可意指在本领域普通技术人员所确定的特定值的可接受的误差范围内,其将部分取决于该值如何测量或确定,例如,测量系统的局限性。例如,“约”可意指在1、1.5、2、2.5、3个或更多个标准偏差内。或者,“约”可意指给定值的至多20%、至多10%、至多5%或至多1%的范围。特别是对于生物系统或过程,该术语可意指在数值的数量级内,在5倍以内,或在2倍以内。在本申请和权利要求书中描述特定值的情况下,除非另有说明,否则可以假设术语“约”意指在该特定值的可接受误差范围内。

  如本文所用,术语“邻近”可以指核酸中由0至约20个核苷酸间隔开的两个核苷酸序列,更特别地,在约1个至约10个核苷酸的范围内,或是直接彼此邻接的序列。

  如本文所用,术语“扩增”可包括例如以模板依赖性方式复制一个或多个靶核酸的至少一部分的任何方式。可以使用多种技术来线性地或指数地对核酸序列进行扩增。进行扩增的说明性方法包括连接酶链反应(LCR)、连接酶检测反应(LDR)、连接后Q-复制酶扩增、聚合酶链反应(PCR)、引物延伸、链置换扩增(SDA)、超支化链置换扩增、多重置换扩增(MDA)、基于核酸链的扩增(NASBA)、两步多重化扩增和滚环扩增(RCA),包括多重形式及其组合。扩增程序的多重形式和组合的实例包括但不限于寡核苷酸连接测定(OLA)/PCR、PCR/OLA、LDR/PCR、PCR/PCR/LDR、PCR/LDR、LCR/PCR和PCR/LCR(也称为组合链反应(CCR))等。

  如本文所用,术语“群集”(clustering)可以指基于相同或相似核苷酸的短段或长段的存在来比较两个或更多个核苷酸序列。群集也使用术语“装配”或“比对”来指代。

  如本文所用,术语“覆盖”可意指重叠的一组多核苷酸序列可装配成连续的共有序列,该共有序列可跨越并准确地表示所测序的亲本长核酸分子的完整序列。

  如本文所用,术语“覆盖度偏性”可以指覆盖较长亲本序列的序列读取的非随机分布。由于非随机的片段化和/或位点优先的限制酶消化,可能导致亲本序列缺乏均匀的覆盖度或表示。其他偏性诱导方法包括分子间连接,该分子间连接可由于双链DNA(dsDNA)分子在环化中的长度限制而受到限制。条形码配对可改善装配长度。与两个不同的条形码相关的读取可与参考基因组进行比对。单独地,将每组读取装配成连续的序列(“叠连群”),其长度可以是数千碱基。条形码配对将这些组合并,从而增加并平滑化整个区域的覆盖度,以允许装配完整的10-kb靶序列。可以比较由来自参考基因组和样品的基因组读取(最小长度为约1000个碱基对(bp))装配的叠连群的长度直方图。

  如本文所用,术语“将条形码分配或趋近至序列的不同部位”可以指使条形码接近(靠近或邻近)其所驻留的相同核酸分子的不同部位的过程或反应。可通过基于聚合酶的引发核酸延长反应使条形码接近,该反应由邻近于条形码的核酸引发序列进行促进。聚合酶引发序列可以是随机寡核苷酸(例如6-20个随机碱基)。可以存在具有独特单条形码的分子的许多拷贝,但是每个拷贝可具有不同的随机自延长序列。因此,随机引发可以以均匀的方式将核酸条形码(其可以靠近或邻近随机自延长序列)共同移位、分配或趋近至核酸分子的所有部位。由同一亲本长核酸分子上的随机引发事件产生的拷贝序列可以共有相同的分子特异性条形码。

  聚合酶引发序列可以是具有例如6个随机碱基至25个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如至少6个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如至多25个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如6个随机碱基至8个随机碱基、6个随机碱基至10个随机碱基、6个随机碱基至11个随机碱基、6个随机碱基至12个随机碱基、6个随机碱基至13个随机碱基、6个随机碱基至14个随机碱基、6个随机碱基至15个随机碱基、6个随机碱基至16个随机碱基、6个随机碱基至18个随机碱基、6个随机碱基至20个随机碱基、6个随机碱基至25个随机碱基、8个随机碱基至10个随机碱基、8个随机碱基至11个随机碱基、8个随机碱基至12个随机碱基、8个随机碱基至13个随机碱基、8个随机碱基至14个随机碱基、8个随机碱基至15个随机碱基、8个随机碱基至16个随机碱基、8个随机碱基至18个随机碱基、8个随机碱基至20个随机碱基、8个随机碱基至25个随机碱基、10个随机碱基至11个随机碱基、10个随机碱基至12个随机碱基、10个随机碱基至13个随机碱基、10个随机碱基至14个随机碱基、10个随机碱基至15个随机碱基、10个随机碱基至16个随机碱基、10个随机碱基至18个随机碱基、10个随机碱基至20个随机碱基、10个随机碱基至25个随机碱基、11个随机碱基至12个随机碱基、11个随机碱基至13个随机碱基、11个随机碱基至14个随机碱基、11个随机碱基至15个随机碱基、11个随机碱基至16个随机碱基、11个随机碱基至18个随机碱基、11个随机碱基至20个随机碱基、11个随机碱基至25个随机碱基、12个随机碱基至13个随机碱基、12个随机碱基至14个随机碱基、12个随机碱基至15个随机碱基、12个随机碱基至16个随机碱基、12个随机碱基至18个随机碱基、12个随机碱基至20个随机碱基、12个随机碱基至25个随机碱基、13个随机碱基至14个随机碱基、13个随机碱基至15个随机碱基、13个随机碱基至16个随机碱基、13个随机碱基至18个随机碱基、13个随机碱基至20个随机碱基、13个随机碱基至25个随机碱基、14个随机碱基至15个随机碱基、14个随机碱基至16个随机碱基、14个随机碱基至18个随机碱基、14个随机碱基至20个随机碱基、14个随机碱基至25个随机碱基、15个随机碱基至16个随机碱基、15个随机碱基至18个随机碱基、15个随机碱基至20个随机碱基、15个随机碱基至25个随机碱基、16个随机碱基至18个随机碱基、16个随机碱基至20个随机碱基、16个随机碱基至25个随机碱基、18个随机碱基至20个随机碱基、18个随机碱基至25个随机碱基或20个随机碱基至25个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如6个随机碱基、8个随机碱基、10个随机碱基、11个随机碱基、12个随机碱基、13个随机碱基、14个随机碱基、15个随机碱基、16个随机碱基、18个随机碱基、20个随机碱基或25个随机碱基的长度的随机寡核苷酸。

  如本文所用,术语“延长引发的单链核酸或ssDNA”可以指单链核酸或ssDNA分子,其3’末端可作为单链核酸或ssDNA分子的聚合酶驱动的DNA聚合的引发序列起作用。

  如本文所用,术语“富集PCR”可以指可在核苷酸的分子内延长后发生的PCR引物延伸。

  如本文所用,术语“连接衔接子”和“衔接子”可以指长度为例如约10至约30bp的短核酸(例如,dsDNA)分子。可以通过连接将衔接子附加到核酸分子上。可以通过聚合酶链反应将衔接子附加到核酸分子上。衔接子可以由两个合成的寡核苷酸组成,它们具有可以彼此部分或完全互补的核苷酸序列。当在适当条件下在溶液中混合两个合成的寡核苷酸时,这两个合成的寡核苷酸可以彼此退火以形成双链结构。退火后,衔接子分子的一端被设计成与核酸片段的末端相容并可以与其连接。衔接子的另一端可被设计成使其无法连接,但情况可能并非如此(即,双连接衔接子)。衔接子可包含其他功能特征,如标识符、限制酶的识别序列以及引物结合部分。当包含其他功能特征时,衔接子的长度可增加;可通过组合功能特征来控制和最小化衔接子的长度。

  衔接子可具有例如8个碱基对至40个碱基对的长度。衔接子可具有例如至少8个碱基对的长度。衔接子可具有例如至多40个碱基对的长度。衔接子可具有例如8个碱基对至10个碱基对、8个碱基对至15个碱基对、8个碱基对至20个碱基对、8个碱基对至25个碱基对、8个碱基对至30个碱基对、8个碱基对至35个碱基对、8个碱基对至40个碱基对、10个碱基对至15个碱基对、10个碱基对至20个碱基对、10个碱基对至25个碱基对、10个碱基对至30个碱基对、10个碱基对至35个碱基对、10个碱基对至40个碱基对、15个碱基对至20个碱基对、15个碱基对至25个碱基对、15个碱基对至30个碱基对、15个碱基对至35个碱基对、15个碱基对至40个碱基对、20个碱基对至25个碱基对、20个碱基对至30个碱基对、20个碱基对至35个碱基对、20个碱基对至40个碱基对、25个碱基对至30个碱基对、25个碱基对至35个碱基对、25个碱基对至40个碱基对、30个碱基对至35个碱基对、30个碱基对至40个碱基对或35个碱基对至40个碱基对的长度。衔接子可具有例如8个碱基对、10个碱基对、15个碱基对、20个碱基对、25个碱基对、30个碱基对、35个碱基对或40个碱基对的长度。

  术语“核酸”可包括任何形式的DNA或RNA,包括例如基因组DNA;互补DNA(cDNA),其可从信使RNA(mRNA)通过逆转录获得或通过扩增获得;通过合成或通过扩增产生的DNA分子;无细胞DNA;无细胞RNA;mRNA、tRNA和rRNA。核酸可来源于化学合成(例如,固相介导的化学合成)、来自生物来源(例如,从任何生物体分离)或来自涉及使用分子生物学工具操纵核酸的过程(例如,克隆、DNA复制、PCR扩增、逆转录或其任何组合)。在一些方面,核酸可以是DNA。

  如本文所用,术语“核苷酸标签”、“分子标签”和“条形码标签”可以指可添加到靶核苷酸序列并用作标签的核苷酸序列(例如,独特的核苷酸序列)的组合。用作标签的核苷酸组合中的一部分、全长或没有一个可以是预定序列,或在序列数据分析期间凭经验确定。分子标签可包括特定和/或独特的核苷酸序列,其编码关于在条形码引物用于扩增反应时产生的扩增子的信息。例如,可以将不同的标签用于来自许多不同样品中的每一个的一个或多个靶序列,使得条形码核苷酸序列指示所得扩增子的样品起源。分子标签还可包括共有的或通用的序列,这允许对不同标记的分子进行同时扩增。例如,可以采用P5和P7Illumina通用引物。在一些实施方案中,分子标签的序列是随机的。在一些实施方案中,分子标签的序列是半随机的。

  如本文所用,术语“寡核苷酸”可以指具有例如短于约1,000个核苷酸、短于约900个核苷酸、短于约800个核苷酸、短于约700个核苷酸、短于约600个核苷酸、短于约500个核苷酸、短于约400个核苷酸、短于约300个核苷酸、短于约200个核苷酸、短于约100个核苷酸、短于约50个核苷酸、50个核苷酸至200个核苷酸、至少50个核苷酸、至多200个核苷酸、50个核苷酸至100个核苷酸、50个核苷酸至150个核苷酸、50个核苷酸至200个核苷酸、100个核苷酸至150个核苷酸、100个核苷酸至200个核苷酸、150个核苷酸至200个核苷酸、50个核苷酸、100个核苷酸、150个核苷酸或200个核苷酸的长度的核酸。

  如本文所用,术语“配对端测序”可以指基于高通量测序的方法,该方法从核酸分子的两端生成测序数据。

  如本文所用,术语“挂锁探针”可以指在NGS样品制备方法中探测长条形码化核酸分子的分子。挂锁探针可以沿条形码化的长核酸分子的长度均匀分配。在一些实施方案中,挂锁探针可以相距大约一个读取长度(例如100bp-400bp)。

  挂锁探针可具有例如50个碱基对至500个碱基对的长度。挂锁探针可具有例如至少50个碱基对的长度。挂锁探针可具有例如至多500个碱基对的长度。挂锁探针可具有例如50个碱基对至100个碱基对、50个碱基对至150个碱基对、50个碱基对至200个碱基对、50个碱基对至250个碱基对、50个碱基对至300个碱基对、50个碱基对至350个碱基对、50个碱基对至400个碱基对、50个碱基对至450个碱基对、50个碱基对至500个碱基对、100个碱基对至150个碱基对、100个碱基对至200个碱基对、100个碱基对至250个碱基对、100个碱基对至300个碱基对、100个碱基对至350个碱基对、100个碱基对至400个碱基对、100个碱基对至450个碱基对、100个碱基对至500个碱基对、150个碱基对至200个碱基对、150个碱基对至250个碱基对、150个碱基对至300个碱基对、150个碱基对至350个碱基对、150个碱基对至400个碱基对、150个碱基对至450个碱基对、150个碱基对至500个碱基对、200个碱基对至250个碱基对、200个碱基对至300个碱基对、200个碱基对至350个碱基对、200个碱基对至400个碱基对、200个碱基对至450个碱基对、200个碱基对至500个碱基对、250个碱基对至300个碱基对、250个碱基对至350个碱基对、250个碱基对至400个碱基对、250个碱基对至450个碱基对、250个碱基对至500个碱基对、300个碱基对至350个碱基对、300个碱基对至400个碱基对、300个碱基对至450个碱基对、300个碱基对至500个碱基对、350个碱基对至400个碱基对、350个碱基对至450个碱基对、350个碱基对至500个碱基对、400个碱基对至450个碱基对、400个碱基对至500个碱基对或450个碱基对至500个碱基对的长度。挂锁探针可具有例如50个碱基对、100个碱基对、150个碱基对、200个碱基对、250个碱基对、300个碱基对、350个碱基对、400个碱基对、450个碱基对或500个碱基对的长度。

  如本文所用,术语“定相”可以指确定测序数据的单分子起源。例如,定相可以是将生成短段测序数据(短读取)的核酸测序反应群集成较长段的核酸序列信息以破译亲本长核酸分子的序列的能力。定相可以涉及鉴别跨越单个较长核酸分子的序列的测序反应(短读取)的集合,并且从较短的DNA测序反应(短读取)精确地重建单个长DNA/RNA分子的序列(长读取)。相位信息可用于通过例如人DNA、细菌DNA和病毒DNA的定相测序来理解遗传疾病研究的基因表达模式。可以通过基于实验室的实验方法来生成定相,或者可以使用计算和统计方法来估计定相。在一些实施方案中,对来自任何来源的核酸分子的混合物进行标记。核酸混合物可具有任何程度的同源性,包括细胞内基因的等位基因、生物体内基因的不同形式(体细胞突变的变体)、生物群体内基因的不同形式、剪接变体、同源基因、异源基因、基因的体细胞突变变体、复制基因以及合成基因的变体、在DNA合成过程中制备的基因文库或其任何组合。

  如本文所用,术语“引物”可以指能够与核酸杂交(也称为“退火”)并在适当条件下(即,存在四种不同的核苷三磷酸和聚合剂,如DNA或RNA聚合酶或者逆转录酶)在适当缓冲液中和在合适的温度下用作核苷酸(RNA或DNA)聚合的起始位点的寡核苷酸。引物的适当长度取决于引物的预期用途。引物的长度可以为,例如,至少7个核苷酸长、10至30个核苷酸或约15至约30个核苷酸。在一些实施方案中,引物可以稍长一些,例如约30至约50个核苷酸长。例如,为了有效起见,引物可能与模板不具有100%的。在适当的情况下,引物的互补性可能仅足以在扩增或测序条件下与模板杂交。

  引物可具有例如7个核苷酸至75个核苷酸的长度。引物可具有例如至少7个核苷酸的长度。引物可具有例如至多75个核苷酸的长度。引物可具有例如7个核苷酸至10个核苷酸、7个核苷酸至15个核苷酸、7个核苷酸至20个核苷酸、7个核苷酸至25个核苷酸、7个核苷酸至30个核苷酸、7个核苷酸至35个核苷酸、7个核苷酸至40个核苷酸、7个核苷酸至45个核苷酸、7个核苷酸至50个核苷酸、7个核苷酸至60个核苷酸、7个核苷酸至75个核苷酸、10个核苷酸至15个核苷酸、10个核苷酸至20个核苷酸、10个核苷酸至25个核苷酸、10个核苷酸至30个核苷酸、10个核苷酸至35个核苷酸、10个核苷酸至40个核苷酸、10个核苷酸至45个核苷酸、10个核苷酸至50个核苷酸、10个核苷酸至60个核苷酸、10个核苷酸至75个核苷酸、15个核苷酸至20个核苷酸、15个核苷酸至25个核苷酸、15个核苷酸至30个核苷酸、15个核苷酸至35个核苷酸、15个核苷酸至40个核苷酸、15个核苷酸至45个核苷酸、15个核苷酸至50个核苷酸、15个核苷酸至60个核苷酸、15个核苷酸至75个核苷酸、20个核苷酸至25个核苷酸、20个核苷酸至30个核苷酸、20个核苷酸至35个核苷酸、20个核苷酸至40个核苷酸、20个核苷酸至45个核苷酸、20个核苷酸至50个核苷酸、20个核苷酸至60个核苷酸、20个核苷酸至75个核苷酸、25个核苷酸至30个核苷酸、25个核苷酸至35个核苷酸、25个核苷酸至40个核苷酸、25个核苷酸至45个核苷酸、25个核苷酸至50个核苷酸、25个核苷酸至60个核苷酸、25个核苷酸至75个核苷酸、30个核苷酸至35个核苷酸、30个核苷酸至40个核苷酸、30个核苷酸至45个核苷酸、30个核苷酸至50个核苷酸、30个核苷酸至60个核苷酸、30个核苷酸至75个核苷酸、35个核苷酸至40个核苷酸、35个核苷酸至45个核苷酸、35个核苷酸至50个核苷酸、35个核苷酸至60个核苷酸、35个核苷酸至75个核苷酸、40个核苷酸至45个核苷酸、40个核苷酸至50个核苷酸、40个核苷酸至60个核苷酸、40个核苷酸至75个核苷酸、45个核苷酸至50个核苷酸、45个核苷酸至60个核苷酸、45个核苷酸至75个核苷酸、50个核苷酸至60个核苷酸、50个核苷酸至75个核苷酸或60个核苷酸至75个核苷酸的长度。引物可具有例如7个核苷酸、10个核苷酸、15个核苷酸、20个核苷酸、25个核苷酸、30个核苷酸、35个核苷酸、40个核苷酸、45个核苷酸、50个核苷酸、60个核苷酸或75个核苷酸的长度。

  如本文所用,术语“引物位点”和“引物结合位点”可以指引物与之杂交的靶核酸的区段。

  如本文所用,术语“引物对”可以指一组引物,包括与待扩增核酸序列的5’端的互补体杂交的5’“上游引物”或“正向引物”和与待扩增序列的3’端杂交的3’“下游引物”或“反向引物”。如本领域技术人员将认识到的,术语“上游”和“下游”或“正向”和“反向”并非旨在是限制性的,而是在特定实施方案中提供说明性定向。

  如本文所用,术语“测序”可以指确定核酸样品(例如DNA或RNA)中核苷酸(碱基序列)的顺序。

  如本文所用,术语“感兴趣的区域引物(ROIP)”可以指在基于延长的条形码标记反应中使用的引物的3’末端序列或区段,例如,3’末端ROIP区段可以与待进行相位测序的长核酸的一端互补。ROIP可以是条形码化反应中引物的3’延长端,因此可以限定可被条形码化以供长读取测序的长分子的末端。

  如本文所用,术语“测序衔接子”可以指具有例如约20至80个碱基的核酸分子(例如,单链DNA(ssDNA))。测序衔接子可具有例如20个碱基至80个碱基的长度。测序衔接子可具有例如至少20个碱基的长度。测序衔接子可具有例如至多80个碱基的长度。测序衔接子可具有例如20个碱基至30个碱基、20个碱基至40个碱基、20个碱基至50个碱基、20个碱基至60个碱基、20个碱基至70个碱基、20个碱基至80个碱基、30个碱基至40个碱基、30个碱基至50个碱基、30个碱基至60个碱基、30个碱基至70个碱基、30个碱基至80个碱基、40个碱基至50个碱基、40个碱基至60个碱基、40个碱基至70个碱基、40个碱基至80个碱基、50个碱基至60个碱基、50个碱基至70个碱基、50个碱基至80个碱基、60个碱基至70个碱基、60个碱基至80个碱基或70个碱基至80个碱基的长度。测序衔接子可具有例如20个碱基、30个碱基、40个碱基、50个碱基、60个碱基、70个碱基或80个碱基的长度。测序衔接子可以是可在高通量测序中使用的通用序列。例如,测序衔接子可包含由高通量测序仪使用以捕获核酸文库并生成测序集群(即P5和P7序列),以及生成短读取信息(即读取1和读取2序列)和样品索引信息(即P5、P7和读取2序列)的通用序列。

  如本文所用,术语“标准NGS文库制备”可用于描绘高质量、全面的测序文库制备。标准NGS文库制备可用于采用短读取文库样品制备的NGS方法,如全基因组测序、靶向DNA测序、全转录物组测序和靶向RNA测序。

  如本文所用,术语“标签”可以指可添加到引物上、包含在序列中或以其他方式用作标记物以提供独特标识符的短序列。序列标识符可以是具有不同的但确定的长度的独特碱基序列,其用于鉴别特定核酸样品。例如,4bp(bp)可生成44=256个独特标签。标签可用于在进一步处理时确定样品的起源。例如,可以使用独特的序列标签来鉴别复杂核酸序列混合物的库中或扩增文库中单个序列的起源和坐标。可以使用多个标签。

  如本文所用,术语“标记”、“条形码化”和“编码反应”可以指其中将至少一个核苷酸标签添加到靶核苷酸序列的反应。例如,可以使用例如核酸文库的PCR扩增用分子特异性条形码来标记核酸分子文库。PCR引物可以在核酸分子的末端处插入分子特异性条形码序列;或者,可以通过使用DNA连接酶在核酸分子末端处连接分子特异性条形码而将条形码区段添加到核酸文库。

  如本文所用,术语“标记的靶核苷酸序列”可以指具有附加的核苷酸标签的核苷酸序列。

  如本文所用,短语“靶核苷酸序列”或“待测序的亲本核酸分子”可以指表现出被测序的长靶核酸的参考(完整)核苷酸序列的多核苷酸分子,如通过对靶核酸或在RNA靶核酸逆转录时产生的cDNA进行扩增获得的扩增产物。

  如本文所用,术语“末端衔接子”可以指具有例如约20至100个碱基的核酸(例如,ssDNA)分子。末端衔接子可具有例如20个碱基至100个碱基的长度。末端衔接子可具有例如至少20个碱基的长度。末端衔接子可具有例如至多100个碱基的长度。末端衔接子可具有例如20个碱基至30个碱基、20个碱基至40个碱基、20个碱基至50个碱基、20个碱基至60个碱基、20个碱基至70个碱基、20个碱基至80个碱基、20个碱基至100个碱基、30个碱基至40个碱基、30个碱基至50个碱基、30个碱基至60个碱基、30个碱基至70个碱基、30个碱基至80个碱基、30个碱基至100个碱基、40个碱基至50个碱基、40个碱基至60个碱基、40个碱基至70个碱基、40个碱基至80个碱基、40个碱基至100个碱基、50个碱基至60个碱基、50个碱基至70个碱基、50个碱基至80个碱基、50个碱基至100个碱基、60个碱基至70个碱基、60个碱基至80个碱基、60个碱基至100个碱基、70个碱基至80个碱基、70个碱基至100个碱基或80个碱基至100个碱基的长度。末端衔接子可具有例如20个碱基、30个碱基、40个碱基、50个碱基、60个碱基、70个碱基、80个碱基或100个碱基的长度。末端衔接子可被设计成作为引物与聚合酶配合使用,以附加具有特定序列(包括分子特异性条形码、用于下游扩增的序列和用于NGS测序的序列)的核酸分子。末端衔接子可含有自延长序列,以用于延伸和拷贝可在核酸分子内部的序列。

  本文的一些发明实施方案涉及数值范围。在提供一系列值的情况下,该范围旨在包括范围端点,并且该范围的上限和下限之间的每个中间值以及所述范围内的任何其他所述值或中间值包含在本公开内容中。例如,如果声明了1μg至8μg的范围,则旨在还明确公开了2μg、3μg、4μg、5μg、6μg和7μg,以及大于或等于1μg的值的范围以及小于或等于8μg的值的范围。此外,该范围内的每个子范围和值均呈现为如同明确写出。

  可以使用测序反应读取的核酸序列的长度(也称为“读取长度”)可以短于整个基因和染色体的长度。由于读取长度的这种限制以及每个测序反应可对不同的核酸分子进行测序的事实,可能难以确定在不同核酸测序反应中读取的遗传变异是源自相同的核酸分子还是源自不同的核酸分子。

  变体的组合可以顺式存在于一个物理分子上或反式存在于不同分子上。区分顺式和反式变异可影响遗传信息的解释,并可影响对疾病表型的理解。变体可包括小到单个核苷酸的变化,大到由置换、插入、缺失或拷贝数变化引起的极大的基因组变异。复杂变体群体的一些实例包括:使用合成基因合成法生成的合成基因的变体、来自细菌或病毒来源(例如,微生物组)的基因群体、来自从人体取样或活检的复杂DNA群体的特定基因或特定组基因的变体、以及植物或来自环境标本的DNA。

  确定远距离遗传变异是存在于相同的单个核酸分子上还是不同的核酸分子上的过程被称为“定相”。从长于典型NGS读取长度的核酸分子的复杂混合物对长DNA/RNA分子的序列变异进行定相可以是具有挑战性的,并且也称为“定相问题”。定相问题可能发生,因为可能难以确定每个短读取源自哪个原始长DNA/RNA分子。

  合成长读取(SLR)技术可用于定相。SLR可以允许使用短读取数据来推断长读取测序信息。然而,将多个样品多重化到单个样品制备反应中的能力在SLR中可能具有挑战,因为例如可能需要将一个独特的分子条形码化衔接子精确地分配给样品的每个分子。SLR可依赖于样品的稀释以获得包含独特分子条形码的分子的集合。然而,当被测序的原始样品的分子非常相似(例如在变体或扩增子文库中)时,基于稀释的SLR方法的基础概念可能失效。其原因可能在于变体文库的稀释可能不会像在使基因组样品片段化的情况下一样产生孔中的每个分子均有唯一性的孔。当相同的分子共有相同的分区特异性条形码时,所得条形码化短读取可来自不同的原始分子,并且不能以高置信度装配成连续序列。因此,使用基于稀释的SLR技术可能无法对变体文库进行定相。此外,来自原始条形码化反应的未反应的条形码化衔接子可以重写(overwrite)已经存在的条形码化分子,从而错误地将两个或更多个分子条形码分配给相同的原始DNA/RNA分子。在一些方面,本公开内容提供了用于去除未反应的条形码化衔接子的方法和组合物。

  条形码重写率可测得为高达25%-75%,例如,25%-75%的分子可被分配有2个或更多个条形码。因此,条形码重写可导致条形码的数目不准确地大、偏斜的量化和低效(低覆盖度)的合成SLR测序。另外,交叉样品条形码重写可导致来自一个样品的分子被分配给另一个样品,因为条形码包含分子条形码信息以及样品条形码信息。在临床、工业和研究环境中,未能将分子分配给其正确的样品可能是测序错误的主要来源。

  SLR测序方法还可受到覆盖度偏性的阻碍,即其中亲本序列由于非随机片段化和/或位点优先的限制酶消化而未均匀表示。与SLR相关的其他引起偏性的步骤可包括由被环化的dsDNA分子中的长度限制导致的分子内连接。

  本公开内容提供了用于快速、可靠、有效和经济地对混合物中DNA/RNA分子的复杂群体进行分子标记的方法和组合物,例如,无需区室化来分隔反应。所公开的方法可用于从高通量测序数据构建合成长读取。所公开的方法可提供从基因组、转录物组、变体和扩增子文库推断的定相序列信息。

  本文所述的方法可生成具有相同条形码的短核酸分子的库,其中条形码对于长亲本核酸分子是独特的。短核酸分子可共同覆盖该长亲本核酸分子的整个长度。图1图示了标记和扩增核酸分子混合物的步骤的一般概述。

  所公开的方法可包括用包含分子条形码和自延长序列的独特末端衔接子标记混合物中的核酸分子。然后可对条形码化的分子进行扩增,从而提供含有条形码化并扩增的核酸(例如,dsDNA)分子混合物的样品。然后可将扩增的dsDNA分子文库转化为ssDNA。DNA聚合酶可用于DNA聚合反应,以在引物延伸反应中分子内延长末端自延长序列,从而均匀地拷贝长ssDNA分子的所有部分。然后可以制备分子内延长的文库以用于NGS。

  在一些方面,本公开内容提供了在不需要事先了解序列、使用序列特异性试剂、需要事先克隆或将DNA/RNA分子区室化到单独的反应室(如384孔板和油包水乳液)中的情况下对核酸分子混合物进行高通量和平行标记的方法。

  在一些方面,当已知同源区的序列时,所公开的方法可允许对核苷酸分子混合物进行高通量和平行标记,并且可以仅从感兴趣的特定区域获得信息。在一些实施方案中,感兴趣的区域可以是高度可变的序列区域或可以由同源区间隔开的小变异。

  本公开内容可提供以降低的覆盖度偏性进行SLR DNA测序的方法。该方法可包括用独特的衔接子(例如末端衔接子,其包含分子条形码和自延长序列)标记长分子的混合物,从而产生每个标记分子的拷贝群体,通过自延长反应沿着长分子群体的序列分配每个长分子群体的条形码序列并扩增包含条形码的读取长度大小的区段,使得它们均匀地覆盖长分子序列或覆盖来自长分子序列的不连续的感兴趣的区域,同时将它们连接在一起。根据条形码对短读取进行分组可允许对以降低的覆盖度偏性对长核酸分子进行定相。

  所公开的方法可获得长于典型的NGS读取长度的核酸分子的全长序列,即定相序列信息。在一些实施方案中,所公开的方法用于分析剪接同种型、表征细菌/病毒群体、复合杂合子、测量等位基因特异性表达以及鉴别变体连接。

  本公开内容可用于分析DNA或RNA分子的混合物,包括细胞内基因的不同等位基因、生物体内基因的不同形式(例如,体细胞突变变体)、生物体群体内基因的不同形式、基因的剪接变体、同源基因、异源基因、重复基因和合成基因的变体,以及在核酸合成过程中制备的基因文库。

  在一些方面,本文描述了用于降低合成长读取(SLR)测序中的长核酸分子的覆盖度偏性的方法。

  在一些实施方案中,核酸分子混合物中自延长核酸分子的平均长度为约500至约20,000bp。在一些实施方案中,核酸分子混合物中自延长核酸分子的平均长度为约500至约1,000;约1,000至约3,000;约1,000至约5,000;约5,000至约7,500;约2,500至约10,000;约10,000至约12,500;约10,000至约15,000;约10,000至约17,500;或约10,000至约20,000bp。在一些实施方案中,核酸分子混合物中自延长核酸分子的平均长度为约1,000至约3,000bp。在一些实施方案中,核酸分子混合物中自延长核酸分子的平均长度为约3,000至约5,000bp。在一些实施方案中,核酸分子混合物中自延长核酸分子的平均长度为约5,000至约7,500bp。

  在目前公开的方法中,复杂混合物中大约100、大约101、大约102、大约103、大约104、大约105、大约106、大约107、大约108或大约109个核酸分子的群体可能是期望的。

  A.步骤0:样品制备

  可以提供长于典型NGS读取长度的核酸分子的混合物以用于分析。DNA/RNA分子的混合物可从任何来源获得,并且可具有任何程度的同源性。在一些实施方案中,所述混合物包含不同长度的核酸分子。

  在一些实施方案中,所述混合物包含DNA。在一些实施方案中,所述混合物包含RNA。如果起始材料包括RNA,则RNA分子可转化为DNA,例如通过逆转录转化为cDNA。在一些实施方案中,在逆转录步骤期间或在将RNA逆转录成cDNA之后标记从RNA逆转录的DNA。在一些实施方案中,所述混合物包含基因组DNA。在一些实施方案中,所述混合物包含来自无细胞核酸、细胞或生物样品的核酸链。可以提取全细胞mRNA并使用逆转录酶将其转化为cDNA。逆转录可作为批量(bulk)反应进行或在单个细胞条件下在分区内进行,其中所得cDNA用分区特异性条形码标记。然后可在5’和/或3’端用分子特异性条形码序列标记cDNA,包括所有转录分子的混合物。如本文所用,5’和3’可用于指示相对位置。例如,5’部分可包括但不必须包括包含5’端的部分。5’部分可包括在核酸分子的另一部分(例如,3’部分)的5’侧但不一定包含5’端的部分。同样,3’部分可包括但不必包括包含3’端的部分。3’部分可包括在核酸分子的另一部分(例如,5’部分)的3’侧但不一定包含3’端的部分。

  在一些实施方案中,分子特异性末端衔接子存在于长核酸分子的两端。在一些实施方案中,该分子特异性末端衔接子仅存在于长核酸分子的一端。在一些实施方案中,该分子特异性末端衔接子的位置在长核酸分子的上游。在一些实施方案中,该分子特异性末端衔接子的位置在长核酸分子的下游。

  在一些实施方案中,所述DNA分子可以是掺入用作DNA文库的载体中的分子。在一些实施方案中,DNA分子的混合物可包括DNA载体的混合物,其中每个载体包含具有所需序列的靶分子。DNA分子文库的使用可帮助利用在分子侧翼的载体的已知序列进行随后的分子操作。在一些实施方案中,DNA混合物可包括PCR产物。

  图4图示了用衔接子对单个RNA分子进行基于逆转录的标记,以及用衔接子对单个分子进行基于核酸延长的标记。

  在一些实施方案中,所述样品包含DNA分子。在一些实施方案中,使用引物驱动的延长反应,用相似的条形码对DNA分子的混合物进行独特标记。在一些实施方案中,如果使用DNA合成技术对文库进行合成装配,则从一开始就通过将条形码整合到DNA文库的分子中来用相似的条形码对DNA分子的混合物进行独特标记。如果在DNA合成期间将条形码整合到文库的分子中,则该条形码可包含随机序列或已知序列的集合,这些已知序列的数目可等于或大于所合成的独特DNA分子的数目。

  在一些实施方案中,混合物中核酸分子的平均长度为约500bp至约5,000bp。在一些实施方案中,混合物中核酸分子的平均长度为至少约500bp。在一些实施方案中,混合物中核酸分子的平均长度为至多约5,000bp。在一些实施方案中,混合物中核酸分子的平均长度为约500bp至约1,500bp、约500bp至约2,000bp、约500bp至约2,500bp、约500bp至约3,000bp、约500bp至约3,500bp、约500bp至约4,000bp、约500bp至约4,500bp、约500bp至约5,000bp、约1,500bp至约2,000bp、约1,500bp至约2,500bp、约1,500bp至约3,000bp、约1,500bp至约3,500bp、约1,500bp至约4,000bp、约1,500bp至约4,500bp、约1,500bp至约5,000bp、约2,000bp至约2,500bp、约2,000bp至约3,000bp、约2,000bp至约3,500bp、约2,000bp至约4,000bp、约2,000bp至约4,500bp、约2,000bp至约5,000bp、约2,500bp至约3,000bp、约2,500bp至约3,500bp、约2,500bp至约4,000bp、约2,500bp至约4,500bp、约2,500bp至约5,000bp、约3,000bp至约3,500bp、约3,000bp至约4,000bp、约3,000bp至约4,500bp、约3,000bp至约5,000bp、约3,500bp至约4,000bp、约3,500bp至约4,500bp、约3,500bp至约5,000bp、约4,000bp至约4,500bp、约4,000bp至约5,000bp或约4,500bp至约5,000bp。在一些实施方案中,混合物中核酸分子的平均长度为约500bp、约1,500bp、约2,000bp、约2,500bp、约3,000bp、约3,500bp、约4,000bp、约4,500bp或约5,000bp。

  B.步骤1a:末端标记

  可以用包含分子条形码和自延长序列的独特末端衔接子来标记混合物中的核酸分子(图1,步骤1a)。在一些实施方案中,可以通过将核酸分子与过量的独特条形码序列混合来标记核酸分子的混合物。在一些实施方案中,核酸分子的混合物可以与过量的独特条形码序列混合,该条形码序列可以是6、7、8、9、10、11、12、13、14、15、16、17、18、19或20bp序列的组合,并随后使用平端连接将独特的条形码序列连接到核酸分子上。所得样品可以是独特条形码化核酸分子的混合物。

  图3图示了具有或不具有延长引物(EP)的含有分子特异性条形码(BC)的衔接子的示例性结构。在一些实施方案中,该衔接子具有1)条形码区段(BC),其为独特的单分子标识符;以及2)延长引发区段(EP),其编码作为DNA聚合引物的内部序列的反向互补体。在一些实施方案中,该衔接子可具有另外的区段,如测序衔接子区段(SA)和通用PCR引发区段(PP)。

  在一些实施方案中,分子特异性末端衔接子存在于长核酸分子的两端。在一些实施方案中,该分子特异性末端衔接子仅存在于长核酸分子的一端。在一些实施方案中,该分子特异性末端衔接子的位置在长核酸分子的上游。在一些实施方案中,该分子特异性末端衔接子的位置在长核酸分子的下游。在一些实施方案中,第一衔接子可包含单链核酸分子的每个片段所共有的第二条形码。

  在一些实施方案中,末端标签中的分子条形码包含完全随机序列。在一些实施方案中,末端标签中的分子条形码包含半随机序列,例如随机分子特异性序列和已知序列的组合,其中该已知序列用于鉴别多个亲本核酸序列所起源于的样品。在一些实施方案中,末端标签中的分子条形码包含完全已知的序列,包括仅分子特异性序列,或分子特异性序列和样品特异性序列二者。

  在一些实施方案中,延长序列包含完全随机序列。在一些实施方案中,延长序列包含随机分子特异性序列和已知序列的组合,其中该已知序列用于鉴别多个亲本核酸序列所起源于的样品。在一些实施方案中,延长序列包含完全已知的序列,包括仅分子特异性序列,或分子特异性序列和样品特异性序列二者。在一些实施方案中,该延长序列包含与靶核酸序列的一部分的基本或完全互补性。在一些实施方案中,延长序列包含与靶核酸序列的一部分的部分互补性。在一些实施方案中,延长序列包含例如与其与之退火的靶核酸序列的一部分至少约10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%的互补性。

  在一些实施方案中,条形码序列可具有约10bp、约20bp、约30bp、约40bp或约50bp的长度。在一些实施方案中,条形码序列可具有约15bp、20bp、25bp或30bp的长度。在一些实施方案中,条形码序列可具有约20bp或约25bp的长度

  在一些实施方案中,条形码序列可具有约5bp至约50bp的长度。在一些实施方案中,条形码序列可具有至少约5bp的长度。在一些实施方案中,条形码序列可具有至多约50bp的长度。在一些实施方案中,条形码序列可具有约5bp至约10bp、约5bp至约15bp、约5bp至约20bp、约5bp至约25bp、约5bp至约30bp、约5bp至约35bp、约5bp至约40bp、约5bp至约45bp、约5bp至约50bp、约10bp至约15bp、约10bp至约20bp、约10bp至约25bp、约10bp至约30bp、约10bp至约35bp、约10bp至约40bp、约10bp至约45bp、约10bp至约50bp、约15bp至约20bp、约15bp至约25bp、约15bp至约30bp、约15bp至约35bp、约15bp至约40bp、约15bp至约45bp、约15bp至约50bp、约20bp至约25bp、约20bp至约30bp、约20bp至约35bp、约20bp至约40bp、约20bp至约45bp、约20bp至约50bp、约25bp至约30bp、约25bp至约35bp、约25bp至约40bp、约25bp至约45bp、约25bp至约50bp、约30bp至约35bp、约30bp至约40bp、约30bp至约45bp、约30bp至约50bp、约35bp至约40bp、约35bp至约45bp、约35bp至约50bp、约40bp至约45bp、约40bp至约50bp或约45bp至约50bp的长度。在一些实施方案中,条形码序列可具有约5bp、约10bp、约15bp、约20bp、约25bp、约30bp、约35bp、约40bp、约45bp或约50bp的长度。

  在一些实施方案中,条形码序列可包含可用于随后鉴别核酸分子的独特序列,以及允许平行扩增混合物中所有标记的核酸分子的共有或通用序列。在一些实施方案中,配置为在核酸分子的3’端侧翼的条形码标签的共有序列可不同于配置为在核酸分子的5’端侧翼的条形码标签的共有序列。

  在一些实施方案中,使用平端连接、TA连接或引物延伸向混合物中的长核酸分子附加含有分子特异性条形码和自延长序列的独特标签。在一些实施方案中,通过用含有独特标签的引物进行PCR,向核酸分子的混合物附加独特标签。在一些实施方案中,通过在DNA合成步骤期间在末端包含独特标签,向核酸分子的混合物附加独特标签。在一些实施方案中,可以在DNA合成期间进行序列非依赖性标记,以获得侧接有条形码标签的合成DNA序列。在一些实施方案中,合成DNA的条形码化可用于其质量控制。

  在一些方面,可向混合物中的长核酸分子附加含有分子特异性条形码和自延长序列二者的独特标签。在一些方面,可向混合物中的长核酸分子附加含有分子特异性条形码但不含自延长序列的独特标签。

  在一些实施方案中,对具有独特标签的单个核酸分子的混合物进行初始标记包括用含有分子特异性标签的引物进行PCR。可以用含有分子特异性标签的两种引物或含有分子特异性标签的两种引物中的仅一种进行PCR。在一些实施方案中,用包含第一衔接子的互补体的寡核苷酸进行PCR。在一些实施方案中,用包含第一衔接子的反向互补体和与模板核酸的至少一部分互补的序列的寡核苷酸进行PCR。在一些实施方案中,核苷酸的3’端包含与模板核酸的至少一部分互补的序列。在一些实施方案中,用包含第一衔接子的互补体和与模板核酸的至少一部分互补的序列的寡核苷酸进行PCR,其中与模板核酸的至少一部分互补的序列包含随机序列或与模板核酸的该部分的完全互补性。

  在一些实施方案中,对具有独特标签的单个核酸分子的混合物进行初始标记包括使用平端连接将分子特异性标签添加到每个核酸分子。在一些实施方案中,对具有独特标签的单个核酸分子的混合物进行初始标记包括使用TA连接将分子特异性标签添加到每个核酸分子。在一些实施方案中,对具有独特标签的核酸分子的混合物进行初始标记包括在核酸合成期间附加独特的分子特异性标签。在一些实施方案中,对具有独特标签的RNA分子进行初始标记包括在逆转录过程中添加分子特异性标签。

  在一些实施方案中,使用平端连接、TA连接、ssDNA连接或PCR引物延伸将自延长序列附加到具有分子特异性条形码的长核酸分子上。在一些实施方案中,分子特异性末端衔接子中的自延长序列在衔接子的5’端,并且延长序列的反向互补体通过PCR附加到靶核酸上。在一些实施方案中,分子特异性末端衔接子中的自延长序列是在延长步骤之前得以去除的3’至5’末端通用PCR扩增序列。在一些实施方案中,分子特异性末端衔接子中的自延长序列在通用PCR扩增序列的5’侧。

  在一些实施方案中,分子特异性末端衔接子中的自延长序列在核酸分子的3’端,并且包含选自靶标特异性自延长序列或随机序列(如6-20个碱基对的随机核酸序列)的序列。在一些实施方案中,在分子特异性末端衔接子的3’端处的自延长序列是与混合物中独特条形码化的和延长引发的长ssDNA分子的内部序列互补的靶序列。在一些实施方案中,与ssDNA上的多个位置互补的几种靶标特异性自延长序列可被设计成使得自延长事件共同覆盖ssDNA分子,从而生成均匀覆盖长ssDNA分子的短读取。在一些实施方案中,延长序列与核酸链或分子中的核酸序列的至少一部分互补。

  图5图示了用衔接子对单分子进行基于核酸连接和基于核酸延长的标记,以及用衔接子对单分子进行基于核酸延长的标记。

  图6图示了在不使用延长引物的情况下对单分子进行基于核酸连接的标记和基于核酸延长的标记的备选方法。

  可以在附加衔接子后纯化核酸链。在一些实施方案中,对核酸的纯化包括去除一个或多个未附加的衔接子或酶消化一个或多个未附加的衔接子。在一些实施方案中,可以使用外切核酸酶通过酶消化一个或多个未附加的衔接子来纯化核酸。在一些实施方案中,该衔接子包含尿嘧啶,并且可以使用尿嘧啶-DNA糖基化酶、内切核酸酶或两者来去除未附加的衔接子。在一些实施方案中,可以使用固相可逆固定、基于柱的固相提取或凝胶过滤来去除未附加的衔接子,从而纯化核酸链。

  C.步骤1b:用通用末端序列进行扩增

  然后可以使用例如基于聚合酶链反应(PCR)的扩增对条形码化分子进行扩增(图1,步骤1b)。所得样品含有条形码化且扩增的dsDNA分子的混合物。

  在步骤1a中自延长序列不包含在独特末端衔接子内的情况下,可以使用例如基于PCR的扩增在步骤1b中将一个或多个自延长序列附加到独特末端衔接子上。

  在一些实施方案中,所公开的方法使用聚合酶来延长引物和/或扩增混合物以产生具有不同长度的独特条形码化的dsDNA分子的混合物。在一些实施方案中,使用对独特分子标签中的共同序列具有特异性的PCR引物对起始混合物中独特标记的单个核酸分子进行初始扩增。在一些实施方案中,对独特条形码化的dsDNA进行片段化。所公开的方法可进一步涉及从不同长度的独特条形码化核酸分子获得序列信息。

  在一些实施方案中,利用PCR扩增来生成具有分子特异性末端标签的每个亲本长核酸分子的多个拷贝。在一些实施方案中,扩增在单一反应中完成,其中对具有独特标记分子的库的每个样品进行单独扩增。在一些实施方案中,扩增可以作为多重化反应完成,其中多个样品可以作为单一反应扩增,每个样品具有含有在库中共有的样品特异性序列的独特标记分子库。

  在一些实施方案中,延长反应在没有偏性的情况下拷贝可均匀地遍布长核酸分子的基因座,使得如果感兴趣的基因座源自相同的单个长分子,则它们可以邻近并共有相同的分子特异性条形码。在一些实施方案中,延长反应在没有偏性的情况下拷贝可间隔200-10,000bp的基因座,使得相同单个长分子上的感兴趣的基因座共有相同的分子特异性条形码。

  在一些实施方案中,使用对独特分子标签的共有序列具有特异性的PCR引物对独特标记的核酸分子的混合物进行扩增。在一些实施方案中,使用PCR引物对独特标记的核酸分子的混合物进行扩增,该PCR引物含有独特分子标签的共有序列,以及使得每个分子特异性条形码与一个或多个自延长序列相关联的不同的延长序列。

  在一些实施方案中,扩增包括以下顺序程序的至少一个循环:使核酸双链体变性以分离链,使至少一种引物与至少一种靶核酸中的互补或基本上互补的序列退火;以及使用聚合酶以模板依赖性方式合成至少一条核苷酸链。在一些实施方案中,重复上述扩增循环。在一些实施方案中,不重复上述扩增循环。

  图7图示了用于标记单个分子的方法,其中可以使用其中延长引物在5’末端处的衔接子对标记的单个核酸分子进行扩增。

  图8图示了用于标记单个分子的方法,其中可以使用其中PCR引物在5’末端处的衔接子对标记的单个核酸分子进行扩增。

  图9图示了用于标记单个分子的方法,其中可以使用其中不存在延长引物的衔接子对标记的单个核酸分子进行扩增。

  在一些实施方案中,可以在可生成独特条形码化的亲本长核酸分子之后并且在可制备许多拷贝的独特条形码化核酸分子之前去除独特的末端条形码化衔接子。

  在一些实施方案中,可以使用对单链短核苷酸具有特异性的外切核酸酶通过酶消化去除独特末端条形码化衔接子。在一些实施方案中,该独特末端条形码化衔接子含有尿嘧啶核苷酸,并且可以使用尿嘧啶-DNA糖基化酶和内切核酸酶的组合来降解含尿嘧啶的条形码化衔接子,从而消化条形码化衔接子。在一些实施方案中,可以通过使用非酶促纯化技术(如使用珠子的核酸的固相固定、基于柱的纯化和凝胶过滤,以及独特条形码化长核酸分子的回收)去除独特末端条形码化衔接子。

  D.步骤2:将dsDNA转化为ssDNA

  图2图示了为NGS就绪文库制备条形码化且扩增的核酸分子的步骤的一般概述。

  可将扩增的dsDNA分子文库转化为ssDNA(图2,步骤2)。在一些实施方案中,可通过降解独特条形码化DNA的一条链、将独特条形码化的DNA分子的一条链物理结合在固体表面上并经由洗涤分离未结合的链、或通过在稀释条件下使dsDNA分子变性来将dsDNA分子转化为ssDNA。所得样品可含有独特条形码化且延长引发的ssDNA分子库。

  可以使用诸如外切核酸酶的酶使dsDNA分子变性。在一些实施方案中,可以使用λ外切核酸酶使dsDNA分子变性。还可通过加热或碱变性使dsDNA分子变性。

  在一些实施方案中,标记的dsDNA可通过5’生物素引物修饰结合到链霉亲和素包被的固体表面(例如,链霉亲和素磁珠)上,并且可通过热变性或碱变性从珠子上洗去未结合的链来制备ssDNA,以用于从未结合的相对链进行分子内延长。

  在一些实施方案中,标记的dsDNA可以在其5’末端之一处进行选择性磷酸化,并且可以通过使用选择性降解5’磷酸化链的外切核酸酶如λ外切核酸酶来制备ssDNA,以用于从dsDNA进行分子内延长。

  在一些实施方案中,当PCR引发区段可在5’末端处时,可去除PCR引物区段以生成ssDNA。在一些实施方案中,可使用脱氧尿苷三磷酸(dUTP)切割来去除PCR引物区段。在一些实施方案中,可将极小部分的dUTP掺入PCR产物中。在一些实施方案中,可以以每条DNA链约1、2、3、4、5、6、7、8、9或10个核苷酸的量将dUTP掺入PCR产物中。然后可以用酶的组合处理PCR产物,所述酶在每条DNA链上的U位点处产生切口,并且切口从相对链上的切口处平移。当来自相对链的切口平移相遇时,可以产生双链断裂,产生片段化的dsDNA。可以通过DNA平端化来切割3’末端处的剩余PCT引物区段。在一些实施方案中,T4 DNA聚合酶可用于3’末端的DNA平端化。

  图10图示了当PCR引发区段可在5’末端处时去除PCR引物区段以生成ssDNA的过程。可以通过dUTP切割去除PCR引物区段,随后进行DNA平端化(例如,T4 DNA聚合酶)。

  图11图示了当通过dUTP和平端化去除PCR引发序列时,去除PCR引物区段以生成ssDNA的过程。该分子可从磷酸化的5’末端进行λ外切核酸酶降解,从而导致ssDNA准备用于分子内延长。

  图12图示了当PCR引物区段可能不在5’末端处并且可能未去除时从dsDNA生成ssDNA的方法。该分子可从磷酸化的5’末端进行λ外切核酸酶降解,从而导致ssDNA准备用于分子内延长。

  图13图示了使用链霉亲和素包被的珠子从dsDNA生成ssDNA的方法。该分子可与链霉亲和素包被的珠子结合,并且可通过洗涤非生物素化的DNA链来分离ssDNA,从而导致ssDNA准备用于分子内延长。

  E.步骤3:ssDNA文库的分子内延长

  附加的延长序列或其互补体可与靶核酸的一部分发生分子内退火。靶核酸可以是单链核酸。靶核酸可以是双链核酸。在一些方面,延长序列可与双链核酸中的核酸链的单链部分(例如,与延长序列退火或缀合的链)发生分子内退火。

  DNA聚合酶可在DNA聚合反应中用于引物延伸反应中末端自延长序列的分子内延长,该引物延伸反应均匀地拷贝长ssDNA分子的所有部分(图2,步骤3)。

  当末端处的延长序列提供随机且自互补(分子内)的核酸序列时,可以在随机延长序列在该处引发延长过程的各个基因座处起始聚合(延长)。每个随机3’末端可引发单个延长反应。在一些实施方案中,在不同分子上的随机3’末端的集合可引发沿着ssDNA序列展开的许多基因座的自延长反应。

  在一些实施方案中,末端自延长序列可邻近于条形码。延长反应均匀地拷贝长核酸分子的所有部分,使得如果它们源自相同的单个长分子,则它们可以邻近于相同的条形码。

  在一些实施方案中,可通过控制温度、每个温度下的温育时间以及DNA聚合酶驱动的自延长反应的核苷酸浓度,将延长长度限制为平均为NGS的读取长度。在一些实施方案中,可通过改变具有末端自延长序列的分子浓度、用于NGS文库构建的引物浓度和自延长温度的重复数来控制分子内延长反应的效率。

  所公开的方法将dsDNA转化为ssDNA,并进行分子内延长,以将条形码分配或重新定位至序列的不同部位。可使用核酸分子内的特定已知序列以序列特异性方式进行延长,或者使用用于分子内引发的随机序列以序列非依赖性方式进行延长。在一些实施方案中,可以使用序列特异性方式和序列非依赖性方式的组合进行延长。在一些实施方案中,可以对全长ssDNA分子或先前已被截短为较短片段的ssDNA分子进行分子内延长。即使没有事先截短ssDNA分子,ssDNA分子的序列覆盖度也可跨越分子的整个长度或仅跨越感兴趣的选定区域。

  在序列非依赖性自延长步骤中,在随机基因座处,可以使用聚合酶延伸ssDNA分子以从原始ssDNA分子形成部分双链结构。

  在一些实施方案中,可通过在稀释条件下使dsDNA进行加热变性来制备ssDNA以供从标记的dsDNA进行分子内延长。由于分子的浓度可能较低,因此分子内退火和延长可比分子间退火(即,两条互补链退火回到一起)更有效,从而使来自dsDNA的每条DNA链被有效单链化。

  在一些实施方案中,延长序列与核酸分子中的核酸序列的一部分的退火生成部分双链体核酸链。在一些实施方案中,该部分双链体核酸链包含含有单链区的5’部分和含有与核酸序列的该部分形成分子内双链体的延长序列的3’部分。在一些实施方案中,所公开的方法使用该部分双链体核酸的5’部分作为模板,用聚合酶延伸该延长序列,从而生成延伸的核酸。在一些实施方案中,该核酸链可以是单链核酸。在一些实施方案中,该核酸可以是双链核酸。在一些实施方案中,该核酸链的3’端包含第一衔接子。在一些实施方案中,第一衔接子的3’端包含延长序列。

  在一些实施方案中,所述延伸的核酸包含茎环结构。在一些实施方案中,该茎环结构包含杂交区和非杂交区。该杂交区可包含第一链和第二链。该第一链可包含该延伸的核酸的5’端或5’部分。第二链可包含该延伸的核酸的3’端或3’部分。该非杂交区可在第一链的3’侧。该非杂交区可包含具有衔接子的第二部分的3’端。该第二部分可包含分子条形码。

  所述茎环核酸可包含DNA、cDNA或基因组DNA,或可从RNA通过逆转录生成。在一些实施方案中,该茎环核酸可从基因组DNA、无细胞核酸、来自细胞、生物样品或无细胞样品的核酸生成。在一些实施方案中,该茎环核苷酸的条形码可包含随机序列。在一些实施方案中,该茎环结构的杂交区具有约100bp、约200bp、约300bp、约400bp至约500bp的长度。在一些实施方案中,该茎环结构的杂交区具有约400bp至约500bp的长度。

  在一些实施方案中,使用随机序列的自延长反应的均匀性可通过随机核酸序列的长度和随机序列的GC含量来实现。在一些实施方案中,该随机序列在每个分子特异性末端衔接子上具有特定的平均GC含量。在一些实施方案中,该随机序列在每个分子特异性末端衔接子上具有约20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%或80%的平均GC含量。在一些实施方案中,该随机序列在每个分子特异性末端衔接子上包含不同GC含量百分比。在一些情况下,该随机序列可包含具有不同GC含量百分比的两个或更多个(例如,2、3、4、5、6、7、8、9、10个或更多个)区域,使得该序列是多个随机序列的混合,其中每个序列具有不同的GC含量。在一些实施方案中,该随机序列包含的GC含量百分比可为30%和60%的混合、30%和70%的混合、35%和55%的混合、35%和60%的混合、40%和55%的混合、40%和60%的混合、40%和65%的混合、50%和65%的混合或50%和70%的混合。

  完整的分子内核酸延长可延伸核酸分子的3’端。在一些实施方案中,3’延伸部分包含约100bp、约200bp、约300bp、约400bp或约500bp的长度。在一些实施方案中,通过延长生成的3’延伸部分包含约100bp至约400bp的长度。在一些实施方案中,通过延长生成的3’延伸部分包含约400bp至约500bp。

  在一些实施方案中,3’延伸部分可具有约75bp至约1,000bp的长度。在一些实施方案中,3’延伸部分可具有至少约75bp的长度。在一些实施方案中,3’延伸部分可具有至多约1,000bp的长度。在一些实施方案中,3’延伸部分可具有约75bp至约100bp、约75bp至约200bp、约75bp至约250bp、约75bp至约300bp、约75bp至约350bp、约75bp至约400bp、约75bp至约450bp、约75bp至约500bp、约75bp至约600bp、约75bp至约700bp、约75bp至约1,000bp、约100bp至约200bp、约100bp至约250bp、约100bp至约300bp、约100bp至约350bp、约100bp至约400bp、约100bp至约450bp、约100bp至约500bp、约100bp至约600bp、约100bp至约700bp、约100bp至约1,000bp、约200bp至约250bp、约200bp至约300bp、约200bp至约350bp、约200bp至约400bp、约200bp至约450bp、约200bp至约500bp、约200bp至约600bp、约200bp至约700bp、约200bp至约1,000bp、约250bp至约300bp、约250bp至约350bp、约250bp至约400bp、约250bp至约450bp、约250bp至约500bp、约250bp至约600bp、约250bp至约700bp、约250bp至约1,000bp、约300bp至约350bp、约300bp至约400bp、约300bp至约450bp、约300bp至约500bp、约300bp至约600bp、约300bp至约700bp、约300bp至约1,000bp、约350bp至约400bp、约350bp至约450bp、约350bp至约500bp、约350bp至约600bp、约350bp至约700bp、约350bp至约1,000bp、约400bp至约450bp、约400bp至约500bp、约400bp至约600bp、约400bp至约700bp、约400bp至约1,000bp、约450bp至约500bp、约450bp至约600bp、约450bp至约700bp、约450bp至约1,000bp、约500bp至约600bp、约500bp至约700bp、约500bp至约1,000bp、约600bp至约700bp、约600bp至约1,000bp或约700bp至约1,000bp的长度。在一些实施方案中,3’延伸部分可具有约75bp、约100bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、约500bp、约600bp、约700bp或约1,000bp的长度。

  在一些实施方案中,所述文库可在延长步骤之前任选地降解成小片段,如ssDNA或dsDNA。在一些实施方案中,延长步骤可在全长核酸分子上进行。在一些实施方案中,在分子内延长步骤期间合成的核酸的长度可任选地限制为大约NGS的读取长度。在一些实施方案中,可以使用低核酸浓度完成分子内延长,这有利于分子内延长而不是分子间连接。

  在一些实施方案中,标记且扩增的核酸分子可以被片段化,其中每个片段具有不同的长度。在一些实施方案中,标记且扩增的核酸分子可以使用酶促片段化方法、基于超声处理的片段化、声剪切、雾化、针剪切、弗式压碎器(French pressure cells)或其任何组合进行片段化。在一些实施方案中,所获得的核酸片段可以在5’端或在其3’端进行标记。在一些实施方案中,可将核酸分子片段化为两个或更多个片段,并且可以没有标签。

  在一些实施方案中,所公开的方法涉及在分子内延长之前对末端条形码化且扩增的核酸混合物进行片段化。在一些实施方案中,该方法涉及使用聚合酶进行分子内退火并延伸自延长序列,并生成不同长度的独特条形码化核酸分子的库。在一些实施方案中,可对独特条形码化的dsDNA进行片段化。该方法可进一步包括使用标准NGS文库制备从不同长度的独特条形码化的dsDNA分子获得序列信息。

  在一些实施方案中,所述方法包括(i)在待测序的整个亲本长核酸分子上使用聚合酶对自延长序列进行分子内延长直至基因座,并生成不同长度的独特条形码化的dsDNA库;(ii)通过利用含有第二测序衔接子和可与延长基因座下游的序列互补的靶标特异性序列的引物对延长产物进行扩增;以及(iii)使用标准NGS文库制备从不同长度的独特条形码化的dsDNA分子获得序列信息。

  在一些实施方案中,所述方法包括(i)在待测序的整个亲本长核酸分子上使用聚合酶将引物延长至基因座,并且/或者对混合物进行扩增以产生不同长度的独特条形码化的dsDNA分子的混合物;(ii)对独特条形码化的dsDNA进行片段化;(iii)将衔接子与片段化的dsDNA连接;以及(iv)从不同长度的独特条形码化的核酸分子获得序列信息。

  在一些实施方案中,所述方法包括(i)在待测序的整个亲本长核酸分子上使用聚合酶对自延长序列进行分子内延长直至基因座,并生成不同长度的独特条形码化的dsDNA分子的库;(ii)对独特条形码化的dsDNA进行片段化;(iii)将衔接子与片段化的dsDNA连接;以及(iv)使用标准NGS文库制备从不同长度的独特条形码化的dsDNA分子获得序列信息。

  图14图示了ssDNA分子的分子内延长。分子内延长可以是完整的或部分的。在一些方面,分子内延长可以是完整的。

  图15图示了通过限制性分子内ssDNA延长和随后的DNA平端化将ssDNA限制为NGS读取长度。

  在一些实施方案中,所述片段化的DNA可被平端化。可以使用单链特异性DNA外切核酸酶(如外切核酸酶I、外切核酸酶VII或其组合)降解突出的单链末端,从而生成平端。在一些实施方案中,可以使用单链特异性DNA内切核酸酶(如绿豆内切核酸酶或S1内切核酸酶)生成平端。在一些实施方案中,可以使用包含单链外切核酸酶活性的聚合酶(如T4 DNA聚合酶、包含单链外切核酸酶活性的任何其他聚合酶或其组合)降解突出的单链末端,从而生成平端。

  在一些实施方案中,平端化的DNA可使用T4多核苷酸激酶进行5’磷酸化;5’磷酸化对于标记的DNA片段随后的分子内连接可能是重要的。在一些实施方案中,平端化的DNA可通过将dUTP掺入用于独特标记和扩增DNA分子的末端衔接子中来进行5’磷酸化。可使用尿嘧啶-DNA糖基化酶和内切核酸酶的组合水解脱嘌呤/脱嘧啶位点,从而生成5’磷酸化位点。

  在一些实施方案中,分子内延长后的PCR引物延伸或富集PCR可以在平行反应中进行。在一些实施方案中,富集PCR在多个PCR反应中进行,其中每个反应具有不同的引物组成。在一些实施方案中,富集PCR在多重化反应中进行,其中PCR反应在相同反应中用多个引物进行。

  在一些实施方案中,富集PCR包括多种引物(即多重化反应),其中每种引物具有可与延长基因座下游的序列互补的不同的靶序列以及通用测序衔接子。

  在一些实施方案中,富集PCR可以使用具有不同靶序列的引物作为多重化反应进行,并且扩增的延长产物含有来自每个延长基因座下游的所有靶序列的一种或多种产物。总的来说,延长产物代表延长基因座和每个延长基因座下游的靶序列的一种或多种组合。在一些实施方案中,富集PCR中的延长基因座与靶序列之间的距离可以相距大约一个读取长度。在一些实施方案中,富集PCR中的延长基因座与靶序列之间的距离可以相距大约100bp、150bp、200bp、250bp、300bp、350bp、400bp、450bp或500bp。

  富集PCR中的延长基因座与靶序列之间的距离可以为约75bp至约1,000bp。富集PCR中的延长基因座与靶序列之间的距离可以为至少约75bp。富集PCR中的延长基因座与靶序列之间的距离可以为至多约1,000bp。富集PCR中的延长基因座与靶序列之间的距离可以为至多约1,000bp。富集PCR中的延长基因座与靶序列之间的距离可以为约75bp至约100bp、约75bp至约200bp、约75bp至约250bp、约75bp至约300bp、约75bp至约350bp、约75bp至约400bp、约75bp至约450bp、约75bp至约500bp、约75bp至约600bp、约75bp至约700bp、约75bp至约1,000bp、约100bp至约200bp、约100bp至约250bp、约100bp至约300bp、约100bp至约350bp、约100bp至约400bp、约100bp至约450bp、约100bp至约500bp、约100bp至约600bp、约100bp至约700bp、约100bp至约1,000bp、约200bp至约250bp、约200bp至约300bp、约200bp至约350bp、约200bp至约400bp、约200bp至约450bp、约200bp至约500bp、约200bp至约600bp、约200bp至约700bp、约200bp至约1,000bp、约250bp至约300bp、约250bp至约350bp、约250bp至约400bp、约250bp至约450bp、约250bp至约500bp、约250bp至约600bp、约250bp至约700bp、约250bp至约1,000bp、约300bp至约350bp、约300bp至约400bp、约300bp至约450bp、约300bp至约500bp、约300bp至约600bp、约300bp至约700bp、约300bp至约1,000bp、约350bp至约400bp、约350bp至约450bp、约350bp至约500bp、约350bp至约600bp、约350bp至约700bp、约350bp至约1,000bp、约400bp至约450bp、约400bp至约500bp、约400bp至约600bp、约400bp至约700bp、约400bp至约1,000bp、约450bp至约500bp、约450bp至约600bp、约450bp至约700bp、约450bp至约1,000bp、约500bp至约600bp、约500bp至约700bp、约500bp至约1,000bp、约600bp至约700bp、约600bp至约1,000bp或约700bp至约1,000bp。富集PCR中的延长基因座与靶序列之间的距离可以为约75bp、约100bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、约500bp、约600bp、约700bp或约1,000bp。

  在一些实施方案中,当富集PCR可以作为多重化反应进行时,用于分子内延长的基因座可以与富集PCR中使用的靶序列不同。在一些实施方案中,当富集PCR可以作为多重化反应进行时,任何延长基因座与任何下游靶序列之间的距离可以相距至少10bp、15bp、20bp、25bp、30bp、35bp、40bp、45bp或50bp。在一些实施方案中,当富集PCR可以作为多重化反应进行时,任何延长基因座与任何下游靶序列之间的距离可以相距至少50bp、55bp、60bp、65bp、70bp、75bp、80bp、85bp、90bp、95bp或100bp。

  延长基因座与下游靶序列之间的距离可以为约10bp至约100bp。延长基因座与下游靶序列之间的距离可以为至少约10bp。延长基因座与下游靶序列之间的距离可以为至多约100bp。延长基因座与下游靶序列之间的距离可以为约10bp至约20bp、约10bp至约30bp、约10bp至约40bp、约10bp至约50bp、约10bp至约60bp、约10bp至约70bp、约10bp至约80bp、约10bp至约90bp、约10bp至约100bp、约20bp至约30bp、约20bp至约40bp、约20bp至约50bp、约20bp至约60bp、约20bp至约70bp、约20bp至约80bp、约20bp至约90bp、约20bp至约100bp、约30bp至约40bp、约30bp至约50bp、约30bp至约60bp、约30bp至约70bp、约30bp至约80bp、约30bp至约90bp、约30bp至约100bp、约40bp至约50bp、约40bp至约60bp、约40bp至约70bp、约40bp至约80bp、约40bp至约90bp、约40bp至约100bp、约50bp至约60bp、约50bp至约70bp、约50bp至约80bp、约50bp至约90bp、约50bp至约100bp、约60bp至约70bp、约60bp至约80bp、约60bp至约90bp、约60bp至约100bp、约70bp至约80bp、约70bp至约90bp、约70bp至约100bp、约80bp至约90bp、约80bp至约100bp或约90bp至约100bp。延长基因座与下游靶序列之间的距离可以为约10bp、约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp或约100bp。

  在一些实施方案中,所公开的方法进一步包括跨越分子全长的重叠PCR反应。在一些实施方案中,所公开的方法进一步包括含有NGS衔接子的重叠PCR反应。在一些实施方案中,该方法进一步包括各自同等地覆盖全长分子的重叠PCR反应,从而降低覆盖度偏性。在一些实施方案中,该方法进一步包括提供对感兴趣的特定区域的覆盖度的重叠PCR反应,从而通过从测序文库中消除已知序列的区域来降低总体测序成本。在一些实施方案中,该方法进一步包括延伸超出PCR引物区域的重叠PCR反应,使得引物结合区可以从天然模板而不是从引物进行测序。

  在一些实施方案中,可以使用一组挂锁探针制备用于测序的自延长的核酸分子,该挂锁探针共同跨越并覆盖待测序的核酸的长度。在一些实施方案中,挂锁探针具有与ssDNA上的感兴趣的区域引物(ROIP)互补的5’末端臂。在一些实施方案中,挂锁探针的3’臂可以是大约一个读取长度(100bp-400bp)。在一些实施方案中,与ssDNA内的区域互补的3’末端臂可与5’末端臂相距大约一个读取长度。在一些实施方案中,每个挂锁探针通过延长而拷贝每个ssDNA内的条形码信息和感兴趣的序列两者。

  在一些实施方案中,所述挂锁探针包含通过连接体序列连接的5’端和3’端。在一些实施方案中,可以延伸挂锁探针的3’端以生成延伸的核酸,该延伸的核酸包含挂锁探针和与核酸序列的部分互补的序列。在一些实施方案中,可以连接包含挂锁探针和与核酸序列的部分互补的序列的延伸的核酸的5’端和3’端,从而生成包含挂锁探针和互补序列的环化核酸。在一些实施方案中,可对环化核酸进行扩增,从而生成包含分子条形码和与测序引物互补的序列的线性化核酸。可以使用标准技术如PCR进行扩增。在一些实施方案中,可以使用诸如大规模平行测序等方法对线性化核酸进行测序,从而生成测序前导(lead)用于定相。

  在一些实施方案中,每个挂锁探针通过延伸而拷贝引物序列用于在ssDNA上进行NGS测序。在一些实施方案中,每个挂锁探针含有通用核酸测序衔接子,该通用核酸测序衔接子使用通用引物引发挂锁文库进行下游PCR。在一些实施方案中,在可以拷贝ssDNA上的核酸序列之后,每个挂锁探针可通过分子内连接进行环化。在一些实施方案中,可使用两种通用引物通过PCR来制备挂锁探针用于下一代测序(NGS)。

  图34图示了挂锁分子如何用与ROIP区段互补的一条臂和与自延长核酸分子内的区段互补的另一条臂探测自延长的ssDNA。挂锁探针从它们的3’末端延长到它们的5’末端。当挂锁探针延长的3’末端到达挂锁探针的5’时,可以使用DNA连接酶连接5’和3’端,并且可以使挂锁探针分子环化。

  图35图示了如何可以使用P5和P7衔接子引物对挂锁环化的挂锁探针进行PCR扩增以生成测序就绪PCR扩增子。

  根据一些实施方案,分子内延长的片段可生成延长的核酸分子文库,其中每个延长的核酸可以具有不同的大小。由于每个扩增且独特标记的核酸分子可以不同地片段化,因此分子内延长生成核酸的拷贝,每个拷贝在沿着分子的不同位置处具有5’或3’条形码标签。条形码标签可以指示片段的分子起源。

  F.步骤4:NGS衔接子的整合和大小选择

  随后可以使用标准NGS文库制备来制备分子内延长的文库用于NGS。

  步骤4a:NGS衔接子的序列非依赖性连接

  在一些实施方案中,可以使用序列非依赖性连接来进行序列非依赖性标记。在一些实施方案中,序列非依赖性连接可通过平端连接、粘端连接或TA连接发生。连接反应可包含DNA连接酶如DNA连接酶I、DNA连接酶III、DNA连接酶IV和T4 DNA连接酶。

  在一些实施方案中,可将第二测序衔接子附加到延伸的核酸上。在一些实施方案中,第二测序衔接子可通过连接或PCR附加。在一些实施方案中,PCR使用一种或多种寡核苷酸,该一种或多种寡核苷酸具有包含第二衔接子的5’部分和具有与由分子内延长生成的3’延伸部分互补的序列的3’部分。在一些实施方案中,第二衔接子可附加在延伸的核酸的3’端。

  在一些实施方案中,可对附加到第二衔接子的延伸核酸进行扩增。在一些实施方案中,可以使用两个引物进行附加到第二衔接子的延伸核酸的扩增,其中第一引物与第一衔接子或其互补体退火,并且第二引物与第二衔接子或其互补体退火。在一些实施方案中,可以使用诸如大规模平行测序等方法对扩增产物进行测序以生成测序读取。然后可以对测序读取进行定相,以确定混合物中两个或更多个感兴趣的核酸序列的分子起源。

  图21图示了第二测序衔接子在序列非依赖性方法中的连接,以及随后的基于PCR的NGS文库制备。

  图22图示了使用测序衔接子作为引物的基于PCR的NGS文库制备。

  在一些实施方案中,可以使用序列特异性或部分序列特异性引物进行序列依赖性标记。例如,当研究选择性剪接的转录物时,可以使用与转录物的外显子1互补的正向引物和与终止所有选择性剪接的转录物的多聚A尾互补的反向引物将条形码特异性地添加到感兴趣的序列。可以在引物混合物中的每个引物的3’端添加独特的条形码序列,使得所获得的产物包含从特定外显子1起始的所有选择性转录物,其中每个扩增子可在分子的两端处侧接有独特条形码序列。在一些实施方案中,仅正向引物包含条形码序列,从而获得仅在分子的5’端具有独特条形码序列的PCR产物。

  图23图示了使用序列特异性PCR扩增添加第二测序衔接子以制备NGS文库。可以使用包含与延长核酸中的靶序列互补的序列的引物附加第二测序衔接子(例如,参见图23中PCR引物3’端的实心深色框)。与靶序列互补的序列可以是基因特异性序列。与靶序列互补的序列可包含与靶序列的部分、基本或完全的互补性。与靶序列互补的序列可包含随机序列。与靶序列互补的序列可在引物的3’部分或3’端。第二测序衔接子可以在引物中与靶序列互补的序列的5’侧。

  两个序列之间的互补性可以为约10%至约100%。两个序列之间的互补性可以为至少约10%。两个序列之间的互补性可以为至多约100%。两个序列之间的互补性可以为约10%至约20%、约10%至约30%、约10%至约40%、约10%至约50%、约10%至约60%、约10%至约70%、约10%至约80%、约10%至约85%、约10%至约90%、约10%至约95%、约10%至约100%、约20%至约30%、约20%至约40%、约20%至约50%、约20%至约60%、约20%至约70%、约20%至约80%、约20%至约85%、约20%至约90%、约20%至约95%、约20%至约100%、约30%至约40%、约30%至约50%、约30%至约60%、约30%至约70%、约30%至约80%、约30%至约85%、约30%至约90%、约30%至约95%、约30%至约100%、约40%至约50%、约40%至约60%、约40%至约70%、约40%至约80%、约40%至约85%、约40%至约90%、约40%至约95%、约40%至约100%、约50%至约60%、约50%至约70%、约50%至约80%、约50%至约85%、约50%至约90%、约50%至约95%、约50%至约100%、约60%至约70%、约60%至约80%、约60%至约85%、约60%至约90%、约60%至约95%、约60%至约100%、约70%至约80%、约70%至约85%、约70%至约90%、约70%至约95%、约70%至约100%、约80%至约85%、约80%至约90%、约80%至约95%、约80%至约100%、约85%至约90%、约85%至约95%、约85%至约100%、约90%至约95%、约90%至约100%或95%至约100%。两个序列之间的互补性可以为约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%、约85%、约90%、约95%或约100%。

  在一些实施方案中,通过将核酸分子剪切成具有适合于NGS的长度的序列来制备用于标准NGS样品制备的核酸分子。在一些实施方案中,将核酸分子剪切成约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约160bp、约170bp、约180bp、约190bp或约200bp的序列。在一些实施方案中,将核酸分子剪切成约250bp、约300bp、约350bp或约400bp的序列。

  G.定相(phasing)

  在一些实施方案中,所公开的方法包括基于通过独特分子特异性条形码指示的分子起源对所获得的序列进行定相。

  在一些实施方案中,可以使用分子特异性标签对短读取序列信息进行群集,并将其装配成从头(de novo)序列。所得序列可以定相重建以鉴别原始长核酸分子,并且可以彼此共有任何程度的同源性或相似性。通过比较可以是相同的或在彼此共有其分类中的任何共同性的长序列,本发明方法允许通过估计亲本长分子库中不同分子的丰度进行定量分析。

  在一些实施方案中,由延长文库构建的条形码化NGS短读取提供了对长核酸分子的整个长度的序列覆盖度,并生成连续的合成长读取用于定相。在一些实施方案中,由延长文库构建的条形码化NGS短读取覆盖了可被同源区间隔开的感兴趣的区域,并生成不连续的合成长读取用于定相。

  可任选地使用PCR技术对连接的核酸分子进行扩增,并且/或者将其剪切成适合于NGS的片段。在一些实施方案中,可以基于指示分子的分子起源的独特条形码序列对序列进行从头装配和定相。在一些实施方案中,短读取序列可基于其独特的条形码序列群集成共有序列,并且共有序列可随后用于参考映射和定相。

  由DNA剪切产生的一些片段可“丢失”它们的标签。然而,因为每个扩增子可以有多个拷贝,并且每个扩增子可被片段化成不同的大小并且可以自身连接,所以条形码可以沿着原始核酸分子的长度插入不同的位置,从而允许对原始核酸分子的序列进行定相。

  为了确定带有3’标签的片段与具有可与3’标签不同的5’标签的另一片段具有相同的分子起源,可能需要将5’标签和3’标签进行配对。在一些实施方案中,基于未片段化的标记的核酸分子的分子内连接,可将5’标记的片段与其3’标记的片段进行配对。在一些实施方案中,可将扩增的标记的核酸分子的样品留出并进行分子内连接,使得5’条形码与3’条形码连接。然后,可对样品进行测序以鉴别条形码对。在一些实施方案中,可通过包括从一端起始并延长到另一端附近的延长反应将5’标签和3’标签进行配对,使得标签信息可在相同的测序短读取内获得。

  可以使用共同跨越亲本长分子的整个长度的短读取信息来实现对亲本长分子的整个长度的定相。这样的短读取信息可表示为长分子的覆盖度完整性或参考序列覆盖度百分比。短读取信息可由亲本长分子上不同位置处的短读取测序深度和覆盖度均匀性决定。可通过计算亲本长分子上每个位置之间的测序深度的变异系数来确定覆盖度均匀性。

  在一些实施方案中,定相序列可用于确定先前未鉴别的选择性转录物的表示、用于合成的长核酸分子的质量控制、用于鉴别重复序列的长度等。

  试剂盒

  本公开内容还提供了试剂盒。试剂盒包含在包装中的如本文其他各处所述的本公开内容的一种或多种化合物或试剂,以及可包括使用说明、临床研究讨论、副作用列表等的书面材料。

  在一些实施方案中,试剂盒包含寡核苷酸,该寡核苷酸包含a)条形码;以及b)延长序列,其中该延长序列或其互补体可被配置成在将寡核苷酸附加到核酸链上时与该核酸链的第一区域发生分子内退火。在一些实施方案中,试剂盒中提供的延长序列的反向互补体可被配置成在将寡核苷酸附加到核酸链上时与该核酸链的第一区域发生分子内退火。在一些实施方案中,该延长序列可在该寡核苷酸的5’端。在一些实施方案中,该寡核苷酸进一步包含与核酸链的第二区域的至少一部分互补的序列。在一些实施方案中,与第二区域的至少一部分互补的序列可在该寡核苷酸的3’端处。在一些实施方案中,该条形码包含随机序列。在一些实施方案中,该延长序列包含随机序列。在一些实施方案中,该延长序列包含与核酸链的第一区域互补的序列。

  本公开内容的试剂盒可包含一种或多种酶。酶的非限制性实例包括聚合酶、连接酶、外切核酸酶,内切核酸酶和末端修复酶。

  试剂盒可包含关于转化测序读取(例如,将短读取数据转化为长读取数据)的说明书、软件或两者。试剂盒可包含关于确定来自测序读取的相位信息的说明书、软件或两者。

  本公开内容的试剂盒还可包含信息,如科学文献参考、包装插入物材料、临床试验结果和/或这些的概述等,其指示或确定组合物的活性和/或优点,并且/或者其描述给药、施用、副作用、药物相互作用或对医疗保健提供者有用的其他信息。这样的信息可基于各种研究的结果,该研究例如是使用涉及体内模型的实验动物的研究和基于人体临床试验的研究。

  在一些实施方案中,本公开内容的化合物和试剂可在试剂盒内的分离容器中作为分离组合物提供。在一些实施方案中,本公开内容的化合物和药剂可在试剂盒的容器内作为单一组合物提供。

  试剂盒中可包含合适的包装和其他用于使用的制品(例如,针对液体制剂的量杯、用于使空气暴露最小化的箔纸包装等)。本文所述的试剂盒可提供、销售和/或推广给健康提供者,包括医师、护士、药剂师、处方管理人员等。在一些实施方案中,试剂盒也可以直接销售给消费者。

  尽管本文中已经示出并描述了本发明的优选实施方案,但对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下现将会想到多种变化、改变和替代。应当理解,本文中描述的本发明实施方案的各种替代方案可用于实施本发明。以下权利要求旨在限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。

  实施例

  实施例1:复杂混合物中核酸的序列非依赖性标记。

  首先,获得不同长度的DNA/RNA分子的复杂混合物。当起始材料包含RNA时,RNA分子转化为DNA。从RNA逆转录的DNA在逆转录步骤期间或在RNA被逆转录成cDNA后进行标记。使用独特末端衔接子标记混合物中的每个DNA分子,该独特末端衔接子包含1)作为独特分子标识符的分子条形码,和2)自延长序列。

  然后对DNA分子进行扩增,以生成每个条形码化的DNA分子的多个拷贝。在一些情况下,在标记阶段或扩增阶段期间附加自延长序列。对DNA分子的混合物进行标记,使得混合物中的每个DNA分子都接受独特的标签。通过将DNA分子与包含6-20个随机bp序列的过量的独特条形码序列混合,然后使用平端连接将独特条形码序列附接到每个DNA分子上,从而用独特条形码标记DNA分子。

  在一些实验中,使用引物驱动的延长反应用相似的条形码对DNA分子的混合物进行独特标记,或者如果可以使用DNA合成技术合成地装配文库,则从一开始就将条形码整合到文库的分子中。如果条形码在DNA合成期间整合到文库的分子中,则条形码包含随机序列或已知序列的集合,这些已知序列的数目等于或大于所合成的独特DNA分子的数目。3’端的独特末端衔接子的自延长序列包含选自靶标特异性序列或随机自延长序列的序列。然后获得独特条形码化的DNA分子的最终混合物。

  通过降解或去除独特条形码化DNA分子的一条链,将标记的dsDNA分子转化为ssDNA分子,以获得独特条形码化且延长引发的ssDNA分子的库。当末端处的延长序列提供随机且自互补(分子内)的DNA序列时,在随机延长序列引发延长过程的各个基因座处起始聚合(延长)。每个随机的3’末端引发单个延长反应。在不同分子上的随机3’末端的集合引发沿着ssDNA序列展开的许多基因座的自延长反应。

  在序列非依赖性自延长步骤中,在随机基因座处,使用聚合酶延伸ssDNA分子以从原始ssDNA分子形成部分双链结构。

  发现用于分子内延长的随机寡核苷酸序列的长度和组成影响最初标记的亲本长分子的覆盖度均匀性和覆盖度完整性。

  图16表明为了解聚合酶和随机寡核苷酸长度对覆盖度均匀性的影响而进行的研究的结果。在图16中,使用变异系数(CV)作为短读取对长分子的覆盖度均匀性的变化的度量。图16表明,15个随机寡核苷酸的延长序列长度具有比10个随机寡核苷酸的延长序列长度更好的覆盖度均匀性,如通过较低的覆盖度变异系数(覆盖度CV)所确定的。DV、Q非HS和QE非HS是指用于该研究的酶。

  图17表明为了解聚合酶和随机寡核苷酸长度对覆盖度完整性的影响而进行的研究的结果。图17绘制了由短读取覆盖的分子序列的分数作为覆盖度变化的度量。DV、Q非HS和QE非HS是指用于该研究的酶。

  图18表明延长序列的组成(即各自含有不同延长序列设计的引物的组合)影响了分子内延长的均匀性和完整性。可针对不同的延长反应进行修饰的参数包括例如DNA的浓度和缓冲液组成。

  使用温度和核苷酸浓度控制ssDNA分子内延长反应的速率,使得聚合的DNA长度不超过NGS的读取长度。不同的分子内延长反应条件导致原始标记的DNA分子的不同的覆盖度均匀性和覆盖度完整性。

  图19表明,与循环3相比,循环1和循环2具有更好的覆盖度均匀性,如通过较低的覆盖度变异系数(覆盖度CV)所确定的。与循环1和循环2相比,循环3的覆盖度完整性较低,如通过参考覆盖度百分比所确定的。循环1、2和3在延长步骤中分别进行1、5和10个循环,并且温度分别为40℃、45℃和50℃。

  然后对由自延长的ssDNA分子产生的新形成的独特条形码化的dsDNA分子进行片段化。根据断裂位点的位置,将每个扩增子片段化成不同长度的片段。所获得的DNA片段在其5’端或3’端进行标记。如果DNA片段被片段化成两个以上的片段,则片段没有标签。未观察到没有标签的片段,并且将其排除在进一步分析之外。片段化后,将片段化的DNA进行平端化并进行5’磷酸化。在一些实验中,对由自延长的ssDNA分子产生的新形成且独特条形码化的dsDNA分子进行平端化。

  图21图示了第二测序衔接子(SA2)与每个片段的连接。使用序列衔接子将所得分子用于制备标准NGS文库制备物。

  图22图示了SA2与每个片段的连接。使用与第一和第二测序衔接子互补的引物对具有SA2的片段进行通用PCR,以生成适合于测序的文库。

  通过PCR在混合物中对独特标记的DNA分子进行扩增。使用针对存在于所有独特标签中的通用序列的引物进行扩增,其产生每个独特标记的DNA分子的多个拷贝。

  然后通过将DNA分子剪切成具有适合于NGS的长度的序列来制备DNA分子以用于标准NGS样品制备。将DNA分子剪切成约100-200bp或约250-400bp的序列。在连接的DNA的片段化过程中,某些片段丢失了它们的条形码序列。将这些片段排除在进一步分析之外。由于连接的片段的多重性,含有条形码序列的剪切片段覆盖了原始DNA分子的整个长度。

  短读取测序提供了DNA分子片段以及分子特异性条形码的序列信息。条形码用作片段可从其衍生的原始分子的标识符,从而允许序列的定相。为了确定具有3’标签的片段与另一个具有5’标签(不同于3’标签)的片段一样衍生自原始DNA分子,将5’标签和3’标签配对有时是必要的。

  图30图示了使用分子特异性条形码群集短读取序列的实例,其用于使用短读取序列构建原始分子的从头装配。鉴别了原始DNA分子所起源于的原始生物的丰度和类别。

  实施例2:复杂混合物中核酸的序列依赖性标记。

  与实施例1中描述的方法类似地,获得不同长度的dsDNA(或转化为DNA的RNA分子)的复杂混合物。使用包含分子条形码的独特末端衔接子对混合物中的每个DNA分子进行标记和/或扩增,该分子条形码是独特的分子标识符和自延长序列。在一些实验中,在标记阶段或扩增阶段期间附加自延长序列。对DNA分子的混合物进行标记,使得混合物中的每个DNA分子都接受独特的标签。或者,使用DNA聚合酶和与一个或多个DNA末端互补的条形码化的引物,利用基于DNA延长的标记对DNA分子的混合物进行独特标记。在一些实验中,在合成DNA文库的情况下,在DNA合成期间从一开始就标记分子。如果条形码在DNA合成期间整合到文库的分子中,则条形码包含随机序列或已知序列的集合,该已知序列等于或大于所合成的独特DNA分子的数目。

  通过PCR在混合物中对独特标记的DNA分子进行扩增。使用针对存在于所有独特标签中的通用序列的引物进行PCR,从而产生每个独特标记的DNA分子的多个拷贝。

  末端衔接子被设计成使得其相对链中的互补序列的3’端与末端衔接子标记的DNA分子的指定内部序列互补。互补的3’序列在后续步骤中用作分子内延长反应中的延长引物。

  在一些实验中,通过磷酸化链的λ外切核酸酶的酶降解将dsDNA分子转化为ssDNA。酶降解特异性地降解独特条形码化的DNA分子的一条链,以获得独特条形码化且延长引发的ssDNA分子的库。

  通过使独特条形码化的DNA分子的一条链固定并通过碱变性分离互补链,将dsDNA分子转化为ssDNA,以获得独特条形码化且延长引发的ssDNA分子的库。在进行延长反应之前,通过在稀释条件下对dsDNA分子进行热变性,同样将dsDNA分子转化为ssDNA,从而有效地使DNA的每条链转化为ssDNA分子。

  图20表明已经用λ核酸外切酶消化的dsDNA与在延长之前经历过热变性的dsDNA之间的延长效率的比较。

  在序列依赖性自延长步骤中,在指定的序列特异性基因座处,末端衔接子的3’端的自延长序列用作与混合物中独特条形码化且延长引发的ssDNA分子的内部序列互补的靶序列(图23)。使用聚合酶来延伸自延长序列,其生成独特条形码化的部分dsDNA分子的新混合物。为了避免超过NGS读取长度,通过控制温度和/或核苷酸浓度将自延长反应限制在100-300bp。然后对新的dsDNA分子进行平端化,并将测序衔接子附接到新生成的dsDNA末端。

  然后对新的dsDNA分子进行片段化,并将衔接子附接到新生成的dsDNA末端。该制备包括将新延长的dsDNA剪切成具有适合于测序的长度的序列。

  如果原始分子在5’端和3’端都具有末端标签,由于5’和3’标签的并列,大多数剪切片段缺乏标签或同时包括两个标签。当标签同时存在于分子的5’端和3’端时,可以鉴别标签对。

  自延长反应的长度没有明确限制,并且测序文库的序列长度使用PCR引物延伸来控制,该PCR引物包括与延长基因座下游新形成的dsDNA互补的序列和适合于NGS的通用序列。

  分子内延长后的PCR引物延伸在平行反应或多重化反应中进行。使用测序衔接子进行通用PCR以生成测序就绪文库。与实施例1类似,短读取测序提供了DNA分子片段和分子特异性条形码的序列信息。条形码用作片段可从其衍生的原始分子的标识符,从而允许序列的定相。

  图24图示了序列依赖性分子内延长的实例,其中用延长序列对标记的DNA进行扩增。用含有延长序列的延长引物的混合物对标记的长DNA分子进行扩增,该延长序列跨越16s rRNA基因的长度。确切的引物序列可见于表1。

  表1描述了用于扩增标记的DNA分子的引物序列,包括延长序列所对应的位置。

  表1

  

  

  *参考序列位置基于CP003046.1:192512-194014 Rhodospirillum rubrum F11

  图25图示了序列依赖性分子内延长的实例,其中分子内延长在特定基因座处起始。图25的底部图片图示了图中描述的序列与它们沿着正被定相的基因序列的实际位置的比对。

  图26图示了在延长基因座下游的已知位点处终止的序列特异性分子内延长的实例。在图26中,GS是指引物的基因特异性部分。

  在于稀释条件下使用热灭活将扩增的dsDNA转化为ssDNA后,每个ssDNA在与3’末端处的延长序列互补的特定基因座处延长。总的来说,延长基因座跨越16s rRNA基因的长度(图25)。在分子内延长后,使用测序衔接子和含有在延长基因座下游的特定靶序列的引物对延长的ssDNA进行扩增和富集(图26)。富集引物的确切引物序列在表2中示出。

  表2描述了用于扩增延长的DNA分子的引物序列,包括延长基因座下游的靶序列所对应的位置。

  表2

  

  *参考序列位置基于CP003046.1:192512-194014 Rhodospirillum rubrum F11

  使用分子特异性条形码对短读序列进行群集,利用短读取序列的从头装配将其构建成原始分子的不连续区域,并将其表征为原始生物体的不同类别。

  图27展示了来自深红红螺菌的16s rRNA基因的原始长核酸分子上的短读取序列信息的序列覆盖度。黑线(实际覆盖度)表示从头装配和参考映射后的短读取序列信息。虚线(理论覆盖度)表示基于延长基因座和延长基因座下游的富集靶序列的预测位置的短读取序列信息的位置。理论覆盖度证明了长DNA分子的不连续覆盖度,其中在位置342,500和1033附近有断点,并且在位置515-665、1051-1201和1340-1353处有重叠短读取测序(即更高的覆盖度)。在实际覆盖度中观察到所有三个断点和更高覆盖度的区域。该分析适用于具有16s rRNA基因所来源于的单一生物体的样品(图27)。图28显示了从复杂微生物组的样品获得的结果。

  还使用从头装配和参考映射的定量分析来表征长核酸分子。当表征复杂微生物组样品中微生物的身份时,使用16s rRNA基因来鉴别和区分密切相关的物种。

  图29显示,定量分析正确地确定了16s rRNA基因的丰度,以及16s rRNA基因所来源于的分子的身份。在该实施例中,基因组DNA提取自深红红螺菌。

  实施方案

  在一个方面,本公开内容提供了用于降低合成长读取(SLR)DNA测序中长DNA分子的覆盖度偏性的方法,该方法包括生成独特条形码化的亲本长核酸分子,其中每个独特条形码化的亲本长核酸分子被跨越亲本序列并共有相同的克隆条形码的较短DNA片段的库均匀地覆盖,从而实现具有所述长亲本核酸分子的低覆盖度偏性的定相短读取测序,所述方法包括:

  获得亲本长核酸分子的片段的混合物;

  用包含分子条形码和自延长序列的独特末端衔接子标记所述混合物中的每个片段,从而获得独特条形码化的DNA分子的库;

  对每个独特条形码化的长DNA分子进行扩增,以生成每个条形码化的长DNA分子的相同拷贝;

  任选地,将所述独特条形码化的DNA分子的双链拷贝转化为单链DNA,从而获得独特条形码化且延长引发的ssDNA分子的库。

  在一个方面,本公开内容提供了用于降低合成长读取(SLR)DNA测序中长DNA分子的覆盖度偏性的方法,该方法包括生成独特条形码化的亲本长核酸分子,其中每个独特条形码化的亲本长核酸分子被跨越亲本序列并共有相同的克隆条形码的较短DNA片段的库均匀地覆盖,从而实现具有所述长亲本核酸分子的低覆盖度偏性的定相短读取测序,所述方法包括:

  获得亲本长核酸分子的片段的混合物;

  用包含分子条形码的独特末端衔接子标记所述混合物中的每个片段,从而获得独特条形码化的DNA分子库;

  对每个独特条形码化的长DNA分子进行扩增,以生成每个条形码化的长DNA分子的相同拷贝;

  向所述DNA分子上附加自延长序列,使得所述独特条形码化的DNA分子的不同拷贝具有不同的自延长序列;

  任选地,将所述独特条形码化的DNA分子的双链拷贝转化为单链DNA,从而获得独特条形码化且延长引发的ssDNA分子的库。

  在一些实施方案中,所述分子条形码可以完全由随机序列组成。

  在一些实施方案中,所述分子条形码包含随机分子特异性序列和已知序列的组合,其中所述已知序列可用于鉴别多个亲本核酸序列所来源于的样品。

  在一些实施方案中,所述分子条形码包含完全已知的序列,包括分子特异性序列和样品特异性序列二者。

  在一些实施方案中,所述独特条形码化的DNA分子的双链拷贝可通过酶降解转化为ssDNA。

  在一些实施方案中,所述独特条形码化的DNA分子的双链拷贝可通过将dsDNA的一条链与链霉亲和素包被的表面结合并通过洗涤和/或变性释放另一条链而转化为ssDNA。

  在一些实施方案中,所述独特条形码化的DNA分子的双链拷贝可通过在稀释条件下进行加热或碱变性转化为ssDNA。

  在一些实施方案中,所述独特条形码化的DNA分子的双链拷贝可转化为ssDNA,并且本公开内容的方法进一步包括使用DNA聚合酶,以使用DNA聚合酶从3’末端自延长序列开始分子内延长ssDNA,从而产生不同长度的独特条形码化的自延长的部分dsDNA分子的混合物。

  在一些实施方案中,所述独特末端衔接子中的自延长序列可在所述ssDNA的3’端,并且包含随机延长引发序列。

  在一些实施方案中,所述独特末端衔接子中的自延长序列可在所述ssDNA的3’端,并且可以是被设计成与所述混合物中的独特条形码化的ssDNA分子的内部序列自身互补的特定序列。

  在一些实施方案中,可以使用一组挂锁探针来制备用于测序的所述自延长的DNA分子,该挂锁探针共同跨越并覆盖待测序的DNA的长度。在一些实施方案中,所述自延长序列可被设计成覆盖所述独特条形码化的DNA分子的内部序列的整个长度。

  在一些实施方案中,所述自延长序列可被设计成仅覆盖所述独特条形码化的DNA分子内的感兴趣的特定区域,由此桥接可被同源区间隔开并产生不连续定相序列的感兴趣的区域。

  在一些实施方案中,所述挂锁探针具有与所述ssDNA上的感兴趣的区域引物(ROIP)互补的5’末端臂和与所述ssDNA内的区域互补的3’末端臂,该臂可相距大约一个读取长度。

  在一些实施方案中,所述挂锁探针的3’臂可相距大约一个读取长度(100bp-400bp)。

  在一些实施方案中,每个挂锁探针经由延长来拷贝每个ssDNA内的条形码信息和感兴趣的序列二者。

  在一些实施方案中,每个挂锁探针经由延长来拷贝每个ssDNA内存在的测序-引物序列信息。

  在一些实施方案中,每个挂锁探针含有DNA测序衔接子,该DNA测序衔接子使用通用引物引发用于PCR的挂锁文库。

  在一些实施方案中,在对信息进行拷贝后,每个挂锁探针可经由连接进行环化。

  在一些实施方案中,可使用两种通用引物通过PCR来制备用于下一代测序(NGS)的所述挂锁探针。

  在一些实施方案中,可通过控制DNA聚合酶驱动的自延长反应的温度和核苷酸浓度,将延长长度限制为平均为NGS的读取长度。

  在一些实施方案中,延长长度可不受限制,但是可通过选择PCR延伸引物来限制测序插入物的长度,该PCR延伸引物包含可在延长基因座下游的互补序列和用于NGS的测序衔接子。

  在一些实施方案中,所述延长的DNA可在其仅暴露的末端处进行平端化,并且测序衔接子可在平端化的末端处连接。

  在一些实施方案中,本公开内容的方法进一步包括:

  对所述独特条形码化的自延长的DNA进行片段化;

  将测序衔接子连接到片段化的dsDNA上并将其准备用于NGS;以及

  从所述独特条形码化的dsDNA获得序列信息。

  在一些实施方案中,所述延长长度可不受限制,但是可通过选择可适合于NGS方法的读取长度的片段化频率来限制测序插入物的长度。

  在一些实施方案中,本公开内容的方法进一步包括用跨越感兴趣区域的通用引物对所述混合物进行扩增。

  在一些实施方案中,本公开内容的方法进一步包括用一组序列特异性引物对所述混合物进行扩增,该组序列特异性引物共同均匀地覆盖原始核酸分子并添加NGS测序衔接子。

  在一些实施方案中,本公开内容的方法进一步包括用一组序列特异性引物对所述混合物进行扩增,该组序列特异性引物覆盖感兴趣的区域,共同产生原始核酸分子的不连续序列,并添加NGS测序衔接子。

  在一些实施方案中,本公开内容的方法进一步包括:

  对所述独特条形码化的自延长的DNA进行片段化;

  将衔接子连接到片段化的DNA上;以及

  使用标准NGS文库制备从所述独特条形码化的dsDNA分子获得序列信息。

  在一些实施方案中,本公开内容进一步包括基于所述独特条形码所示的分子起源对所获得的序列进行定相。

  在一些实施方案中,可以使用对整合到独特分子标签和通用衔接子中的共有序列具有特异性的PCR引物进行独特标记的DNA分子的混合物的扩增。

  在一些实施方案中,用独特标签标记DNA分子的混合物包括使用平端连接将独特标签添加到每个DNA分子。

  在一些实施方案中,用独特标签标记DNA分子的混合物包括用侧翼包括独特标签的引物进行PCR。

  在一些实施方案中,用独特标签标记DNA分子的混合物包括在DNA合成期间添加独特标签。

  在一些实施方案中,DNA分子的混合物中DNA分子的平均长度可以在500-5000bp的范围内。

  在一些实施方案中,DNA分子的混合物中DNA分子的平均长度可以在1000-3000bp的范围内。

  在一个方面,本公开内容提供了含有至少以下区段的DNA片段:

  (i)编码独特DNA条形码标识符的区段;以及

  (ii)编码用于使用DNA聚合酶进行分子内DNA自聚合的引物的区段。

  在一个方面,本公开内容提供了用于在合成长读取测序样品制备的多重化阶段期间消除条形码重写的方法。

  在一些实施方案中,可以将独特的条形码化衔接子分配给单个长DNA或RNA分子,并且可以随后在合并多个所述反应并在多于一个反应的多重化中进行下游样品制备过程之前从条形码化反应中去除。

  在一些实施方案中,所述条形码化衔接子的去除可以通过使用外切核酸酶酶消化条形码化衔接子来实现。

  在一些实施方案中,所述独特的条形码化衔接子包含尿嘧啶,并且所述条形码化衔接子的去除可以通过用尿嘧啶-DNA糖基化酶和内切核酸酶进行酶切割以去除尿嘧啶来实现。

  在一些实施方案中,所述独特的条形码化衔接子的去除可以通过纯化技术如去除小寡核苷酸的固相可逆固定来实现。

  在一些实施方案中,所述独特的条形码化衔接子的去除可以通过去除小寡核苷酸的基于柱的固相提取来实现。

  在一些实施方案中,所述独特的条形码化衔接子的去除可以通过凝胶过滤来实现。

  在一些实施方案中,所述独特的条形码化衔接子的去除可以通过上述方法的任何组合来实现。

  在一个方面,本公开内容提供了通过仅对那些感兴趣的区域而不是较长核酸分子的整个序列进行选择性测序来减少从较长的单个核酸分子对两个或更多个短核酸区段进行定相所需的测序覆盖度的方法。

  在一些实施方案中,用于对感兴趣的区域进行定相的测序覆盖度可以由感兴趣的区域的长度而不是由它们所驻留的较长DNA分子的长度来决定。

  在一些实施方案中,例如,如果单个分子中的三个感兴趣的区域的总长度为500bp并且可以沿着20,000个碱基对的分子展开,则所述方法将导致所需的测序覆盖度降低40倍(20,000/500),因为仅需要500bp而不是20,000bp来对三个感兴趣的区域进行定相。

  在一个方面,本公开内容提供了用于对长单个DNA分子的特定区域进行测序的方法,该方法包括生成独特条形码化的亲本长核酸分子,其中可通过从亲本分子的特定区域拷贝并共有相同的克隆条形码的较短DNA片段的库对每个独特条形码化的亲本长核酸分子的特定的、用户定义的和预定的区域的区段进行测序,从而实现使用短读取测序对长亲本核酸分子进行选择性定相,所述方法包括:

  获得亲本长核酸分子的片段的混合物;

  用包含分子条形码的独特末端衔接子标记所述混合物中的每个片段,从而获得独特条形码化的DNA分子的库;

  对每个独特条形码化的长DNA分子进行扩增,以生成每个条形码化的长DNA分子的相同拷贝;

  向所述DNA分子上附加自延长序列,使得独特条形码化的DNA分子的不同拷贝具有不同的自延长序列;

  使用DNA聚合酶从3’末端自延长序列开始分子内延长单链DNA,从而产生不同长度的在感兴趣dsDNA分子的特定区域处的独特条形码化的自延长的混合物;并且

  附加第二测序衔接子并将短的自延长分子转化为双链测序就绪文库。

  在一些实施方案中,所述亲本长核酸分子可以是基因组DNA或从基因组DNA扩增的DNA产物。

  在一些实施方案中,所述亲本长核酸分子可以是RNA或从RNA逆转录的互补DNA(cDNA)。

  在一些实施方案中,所述感兴趣的特定区域可间隔200-25000bp、可间隔500-20000bp、可间隔1000-15000bp。

  在一些实施方案中,所述感兴趣的特定区域可以是单核苷酸变化;可以是短读取测序仪的读取长度;可以长于短读取测序仪的读取长度所可能覆盖的长度。

  在一些实施方案中,所述感兴趣的特定区域可以是由内含子间隔开的外显子组,并且可以仅对特定外显子组或每个外显子组内的序列子集进行扩增并将其重构为定相的合成长读取(SLR)。

  在一些实施方案中,所述感兴趣的特定区域可以是基因组DNA中的单核苷酸多态性(SNP)、拷贝数变异或其他序列重排事件,并且需要阐明变体之间的顺式-反式(定相)关系。

  在一些实施方案中,所述感兴趣的特定区域可以是RNA中的单核苷酸多态性(SNP)、拷贝数变异或其他序列重排事件,如RNA剪接和RNA编辑,并且需要阐明变体之间的定相关系。

《用于定相测序的方法和组合物.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)