欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 用于使结构变异和相位信息可视化的系统和方法独创技术122018字

用于使结构变异和相位信息可视化的系统和方法

2021-04-23 10:50:48

用于使结构变异和相位信息可视化的系统和方法

  相关申请

  本申请与2015年2月25日提交的标题为“Systems and Methods for Visualizing Structural Variation and Phasing Information”的美国专利申请No.62/120,873相关,所述美国专利申请特此以全文引用的方式并入本文中。

  本申请还与2015年1月13日提交的标题为“Systems and Methods for Visualizing Structural Variation and Phasing Information”的美国专利申请No.62/102,926相关,所述美国专利申请特此以全文引用的方式并入本文中。

  技术领域

  本说明书描述了与使核酸测序数据中的结构变异和相位信息可视化有关的技术。

  背景

  根据从使用大规模并行测序方法进行测序的人类基因组获得的实验数据进行的单倍型组装已成为基因数据的重要来源。此类数据用作实现基于遗传学的诊断以及人疾病研究、检测和个性化治疗的划算方式。

  通过此类大规模并行测序方法提供的大范围信息(long-range information)(例如)在2014年10月29日提交的标题为“Analysis of Nucleic Acid Sequences”的美国专利申请No.62/072,214中公开。此类技术极大地方便了对基因组的大规模结构变异(诸如易位、大片段缺失或基因融合)的检测。其它实例包括但不限于边合成边测序平台(sequencing-by-synthesis platform)(ILLUMINA),Bentley等人,2008,“Accurate whole human genome sequencing using reversible terminator chemistry”,Nature 456:53-59”;边连接边测序平台(sequencing-by-litigation platform)(POLONATOR;ABI SOLiD),Shendure等人,2005,“Accurate Multiplex Polony Sequencing of an Evolved bacterial Genome”,Science 309:1728-1732;焦磷酸测序平台(ROCHE 454),Margulies等人,2005,“Genome sequencing in microfabricated high-density picoliter reactors”,Nature 437:376-380;以及单分子测序平台(HELICOS HELISCAPE);Pushkarev等人,2009,“Single-molecule sequencing of an individual human genome”,Nature Biotech 17:847-850”;(PACIFIC BIOSCIENCES)Eid等人,“Real-time sequencing form single polymerase molecules”,Science 323:133-138,每篇参考文献都特此以全文引用的方式并入。

  鉴于跨越了人类基因组的大部分的单倍型数据的可用性,需要用于有效地处理此数据以便推进上述诊断、发现和治疗等目标的方法,尤其是在个人基因组的全基因组测序的成本降到$1000以下时。为了根据此类数据在计算上组装单倍型,需要找出来自样本中存在的两个单倍型的读段并且推断出该两个单倍型的共有序列。此类问题已被展示为NP难题。参见Lippert等人,2002,“Algorithmic strategies for the single nucleotide polymorphism haplotype assembly problem,”Brief.Bionform 3:23-31,该篇参考文献特此以引用方式并入。

  组装查看器Consed支持通过上述测序方法获得的读段的可视化。参见Gordon 1998,“Consed:A graphical tool for sequencing finishing,”Genome Research 8:198-202。

  另一种可视化工具是EagleView。参见Huang和Marth,2008,“EagleView:A genome assembly viewer for next-generation sequencing technologies,”Genome Research 18:1538-1543。

  另一种此类查看器是HapEdit。参见Kim等人,“HapEdit:an accuracy assessment viewer for haplotype assembly using massively parallel DNA-sequencing technologies.”Nucleic Acids Research,2011,1-5。HapEdit提供了用于评估单倍型组装的准确性的工具并且准许用户通过众多不同的测序技术来适应读段序列的组合率。

  虽然以上公开的程序各自本身都是显著的进步,但是所述程序并未充分地解决本领域中对用于在视觉上评估测序数据中的结构变异(例如,缺失、重复、拷贝数目变异、插入、倒位、易位、长末端重复(LTR)、短串联重复(STR)和各种其它有用表征)的工具的需要。

  发明内容

  提供用于在视觉上评估结构变异的技术解决方案(例如,计算系统、方法和非暂时性计算机可读存储介质)。通过一些平台,诸如2014年10月29日提交的标题为“Analysis of Nucleic Acid Sequences”的美国专利申请No.62/072,214(所述申请特此以引用的方式并入)中公开的那些平台,在进行靶标识别之前对基因组进行分段和分区并编制条形码。因此,在基因组上保持了条形码信息的完整性。使用条形码信息通过删除基因组的展示出明显条形码重叠的区来识别可能的结构变异断点。还使用条形码信息来获得相位信息。

  下文呈现了本发明的概述,以便提供对本发明的一些方面的基本理解。此概述不是本发明的广泛概括。它不旨在识别本发明的重要/关键元件或描绘本发明的范围。它的唯一目的是以简化形式呈现本发明的一些概念,作为之后呈现的更详细描述的前序。

  本公开的一个方面是一种用于经由网络连接将结构变异或相位信息提供至远程客户端计算机的系统。所述系统包括一个或多个微处理器、持久存储器和非持久存储器。所述持久存储器(例如硬盘)和所述非持久存储器(例如RAM存储器)共同地存储一个或多个核酸序列数据集。所述一个或多个核酸序列数据集中的每一相应核酸测序数据集对应于多个样本中的相应样本中的至少一个靶核酸。所述相应样本与物种的参考基因组相关联,在一些实施方案中,所述参考基因组可以作为所述相应样本的分析的基准。举例来说,在一些实施方案中,将相应样本映射至参考基因组,并且参考基因组由此用作用于对查询进行剖析的模板(参考)以使相应样本的部分可视化。举例来说,在一些实施方案中,样本来自人受试者。在此类情况下,人类基因组(与来自不同物种的基因组相对)用作参考基因组,并且将相应样本映射至人类基因组。这样,可以基于至参考基因组的此类映射,使用所公开的系统和方法来解释和处理使来自所述样本的某些人染色体或者其部分中的序列或序列变化可视化的请求。

  所述相应核酸测序数据集包括(i)标头、(ii)概要和(iii)数据段。所述数据段包括来自所述样本的多个比对的序列读段和关于所作的每一变异识别(variant call)的信息。有利地,所述数据段是可扩展的并且可以存储额外数据。所述多个测序读段中的每一相应测序读段包括与所述相应样本中的至少一个靶核酸的子集对应的第一部分以及对多个识别符中所述相应测序读段的相应识别符进行编码的第二部分。每一相应识别符独立于所述至少一个靶核酸的序列。所述多个测序读段中的测序读段共同地包括所述多个识别符。

  所述持久存储器和所述非持久存储器进一步共同地存储一个或多个程序,所述程序使用所述一个或多个微处理器来将单倍型可视化工具提供至客户端以便安装在所述远程客户端计算机上。所述系统接收经由网络连接(例如因特网)从所述客户端发送的对使用所述一个或多个数据集中的第一数据集的结构变异或相位信息的请求。响应于接收到所述请求,通过执行一种方法来对所述请求进行自动筛选,所述方法包括:如果所述第一数据集的所述标头和所述概要还没有载入至所述非持久存储器中,那么将所述第一数据集的所述标头和所述概要载入至所述非持久存储器中,同时将所述数据段保持在持久存储器中。在所述方法中,将所述请求与所述第一数据集的所述概要进行比较(对照所述概要来进行分析),由此识别所述第一数据集的所述数据段的一个或多个部分。转而将所述数据段的这一个或多个经识别部分载入至非持久存储器中。使用所述第一数据集对结构变异或相位信息进行格式化以便在所述客户端计算机上显示。之后经由所述网络连接将所述经格式化的结构变异或相位信息传输至所述客户端装置以便在所述客户端装置上显示。

  在一些实施方案中,所述标头描述了所述相应核酸测序数据集中的多个组成部分。在一些实施方案中,所述多个组成部分包括选自由以下各者组成的组中的两个或更多个组成部分、三个或更多个组成部分、四个或更多个组成部分或五个或更多个组成部分:概述、变异识别数据的索引、相位块轨迹、参考序列索引轨迹、基因轨迹、外显子轨迹、读段数据的索引、结构变异数据集轨迹、靶数据集的索引、以及片段数据集的索引。

  在一些实施方案中,所述多个组成部分包括所述概述,并且此概述包括由以下各者组成的组中的两个或更多个项、三个或更多个项、四个或更多个项、五个或更多个项、或六个或更多个项:所述相应核酸测序数据集中已定相的已知SNP的百分数;所述相应核酸测序数据集中的最长相位块;所述相应核酸测序数据集中所使用的唯一条形码的数目;所述相应核酸测序数据集中的平均片段长度;所述相应核酸测序数据集中的所述平均片段长度的均值;所述相应核酸测序数据集中大于下限阈值的片段的百分数;所述相应核酸测序数据集中的片段长度柱状图;所述相应核酸测序数据集中的N50相位块大小;所述相应核酸测序数据集中的相位块柱状图;由所述相应核酸测序数据集表示的序列读段的数目;所述相应核酸测序数据集中的中值插入大小;所述相应核酸测序数据集中的中值深度;所述相应核酸测序数据集中具有零覆盖的目标基因组的百分数;所述相应核酸测序数据集的经映射读段的百分数;所述相应核酸测序数据集的PCR复制百分数;所述相应核酸测序数据集中的覆盖柱状图;形成所述相应核酸测序数据集的基础的测试核酸的识别码;所述相应核酸测序数据集的基因组来源;产生所述相应核酸测序数据集的所述至少一个测试核酸的生物体的性别;产生所述相应核酸测序数据集中的所述相应样本的所述生物体的性别;所述相应核酸测序数据集中的数据集文件格式版本;以及指向对所述相应核酸测试数据集所进行的多个结构变异识别的指针。有利地,如信息列表的此非限制性实例所指示,所公开的核酸测序数据集可能含有可能是用户感兴趣的任意位的元数据(例如注释数据)以及测序数据。

  在一些实施方案中,所述多个组成部分包括所述变异识别数据的索引,所述索引提供所述物种的基因组的相应范围与在其中找到针对所述相应范围的变异识别数据的所述数据段中的偏移之间的对应关系。

  在一些实施方案中,所述多个组成部分包括所述相位块轨迹。所述相位块轨迹包括(i)词典和(ii)轨迹数据段,所述轨迹数据段包括所述物种的基因组中的一个或多个染色体的相位信息。在一些实施方案中,所述词典包括多个名称以及对于所述多个名称中的每一相应名称在其中找到针对所述对应名称的记录的所述轨迹数据中的偏移。在一些实施方案中,所述轨迹数据段包括多个记录,并且其中所述多个记录中的每一记录表示所述靶核酸中的相位块。在一些实施方案中,所述轨迹数据段是JSON文件格式。

  在一些实施方案中,所述多个记录中的每一相应记录指定(i)与所述相应记录对应的染色体数目、(ii)所述染色体上所述相位块开始的位置、(iii)所述相位块结束的位置、(iv)所述记录的唯一名称、以及(v)关于所述相位块的相位信息。

  在一些实施方案中,所述多个记录中的每一相应记录由多个区间树中的相应区间树中的多个节点中的节点表示,并且所述多个区间树中的每一区间树表示所述物种的多个染色体中的染色体。在一些此类实施方案中,所述多个区间树中的第一区间树的所述多个节点中的节点存储所述节点的中点,所述节点的所述中点是与所述节点对应的所述相位块的中点在对应染色体上的位置,所述第一区间树的所述多个节点中的每一相应节点具有至左子节点的链接,所述左子节点对应于在所述物种的基因组中紧靠在由所述相应节点表示的所述相位块左边(即,在数值上小于)的相位块,所述第一区间树的所述多个节点中的每一相应节点具有至右子节点的链接,所述右子节点对应于在所述物种的基因组中紧靠在由所述相应节点表示的所述相位块右边(即,在数值上大于)的相位块,所述第一区间树的所述多个节点中的每一相应节点具有节点的有序集合,所述节点表示与所述相应节点的中点重叠的相位块,所述相位块是按此类相位块的左侧位置进行排序,并且所述第一区间树的所述多个节点中的每一相应节点具有节点的有序集合,所述节点表示与所述相应节点的中点重叠的相位块,所述相位块是按此类相位块的右侧位置进行排序。在一些此类实施方案中,所述第一区间树的所述多个节点中的每一相应节点进一步包括名称,所述名称是所述轨迹数据段中相对于所述多个记录中的含有与所述相应节点对应的所述相位块的相位信息的记录的偏移。

  在一些实施方案中,所述标头进一步包括所述核酸测序数据集所使用的数据集结构的版本。在一些实施方案中,所述多个组成部分包括参考序列索引,并且所述参考序列索引包括所述样本中被识别的多个分子变化识别符的索引。在一些此类实施方案中,所述多个分子变化识别符中的每一相应分子变化识别符是dbSNP识别符。

  在一些实施方案中,所述多个组成部分包括所述基因轨迹。在此类实施方案中,所述基因轨迹包括多个基因以及对于所述多个基因中的每一相应基因的所述相应基因中的单核苷酸多态性的数目。

  本公开的另一方面提供一种用于经由网络连接使用本地计算机处理程序输出的系统,其中所述本地计算机包括一个或多个微处理器和存储一个或多个程序的存储器。所述一个或多个程序使用所述一个或多个微处理器来根据在所述本地计算机上运行的第一操作系统来执行一种方法。在所述方法中,调用第一程序的第一实例。之后,通过所述第一程序的所述第一实例从用户获得远程计算机上的用户账户的登录和密码。这用于经由所述本地计算机与所述远程计算机之间的网络连接使所述用户自动登录(使用通过所述第一程序的所述第一实例提供的所述登录和所述密码)到所述远程计算机上的所述用户账户。响应于在所述远程计算机上成功登录,在无人工干预的情况下自动发送所述第一程序的第二实例,所述第二实例被配置成在所述远程计算机还没有使所述第一程序在所述用户账户中可用时在传输至所述远程计算机后自动安装在所述远程计算机上。接下来,从所述远程计算机接收在所述第一程序的所述第一实例内打开面板的请求。所述面板是通过在所述远程计算机上运行的所述第一程序的所述第二实例产生。所述面板向所述用户请求用于控制所述第一程序的所述第二实例的输入。响应于在所述本地计算机上在所述面板中从所述用户接收到用于控制所述第一程序的所述第二实例的输入,经由所述网络连接(例如无线或有线连接)将所述输入发送至所述远程计算机上的所述第一程序的所述第二实例。接下来,经由所述网络连接从所述远程计算机接收响应于所述输入来自所述第一程序的所述第二实例的输出。在所述本地计算机处显示此输出。

  本公开的另一方面提供一种用于查看核酸测序数据的系统。所述系统包括一个或多个微处理器和存储器。所述存储器存储一个或多个程序,所述程序使用所述一个或多个微处理器来获得与样本中的至少一个靶核酸对应的核酸测序数据集。所述核酸测序数据集包括来自所述样本的多个测序读段。所述多个测序读段中的每一相应测序读段包括与所述样本中的至少一个靶核酸的子集对应的第一部分以及对多个识别符中的所述相应测序读段的相应识别符(例如条形码)进行编码的第二部分。每一相应识别符独立于所述至少一个靶核酸的序列。所述多个测序读段共同地包括所述多个识别符。显示可视化工具。通过所述可视化工具获得来自用户的请求。所述请求指定了由所述核酸测序数据集表示的基因组区。响应于获得所述请求,通过从所述核酸测序数据集中获得所述基因组区内的多个测序读段来剖析所述请求。针对所述多个测序读段运行扫描窗口,由此产生多个窗口,所述多个窗口中的每一相应窗口对应于所述基因组区的不同区并且包括所述核酸测序数据集中的所述基因组区的所述不同区中的每一测序读段的每一识别符的识别码。显示表示所述多个窗口中的每一可能窗口对的二维热点图。每一相应窗口对在所述二维热点图中显示为基于所述相应窗口对中共同的识别符的数目从配色方案中选择的颜色。

  在所附权利要求书的范围内的系统、方法和装置的各种实施方案各自具有若干方面,其中没有单独一者独自负责本文所描述的所要属性。在不限制所附权利要求书的范围的情况下,在本文中描述一些显著特征。在考虑此论述之后,并且尤其是在阅读了标题为“具体实施方式”的部分之后,将理解如何使用各种实施方案的特征。

  以引用方式并入

  本说明书中提及的所有公开、专利和专利申请以全文引用的方式并入本文中,其程度如同每一单独的公开、专利或专利申请被明确地并且单独地指示为以引用方式并入。

  附图简述

  在附图的诸图中以举例方式而非以限制方式来示出本文公开的实现方式。相同的参照符号在诸图中指代对应部件。

  图1是示出了根据一些实现方式的计算装置的示例框图。

  图2示出了根据本公开的实施方案的示例性构造。

  图3提供了对根据本公开的实施方案的核酸测序数据集的概括。

  图4示出了根据一些实施方案的在核酸测序数据集内的示例相位块轨迹的数据结构。

  图5示出了根据一些实施方案的示例相位块轨迹。

  图6示出了根据一些实施方案的示例基因轨迹的数据结构。

  图7示出了根据一些实施方案的示例基因轨迹。

  图8示出了根据一些实施方案的在核酸测序数据集内的示例结构变异数据集轨迹的数据结构。

  图9示出了根据一些实施方案的示例结构变异数据集轨迹。

  图10示出了根据一些实施方案的在核酸测序数据集内的目标、片段和序列读段数据。

  图11示出了根据一些实施方案的在核酸测序数据集内的变异识别数据。

  图12示出了根据一些实施方案的单倍型可视化工具中的概述模块。

  图13示出了根据额外实施方案的单倍型可视化工具中的概述模块。

  图14A示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的屏幕截图。

  图14B示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一屏幕截图。

  图15示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一屏幕截图。

  图16示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一屏幕截图。

  图17示出了根据一些实施方案的单倍型可视化工具的搜索功能特征。

  图18示出了根据一些实施方案的单倍型可视化工具中的结构变异模块的屏幕截图。

  图19示出了根据一些实施方案的单倍型可视化工具中的结构变异模块的另一屏幕截图。

  图20示出了根据一些实施方案的单倍型可视化工具中的结构变异模块的另一屏幕截图。

  图21示出了根据一些实施方案的单倍型可视化工具中的结构变异模块的额外屏幕截图。

  图22示出了根据一些实施方案的单倍型可视化工具中的读段可视化模块的屏幕截图。

  图23示出了根据一些实施方案的单倍型可视化工具中的结构变异模块的另一屏幕截图。

  图24示出了根据一些实施方案的单倍型可视化工具中的结构变异模块的另一屏幕截图。

  图25示出了根据一些实施方案的单倍型可视化工具中的结构变异模块的另一屏幕截图。

  图26示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块。

  图27示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一方面。

  图28A示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一方面。

  图28B示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一方面。

  图29示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一方面。

  图30示出了根据一些实施方案的单倍型可视化工具中的相位可视化模块的另一方面。

  图31是示出了根据一些实现方式的计算系统的示例框图。

  图32是根据所公开的实施方案的关于对单倍型可视化工具的实例的远程开始的认证挑战的实例。

  图33示出了根据一些实施方案的单倍型可视化工具中的结构变异模型,其中序列读段过滤器关闭。

  图34示出了根据一些实施方案的单倍型可视化工具中的结构变体模型,其中序列读段过滤器开启。

  具体实施方式

  现在将详细地参考实施方案,在附图中示出了所述实施方案的实例。在以下详细描述中,陈述众多具体细节以便提供对本公开的彻底理解。然而,本领域的普通技术人员将清楚本公开可以在没有这些具体细节的情况下进行实践。在其它情况下,未详细地描述熟知的方法、程序、组成部分、电路和网络,以免不必要地掩盖所述实施方案的方面。

  还将理解,虽然在本文中可以使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一个元件区分开。举例来说,第一受试者可以被称作第二受试者,并且,类似地,第二受试者可以被称作第一受试者,而不会偏离本公开的范围。第一受试者与第二受试者都是受试者,但他们不是同一个受试者。

  本公开中所使用的术语仅用于描述特定实施方案而不打算限制本发明。如本发明的说明书和所附权利要求书中所使用,单数形式“一”、“一个”和“所述”打算也包括复数形式,除非上下文另外清楚地指示。还将理解,如本文中所使用,术语“和/或”指代并且涵盖相关联的所列项目中的一者或多者的任何和所有的可能组合。将进一步理解,术语“包括”和/或“包括了”在本说明书中使用时指定了所述特征、整体、步骤、操作、元件和/或组成部分的存在,但不排除一个或多个其它特征、整体、步骤、操作、元件、组成部分和/或其组的存在或增加。

  如本文中所使用,术语“如果”可以被理解为表示“在……时”或“在……后”或“响应于确定”或“响应于检测到”,具体取决于上下文。类似地,短语“如果确定”或“如果检测到[所述条件或事件]”可以被理解为表示“在确定……后”或“响应于确定”或“在检测到(所述条件或事件(后”或“响应于检测到(所述条件或事件)”,具体取决于上下文。

  本文中描述的实现方式提供了用于检测从生物样本获得的测试核酸的测序数据中的结构变体(例如,缺失、重复、拷贝数目变异、插入、倒位、易位、长末端重复(LTR)、短串联重复(STR)和各种其它有用表征)的各种技术解决方案。现在参看诸图来描述实现方式的详情。

  图1是示出了根据一些实现方式的结构变体和相位可视化系统100的框图。在一些实现方式中,装置100包括一个或多个处理单元CPU 102(也被称作处理器)、一个或多个网络接口104、用户接口106、存储器112和用于将这些组件互连的一个或多个通信总线114。通信总线114任选地包括将系统组件互连并且控制系统组件之间的通信的电路(有时被称作芯片集)。存储器112通常包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、ROM、EEPROM、快闪存储器、CD-ROM、数字影音光碟(DVD)或其它光存储装置、盒式磁带、磁带、磁盘存储或其它磁性存储装置、其它随机存取固态存储装置或可用于存储所要信息的任何其它介质;以及任选地包括非易失性存储器,诸如一个或多个磁盘存储装置、光盘存储装置、快闪存储装置或其它非易失性固态存储装置。存储器112任选地包括位于CPU 102远处的一个或多个存储装置。存储器112或者存储器112内的非易失性存储器装置包括非暂时性计算机可读存储介质。在一些实现方式中,存储器112或者非暂时性计算机可读存储介质存储以下程序、模块和数据结构,或其子集:

  ·任选的操作系统116,所述操作系统包括用于处置各种基本系统服务和用于执行硬体相关任务的程序;

  ·用于将装置100与其它装置或通信网络连接的任选的网络通信模块(或指令)118;

  ·用于处理测序读段的任选的测序读段处理模块120,包括用于识别来自物种的单个生物体的基因样本中的结构变异的结构变异确定子模块120和用于识别所述基因样本的每一测序读段的单倍型的定相子模块124;

  ·一个或多个核酸测序数据集126,每一此类数据集是使用来自物种的单个生物体的基因样本获得;

  ·基因注释数据,任选地呈基因轨迹间隔树128的形式;

  ·外显子注释数据,任选地呈外显子轨迹间隔树142的形式;

  ·注释数据的一个或多个额外源,任选地呈间隔树146的形式;

  ·用于使核酸测序数据中的结构变异和定相信息可视化的单倍型可视化工具148,包括概述模块150、相位可视化模块152、结构变异(可视化)模块154和读段可视化模块156中的一者或多者的任何组合。

  在一些实现方式中,用户接口106包括用于让用户与系统100和显示器108交互的输入装置(例如,键盘、鼠标、触摸板、跟踪板和/或触摸屏)100。

  在一些实现方式中,以上经识别的元件中的一者或多者存储于之前提及的存储器装置中的一者或多者中,并且对应于用于执行上述功能的一组指令。以上经识别的模块或程序(例如,指令集)无需实现为单独的软件程序、过程或模块,并且因此这些模块的各种子集在各种实现方式中可以进行组合或以其它方式重新布置。在一些实现方式中,存储器112任选地存储以上经识别的模块和数据结构的子集。此外,在一些实施方案中,存储器存储上文未描述的额外模块和数据结构。在一些实施方案中,以上经识别的元件中的一者或多者存储于除了系统100之外的计算机系统中,所述计算机系统可通过系统100寻址,使得在需要时,系统100可以检索此类数据的所有或一部分。

  虽然图1示出了“结构变异和相位可视化系统100”,但是该图更多地是打算作为对计算机系统中可能存在的各种特征的功能描述而不是作为本文中描述的实现方式的结构示意图。实际上,并且如本领域的普通技术人员所认识到的,单独地示出的项目可以进行组合并且一些项目可以分开。

  有利地,因为核酸序列数据集126在典型实施方案中较大(例如,1吉字节或更大、5吉字节或更大、或10吉字节或更大),所以在一些实施方案中,结构变异和相位可视化系统100是系统的一部分,所述系统包括经由通信网络3106与图1的结构变异和相位可视化系统100电子通信的一个或多个客户端装置3102。此类网络拓扑允许科学家和其他用户使用若干种基于网络的技术中的一种来在系统100上运行单倍型可视化工具148,但是在客户端装置3102上观看结果,其中所述系统在典型实施方案中是强大的服务器计算机,所述客户端装置可以是(例如)膝上型计算机。任何形式的用于实现这种网络拓扑的网络技术包含在本公开之内。举例来说,在一些实施方案中使用X窗口会话转发(图31中未示)。在其它实施方案中,使用因特网(网络)。明确地说,浏览器应用程序在客户端装置3102上运行。

  在远程计算机(例如,在系统3100中,结构变异和相位可视化系统100被认为是远程的)上运行程序以及在客户端装置3102(例如,桌上型或膝上型计算机)上观看结果的过程是麻烦的。用户一般必须(i)在其计算机3102以及服务器100的其它部分上安装程序的某些部分,(ii)使用SSH或防火墙软件来创建将两个计算机连接(系统3102连接至客户端装置100)的开放网络端口,以及(iii)独立地开始所述程序在不同系统上的不同部分。举例来说,特此以引用方式并入的URL blog.trackets.com/2014/05/17/ssh-tunnel-local-and-remote-port-forwardingexplained-with-examples.html解释了设置转发的一种方式。再举例来说,URL itg.chem.indiana.edu/inc/wiki/software/openssh/200.html解释了设置转发的另一种方式。本公开合并了此类技术。然而,有利地,在一些实施方案中,本公开提供对上文公开的网络技术的解决方案,所述解决方案设法使上文描述的过程自动化并且改进上文描述的过程。一旦用户已在其客户端装置3102上安装单倍型可视化工具148,那么他们仅需要向工具148提供其用于远程计算机(结构变异和相位可视化系统100)的凭证(例如,用户名和密码),所述远程计算机具有用于运行单倍型可视化工具148的数据和计算设施。举例来说,在一些实施方案中,参看图32,将向在客户端3102上运行单倍型可视化工具148的用户提供挑战3200,所述挑战包括对服务器名称或地址3204、用户名3206、任选的SSH密钥文件(以实现加密连接)3208、任选的SSH密钥密码3210和服务器上的工作位置3212的查询。在其客户端装置3102上的单倍型可视化工具148的实例之后连接至远程计算机100并且使用所提供的凭证以用户的身份来进行鉴认。使用该连接,在远程计算机上安装单倍型可视化工具148、启动所述工具并且配置任何必需的网络端口转发。一旦单倍型可视化工具已做完了这件事,那么在客户端装置3102上打开新的窗口,所述窗口“连接”至在远程的结构变异和相位可视化系统上运行的单倍型可视化工具。特别要注意的是,在此类实施方案中,客户端装置3102上的单倍型可视化工具148包括在其自身的拷贝中,所述拷贝打算在结构变异和相位可视化系统100上运行。在一些实施方案中,结构变异和相位可视化系统100运行第一操作系统,并且客户端装置3102运行第二操作系统。在一些实施方案中,第一操作系统与第二操作系统是相同的。在一些实施方案中,第一操作系统与第二操作系统是不同的。在一些实施方案中,第一操作系统是iOS、DARWIN、RTXC、LINUX、UNIX、OS X或WINDOWS中的一者,并且第二操作系统不同于第一操作系统并且是iOS、DARWIN、RTXC、LINUX、UNIX、OS X或WINDOWS中的一者。在所公开的实施方案中,在客户端装置3102上运行的单倍型可视化工具148将单倍型可视化工具148的归档拷贝复制至结构变异和相位定相系统100并且在设置过程期间安装(如果之前没有安装的话)。将了解,针对远程计算机上的单倍型可视化工具148的远程开始而公开的系统和方法适用于大范围的应用,所述应用需要远程服务器的计算资源,其中伴随的视觉可视接口在本地计算机上操作以便控制此类应用并且实时地或近实时地使数据和计算结果可视化。

  再次参看图1、图31和图32,本公开的一个方面提供用于使用本地计算机3102经由网络连接3106(例如,有线的或无线的)处理程序输出的系统3100。本地计算机3102包括一个或多个微处理器(未示出)以及存储一个或多个程序(例如,单倍型可视化工具148)的存储器(未示出)。所述一个或多个程序使用所述一个或多个微处理器来根据在本地计算机上运行的第一操作系统来执行一种方法。在所述方法中,调用第一程序的第一实例(例如,在客户端装置3102上调用单倍型可视化工具148的第一实例)。通过第一程序的所调用的第一实例,从用户获得访问远程计算机(例如,结构变异和相位可视化系统100)上的用户账户的登录和密码。用户之后使用由第一程序的第一实例提供的登录和密码、经由本地计算机与远程计算机之间的网络连接(例如,通信网络3106)自动地登录到远程计算机上的用户账户。响应于在远程计算机100上的成功登录,所述方法继续进行,在无人干预的情况下自动地发送第一程序148的第二实例,所述第二实例被配置成在传输至远程计算机后自动安装在远程计算机100上。在一些实施方案中,远程计算机已经安装有第一程序148的第二实例,并且在一些此类实施方案中,第一程序的第二实例因此不会为了安装而传输至远程计算机。一旦第一程序的第二实例安装在远程计算机100上,那么从远程计算机接收打开面板(未示出)的请求。此面板是通过在远程计算机100上运行的第一程序的第二实例产生。所述面板向用户请求用于控制第一程序的第二实例的输入。举例来说,在一些实施方案中,此面板是呈图12-21中的任一者中所示的形式。在一些实施方案中,所述面板较简单,例如,含有用于数据集名称的提示或用于在指定数据集中进行搜索的搜索查询。响应于在本地计算机上在面板中从用户接收到用于控制第一程序的第二实例的输入,经由网络连接将所述输入发送至在远程计算机100上运行的第一程序的第二实例。远程计算机经由网络连接接收此输入,并且随后将响应于所述输入的来自所述第一程序的第二实例的输出在本地计算机上(例如,在第一程序的第一实例内或在单独的网络浏览器中)作为输出来显示。

  参看图2,根据所公开的系统和方法,使用来自受试者的生物样本的测试(靶)核酸206来获得多个测序读段(未全部示出于图2中)。在典型实施方案中,测试(靶)核酸206是生物样本的基因组的片段。在一些实施方案中,在分区中有单个测试(靶)核酸206(片段)。在一些实施方案中,在分区中有两个或更多个测试核酸206(片段),每一核酸对应于生物样本的物种的基因组的不同部分。在一些实施方案中,在分区中有五个或更多个核酸206(片段),每一核酸对应于生物样本的物种的基因组的不同部分。在一些实施方案中,在分区中有十个或更多个核酸206,每一核酸对应于生物样本的物种的基因组的不同部分。在一些实施方案中,生物样本是混合物并且包括表示物种中的两个或更多个个体的基因组的核酸数据。在一些实施方案中,生物样本是混合物并且包括表示两个或更多个物种的基因组的核酸数据。举例来说,在一些实施方案中,生物样本感染了逆转录酶病毒。在另一实例中,生物样本含有宏基因组,因为样本是从沙子或尘土或某其它位置取得的并且目标是找到样本中存在的所有不同基因组。

  测序测序读段最终形成核酸测序数据集126的基础。多个测序读段中的每一相应测序读段202包括与测试核酸的子集对应的第一部分以及对相应测序读段的识别信息进行编码的第二部分。所述识别信息独立于测试核酸的测序数据。

  在一些实施方案中,测序读段长度具有N50(其中大于所述N50数目的测序读段长度的总和是所有测序读段长度的总和的50%)。在典型实施方案中,测序读段的长度是数十或数百个碱基,所述读段又经过比对而形成至少约10kb、至少约20kb或至少约50kb的构建体。在更优选的方面中,测序读段的长度是数十或数百个碱基,所述读段又经过比对而形成具有至少约100kb、至少约150kb、至少约200kb并且在许多情况中是至少250kb、至少约300kb、至少约350kb、至少约400kb并且在一些情况中是至少约500kb或更多的构建体。

  在一些实施方案中,为了从受试者的生物样本中获得多个测序读段,对测试核酸206分段并且将这些片段划分或分区成离散的隔室或分区(本文中可互换地称作分区)。在一些实施方案中,测试核酸是多染色体生物体(诸如人)的基因组。在典型实施方案中,从长度是数十或数百个碱基的每一此类隔室或分区中测得多个测序读段。来自同一隔室或分区的、具有相同条形码的测序读段可以经比对而形成长度是至少约25kb、至少约50kb、100kb、至少约150kb、至少约200kb并且在许多情况中是至少约250kb、至少约300kb、至少约350kb、至少约400kb并且在一些情况中是至少约500kb或更多的序列构建体。

  每一分区保持其自身内容与其它分区的内容的分离。如本文中所使用,分区是指可以包括各种不同形式(例如,孔、管、微孔或纳米孔、通孔等等)的器皿或容器。然而,在优选方面中,分区在流体流内是可流动的。在一些实施方案中,这些容器包括(例如)微囊或微泡,所述微囊或微泡具有环绕内流体中心或核心的外障壁或具有能够将材料截留和/或持留在其基质内的多孔基质。然而,在优选方面中,这些分区包括非水连续相(例如,油相)内的水性流体的小滴。各种不同容器描述于(例如)2013年8月13日提交的美国专利申请No.13/966,150中,所述申请特此以全文引用的方式并入本文中。同样地,用于在非水或油连续相中产生稳定小滴的乳液体系详细地描述于(例如)公开的美国专利申请No.2010-0105112中,所述申请特此以全文引用的方式并入本文中。在某些实施方案中,微流体通道网络尤其适合于产生如本文所描述的分区。此类微流体装置的实例包括在2014年4月4日提交的临时美国专利申请No.61/977,804中以及在PCT/US15/025197中详细描述的那些微流体装置,所述申请的全部公开内容为了所有目的以全文引用的方式并入本文中。在单独细胞的分区中还可以采用替代机制,包括用于将细胞的水性混合物挤压成非水流体的多孔膜。此类系统一般可购自(例如)NANOMI,Inc。

  在乳液中小滴的情况中,将测试核酸片段分区至离散分区中大体上可以通过以下步骤来完成:使水性的含样本的流流入接合点中,分区流体(例如,氟化油)的非水性流也流入到所述接合点中,使得在流动中的流分区流体内产生水性小滴,其中此类小滴包含样本材料。如下文所描述,分区(例如小滴)还通常包含经共分区的条形码寡核苷酸。

  可以通过控制所述系统的各种不同参数来调整任何特定分区内的样本材料的相对量,所述参数包括(例如)水性流中的测试核酸片段的浓度、水性流和/或非水流的流量等。本文中描述的分区的特征通常是具有以下总体积:小于1000pL、小于900pL、小于800pL、小于700pL、小于600pL、小于500pL、小于400pL、小于300pL、小于200pL、小于100pL、小于50pL、小于20pL、小于10pL或甚至小于1pL。当与珠粒一起进行共分区时,将了解,分区内的样本流体体积可以小于上述体积的90%、小于上述体积的80%、小于上述体积的70%、小于上述体积的60%、小于上述体积的50%、小于上述体积的40%、小于上述体积的30%、小于上述体积的20%或甚至小于上述体积的10%。在一些情况下,低反应体积分区的使用在与极小量的起始试剂(例如,输入测试核酸片段)进行反应时特别有利。用于用低输入核酸分析样本的方法和系统提供于2014年6月26日的美国临时专利申请No.62/017,580中,所述申请的全部公开内容特此以全文引用的方式并入。

  一旦将测试核酸片段引入其相应分区中,一般会向分区内的测试核酸片段提供唯一的识别符,使得在对那些核酸片段进行表征后,所述测试核酸片段可以被认为是得自其相应分区。此类唯一识别符可以在之前、在之后或同时地递送至容纳经划分或经分区的测试核酸片段的分区,以使得可以在之后将特性(例如,核酸序列信息)归于特定隔室内包含的样本核酸并且尤其是归于可能原来沉积至分区中的连续样本核酸的相对较长节段。

  因此,测试核酸片段通常是与唯一识别符(例如条形码序列)一起共分区。在特别优选的方面中,所述唯一识别以寡核苷酸的形式提供,所述寡核苷酸包括附接至分区中的测试核酸片段的核酸条形码序列。对寡核苷酸进行分区,使得如在给定分区中的寡核苷酸之间,其中含有的核酸条形码序列相同,但如在不同分区之间,寡核苷酸可以具有并且优选地具有不同的条形码序列。在一些实施方案中,仅一个核酸条形码序列与给定分区相关联,但在一些实施方案中,在给定分区中存在两个或更多个不同的条形码序列。

  核酸条形码序列将通常包括寡核苷酸的序列内的6个至约20个或更多个核苷酸。这些核苷酸可以是完全连续的,即,在相邻核苷酸的单个节段中,或它们可以被分开到由一个或多个核苷酸分开的两个或更多个单独子序列中。通常,分开的子序列的长度通常可能是约4个至约16个核苷酸。

  测试核酸通常经过分区,使得核酸是以连续核酸分子的相对较长片段或节段的形式存在于分区中。这些片段通常表示待分析的全部测试核酸的多个重叠片段,例如,整个染色体、外显子组或其它大的基因组片段。此测试核酸可以包括全体基因组、个别染色体、外显子组、扩增子、或各种不同的目标核酸中的任一者。通常,经分区的测试核酸的片段长于1kb、长于5kb、长于10kb、长于15kb、长于20kb、长于30kb、长于40kb、长于50kb、长于60kb、长于70kb、长于80kb、长于90kb或甚至长于100kb。

  测试核酸还通常按某一水平进行分区,借此使给定分区包括起始测试核酸的两个重叠片段的概率极低。这通常是通过在分区过程期间将测试核酸以低输入量和/或浓度提供来完成。结果,在优选情况中,给定分区包括起始测试核酸的多个长的但非重叠的片段。之后将不同分区中的核酸片段与唯一识别符相关联,其中对于任何给定分区,其中含有的核酸具有相同的唯一识别符,但其中不同分区包括不同的唯一识别符。此外,因为分区步骤将样本组份分配到极小体积的分区或小滴中,所以将了解,为了实现如上文陈述的所要分配,不需要像在较高体积过程(例如在管、或多孔板的孔中)中要求的那样进行样本的大量稀释。另外,因为本文中描述的系统采用此类高水平的条形码多样性,所以可以在较大量的基因组等效物(如上文所提供)中分配不同的条形码。在一些实施方案中,使用10,000、100,000、500,000等以上的不同条形码类型来实现约1:50或更小、1:100或更小、1:1000或更小、或甚至更小比率的基因组:(条形码类型)比率,同时还允许载入较大量的基因组(例如,约每次测定大于100个基因组、每次测定大于500个基因组、每次测定1000个基因组、或甚至更多)同时还实现了每基因组大大改进的条形码多样性。此处,每一此类基因组是测试核酸的实例。

  参看图2中的图A和B,通常,上述分区是通过将含有测试核酸的样本与一组寡核苷酸标记(含有条形码)组合来进行,所述标记在分区步骤之前可释放地附接至珠粒308。寡核苷酸可以至少包括引物区216和条形码214区。在给定分区内的寡核苷酸之间,条形码区214基本上为相同的条形码序列,但如在不同分区之间,条形码区在大多数情况下是不同的条形码序列。在一些实施方案中,引物区216是用于对分区内的样本内的核酸进行引发的N-mer(随机N-mer或经设计以靶向特定序列的N-mer)。在N-mer是针对特定序列的一些情况中,引物区216经设计以靶向特定染色体(例如,人染色体1、13、18或21)或染色体的区(例如,外显子组或其它靶向区)。在一些情况中,N-mer经设计以靶向特定基因或基因区(诸如与疾病或病症(例如癌症)相关联的基因或区)。在一些情况中,N-mer经设计以靶向特定结构变异。在分区内,使用引物序列216(例如N-mer)来在核酸的长度上的不同位置处对核酸样本进行引发来进行扩增反应。由于扩增,每一分区含有核酸202的扩增产物,所述扩增产物附接至相同的或几乎相同的条形码并且表示每一分区中的核酸的重叠的、较小的片段。条形码214因此用作表示源自同一分区并且因此可能还是源自测试核酸的同一链的一组核酸的标记。在扩增之后,使用测序算法对核酸进行汇集、测序以及比对。因为较短的序列读段可以借助其相关联的条形码序列而进行比对并归于测试核酸的单个长片段,所以该序列上的所有识别出的变异都可以归于测试核酸的单个起源片段和单个起源染色体。另外,通过对多个长片段中多个在同一位置的变异进行比对,可以进一步表征该染色体贡献。因此,之后可以得出关于特定基因变异的定相的结论。此类信息可以用于识别单倍型,单倍型大体上是驻留于同一核酸链或不同核酸链上的指定的一组基因变异。此外,另外或其它,识别结构变异。

  在一些实施方案中,除了分区内的样本内的核酸的条形码区214和引物区216区之外,经共分区的寡核苷酸还包括功能序列。参见(例如)关于对寡核苷酸和相关联的条形码和其它功能序列的共分区以及样本材料的公开,如(例如)2014年2月7日提交的美国专利申请No.61/940,318和2014年5月9日提交的美国专利申请No.61/991,018、和2014年6月26日提交的美国专利申请No.14/316,383(代理人案号43487-708.201)以及2014年2月7日提交的美国专利申请No.14/175,935中所描述,以上各案的全部公开内容特此以全文引用的方式并入。

  在一个示例性过程中,提供珠粒,其中每一此类珠粒包括大量可释放地附接至珠粒的上述寡核苷酸。在此类实施方案中,附接至特定珠粒的所有寡核苷酸包括相同的核酸条形码序列,但在所使用的珠粒群上呈现大量不同的条形码序列。通常,珠粒群提供不同条形码序列库,所述库包括至少1000个不同的条形码序列、至少10,000个不同的条形码序列、至少100,000个不同的条形码序列,或在一些情况中为至少1,000,000个不同的条形码序列。另外,每一珠粒通常具有所附接的大量寡核苷酸分子。具体地说,单独珠粒上包括条形码序列的寡核苷酸的分子的数目可以是至少约10,000个寡核苷酸、至少100,000个寡核苷酸分子、至少1,000,000个寡核苷酸分子、至少100,000,000个寡核苷酸分子并且在一些情况中是至少十亿个寡核苷酸分子。

  在一些实施方案中,寡核苷酸是在对珠粒施加特定刺激后可从珠粒释放。在一些情况中,所述刺激可以是光刺激,例如,通过光不稳定键的断裂,所述断裂可以释放寡核苷酸。在一些情况中,可以使用热刺激,其中珠粒环境的温度的升高可能会导致键的断裂或寡核苷酸从珠粒的其它释放。在一些情况中,可以使用化学刺激,所述化学刺激使寡核苷酸与珠粒的键断裂或者可能会导致寡核苷酸从珠粒的释放。

  根据本文所描述的方法和系统,包括所附接的寡核苷酸的珠粒可以与单独样本一起进行共分区,使得单个珠粒与单个样本容纳于单独分区内。在单珠粒分区是所要的一些情况中,可能希望控制流体的相对流量,使得平均来说该等分区中每分区含有小于一个珠粒,以便确保被占用的那些分区基本上是被单个占用。同样地,有人可能想要控制流量以使得较高百分数的分区被占用,例如,允许存在仅小百分数的未占用分区。在优选方面中,控制流量和通道结构以便确保所要数目的单占用分区、小于某一水平的未占用分区以及小于某一水平的多占用分区。

  2014年10月29日提交的标题为“Analysis of Nucleic Acid Sequences”的美国专利申请No.62/072,214(所述申请特此以引用方式并入)的图3以及其中说明书中描述图3的部分提供了根据本公开的一个实施方案的用于对测试核酸(在所述参考文献中被称作“样本核酸”)编制条形码以及随后进行测序的一种方法的详细实例。如上文所指出,虽然单珠粒占用可能是最想要的状态,但是将了解,多占用分区或未占用分区通常也可能存在。2014年10月29日提交的标题为“Analysis of Nucleic Acid Sequences”的美国专利申请No.62/072,214(所述申请特此以引用方式并入)的图4以及其中说明书中描述图4的部分提供了根据本公开的一个实施方案的用于对样本与包括条形码寡核苷酸的珠粒进行共分区的微流体通道结构的详细实例。

  一旦进行共分区,安置于珠粒上的寡核苷酸可以用于对经分区的样本编制条形码并进行扩增。用于在对样本进行扩增和编制条形码的过程中使用这些条形码寡核苷酸的一种方法详细地描述于2014年2月7日提交的美国专利申请No.61/940,318、2014年5月9日提交的美国专利申请No.61/991,018和2014年6月26日提交的美国专利申请No.14/316,383(代理人案号43487-708.201)中,以上各案的全部公开内容特此以全文引用的方式并入。简要地说,在一个方面中,与样本一起进行共分区的珠粒上存在的寡核苷酸从其珠粒释放进入具有样本的分区中。除了条形码序列之外,寡核苷酸通常还包括在其5’端处的引物序列。此引物序列可以是旨在用于对样本的许多不同的区随机地进行引发的随机寡核苷酸序列,或所述引物序列可以是专门用于在样本的特定目标区的上游进行引发的特定引物序列。

  一旦被释放,寡核苷酸的引物部分可以与样本的互补区退火。也与样本和珠粒一起进行共分区的延伸反应剂(例如,DNA聚合酶、三磷酸核苷、辅因子(例如,Mg2+或Mn2+等))之后使用样本作为模板来延伸引物序列,以产生所述引物退火至的、所述模板的链的互补片段,其中互补片段包括寡核苷酸以及其相关联条形码序列。多个引物退火和延伸至样本的不同部分可能会导致样本的重叠互补片段的大集合,其中每一片段具有其自身的条形码序列,所述条形码序列指示在其中产生所述条形码序列的分区。在一些情况中,这些互补片段自身可以用作通过分区中存在的寡核苷酸引发的模板以产生同样包括条形码序列的互补序列的互补序列。在一些情况中,此复制过程经配置使得在复制第一互补序列时,会在其末端处或附近产生两个互补的序列,以允许形成发夹结构或部分发夹结构,所述结构降低了分子成为用于产生其它重复拷贝的基础的能力。这种情况的一个实例的示意图展示于图2中。

  如图2中所示,包括条形码序列214的寡核苷酸202与样本测试核酸片段206一起被共分区到(例如)乳液中的小滴204中。在一些实施方案中,寡核苷酸202设置于与测试核酸片段206一起进行共分区的珠粒208上,所述寡核苷酸优选地是可从珠粒208释放,如图2中的图(A)所示。如图2中的图(B)所示,除了一个或多个功能序列(例如,序列212、214和216)之外,寡核苷酸202还包括条形码序列214。举例来说,寡核苷酸202如图所示进一步包括序列212,所述序列可以充当给定测序系统的附接或固定序列,例如,用于在ILLUMINA、HISEQ或MISEQ系统的流动池中进行附接的P5序列。换句话说,在一些实施方案中,使用附接序列212来将寡核苷酸202可逆地附接至珠粒208。如图2中的图B所示,寡核苷酸202还包括引物序列216,所述引物序列可以包括用于引发样本测试核酸片段206的部分的复制的随机或靶向N-mer(上文论述)。图2中的图B的示例性寡核苷酸202内还包括序列210,所述序列可以提供测序引发区,诸如“读段1”或R1引发区,所述引发区用于在测序系统中引发通过合成反应进行的聚合酶介导的、模板指导的测序。在许多情况中,条形码序列214、固定(附接)序列212和示例性R1序列214可能是附接至给定珠粒的所有寡核苷酸202共有的。引物序列216对于随机N-mer引物可能是变化的,或对于某些目标应用可能是给定珠粒上的寡核苷酸共有的。2014年2月9日提交的标题为“Systems and Methods for Determining Structural Variation”的美国临时申请No.62/113,693中的图3B至图3E以及描述这些图的说明书详述了寡核苷酸202如何形成样本测试核酸的测序读段,其中每一此类测序读段包括为样本测试核酸的测序读段的第一部分以及为寡核苷酸202的第二部分。此类测序读段以及对此类测序读段的分析形成所公开的核酸测序数据集126的基础。

  在一些实施方案中,处理核酸测序数据集126中的测序读段以便对至少一个靶核酸进行测序。在一些实施方案中,使用常规方法来处理核酸序列读段以便建立所述至少一个靶核酸的序列。在一些实施方案中,使用2015年6月26日提交的标题为“Processes and Systems for Nucleic Acid Sequence Assembly”的PCT申请PCT/US2015/038175(所述申请特此以引用方式并入)中公开的新型方法来处理核酸序列读段以便建立所述至少一个靶核酸的序列。在一些实施方案中,此类测序涉及将测序读段映射至参考基因组,诸如从中取得样本的物种的基因组。在一些实施方案中,预计或怀疑样本含有多个基因组(例如,样本(诸如人样本)感染了逆转录酶病毒的情况)。在此类情况中,可以同时使用来自不同物种的多个参考基因组。

  在一些实施方案中,通过对测序读段进行定相以及通过查找结构变异来处理测序读段。在一些实施方案中,使用常规的定相方法和结构变异方法。在一些实施方案中,使用新型的定相方法和结构变异方法,诸如2015年10月6日提交的标题为“Systems and Method for Determining Structural Variation Using Probabilistic Models”的美国临时申请No.62,238,077中公开的那些方法,所述申请特此以引用方式并入。虽然这个参考文献中没有公开,但是在一些实施方案中,所述参考文献的教导经过扩展而在样本可能含有来自多个参考基因组的核酸的情况下合并多个参考基因组。举例来说,在样本是人但有可能样本感染了逆转录酶病毒的情况中,将逆转录酶病毒的基因组看作额外染色体。这样,有可能将本公开中公开的可视化方法扩展到识别核酸构建体(诸如逆转录酶病毒)至正在研究的样本的基因组中的插入。

  因此,举例来说,所公开的技术可以使用条形码来辨别以下两种情形。一种情形是人样本,其中HPV病毒在样本中自由漂浮但病毒还没有插入人DNA中。它们是自由漂浮的分子-单独的分子、单独的病毒、单独的人DNA。在那种情况中,测得的序列读段将会包括映射至HPV和人类基因组的读段,但是HPV和人类基因组没有一样的条形码,这表示人类基因组与HPV是不同的。另一方面,如果HPV分子已插入到一个人染色体或两个人染色体中,那么将测得的是同时映射至人染色体与HPV并且共享相同条形码的序列读段,这表示与单独的分子相反它们存在于同一分子中(例如,HPV已合并至人染色体中)。此外,可以使用条形码来定位HPV插入于人染色体中的精确位置。

  图3示出了从受试者(例如,特定的人)的生物样本中获得的数据。此数据是以核酸序列数据集126的形式进行概括。在一些情况中,上述类型的全基因组系列产生30-40吉字节的数据。根据本公开的一些方面,此类原始数据被简缩成为原始数据大小的分数的核酸序列数据集126。在一些实施方案中,虽然原始数据被简缩而形成核酸序列数据集126,但是数据集126仍过大而无法载入至典型计算机的RAM中。举例来说,在一些实施方案中,核酸序列数据集126是五吉字节或更大、十吉字节或更大、或者十五吉字节或更大。

  如图3中所示,示例性核酸测序数据集126被组织成三个部分,即,标头302、概要308和数据段340。标头302的目的是描述数据集126的组成部分304以及任选地提供数据集126结构的版本306,例如版本1.7。在一些实施方案中,标头302被格式化为JSON结构以方便使用基于网络的应用程序(例如网络浏览器)来进行载入。参见URL json.org,其特此以引用的方式并入。举例来说,在一些实施方案中,标头被格式化为JSON对象:以{(左括号)开始并且以}(右括号)结束,其中每一名称后跟着:(冒号)并且名称/值对是由,(逗号)隔开。在一个示例性实施方案中,指定测序数据集具有126的标头302具有以下组成部分:片段轨迹(例如,数据集中的所有片段的长度、位置、条形码和相位)、目标轨迹(由在处理期间所使用的俘获协议选择的基因组的区)、结构变异轨迹(样本中被识别出的所有结构变异的列表)、目标数据集的索引、vcf_索引(将基因组的范围与数据集126文件中的位置相关的索引)、标记、相位块概述(对测试核酸206中的各种相位块的描述)、基因轨迹(对所有人基因的描述,在每一基因中用多个SNP作标记)、BAM数据(将基因组的范围与文件中含有关于该范围的读段信息的位置相关联)、概述(从测序数据中提取的高级量度)、以及参考序列索引(含有在样本中被识别出的SNP的dbSNP识别符(RSID)的列表的索引,由此将RSID与其在基因组中的位置相关联)。

  概要段308含有在存取数据集126时通过单倍型可视化工具148读取至易失性(例如,随机存取)存储器中的数据,通常是全部读取。此数据由数据段340的索引以及可视化工具148经常引用的其它数据组成。如图3中所示,概要段308被分裂成几个组成部分,所述组成部分对应于标头段302中的“索引”阵列(例如组成部分列表302)。

  概述310提供从所述数据中提取的高级度量。在一些实施方案中,概述310由概述模块150使用来提供概述数据,诸如图12和图13中所示的概述数据。这包括已定相的已知SNP(例如人SNP)的百分数1202、最长相位块1204、有效条形码计数1206(例如,数据集126中所使用的唯一条形码的数目)、平均片段长度1208、平均片段长度的均值1210、大于下限阈值(例如20kb)的片段的百分数1212、片段长度柱状图或其它形式的片段长度度量1214、N50相位块大小1216、相位块长度柱状图或其它形式的相位块长度度量1218、由数据集表示的序列读段的数目1220、中值插入大小1222、中值深度1224、具有零覆盖的目标基因组的百分数1226、所映射读段的百分数1228、PCR复制百分数1230、有效碱基(百分数)1232、覆盖柱状图或其它形式的覆盖度量1234、存储器112中的数据集的源(1234)、测试核酸的识别码(1236)、基因组源(1238)、供体生物体的性别(1240)、数据集文件格式版本1242以及指向针对数据集126所作的结构变异识别1244的指针(1244)。

  对变异识别数据的索引312是见于在概述中找到的索引的实例,并且它将靶核酸的基因组的相应范围214与对应数据段340中、在其中找到所述相应范围内的变异识别数据的偏移316相关。

  在一些实施方案中,相位块轨迹318存储于核酸测序数据集126的概要段308中。示例性相位块轨迹318的结构的更多细节见于图4中。参看图4,在一些实施方案中,相位块轨迹318包括词典段402和轨迹数据段408。所述轨迹数据段包括多个记录410。在一些实施方案中,所述多个记录中的每一记录包括对应染色体的相位信息。在一些实施方案中,所述一个或多个数据段中的每一者存储一个或多个对应染色体的相位信息。在一些实施方案中,所述一个或多个数据段中的每一者将对应染色体的相位信息按区间树422格式来存储。

  相位块轨迹318的词典402包括多个名称404以及对于每一名称404,在其中找到对应名称404的记录的轨迹数据408中的偏移406。在一些实施方案中,相位块轨迹318的词典402含有单个名称,例如“相位_数据”。

  在一些实施方案中,轨迹数据408是JSON格式。在一些实施方案中,每一记录410表示靶核酸中的相位块。因而,在一些实施方案中,每一记录410指定上面有相位块的染色体的数目412以及在染色体412上相位块开始的位置414和在染色体412上相位块结束的位置416。此外,对于关于相位块的每一记录和定位信息420,存在唯一名称418。在一些实施方案中,信息420的目的是提供相位块的定相信息的细节。在一些实施方案中,相位块包括关于与两个亲代对应的两个单倍型(例如,分别被表示为单倍型“A”和单倍型“B”)的信息。因此,在一些实施方案中,相位信息包括相位ASNP 422(相位块中计数的单倍型“A”上的单核苷酸多态性的数目)、未定相SNP 424(相位块中计数的未知单倍型的单核苷酸多态性的数目)和相位BSNP(相位块中计数的单倍型“B”上的单核苷酸多态性的数目)。因而,轨迹数据408保留了核酸测序数据集126的某些相位块数据(例如,SNP计数)。用于对基因组数据和相位块定相的技术描述于Browning和Browning,“Haplotype phasing:Existing methods and new developments,”Nat Rev Genet.;12(10):703–714.doi:10.1038/nrg3054中,所述参考文献特此以全文引用的方式并入。

  在一些实施方案中,通过对应的区间树422将轨迹数据408放入背景中。因而,每一记录410通过由区间树422中的节点424来表示。每一此类区间树422是三叉树,其中所述树的每一节点424存储节点的中点xmed 432。此中点432是与所述节点对应的相位块的中点在对应染色体上的位置。每一相应节点424具有至左子节点428的链接,所述左子节点对应于在目标(遗传基因源)生物体的物种的基因组中紧靠在由相应节点424表示的相位块左边的相位块。每一相应节点424具有至右子节点430的链接,所述右子节点对应于紧靠在由相应节点424表示的相位块右边的相位块。每一相应节点424具有节点的有序集合425,所述节点表示与相应节点424的xmed 432重叠的相位块,所述相位块是按此类相位块的左侧位置进行排序。每一相应节点424具有节点的有序集合436,所述节点表示与相应节点424的xmed 432重叠的相位块,所述相位块是按此类相位块的右侧位置进行排序。在一些实施方案中,有序集合425和436在节点424中按阵列或链表来表示。每一相应节点424进一步包括名称426,所述名称是轨迹数据410中与记录410的偏移,所述记录含有与相应节点424对应的相位块的相位信息420。

  如图4中所示,在一些实施方案中,相位块轨迹中的每一染色体有单独的区间树422。此类区间树有利地提供识别与目标基因组的用户指定区有关的所有记录410的快速方式。相位块轨迹318的实例见于图5中。在图5中,示出了与图4所示数据结构对应的示例性元素。

  参看图3,在一些实施方案中,概要308进一步包括参考序列索引319,所述索引是含有分子变化(例如SNP)识别符的索引,所述识别符是在与核酸测序数据集对应的样本中被识别出。参考序列索引319将每一此类识别符与其在目标生物体的基因组中的位置相关联。在一些实施方案中,参考序列索引319按JSON数据结构来存储。在一些实施方案中,参考序列索引319中的每一多态性识别符是见于国家生物技术信息中心(NCBI)数据库中的dbSNP识别符。参见Wheeler等人,2007,“Database resources of the National Center for Biotechnology Information,”Nucleic Acids Res.35(Database issue):D5–12,所述参考文献特此以引用方式并入。此类dbSNP识别符被称作参考SNP集群ID(RSID)。

  在一些实施方案中,概要308进一步包括基因轨迹320,所述基因轨迹提供用见于每一基因中的SNP的数目标记的人基因的参考。示例性基因轨迹320的结构的更多细节见于图6中。参看图6,在一些实施方案中,基因轨迹320包括词典段602、轨迹数据段608和一个或多个数据段628。在一些实施方案中,所述一个或多个数据段中的每一者存储对应染色体的基因信息。在一些实施方案中,所述一个或多个数据段中的每一者存储一个或多个对应染色体的基因信息。在一些实施方案中,所述一个或多个数据段中的每一者将对应染色体的基因信息按区间树628格式来存储。

  基因轨迹320的词典602包括多个名称604以及对于每一名称604,在其中找到对应名称604的记录的轨迹数据608中的偏移606。在一些实施方案中,词典602中的每一名称604是目标基因组中的染色体的名称。

  在一些实施方案中,基因轨迹320的轨迹数据608包括多个基因记录610。在一些实施方案中,轨迹数据608是JSON格式。在一些实施方案中,每一基因记录610表示靶核酸的物种中的基因。因而,在一些实施方案中,每一基因记录610指定其上有对应基因的染色体的数目612、在染色体612上基因开始的位置614以及在染色体612上基因结束的位置616。此外,对于关于基因的每一基因记录和基因信息620,存在唯一名称618。在一些实施方案中,信息620的目的是提供关于基因的基因信息,诸如,例如,基因的替代名称622、基因上的单核苷酸多态性的计数624以及基因的方向(例如,加或减)626。

  在一些实施方案中,通过对应的区间树628将轨迹数据608放入背景中。每一基因记录610形成区间树628中的节点630。每一区间树628是三叉树,其中每一节点630存储节点的中点xmed642。此中点642是与所述节点对应的基因的中点在对应染色体上的位置。每一相应节点630具有至左子节点638的链接,所述左子节点对应于在目标生物体的物种中紧靠在由相应节点630表示的基因左边(染色体上的较小位置)的基因。每一相应节点630具有至右子节点640的链接,所述右子节点对应于在目标生物体的物种中紧靠在由相应节点630表示的基因右边(染色体上的较大位置)的基因。每一相应节点620具有节点的有序集合632,所述节点分别表示与相应节点620的xmed 632重叠的基因,所述基因是按左侧位置进行排序。每一相应节点630具有节点630的有序集合,所述节点分别表示与相应节点630的xmed 642重叠的基因,所述基因是按右侧位置进行排序。在一些实施方案中,有序集合632和644在节点630中按阵列或链表来表示。每一相应节点630进一步包括名称636,所述名称是轨迹数据608中与基因记录610的偏移,所述记录含有与相应节点630对应的基因的基因信息620。

  如图6中所示,在一些实施方案中,基因轨迹320中的每一染色体有单独的区间树628。此类区间树有利地提供识别与目标基因组的用户指定区有关的所有记录610的快速方式。基因轨迹320的实例见于图7中。在图7中,示出了与图6所示数据结构对应的示例性元素。

  在一些实施方案中,概要308进一步包括外显子轨迹322。在一些实施方案中,外显子轨迹322具有与基因轨迹320相同的结构,除了基因轨迹320表示目标生物体的物种中的基因的基因信息,而外显子轨迹320提供目标生物体的物种中的外显子的基因信息之外。

  在一些实施方案中,概要308进一步包括读段数据的索引324。此索引324提供核酸测序集的数据段340中的序列/读段数据1048的索引,在下文参看图10对此进行更详细的描述。参看图3,索引324包括将识别符与数据集中使用的条形码(未示出)相关联的数据库。将识别符与数据集中使用的条形码相关联的数据库(查找表)是用于压缩读段数据1048的大小的有用方式,因为识别符可以用来替代较长的实际条形码。这是因为对于给定程度的信息内容,在给定数据集126中并未使用所有理论上可能的条形码。

  索引324进一步包括读段数据1048中染色体偏移-->文件偏移关联的按染色体组织的阵列328以及每一此类数据元素的长度,由此允许查找特定基因组范围的对应数据。在一些实施方案中,读段数据是以分块索引的形式来存储,并且每一记录328是合并至数据集126中的BAM文件中的每一条目的固定位记录。BAM文件中的每一此类条目被组织成所述文件的数据段340内的块。概要308中的索引324有助于在数据段340内找到要读取的正确的块。参看图10,公开了通过索引324指引的序列/读段数据1048的对应结构。对于每一染色体,读段数据1048存储于块1050中。在一些实施方案中,每一数据块1050是按照以下格式的64位结构1052的阵列:

  其中O一直都是O,X指示读段质量低于阈值(例如,低于60),L指示读段是来自亲代单倍型A,R指示读段是来自亲代单倍型B,I是与读段中的条形码对应的数值识别符,E是读段的“结束”长度,以及S是相对于块1050的开始此读段的“开始”位置。更一般来说,参看图10,每一结构1052对应于来自物种的单个生物体的靶核酸的单个读段并且包括开始(偏移)、长度、条形码的指示符以及某些标志。在一些实施方案中,结构1052内的开始是染色体上的实际位置减去在索引324的记录328的染色体偏移字段中针对块1050存储的开始值。有利地,此使得可以避免在结构1052中基因组坐标的较大重复。此类坐标可以是数以十亿计并且因此将需要用30个位来进行存储。有利地,通过分块,如序列/读段数据1048中所公开,每一块覆盖高达约一百万个碱基对并且因此块中的每一结构1052中的每一开始(偏移)仅需要20个位,因为任何给定块的范围是由存储在概要308中的索引324中的对应记录328的染色体偏移/长度部分指定。类似地,如上文所概述,在优选实施方案中,结构1052中的条形码字段不存储实际条形码。在一些实施方案中,结构1052中的条形码指示符是存储于索引324中的条形码表的24位索引。因此,当需要与特定读段相关联的实际条形码时,存取与所述读段对应的结构1052,并且针对索引324中的条形码表查询结构1052中的24位条形码指示符以获得条形码。这样,避免了结构1052中的30位条形码。在一些实施方案中,所述条形码大于30位(例如,32位、34位、36位或更大),并且结构1052中的条形码的指示符大于20位(例如,22位、24位、26位或更大)。在一些实施方案中,所述条形码少于30位(例如,28位、26位、24位或更少),并且结构1052中的条形码的指示符少于20位(例如,18位、16位、14位或更少)。在一些实施方案中,每一数据块1050是具有相同预定大小(例如,128位、64位、32位或某其它固定位大小)的结构1052的阵列。

  在一些实施方案中,概要308进一步包括结构变异数据集轨迹330。在一些实施方案中,结构变异数据集轨迹330包括样本中由数据集126表示的被识别结构变异的列表。示例性结构变异数据集轨迹330的结构的更多细节见于图8中。参看图8,在一些实施方案中,结构变异数据集330包括词典段802、轨迹数据段808和一个或多个数据段840。在一些实施方案中,所述一个或多个数据段840中的每一者存储对应染色体的结构变异识别信息。在一些实施方案中,所述一个或多个数据段840中的每一者存储一个或多个对应染色体的结构变异识别信息。在一些实施方案中,所述一个或多个数据段840中的每一者将对应染色体的基因信息按区间树格式来存储。

  结构变异数据结构变异数据集轨迹330的词典802包括多个名称804以及对于每一名称804,在其中找到针对对应名称804的记录的轨迹数据808中的偏移606。在一些实施方案中,词典802中的每一名称804是目标基因组中的染色体的名称。

  结构变异数据集轨迹330的轨迹数据808包括多个结构变异记录810。在一些实施方案中,轨迹数据808是JSON格式。在一些实施方案中,每一结构变异记录810表示针对由数据集126表示的单个生物体的靶核酸进行的结构变异识别。因而,在一些实施方案中,每一结构变异记录810指定染色体数目812、由结构变异化表示的开始位置814、染色体812上由结构变异表示的停止位置816、结构变异的位置唯一名称818以及关于结构变异的信息820。在一些实施方案中,结构变异数据集轨迹330包括类似的、与之对应的或按BEDPE格式的信息,以有利地简单地描述不相连的基因组特征,诸如结构变异或成对末端序列比对。参见URL bedtools.readthedocs.org/en/latest/content/general-usage.html,所述URL特此以引用方式并入本文中。因此,在一些实施方案中,每一结构变异记录810中的信息段820包括染色体1名称822,所述名称是所述特征的第一端存在于其上的染色体的名称。在一些实施方案中,染色体1名称822是按字符串格式,例如,“chr1”、“III”、“myChrom”或“contig1112.23”。

  在一些实施方案中,每一记录810中的信息段820进一步包括开始1位置830,所述位置是染色体1名称822上特征的第一端的大于等于零的开始位置。

  在一些实施方案中,每一记录810中的信息段820进一步包括停止1(结束1)位置826,所述位置是染色体1名称822上由记录810表示的特征(例如结构变异)的第一端的大于等于1的结束位置。

  在一些实施方案中,每一记录810中的信息段820进一步包括染色体2名称836,所述名称是由记录810表示的特征的第二端存在于其上的染色体的名称。在一些实施方案中,染色体2名称836是按字符串格式,例如,“chr1”、“III”、“myChrom”或“contig1112.23”。

  在一些实施方案中,每一记录810中的信息段820进一步包括开始2位置828,所述位置是染色体2名称836上由记录810表示的特征的第二端的大于等于零的开始位置。

  在一些实施方案中,每一记录810中的信息段820进一步包括停止2(结束2)位置824,所述位置是染色体2名称836上由记录810表示的特征(例如结构变异)的第二端的大于等于1的结束位置。

  在一些实施方案中,每一记录810中的信息段820进一步包括结构变异字段的名称834,所述名称是由记录810表示的特征(例如结构变异)的名称。在一些实施方案中,结构变异834的名称是按字符串格式,例如,“LINE”、“Exon3”、“HWIEAS_0001:3:1:0:266#0/1”或“my_Feature”。

  在一些实施方案中,每一记录810中的信息段820进一步包括质量(得分)字段832,所述字段是对由记录810表示的特征(例如结构变异)的质量进行打分的任何度量。在一些实施方案中,质量832是按字符串格式,由此准许所述特征的质量用任何科学度量(例如,p-值、平均丰值等)来表达。

  在一些实施方案中,每一记录810中的信息段820进一步包括关于由记录81表示的特征的其它信息838,诸如排列的每一端的编辑距离、或“缺失”、“倒位”等)。

  继续参看图8,在一些实施方案中,通过对应的区间树840将轨迹数据808放入背景中。每一记录810形成区间树840中的节点842。每一区间树840是三叉树,其中每一节点842存储节点的中点xmed 852。此中点852是与所述节点对应并且由对应记录810表示的特征(例如结构变异)的中点在对应染色体上的位置。每一相应节点842具有至左子节点848的链接,所述左子节点对应于在数据集126中紧靠在由相应节点842表示的特征左边(染色体上的较小位置)的特征(例如结构变异)。每一相应节点842具有至右子节点850的链接,所述右子节点对应于在数据集126中紧靠在由相应节点842表示的特征右边(染色体上的较大位置)的特征(例如结构变异)。每一相应节点842具有节点的有序集合854,所述节点分别表示与相应节点842的xmed 852重叠的特征(例如结构变异),所述特征是按左侧位置进行排序。每一相应节点842具有节点的有序集合844,所述节点分别表示与相应节点842的xmed 852重叠的特征,所述特征是按右侧位置进行排序。在一些实施方案中,有序集合844和854在节点840中按阵列或链表来表示。每一相应节点840进一步包括名称846,所述名称是轨迹数据808中与记录810的偏移,所述记录含有与相应节点840对应的特征(例如结构变异)的信息820。

  如图8中所示,在一些实施方案中,结构变异数据集轨迹330中的每一染色体有单独的区间树840。此类区间树有利地提供识别与目标基因组的用户指定区有关的所有记录810的快速方式。结构变异数据集轨迹330的部分的实例见于图9中。在图9中,示出了与图8所示数据结构对应的示例性元素。

  参看图3,在一些实施方案中,概要308进一步包括目标数据集342的索引332。目标数据集342包括样本中的至少一个靶核酸的、被选来用于在核酸测序数据集中进行测序的区。在一些实施方案中,索引332和目标数据集342存储于分块JSON索引中。分块JSON索引包括概要段中的单个JSON对象(索引332)和数据段中的多个JSON对象(目标数据集342)。索引332用于计算为了完成特定查询必须要读取哪些数据组成部分。在一些实施方案中,索引332是按染色体来分开。对于每一染色体,索引332存储将该染色体上的范围与在其中可以找到针对该范围的特定数据的、目标数据集中的偏移相关联的阵列(记录)334。在一些实施方案中,目标数据集342含有许多独立阵列。每一阵列含有基因组的一个连续范围内的所有范围(和相关联数据)。目标数据集342中的每一阵列对应于索引332中的单个阵列(条目)334。在一些实施方案中,目标数据集中的每一此类阵列被定尺寸以容纳约1,000个条目。因为特定范围有可能与多个“块”重叠,所以相同的数据可能会被写入至多个连续阵列中。参看图3,在一些实施方案中,概要308进一步包括片段数据集344的索引336。片段数据集344包括核酸测序数据集中的所有片段的长度、位置、条形码和相位。如上文所描述,片段是来自单个分区的核酸。在一些实施方案中,索引336和片段数据集344存储于分块JSON索引中。分块JSON索引包括概要段中的单个JSON对象(索引336)和数据段中的多个JSON对象(片段数据集344)。索引336用于计算为了完成特定查询必须要读取哪些数据组成部分。在一些实施方案中,索引336是按染色体来分开。对于每一染色体,索引336存储将该染色体上的范围与在其中可以找到针对该范围的特定数据的、片段数据集344中的偏移相关联的阵列338。片段数据集344中的数据块的实例是:

  因此,如上文提供的,本公开的所公开的核酸测序数据集126提供了将常规上见于单独文件中的几种形式的数据与仅具有次要价值的数据组合的简化文件格式。有利地,核酸测序数据集126文件格式是自含式的并且具有支持单倍型可视化工具148的特征所需的所有数据。

  图12-30示出了读取核酸测序数据集126的单倍型可视化工具148的实施方案。在一些实施方案中,单倍型可视化工具148是面向变异以及单倍型感知基因组浏览器。为了产生此类视图,单倍型可视化工具148将来自若干源的数据以轨迹的形式重叠至单个统一核酸测序数据集126中以便显示,其中可以对所述轨迹进行滚动和缩放。在一些实施方案中,所存储的轨迹包括呈轨迹形式的定相变异识别、相位块、基因、外显子、结构变异断点和读段计数(覆盖)。此类信息如何存储的一个此类实施方案在图3中公开并且在上文进行描述。有利地,核酸测序集中的不同信息可以在单个显示器中显示。单倍型可视化工具148因为其能够展示相位信息而区别于其它基因组浏览器。参看图12和13,从图12和图13中显示的概述模块中,用户可以有利地使用搜索提示1250来选择核酸测序数据集的区来进行进一步分析。在一些实施方案中,通过搜索提示1250,单倍型可视化工具148支持大范围的有效搜索句法,诸如chr1:1000000(选择染色体1的第一百万个核苷酸)、chr1:1000000-2000000(选择染色体1的第二百万个核苷酸)、BRCA1,BRCA2(选择BRCA1和BRCA2)以及chr1:1000000-2000000,chr2:5000000-6000000(选择染色体1的第二百万个核苷酸以及染色体2的第五百万个核苷酸)。在一些实施方案中,用户提供基因的符号名称,并且单倍型可视化工具148通过使用将符号名称转换成基因组坐标的一个或多个查找表来将此符号名称转换成适当的基因组坐标。有利地,用户可以在单个搜索中提供绝对坐标范围与基因名称的混合。在一些实施方案中,用户提供包括多个基因座的单个搜索查询。响应于此类查询,单倍型可视化工具148对所述多个基因座进行剖析并且提供每一此类查询的结果。在一些实施方案中,用户提供句法为X1:N1-N2的搜索查询,其中X1是所选的第一染色体或所选的第一重叠群序列的识别码,N1是所述第一染色体或所选的第一重叠群序列内的所选的开始位置,并且N2是所述第一染色体或所选的第一重叠群序列内的所选的结束位置。如本上下文中所使用,术语“重叠群”表示来自参考基因组的任何“重叠群”,所述基因组可能对应于目标分离分子,所述分子不是染色体或染色体的未完全组装的部分。在一些实施方案中,用户提供句法为X1:N1-N2的搜索查询,其中X1是所选的第一染色体或所选的第一重叠群序列的识别码,N1是所述第一染色体或所选的第一重叠群序列内的所选的开始位置,并且N2是所述第一染色体或所选的第一重叠群序列内的所选的结束位置。在一些实施方案中,用户提供句法为X1:N1的搜索查询,其中X1是所选的第一染色体或所选的第一重叠群序列的识别码,并且N1是从所述第一染色体或所选的第一重叠群序列的起点处开始算起的核苷酸的数目。

  在一些实施方案中,用户提供句法为Y1,Y2,…,YN的搜索查询,其中Y1,Y2,…,YN中的每一Yi是所选基因、染色体区的选段、或重叠群序列的区的选段的字母数字识别。在一些此类实施方案中,Y1,Y2,…,YN中的第一Yi是具有句法X1:N1-N2的第一染色体或第一重叠群序列的识别码,其中X1是所述第一染色体或第一重叠群序列的识别码,N1是所述第一染色体或第一重叠群序列内的所选的开始位置,以及N2是所述第一染色体或第一重叠群序列内的所选的结束位置,并且Y1,Y2,…,YN中的第二Yi是所选基因的字母数字识别。在其它此类实施方案中,Y1,Y2,…,YN中的第一Yi是具有句法X1:N1-N2的第一染色体或第一重叠群序列的识别码,其中X1是所述第一染色体或第一重叠群序列的识别码,N1是所述第一染色体或第一重叠群序列内的所选的开始位置,以及N2是所述第一染色体或第一重叠群序列内的所选的结束位置,并且Y1,Y2,…,YN中的第二Yi是所选基因的字母数字识别。在一些实施方案中,在无人工干预的情况下,通过将请求与一个或多个查找表进行比较来将所述请求转换成基因组坐标,所述查找表将基因的字母数字条目与基因组坐标匹配。在一些实施方案中,所述请求包括一个或多个基因名称、一个或多个基因组坐标、或其组合。

  有利地,可以在各种不同的系统拓扑中调用单倍型可视化工具148。举例来说,参看图31,在一些实施方案中,单倍型可视化工具148在客户端计算机3102上运行并且经由网络连接远程存取核酸序列数据集。举例来说,参看图31,在一些实施方案中,单倍型可视化工具148工具是在客户端计算机系统3102上,所述系统经由网络连接3106与结构变异和相位可视化系统100通信。本公开的一个此类实施方案提供了用于经由网络连接将结构变异或定相信息3100提供至远程客户端计算机3102的系统3100。参看图1和32,系统3100包括服务器100,所述服务器具有一个或多个微处理器102、持久存储器(例如硬盘)和非持久存储器(例如随机存取存储器)。本领域的技术人员将了解,持久存储器是即便在系统100掉电时也能存储信息的存储器,而非持久存储器在系统100掉电时无法存储信息。此外,本领域的技术人员将了解,对存储于持久存储器中的数据的存取时间要慢于对存储于非持久存储器中的数据的存取时间。更进一步,非持久存储器比持久存储器贵。因而,所公开的核酸数据集126因为较大而通常被放到持久存储器中存储。在一些实施方案中,核酸测序数据集是1吉字节或更大、5吉字节或更大、或10吉字节或更大。

  在一些实施方案中,持久存储器和非持久存储器(在图1中被统称为存储器112)存储一个或多个核酸序列数据集126。所述一个或多个核酸序列数据集中的每一相应核酸测序数据集126对应于多个样本中的相应样本中的至少一个靶核酸。所述相应样本与物种的基因组相关联。参看图3,相应核酸测序数据集126包括(i)标头302、(ii)概要308和(iii)数据段340。

  数据段340包括多个测序读段并且是数据集126中的最大组成部分。所述多个测序读段中的每一相应测序读段包括与相应样本中的至少一个靶核酸的子集对应的第一部分以及对多个识别符中的、相应测序读段的相应识别符进行编码的第二部分。每一相应识别符独立于所述至少一个靶核酸的序列。所述多个测序读段共同地包括所述多个识别符。

  持久存储器和非持久存储器进一步共同地存储一个或多个程序,所述程序使用一个或多个微处理器102来将单倍型可视化工具148提供至客户端以便安装在远程客户端计算机上。转而,接收经由网络连接从客户端发送的、对使用所述一个或多个数据集中的第一数据集126的结构变异或相位信息的请求。响应于接收到所述请求,通过将第一数据集的标头302和概要308载入至非持久存储器中(如果还没有载入至非持久存储器中的话)同时将数据段340保持在持久存储器中来自动地对所述请求进行筛选。这样,使非持久存储器的量最小化。将所述请求与第一数据集的概要308进行比较,由此识别第一数据集的数据段的一个或多个部分。明确地说,如下文更详细地描述,使用概要308的各种组成部分来识别为了完成所述请求需要数据340的哪些部分。在一些实施方案中,所述请求识别特定数据集126和基因组的区。在一些实施方案中,所述请求识别特定数据集126和一个或多个基因。在一些实施方案中,所述请求识别特定数据集126和一个或多个外显子。一旦识别出完成所述请求所需要的数据段的部分,那么将所述部分载入至非持久存储器中,并且使用第一数据集对所请求的结构变异和相位信息进行格式化以便在客户端计算机3102上显示。接着经由网络连接3106将此经格式化的结构变异或相位信息发送至客户端装置以便在客户端装置上显示。在一些实施方案中,如图1中所公开,不使用客户端计算机,并且单倍型可视化工具存在于结构变异和相位可视化系统100上。

  既然已经阐释了分裂核酸序列数据集126的优点,那么将更详细地描述单倍型可视化工具148的图形用户界面特征以及其组成模块(例如,概述模块150、相位可视化模块152、结构变异模块154等)。转向图12,一旦用户已在面板1250中输入查询,那么就可以使用相位可视化模块152来查看所述查询的相位,如图14至图16中所示。举例来说,在输入查询chr1+10000000-chr1+10500000(或chr1:10000000-chr1:10500000)后,在图14A中所示的基因组浏览器(相位可视化模块152)中示出所选区。此处,有利地以反映所选区的实际物理结构的方式来展示基因组的所选区:存在所述基因组的两个拷贝,并且这是通过展示两条轨迹(每一单倍型各一条,单倍型1(1402)和单倍型2(1404))以及未确定亲代单倍型的中间区域1406来反映。基于定相算法将小的插入和缺失映射至每一单倍型。所选区的已定相至第一单倍型的部分在第一单倍型1区1402的对应部分中展示为条,所选区的已定相至第二单倍型的部分在第二单倍型1区1404的对应部分中展示为条,并且所选区的还没定相至单倍型的部分在中间区域1406中展示为条。

  在单倍型视图中,所选区的已定相部分被围在黑色方框1440中。图14A中所示的整个区是在单个相位块1440-1中。对于图14B、图15、和图16的染色体1和2来说,情况也是这样。然而,图16中的染色体4的所显示的区包括五个不同的相位块,每一相位块是由黑色方框来标记出。这些框对定相块(即,通过定相算法确定的、染色体的连续定相区)进行划界。

  单体型单倍型1(1402)、单倍型2(1404)和中间区域1406中的垂直条表示单核苷酸多态性、小的插入和缺失。在一些实施方案中,这些条是用表示参考基因型的第一颜色(例如灰色)和表示替代基因型的第二颜色(例如绿色)来进行色彩编码。

  纯合SNP将具有跨越两个单倍型轨迹和中间区域(未定相轨迹)的垂直条,因为无法对纯合性变异定相。这在图26中示出为元素2602。

  将已定相的纯合SNP放置于单倍型轨迹1402/1404上。这在图26中示出为元素2604。

  当纯合SNP未定相时,将所述纯合SNP放置于夹在单倍型轨迹1402/1404之间的中间区域1405(未定相轨迹)中。这在图26中示出为元素2606。

  最后,如果两个已定相的单核苷酸多态性是替代基因型,那么将在单倍型轨迹1402/1404中显示第二种颜色(例如绿色)的两个垂直条,每一轨迹一个垂直条。这在图26中示出为元素2608。

  单倍型轨迹的暗区(诸如图27的区2710)表示具有高SNP密度的区域。点击区2710会放大区2710内的个别SNP。此外,在一些实施方案中,当完成这件事时,将会出现弹出框2712,所述弹出框具有允许用户对SNP群组放大的链接。一般来说,框2712提供关于SNP的额外信息,诸如位置、参考基因型、样本中的单倍型1和2的观察到的基因型、在其中找到SNP(如果与基因相关联的话)的基因、定相质量以及所述两个观察到的基因型的等位基因计数。可以通过点击框2712的角上的X来关闭框2712。在一些实施方案中,为SNP提供的定相质量是用于定量SNP的定相质量的类Phred得分。

  参看图28A,当用户点击等位基因中的一者以发现变异时,方框(例如方框2802)突出显示该变异。紧靠突出显示的变异显示的数字2804表示与针对该变异的所选等位基因相关联的条形码的数目。举例来说,在图28A中,数字“31”紧靠着框2802显示,指示与针对该变异的所选等位基因相关联的条形码的数目是31。在与框2802相邻的变异的顶部和/或底部上也显示数字。每一此类数字表示在所选等位基因与相邻变异的两个等位基因中的一者之间重叠的条形码的数目。用第一颜色(例如黑色)显示的数字与变异2802的定相识别相符,而用第二颜色(例如红色)显示的数字与所述识别不相符。邻近变异之间条形码重叠程度越大,变异的定相的置信度就越高。举例来说,对于图28A的Chr7:117,216,030处的参考识别,在单倍型1面板1402的顶部上有31(2804),指示存在与该位置处的参考等位基因相关联的31个条形码。参看图28B,当选择同一位置2802处的变异SNV时,13个条形码支持定相,并且带标签的邻近SNV改变,如图28B中所见。

  在一些实施方案中,基因组浏览器进一步提供染色体图1424以及正在显示的染色体上的位置1426。参看图14A,在浏览器的顶部处,展示了着丝粒是由暗矩形标记的微型染色体1424,其中染色体带是由亮矩形标记。三角形1426指示目前在缩放的位置,向用户给予关于染色体的其余部分使用搜索条1250选择的区的总体视图。

  所公开的基因组浏览器进一步提供处于所显示的基因组区中的每一基因的图形表示1408。此基因轨迹1408显示带注释的参考基因。可以通过输入目标基因使用搜索条1250来显示多个基因。每一基因的方向用箭头指示。虽然图14A中未示出,但外显子是用暗色阴影来突出显示。此特征在图26-28中示出。在一些实施方案中,重叠基因展示在基因轨迹1408中的最多三个轨迹上,但是可以使用搜索条来显示许多基因。

  所公开的基因组浏览器进一步提供处于所显示的基因组区中的外显子的图形表示1410。

  所公开的基因组浏览器进一步提供所显示的基因组区中的覆盖的覆盖轨迹1412。比对的序列读段显示于覆盖轨迹上。覆盖轨迹1412中的每一垂直条展示了所述条下面的基因组的区域的每碱基平均覆盖。对高度进行缩放,使得最大高度是中值覆盖的四倍。在一些实施方案中,当用户点击覆盖轨迹1412的一部分时,所述覆盖轨迹的该部分的每碱基对平均读段和读段的总数显示于覆盖细节弹出黑框中。

  所公开的基因组浏览器进一步提供所显示的区中的断点轨迹1414。结构变异(包括染色体间易位、基因融合、倒位和缺失)在断点轨迹1414中突出显示。结构变异在所述显示中被任意地编号。结构变异识别在断点轨迹1414中用第一颜色(例如橙色)指示,并且结构变异候选者在断点轨迹1414中用第二颜色(例如灰色)指明。为了显示结构变异断点对,用户可以点击针对所述基因显示的结构变异,如图29中所示。结构变异显示于细节框2902中。通过选择细节框2902中的“放大此断点”2094,将断点的另一侧上提并作为额外单倍型轨迹,缩放所述断点,如图30中所示。

  有利地,在所公开的基因组浏览器的显示模式的一些实施方案(示出于图14A中)中并未显示碱基识别、错误率、特定读段和比对。而是,所公开的基因组浏览器以较高水平运行以便提供对所选区中将要进行的活动的更概念化的指示以及以易于理解的方式来提供此信息。为此,所公开的浏览器的一些实施方案提供其中未展示全部序列读段数据的显示模式,诸如图14A中所示的显示模式。

  参看图14A,可以使用缩放可供性1420来放大通过搜索条1250识别的区的子集,并且可以使用缩放可供性1422来缩小所述区。另外,用户可以通过点击区1408中表示特定基因的图标来放大所述特定基因。

  在一些实施方案中,所公开的基因组浏览器的搜索条1250提供智能自动完成特征。举例来说,当用户开始在搜索条1250中键入基因名称时,基因组浏览器对所述基因进行自动完成。在一些实施方案中,基因组浏览器通过将用户输入的部分搜索查询与核酸测序数据集中存储的基因组信息(诸如基因轨迹中的基因的名称)进行比较来完成此举。有利地,在此类实施方案中,搜索条1250对基因名称进行自动完成。举例来说,参看图17,当用户将表达“atp”输入搜索条中时,显示核酸序列数据集126内找到的若干可能匹配1702-1至1702-10。

  如图12至图30中所示,单倍型可视化工具148提供核酸序列数据集的结构变异或相位(例如单倍型)信息。

  明确地说,参看图12和图13,选择单倍型可视化工具148的相位/单倍型切换1252会调用相位可视化模块152,如图14-17和图26-30中所示。如图14-17和图26-30中所示,提供单倍型的视觉上分开的轨迹以及可能未指派给任一单倍型的变异的虚拟轨迹。定相变异可以具有许多分类,包括:未定相的、纯合的、和/或不具有参考的杂合读段、具有参考的杂合读段。单倍型可视化工具148将视觉上不同的式样应用于这些不同配置,使得用户可以快速地将它们分开。单倍型可视化工具148可以显示用于将变异指派给特定相位块的条形码证据的量。在一些实施方案中,当用户“点击”变异时,用与所选变异重叠的条形码的计数来修饰每个其它可视变异。突出显示与所识别的单倍型不一致的数据。单倍型可视化工具148还允许用户一次查看多个区。这被显示为在屏幕的不同区域中的单独单倍型。在此模式下,在所显示的每一区之间共享“计数”,从而允许用户查看基因组的不同区之间的条形码重叠。

  再次参看图12和图13,选择单倍型可视化工具148的结构变异切换1254会调用结构变异模块154,如图23-25和图33-34中所示。由结构变异模块154提供的矩阵视图涵盖了用于使候选结构变异可视化的方法。可视化是通过将基因组(测试核酸数据)的两个(可能重叠的)区量化成每块100至10,000个碱基对的块来起作用。计算每对块中的读段之间的共享条形码的数目。如图23-25以及图33-34中所示,所得矩阵(其中来自一个区的块作为行并且来自另一区的块作为列)可以显示为二位图像(热点图)。在一些实施方案中,像素的颜色对应于每一区的特定块(例如窗口)之间的不同的重叠条形码的数目。举例来说,考虑具有连续块的两个区,所述连续块具有以下条形码:

  (1)AAA,ACA ACA,AGTGTG

  (2)GTG,AAA CCC ACA, AAA

  区(1)与区(2)之间有九对块,所述九对块可以置于矩阵中,诸如下文在表1中陈述的矩阵。

  表1-区(1)与区(2)之间的块的对的矩阵。

  计算每一单元格中的两组条形码之间的重叠会得到在表2中陈述的值。

  表2-区(1)与区(2)之间的矩阵值。

  表2可以通过结构变异模块154显示为热点图,所述热点图有效地向用户展示低与高条形码相关性的区域。在一些实施方案中,结构变异模块154提供额外信息,诸如与矩阵重叠的基因和外显子边界,以允许数据与已知的相关位置容易地比对。在一些实施方案中,结构变异模块154还允许下载矩阵的文本拷贝以便用其它计算机程序来进行分析。在一些实施方案中,用户可以通过实时地进行滚动或缩放来调整在结构变异模块154中可视化的基因组的区。在一些实施方案中,在查看基因组的极小或极大区域时,用户可以调整分辨率(块大小/窗口大小)以避免混叠或过载。

  本公开的一些实施方案提供用于查看核酸测序数据(例如,从核酸测序数据集126获得的信息)的系统100。系统100包括一个或多个微处理器102和存储器112。所述存储器存储与样本中的至少一个靶核酸对应的核酸序列数据集126。所述存储器进一步存储一个或多个程序(例如单倍型可视化工具148),所述程序使用所述一个或多个微处理器来获得包括来自样本的多个测序读段的核酸测序数据集。之后,从用户获得请求(例如,通过图12和图13中所示的单倍型可视化工具148的搜索条1250),所述请求指定了由核酸测序数据集表示的基因组区。有利地,此请求可以是按照本公开中公开的任何句法。在一些实施方案中,所述请求中的基因组区是整个染色体。在一些实施方案中,所述请求中的基因组区是所述染色体的100至10000个碱基。在一些实施方案中,所述请求中的基因组区是所述染色体的10至1×105个碱基。在一些实施方案中,所述请求中的基因组区是所述染色体的10至1×106个碱基。在一些实施方案中,所述请求中的基因组区是所述染色体的10至1×107个碱基。在一些实施方案中,所述请求是针对样本的基因组中的基因。响应于获得所述请求,通过从核酸测序数据集126获得所述请求的基因组区内的多个测序读段1048来对所述请求进行剖析。接下来,对所述多个测序读段运行扫描窗口,由此产生多个窗口,所述多个窗口中的每一相应窗口对应于所述请求中的基因组区的不同区并且包括核酸测序数据集中的基因组区的不同区中的每一测序读段的每一识别符(例如条形码)的识别码。另外,参看(例如)图34,显示了表示所述多个窗口中的每一可能窗口对的二维热点图3312。每一相应窗口对在二维热点图中显示为基于相应窗口对中共同的识别符的数目从配色方案中选择的颜色。将了解,窗口大小将取决于用户请求进行可视化的基因组的量。在一些实施方案中,当用户已请求对基因组的较小区可视化时,使用较小窗口大小,而当用户请求对基因组的较大区可视化时,使用较大窗口大小。

  参看图33和图34,可供性3302和3304提供用于阐明所显示的信息的唯一工具。首先,选择“隐藏预计重叠”可供性3302会产生条形码重叠信号,所述信号预计来自处于正常状态的基因组,其中条形码与彼此靠近的读段相关联,因为所述读段应该是要被隐藏的。将图33(其中未选择可供性3302)与图34(其中选择了可供性3302)进行比较。在选择可供性3302时提供的视图旨在强调基因组的、未预计到但现在彼此接触的那些部分。举例来说,此视图突出显示结构变异,即,从一个染色体至另一染色体的易位,基于参考基因组,没有预计到此处会出现易位,但是突然条形码现在展示了所述关联。因而,可供性3302激活隐藏正常信号并且突出显示意外信号的过滤器。换句话说,相应窗口对中共同的识别符的数目被降低权重以移除从基于参考基因组序列预计会彼此接近的条形码产生的条形码信号。在一些实施方案中,与可供性3302相关联的过滤器考虑已测序的靶核酸的片段的平均长度(例如50kb)。在激活可供性3302时,在片段的平均长度的此阈值距离之内的条形码对热点图没有贡献。在一些实施方案中,通过在核酸测序数据集126中取得与参考基因组比对的条形码的整个集合来启用过滤器。之后,仅显示沿着参考基因组的、展现出比平均片段长度大的间隙的那些区。因而,可供性3302过滤器用于滤除预计事物并且突出显示条形码数据与参考基因组之间的差异。

  参考可供性3304,将每一相应序列读段1048以某置信值映射至参考基因组上的位置,所述置信值表示相应序列读段被正确映射的概率。默认情况是在此置信值满足严格(高)的阈值时展示序列读段的数据,使得不显示误导性信息。但是有时,用户仍想要查看不满足严格的阈值置信度的序列读段的信息。举例来说,有时,当基于置信阈值滤除了过多数据时,在热点图中可能会出现不寻常的伪影。举例来说,热点图的区将看似没有数据。实际上,此类区可能刚好是序列读段1048的定位的置信度较低的区(例如,基因组的、展现大范围重复的区)。为了确定是否真的没有数据(或许是指示大范围的结构变异),可供性3304允许用户移除(或降低)严格的阈值并且准许显示来自序列读段1048的数据,所述序列读段已以较低置信值映射至参考基因组。这样,用户可以确定是否在启用严格的阈值时在缺失数据的位点处实际上存在结构变异,或者是否基因组区仅表示序列读段的置信值较低的区。

  在与可供性3304相关联的典型用例情形中,将不满足质量阈值的序列读段1084丢弃,因此在下游的定相算法和结构变异算法中将不会使用所述序列读段。丢弃此类序列读段的结果是这可能会在图33和图34中所示的热点图中引入看似结构的事物。举例来说,所述图的一些区可能会变亮并且可能会引入一些线,由此引起了一个疑问,即,在实际样本中是否发生了什么而引起这种情况从而改变信号。通过选择可供性3304,将所丢弃的读段放回至定相和/或结构变异算法中而不管其质量得分是多少,以便查看这是否会导致在所述图中观察到的伪影的移除。这样,可以挑出数据的伪影,使得当所述图的区缺失时,在应用可供性3304之前和之后,确认观察到的伪影表示相应样本中的至少一个靶核酸中的伪影(例如结构变异)或由于丢弃了来自序列读段1048的数据而产生的伪影。

  参看图34,靶核酸的相应区之间的条形码重叠的程度是在色彩表3406上由重叠的条形码(来自局限在靶核酸的相应区内的序列读段)的数目表示。因此,在一些实施方案中,使用配色方案,其中所述配色方案中的每一特定颜色唯一地表示重叠条形码的某一数目。举例来说,如果靶核酸的第一和第二段有第一数目的条形码是共同的,那么配色方案中与所述第一数目相关联的颜色用于表示靶核酸的第一和第二段的组合。如图34中所示,X轴3308和Y轴3310各自表示靶核酸,并且因此靶核酸的第一和第二段在靶核酸内的坐标限定二维栅格中的X,Y位置,并且与条形码的所述第一数目的值相关联的颜色用于根据所述配色方案给所述二维栅格中的此X,Y位置涂色。在一些实施方案中,当靶核酸的第一与第二段不具有共同的条形码,那么所述配色方案指示用于表示靶核酸的第一与第二段的组合的X,Y位置的颜色是白色。在一些实施方案中,当靶核酸的第一和第二段仅有少许条形码是共同时(例如在各种实施方案中,仅一个条形码是共同的、仅两个条形码是共同的、仅三个条形码是共同的、仅四个条形码是共同的或仅五个条形码是共同的),所述配色方案指示用于表示靶核酸的第一与第二段的组合的X,Y位置的颜色是灰色。就是说,在此类实施方案中,所述第一位置在所述配色方案中是白色,表示没有共享的条形码,并且所述第二位置在所述配色方案中是灰色,表示最少的一组条形码是共同的。在一些实施方案中,在配色方案中有10个不同的值对应于共享序列读段的10个不同的值。在一些实施方案中,在配色方案中有11个不同的值对应于共享序列读段的11个不同的值。在一些实施方案中,在配色方案中有12个不同的值对应于共享序列读段的12个不同的值。在一些实施方案中,在配色方案中有13个不同的值对应于共享序列读段的13个不同的值。在一些实施方案中,在配色方案中有14个不同的值对应于共享序列读段的14个不同的值。在一些实施方案中,在配色方案中有15个不同的值对应于共享序列读段的15个不同的值。在一些实施方案中,配色方案中有五个至一百个不同的值对应于共享序列读段的五个至一百个不同的值。

  参看图34,可以使用可供性3308来对最初通过搜索字段1250选择的视图进行平移(pan)(所述视图的平移移动),使得可以查看参考基因组的不同区。参看图34,可以使用可供性3310来缩放最初通过搜索字段1250选择的视图,使得可以查看参考基因组的不同量。

  在一些实施方案中,由单倍型可视化工具148提供的不同视图(例如单倍型/相位152、结构变异154和读段156)都被链接起来。举例来说,用户可以从一个视图导览到另一个视图以使用替代可视化来查看同一数据,而不需要使用可供性1252、1254和1256重新输入信息。举例来说,用户可以在结构变异模块154的矩阵视图与相位可视化模块152的单倍型视图之间切换。

  在各种视图中采用“智能”搜索可供性1250。参看图17,在用户在搜索可供性1250中打字时,所述程序将尝试实时地用实际基因名称或其它形式的染色体位置来自动完成所述部分查询。在一些实施方案中,每当用户在搜索可供性1250中输入另一字符时,对照标的核酸测序数据集126中的查找表来查询搜索可供性1250中的部分查询。在一些实施方案中,此查找表是基因轨迹320和/或外显子轨迹322。有利地,在一些实施方案中,单倍型可视化工具148保留过去的用户查询的历史。因此,当用户开始输入新查询时,还向用户显示与之前的查询的匹配(或部分匹配)以供选择。假如在一些实施方案中搜索栏1250支持复杂的查询句法,那么这尤其有用。举例来说,如上文所论述,用户可以通过用各种标点将查询分区开来一次查询多个区。用户还可以按许多格式直接输入基因组坐标。

  在一些实施方案中,系统100将待显示的基因组数据按定制的文件格式(例如,核酸测序数据集126的格式)存储。文件是通过“预处理器”生成,所述预处理器将参考数据、VCF文件、BAM文件和结构变异文件看作是输入并且产生单个输出核酸测序数据集126。核酸测序数据集126含有显示给定数据集所需的所有信息。将文件组织成若干段。约25MB的小概要段308和大得多的数据段340(100MB至20GB)。这些段如上文所描述再进行细分。当载入核酸测序数据集126时,仅将索引段载入至存储器中。系统100使用该数据来找到所述数据段的适当范围以按需载入存储器中。变异识别和读段信息存储在数据段中,loupe需要的其余数据小到足以存储在索引段中。

  所述数据段被组织成块,在一些实施方案中,所述块是约250KB。当系统100需要存储于数据段中的信息时,所述系统查阅概要段中的相关索引(例如基因轨迹、外显子轨迹等)以找到将具有所述数据的块并且将整个块载入存储器中。在一些实施方案中,用于所述变异数据的块是含有所述变异数据以及支持条形码信息的JSON编码结构。在一些实施方案中,用于读段数据的块具有小(8字节)数据结构的阵列,在所述阵列中,每一结构含有单个读段的位置、长度和条形码。在一些实施方案中,变异数据与读段数据按基因位置进行排序,使得一般来说,系统100将仅进行少量磁盘上读取以获得其所需要的所有数据以显示所述数据的给定子集。在一些实施方案中,系统100需要用于可视化的数据的其余部分(诸如基因位置、结构变异断点等)以“itree”形式存储于核酸测序数据集126文件的索引(概要)段中。itree是区间树的实现方式。它是用于对基因组的范围进行加注的可再用数据结构(通常按JSON来编码)。因此,外显子、基因、相位块和结构变异断点都是用相同的机制进行编码,即便它们是以不同方式显示。

  可以为本文中作为单个实例描述的组成部分、操作或结构提供复数个实例。最后,各种组成部分、操作和数据存储之间的边界稍稍任意,并且在特定说明性配置的背景中说明特定操作。功能性的其它分配是可设想到的并且可以属于实现方式的范围内。一般来说,在示例配置中作为单独组成部分呈现的结构和功能性可以实现为组合的结构或组成部分。类似地,作为单个组成部分呈现的结构和功能性可以实现为单独组成部分。这些和其它变化、修改、增添和改进属于实现方式的范围内。

  还将理解,虽然在本文中可以使用术语“第一”、“第二”等来描述各种元件,但是这些元件不应受这些术语所限制。这些术语仅用于将一个元件与另一个元件区分开。举例来说,第一物体可以被称作第二物体,并且类似地,第二物体可以被称作第一物体,而不会改变所述描述的含义,只要“第一物体”的所有出现被一致地重命名,并且“第二物体”的所有出现被一致地重命名。所述第一物体与所述第二物体都是物体,但是它们不是同一个物体。

  本文所使用的术语是仅用于描述特定实现方式而不旨在限制权利要求书。如具体实现方式和所附权利要求书中所使用,单数形式“一”、“一个”和“所述”旨在也包括复数形式,除非上下文另外清楚地指示。还将理解,如本文中所使用,术语“和/或”指代并且涵盖相关联的所列项目中的一者或多者的任何和所有的可能组合。将进一步理解,术语“包括”和/或“包括了”在本说明书中使用时指定了所述特征、整体、步骤、操作、元件和/或组成部分的存在,但不排除一个或多个其它特征、整体、步骤、操作、元件、组成部分和/或其组的存在或增添。

  如本文所使用,术语“如果”可以被理解为表示“在所述前提条件成立时”或“在所述前提条件成立后”或“响应于确定所述前提条件成立”或“根据所述前提条件成立的确定”或“响应于检测到所述前提条件成立”,具体取决于上下文。类似地,短语“如果确定(所述前提条件成立)”或“如果(所述前提条件成立)”或“当(所述前提条件成立)时”可以被理解为表示“在确定所述前提条件成立后”或“响应于确定所述前提条件成立”或“根据所述前提条件成立的确定”或“在检测到所述前提条件成立后”或“响应于检测到所述前提条件成立”,具体取决于上下文。

  前文的描述包括具体实现说明性实现方式的示例系统、方法、技术、指令序列和计算机器程序产品。为了进行阐释,陈述众多具体细节以便提供对创新主题的各种实现方式的理解。然而,本领域的技术人员将明显看到创新目标的实现可以在没有这些具体细节的情况下实践。一般来说,没有详细展示熟知的指令实例、协议、结构和技术。

  为了进行阐释,已参考特定实现方式来描述前文的描述。然而,上文的说明性论述不旨在为详尽的或不旨在将实现方式限于所公开的精确形式。鉴于以上教导,许多修改和变化是可能的。选择并描述实现方式以便最好地阐释原理以及其实际应用,由此使本领域的其他技术人员能够最好地利用所述实现方式以及为了适合于所预期的特定使用而作出了各种修改的各种实现方式。

《用于使结构变异和相位信息可视化的系统和方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)