欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 用于识别原因性基因组变体的方法和系统独创技术201838字

用于识别原因性基因组变体的方法和系统

2020-11-08 14:42:51

  用于识别原因性基因组变体的方法和系统

  本申请是国际申请日2012年11月6日、国际申请号 PCT/US2012/063753于2014年6月23日进入中国国家阶段、申请号 201280064104.8、发明名称“用于识别原因性基因组变体的方法和系统” 的申请的分案申请。

  相关申请的交叉引用

  本申请要求2011年11月7日提交的,名为“用于识别原因性 (causal)基因组变体的方法和系统”的美国临时专利申请号61/556,599 以及2011年11月7日提交的,名为“用于识别原因性基因组变体的 方法和系统”的美国临时专利申请号61/556,758的权益和优先权,通 过参考将所述申请的全部内容引入用于所有目的。

  背景技术

  全基因组测序能提供有关人类基因组中的60亿碱基对的信息,然 而,这种海量信息的分析已经证明是有挑战性的。例如,在基因组之 间存在大量变异,但仅一些变体真正影响表型。在影响表型的变体中, 仅这些中的子集与特定表型,例如疾病有关。目前,从实验对象获得 全基因组序列信息的临床医师或研究人员面临通过筛选大量变体信息 来尝试和识别与特定表型有重大关系的变体的子集这样的挑战。在此 描述了用于将研究人员或临床医师的注意力集中在潜在相关的基因组 变体上的系统和方法。

  发明内容

  在本文中提供了用于在包含基因组信息的数据集中过滤变体的方 法和系统。

  在一些实施方式中,一种生物演化过滤器(biological context filter),其中,该生物演化过滤器被配置成接收包含变体的数据集, 与生物信息数据库通信,以及通过与生物信息有关的变体,过滤数据 集来变换数据集,其中,过滤包括在数据集和一些或全部生物信息之 间建立关联。在一些实施方式中,生物信息数据库是精选汇总(curated) 的生物医学内容的知识库,其中,使用知识本体(ontology)来构建所 述知识库。在一些实施方式中,变体和生物信息之间的关联包含由一 个或多个中继段(hop)定义的关系。在一些实施方式中,用户选择用 于过滤的生物信息。在一些实施方式中,过滤揭示与生物信息有关的 变体。在一些实施方式中,过滤屏蔽与生物信息无关的变体。在一些 实施方式中,过滤屏蔽与生物信息有关的变体。在一些实施方式中, 过滤揭示与生物信息无关的变体。在一些实施方式中,由数据集推断 用于过滤的生物信息。在一些实施方式中,由用户先前输入的研究设 计信息,推断用于过滤的生物信息。

  在一些实施方式中,一种生物演化过滤器,其被配置成接收包含 变体的数据集,其中,所述数据集包含来自一个或多个个体的一个或 多个样本的变体数据;与生物信息数据库通信;以及能通过与生物信 息有关的变体,过滤数据集来变换数据集,其中,过滤包括在数据集 和一些或全部生物信息之间建立关联。

  在一些实施方式中,生物演化过滤器与过滤器级联中的其他过滤 器组合来生成最终变体列表。在一些实施方式中,生物演化过滤器与 过滤器级联中的下述过滤器的一个或多个组合来达到少于200变体的 最终变体列表:常见变体过滤器、预测有害过滤器、癌症驱动变体过 滤器、物理位置过滤器、遗传分析过滤器、表达过滤器、用户定义变 体过滤器、药物遗传学过滤器或定制注释过滤器。在一些实施方式中, 生物演化过滤器与过滤器级联中的下述过滤器的一个或多个组合来达 到少于50变体的最终变体列表:常见变体过滤器、预测有害过滤器、 癌症驱动变体过滤器、物理位置过滤器、遗传分析过滤器、表达过滤 器、用户定义变体过滤器、药物遗传学过滤器或定制注释过滤器。

  在一些实施方式中,能由用户调整生物演化过滤器的严格性,以 及其中,来自用户的严格性调整变更下述的一个或多个:在用于过滤 的关联中的中继段的数量、在用于过滤的关联中的中继段的强度、在 用于过滤的关联中的中继段的净效应;和/或在用于过滤的关联中的中 继段的上游或下游属性。在一些实施方式中,基于最终过滤数据集中 的所需变体数量,自动地调整生物演化过滤器的严格性,其中,严格 性调整变更下述的一个或多个:在用于过滤的关联中的中继段的数量; 在用于过滤的关联中的中继段的强度、在用于过滤的关联中的中继段 的净效应;和/或在用于过滤的关联中的中继段的上游或下游属性。

  在一些实施方式中,仅使用上游中继段。在一些实施方式中,仅 使用下游中继段。在一些实施方式中,使用中继段的净效应。在一些 实施方式中,用于过滤的生物信息是生物功能。

  在一些实施方式中,生物功能是基因、转录本、蛋白、分子复合 物、分子家族或酶活性、治疗或治疗分子靶标、通路、过程、表型、 疾病、功能性结构域、行为、解剖特性、生理性状或状态、生物标志 物或其组合。在一些实施方式中,通过选择用于过滤的生物信息,调整生物演化过滤器的严格性。在一些实施方式中,生物演化过滤器被 配置成从先前在同一数据集上执行的另一过滤器接收掩码。

  在一些实施方式中,生物演化过滤器与用于将过滤过的数据集输 出给用户的硬件通信。在一些实施方式中,一种计算机程序产品,其 具有制定生物演化过滤器的机器可读指令。

  在一些实施方式中,提供一种癌症驱动变体过滤器,其中,所述 癌症驱动变体过滤器:被配置成接收包含变体的第一数据集,能通过 与一种或多种增殖性病症有关的变体,过滤第一数据集来变换第一数 据集。在一些实施方式中,所述癌症驱动变体过滤器与用于将过滤数 据集输出给用户的硬件通信。在一些实施方式中,怀疑第一数据集包 含与一种或多种增殖性病症有关的变体。在一些实施方式中,第一数 据集源自具有增殖性病症的患者。在一些实施方式中,增殖性病症是 癌症。在一些实施方式中,用户指定用于过滤的感兴趣的一种或多种 增殖性病症。在一些实施方式中,过滤揭示与一种或多种增殖性病症有关的变体。在一些实施方式中,过滤屏蔽与一种或多种增殖性病症 无关的变体。在一些实施方式中,过滤屏蔽与一种或多种增殖性病症 有关的变体。在一些实施方式中,过滤揭示与一种或多种增殖性病症 无关的变体。

  在一些实施方式中,所述癌症驱动变体过滤器:被配置成接收包 含变体的数据集,其中,所述数据集包含来自一个或多个个体的一个 或多个样本的变体数据,能通过与一种或多种增殖性病症有关的变体, 过滤数据集来变换数据集。

  在一些实施方式中,所述癌症驱动变体过滤器:被配置成接收包 含变体的数据集,其中,所述数据集包含来自一个或多个个体的一个 或多个样本的变体数据,能通过与一种或多种增殖性病症有关的变体, 过滤数据集来变换数据集。

  在一些实施方式中,由数据集推断用于过滤的一种或多种增殖性 病症。在一些实施方式中,由用户先前输入的研究设计信息,推断用 于过滤的一种或多种增殖性病症。

  在一些实施方式中,癌症驱动变体过滤器与过滤器级联中的其他 过滤器组合来生成最终变体列表。在一些实施方式中,癌症驱动变体 过滤器与过滤器级联中的下述过滤器的一个或多个组合来达到少于 200变体的最终变体列表:常见变体过滤器、预测有害过滤器、生物演 化过滤器、物理位置过滤器、遗传分析过滤器、表达过滤器、用户定 义变体过滤器、药物遗传学过滤器或定制注释过滤器。在一些实施方 式中,癌症驱动变体过滤器与过滤器级联中的下述过滤器的一个或多 个组合来达到少于50变体的最终变体列表:常见变体过滤器、预测有 害过滤器、生物演化过滤器、物理位置过滤器、遗传分析过滤器、表 达过滤器、用户定义变体过滤器、药物遗传学过滤器或定制注释过滤 器。

  在一些实施方式中,所过滤的变体是观察或预测满足下述标准的 一个或多个的变体:位于具有动物模型直向同源物的人类基因中,所 述直向同源物具有癌症相关的基因破坏表型;影响已知的或预测的癌 症子网络调控位点;在强制或不强制适当的方向性的情况下,影响癌 症相关的细胞过程;在变体和/或基因级别上,与知识库中发布的癌症 文献研究结果关联;在强制或不强制适当的方向性的情况下,影响癌 症相关通路;和/或与癌症治疗靶标和/或上游/原因性子网络有关。在一 些实施方式中,所述标准被限制于一种或多种特定癌症疾病模型。

  在一些实施方式中,癌症驱动变体过滤器与生物信息数据库通信, 其中,生物信息数据库是精选汇总的生物医学内容的知识库,其中, 使用知识本体来构建所述知识库。

  在一些实施方式中,癌症驱动变体过滤器的严格性是用户可调的, 其中,来自用户的严格性调整变更关系中的中继段数和/或中继段强度, 和/或是否观察到或预测到变体具有下述特性的一个或多个:位于具有 动物模型直向同源物的人类基因中,所述直向同源物具有癌症相关的 基因破坏表型;影响已知的或预测的癌症子网络调控位点;在强制或不强制适当的方向性的情况下,影响癌症相关的细胞过程;在变体和/ 或基因级别上,与知识库中发布的癌症文献研究结果关联;在强制或 不强制适当的方向性的情况下,影响癌症相关通路;和/或与癌症治疗 靶标和/或上游/原因性子网络有关。

  在一些实施方式中,基于最终过滤数据集中的所需变体数量,自 动地调整癌症驱动变体过滤器的严格性,其中,严格性调整变更关系 中的中继段的数量和/或中继段的强度,和/或是否观察到或预测到变体 具有一个或多个下述特性:位于具有动物模型直向同源物的人类基因 中,所述直向同源物具有癌症相关的基因破坏表型;影响已知的或预 测的癌症子网络调控位点;在强制或不强制适当的方向性的情况下, 影响癌症相关的细胞过程;在变体和/或基因级别上,与知识库中发布 的癌症文献研究结果关联;在强制或不强制适当的方向性的情况下, 影响癌症相关通路;和/或与癌症治疗靶标和/或上游/原因性子网络有 关。

  在一些实施方式中,与一种或多种增殖性病症有关的变体是离经 观察或预测具有一个或多个下述特性的变体一个或多个中继段的变 体:位于具有动物模型直向同源物的人类基因中,所述直向同源物具 有癌症相关的基因破坏表型;影响已知的或预测的癌症子网络调控位 点;在强制或不强制适当的方向性的情况下,影响癌症相关的细胞过 程;在变体和/或基因级别上,与知识库中发布的癌症文献研究结果关 联;在强制或不强制适当的方向性的情况下,影响癌症相关通路;和/ 或与癌症治疗靶标和/或上游/原因性子网络有关。

  在一些实施方式中,通过加权中继段的强度,调整癌症驱动变体 过滤器的严格性。在一些实施方式中,通过变更中继段数,调整癌症 驱动变体过滤器的严格性。在一些实施方式中,中继段是上游中继段 或中继段是下游中继段。在一些实施方式中,确定中继段的净效应, 以及仅过滤与癌症驱动净效应有关的变体。在一些实施方式中,癌症 驱动变体过滤器被配置成从先前在同一数据集上执行的另一过滤器接 收掩码。

  在一些实施方式中,一种计算机程序产品,具有制定癌症驱动变 体过滤器的机器可读指令。

  在一些实施方式中,提供一种遗传分析过滤器,其中,所述遗传 分析过滤器被配置成接收包含变体的第一数据集,能根据遗传逻辑, 通过过滤第一数据集来变换第一数据集。在一些实施方式中,遗传分 析过滤器与用于将过滤过的数据集输出给用户的硬件通信。在一些实 施方式中,遗传分析过滤器进一步被配置成接收从遗传学上与第一数 据集源有关的样本获得的一个或多个额外数据集。

  在一些实施方式中,遗传分析过滤器被配置成接收任选用于识别 来自于同一个体的样本或其样本在数据集中的个体之间的遗传关系的 信息。

  在一些实施方式中,数据集中的至少一个样本是疾病案例样本, 以及数据集中的另一样本是来自相同个体的正常对照样本,其中,过 滤包括过滤在疾病和正常样本两者中均观察到的、或仅在疾病样本或 正常样本中观察到的变体。

  在一些实施方式中,数据集中的一个或多个样本是数据集中的另 一样本的遗传亲本。在一些实施方式中,过滤包括过滤来自于与孟德 尔遗传不兼容的数据集的变体。在一些实施方式中,过滤包括过滤在 父母中是杂合型的以及在来自他们的后代的样本中是纯合型的变体。 在一些实施方式中,过滤包括过滤在纯合型子女的父母的至少一个中 不存在的变体。在一些实施方式中,过滤包括过滤在具有该变体的子 女的父母两者中均不存在的变体。

  在一些实施方式中,先前已经过滤过该数据集,以及其中,所述 数据集中的数据点的子集被之前的过滤器屏蔽。

  在一些实施方式中,过滤包括过滤在指定接合性下,在大于或等 于案例样本的特定部分但小于或等于对照样本的特定部分中存在的变 体,和/或过滤在指定接合性下,在小于或等于案例样本的特定部分但 大于或等于对照样本的特定部分中存在的变体。

  在一些实施方式中,过滤包括过滤在指定质量水平下,在大于或 等于案例样本的特定部分但小于或等于对照样本的特定部分中存在的 变体,和/或过滤在指定质量水平下,在小于或等于案例样本的特定部 分但大于或等于对照样本的特定部分中存在的变体。

  在一些实施方式中,第一数据集来自肿瘤样本,以及第二数据集 来自同一个体的正常样本,其中,过滤包括过滤在第一和第二数据集 两者中均观察到的、或仅在肿瘤样本或正常样本中观察到的变体。

  在一些实施方式中,基于来自用户对隐性遗传性疾病、显性遗传 性疾病、新生突变或癌症体细胞变体的预设,配置遗传逻辑。

  在一些实施方式中,以下变体被过滤,所述变体被推断在(a)大 于或等于案例样本的特定部分但小于或等于对照样本的特定部分,或 (b)小于或等于案例样本的特定部分但大于或等于照样本的特定部分 中,有助于基因功能的增益或丧失。

  在一些实施方式中,所述一个或多个额外数据集包括来自第一数 据集源的遗传亲本之一或其两者的数据集。在一些实施方式中,过滤 包括从第一数据集过滤与孟德尔遗传不兼容的变体。在一些实施方式 中,过滤包括过滤在第一数据集源的父母双方中均为纯合型但在第一 数据集中为杂合型的变体。在一些实施方式中,过滤包括过滤在第一 数据集源的父母的至少一个中不存在但在第一数据集中为纯合型的变 体。在一些实施方式中,过滤包括过滤在第一数据集源的父母两者中 均不存在,但存在于第一数据集中的变体。在一些实施方式中,滤过 的变体是位于基因组的半合子区中的单拷贝变体。

  在一些实施方式中,过滤包括过滤(a)当至少一个亲本是纯合型 时,不存在于子女中的变体,和/或(b)如果两个亲本是纯合型时,在 子女中是杂合型的变体。

  在一些实施方式中,遗传分析过滤器进一步与生物信息数据库通 信,其中,生物信息数据库是精选汇总的生物医学内容的知识库,其 中,使用知识本体来构建所述知识库,以及其中,来自第一数据集的 变体通过中继段,与生物信息关联。

  在一些实施方式中,生物信息包括有关基因的单倍剂量不足的信 息。在一些实施方式中,过滤与单倍剂量不足基因有关的杂合变体。

  在一些实施方式中,以下变体被过滤,所述变体在(a)至少指定 数量的或最小部分的案例样本和至多指定数量的或最大部分的对照样 本,或(b)至多指定数量的或最大部分的案例样本和至少指定数量的 或最小部分的对照样本中,以用户指定的接合性和/或质量设定值出现。 在一些实施方式中,以下变体被过滤,所述变体在(a)至少指定数量 的或最小部分的案例样本和至多指定数量的或最大部分的对照样本, 或(b)至多指定数量的或最大部分的案例样本和至少指定数量的或最 小部分的对照样本中,影响同一基因。

  在一些实施方式中,以下变体被过滤,所述变体在(a)至少指定 数量的或最小部分的案例样本和至多指定数量的或最大部分的对照样 本,或(b)至多指定数量的或最大部分的案例样本和至少指定数量的 或最小部分的对照样本中,影响在1个或多个中继段内的相同网络。 在一些实施方式中,通过加权中继段的强度,调整遗传分析过滤器的 严格性。

  在一些实施方式中,变更中继段的数量,调整遗传分析过滤器的 严格性。在一些实施方式中,中继段是上游中继段。在一些实施方式 中,中继段是下游中继段。

  在一些实施方式中,先前已经过滤过遗传第一数据集,以及其中, 所述第一数据集中的数据点的子集被之前的过滤器屏蔽。在一些实施 方式中,由用户调整严格性。在一些实施方式中,基于最终数据集中 的所需变体数量,自动地调整过滤器严格性。

  在一些实施方式中,遗传分析过滤器与过滤器级联中的其他过滤 器结合来产生用户感兴趣的最终过滤数据集。在一些实施方式中,遗 传分析过滤器与过滤器级联中的下述过滤器的一个或多个组合来达到 少于50变体的最终变体列表:常见变体过滤器、预测有害过滤器、生 物演化过滤器、物理位置过滤器、癌症驱动变体过滤器、表达过滤器、 用户定义变体过滤器、药物遗传学过滤器或定制注释过滤器。在一些 实施方式中,遗传分析过滤器与过滤器级联中的下述过滤器的一个或 多个组合来达到少于200变体的最终变体列表:常见变体过滤器、预 测有害过滤器、生物演化过滤器、物理位置过滤器、癌症驱动变体过滤器、表达过滤器、用户定义变体过滤器、药物遗传学过滤器或定制 注释过滤器。

  在一些实施方式中,严格性调整变更过滤器的接合性需求。在一 些实施方式中,严格性调整变更过滤器的变体质量需求。在一些实施 方式中,严格性调整变更用于过滤的案例样本的所需数量或部分。

  在一些实施方式中,严格性调整变更遗传分析过滤器是否基于变 体是否(a)通过由用户指定的接合性和/或质量设定值发生,或(b) 影响同一基因,或(c)影响在1个或多个中继段内的同一网络来过滤 变体。在一些实施方式中,通过加权中继段的强度来调整遗传分析过 滤器的严格性。在一些实施方式中,通过变更中继段数,调整遗传分 析过滤器的严格性。在一些实施方式中,确定中继段的净效应和仅过 滤与用户选择的净效应有关的变体。在一些实施方式中,遗传分析过 滤器被配置成从先前在同一数据集上执行的另一过滤器接受掩码。

  在一些实施方式中,一种遗传分析过滤器:被配置成接收包含变 体的数据集,其中,所述数据集包含来自一个或多个个体的一个或多 个样本的变体数据,以及能根据遗传逻辑,通过过滤数据集来变换数 据集。

  在一些实施方式中,一种计算机程序产品具有制定遗传分析过滤 器的机器可读指令。

  在一些实施方式中,提供一种药物遗传学过滤器,其中,药物遗 传学过滤器被配置成接收包含变体的数据集,与生物信息数据库通信, 其中,生物信息数据库是精选汇总的生物医学内容的知识库,其中, 使用知识本体来构建所述知识库,其中,生物信息是与一种或多种药 物有关的信息,以及能按照与生物信息有关的变体,通过过滤数据集, 变换数据集,其中,过滤包括在数据集和一些或全部生物信息之间建 立关联。在一些实施方式中,药物遗传学过滤器与用于将过滤的数据 集输出给用户的硬件通信。在一些实施方式中,与一种或多种药物有 关的信息包括药物靶标、药物反应、药物代谢或药物毒性。在一些实 施方式中,变体和生物信息之间的关联包括由一个或多个中继段定义 的关系。在一些实施方式中,用户选择用于过滤的生物信息。

  在一些实施方式中,一种药物遗传学过滤器:被配置成接收包含 变体的数据集,其中,数据集包含来自一个或多个个体的一个或多个 样本的变体数据、与生物信息数据库通信,其中,生物信息数据库是 精选汇总的生物医学内容的知识库,其中,使用知识本体来构建所述 知识库,其中,生物信息是与一种或多种药物有关的信息;以及能按 与生物信息有关的变体,通过过滤数据集,变换数据集,其中,过滤 包括在数据集和一些或全部生物信息之间建立关联。

  在一些实施方式中,过滤揭示与生物信息有关的变体。在一些实 施方式中,过滤屏蔽与生物信息无关的变体。在一些实施方式中,过 滤屏蔽与生物信息有关的变体。在一些实施方式中,过滤揭示与生物 信息无关的变体。

  在一些实施方式中,由数据集推断用于过滤的生物信息。在一些 实施方式中,由先前用户输入的研究设计信息,推断用于过滤的生物 信息。在一些实施方式中,药物遗传学过滤器与过滤器级联中的其他 过滤器组合来生成最终变体列表。

  在一些实施方式中,药物遗传学过滤器与过滤器级联中的下述过 滤器的一个或多个组合来达到少于200变体的最终变体列表:常见变 体过滤器、预测有害过滤器、癌症驱动变体过滤器、物理位置过滤器、 遗传分析过滤器、表达过滤器、用户定义变体过滤器、生物演化过滤 器、或定制注释过滤器。在一些实施方式中,药物遗传学过滤器与过 滤器级联中的下述过滤器的一个或多个组合来达到少于50变体的最终 变体列表:常见变体过滤器、预测有害过滤器、癌症驱动变体过滤器、 物理位置过滤器、遗传分析过滤器、表达过滤器、用户定义变体过滤 器、生物演化过滤器、或定制注释过滤器。

  在一些实施方式中,能由用户调整药物遗传学过滤器的严格性, 以及其中,来自用户的严格性调整变更下述的一个或多个:用于过滤 的关联中的中继段数;用于过滤的关联中的中继段的强度;预测的药 物反应信息是否用于过滤;预测的药物代谢或毒性信息是否用于过滤; 所确立的药物靶标是否用于过滤;用于过滤的关联中的中继段的净效 应;和/或用于过滤的关联中的中继段的上游或下游属性。

  在一些实施方式中,基于最终过滤的数据集中的所需变体数,自 动地调整药物遗传学过滤器的严格性,其中,严格性调整变更下述的 一个或多个:用于过滤的关联中的中继段数;用于过滤的关联中的中 继段的强度;预测的药物反应信息是否用于过滤;预测的药物代谢或 毒性信息是否用于过滤;所确立的药物靶标是否用于过滤;用于过滤 的关联中的中继段的净效应;和/或用于过滤的关联中的中继段的上游 或下游属性。

  在一些实施方式中,在药物遗传学过滤器中,仅使用上游中继段、 仅使用下游中继段,和/或使用中继段的净效应。

  在一些实施方式中,由用户调整药物遗传学过滤器的严格性。在 一些实施方式中,药物遗传学过滤器被配置成从先前在同一数据集上 执行的另一过滤器接受掩码。

  在一些实施方式中,一种计算机程序产品具有制定药物遗传学过 滤变体过滤器的机器可读指令。

  在一些实施方式中,提供一种预测有害过滤器,其中,预测有害 过滤器:被配置成接收包含变体的数据集,以及能按照被预测为有害 或无害的变体,过滤数据来变换数据集。在一些实施方式中,预测有 害过滤器与用于将过滤的数据集输出给用户的硬件通信。

  在一些实施方式中,过滤包括将至少一个算法用于预测数据集中 的有害或无害变体,然后过滤所预测的有害或无害变体。在一些实施 方式中,至少一个算法是SIFT、BSIFT、PolyPhen、PolyPhen2、 PANTHER、SNPs3D、FastSNP、SNAP、LS-SNP、PMUT、PupaSuite、SNPeffect、SNPeffectV2.0、F-SNP、MAPP、PhD-SNP、MutDB、SNP Function Portal、PolyDoms、SNP@Promoter、Auto-Mute、MutPred、 SNP@Ethnos、nsSNPanalyzer、SNP@Domain、StSNP、MtSNPscore, 或基因组变异服务器(Genome Variation Server)。

  在一些实施方式中,过滤保守的变体。在一些实施方式中,基于 基因融合预测算法,过滤预测有害变体。在一些实施方式中,基于产 生或破坏预测的或实验上确认的微RNA结合位点的变体,过滤预测有 害变体。在一些实施方式中,基于预测的拷贝数增益算法,过滤预测 有害变体。在一些实施方式中,基于预测拷贝数丢失算法,过滤预测 有害变体。在一些实施方式中,基于预测剪接位点丢失或剪接位点增 益,过滤预测有害变体。在一些实施方式中,基于已知或预测微RNA 或ncRNA的破坏,过滤预测有害变体。在一些实施方式中,基于破坏 或产生已知的或预测的转录因子结合位点,过滤预测有害变体。在一 些实施方式中,基于破坏或产生已知的或预测的增强子位点,过滤预 测有害变体。在一些实施方式中,基于破坏非翻译区(UTR),过滤 预测有害变体。

  在一些实施方式中,预测有害过滤器进一步与生物信息数据库通 信,其中,生物信息数据库是精选汇总的生物医学内容的知识库,其 中,使用知识本体来构建所述知识库,以及其中,(a)直接基于知识 库中的一个或多个突变研究结果,或(b)通过基因研究结果和功能预 测算法的组合,使来自第一数据集的变体与生物信息关联。在一些实 施方式中,生物信息包括有害表型,其中,过滤与有害表型有关的变 体。在一些实施方式中,有害表型是疾病。

  在一些实施方式中,预测有害变体包括如下变体,所述变体:直 接与知识库中的突变研究结果有关、是预测有害的(或非无害的)单 核苷酸变体、是预测或已知的剪接位点、预测会产生或破坏转录因子 结合位点、是预测或已知的非编码RNA、是预测或已知的miRNA靶 标、或者是预测或已知的增强子。

  在一些实施方式中,预测有害变体包括如下变体,所述变体:直 接与知识库中的变体研究结果有关、是预测有害的(或非无害的)单 核苷酸变体、预测会产生或破坏RNA剪接位点、预测会产生或破坏转 录因子结合位点、预测会破坏非编码RNA、预测会产生或破坏微RNA 靶标、或预测会破坏已知的增强子。

  在一些实施方式中,预测有害过滤器与过滤器级联中的其他过滤 器组合来产生用户感兴趣的最终过滤数据集。在一些实施方式中,预 测有害过滤器与过滤器级联中的下述过滤器的一个或多个结合来达到 少于50变体的最终变体列表:常见变体过滤器、生物演化过滤器、物 理位置过滤器、遗传分析过滤器、癌症驱动变体过滤器、表达过滤器、 用户定义变体过滤器、药物遗传学过滤器或定制注释过滤器。在一些 实施方式中,预测有害过滤器与过滤器级联中的下述过滤器的一个或 多个结合来达到少于200变体的最终变体列表:常见变体过滤器、生 物演化过滤器、物理位置过滤器、遗传分析过滤器、癌症驱动变体过滤器、表达过滤器、用户定义变体过滤器、药物遗传学过滤器或定制 注释过滤器。

  在一些实施方式中,由用户调整预测有害过滤器的严格性。在一 些实施方式中,基于最终过滤的数据集中的所需变体数,自动地调整 严格性。在一些实施方式中,基于致病性注释器,过滤预测有害变体。

  在一些实施方式中,预测有害过滤器被配置成从先前在同一数据 集上执行的另一过滤器接受掩码。

  在一些实施方式中,一种预测有害过滤器:被配置成接收包含变 体的数据集,其中,数据集包含来自一个或多个个体的一个或多个样 本的变体数据;以及能通过预测有害或无害的变体,过滤数据来变换 数据集。

  在一些实施方式中,一种计算机程序产品具有制定预测有害过滤 器的机器可读指令。

  在一些实施方式中,一种致病性注释器使用预测有害过滤器和生 物信息数据库分类变体,其中,生物信息数据库是精选汇总的生物医 学内容的知识库,以及其中,使用知识本体来构建所述知识库。

  在一些实施方式中,致病性注释器与用于将分类输出给用户的硬 件通信。在一些实施方式中,基于预测有害过滤器的结果与知识库中 支持或反驳各变体与有害表型的关联的证据的权重的组合,将变体输 出为下述类别:致病的、可能致病、不确定、可能良性,或良性。在 一些实施方式中,改变术语,或者存在更多或更少的分类,例如,基 于预测有害过滤器的结果与知识库中支持或反驳各变体与有害表型的 关联的证据的权重的组合,将变体输出为下述种类:致病的、推测致 病、未知、推测良性,或良性。在一些实施方式中,分类包括以下类 别中的一种或多种:未知、未测试、非致病的、可能非致病的、可能 致病的、致病的、药物反应、组织相容性等。在一些实施方式中,a) “致病”是指没有已知遗传疾病的个体的基因组数据库中,变体频率 <0.07%,以及来自生物医学文献中的多个不同文章的2个以上研究结 果在变体与有害表型之间建立原因性或关联链接;“推测致病”、“可 能致病”或“很可能致病”是指没有已知遗传疾病的个体的基因组数 据库中的变体的频率<0.07%,以及1个研究结果在变体与有害表型之 间建立原因性或关联链接;“未知”或“不确定”是指没有已知遗传 疾病的个体的基因组的数据库中,变体的频率在0.07%和0.1%之间; “推测良性”或“可能良性”或“可能非致病”是指在没有已知遗传 疾病的个体的基因组数据库中,变体的频率在0.1%和1%之间;以及“良 性”是指在没有已知遗传疾病的个体的基因组数据库中,变体的频率 >=1%。

  在一些实施方式中,致病性注释器与定义与那一疾病有关的变体、 基因和通路的疾病模型的知识库通信,其中,致病性注释器利用疾病 模型来疾病模型来提供用于特定变体和特定疾病的具体组合的致病性 评估。

  在一些实施方式中,一种预配置器,其中,该预配置器:被配置 成接收与包含变体的数据集有关的、由用户提供的信息、与一个或多 个过滤器通信、与包含变体的数据集通信,以及至少部分根据由用户 提供的信息,控制过滤器,其中,该预配置器选择与由用户提供的信 息有关的过滤器和过滤器严格性来产生最终过滤的数据集。

  在一些实施方式中,预配置器控制下述过滤器中的一个或多个的 添加、移除和严格性设定值:常见变体过滤器、预测有害过滤器、遗 传分析过滤器、生物演化过滤器、药物遗传学过滤器、物理位置过滤 器,或癌症驱动变体过滤器。

  在一些实施方式中,预配置器优化过滤器的添加或移除和过滤器 严格性设定值来实现不超出200变体的最终过滤数据集。

  在一些实施方式中,预配置器优化过滤器的添加或移除和过滤器 严格性设定值来实现不超出50变体的最终过滤数据集。

  在一些实施方式中,由用户提供的信息包括感兴趣的疾病的遗传 模式。在一些实施方式中,由用户提供的信息包括能由预配置器识别 为用于选择过滤的指令的用户输入,所述过滤:识别原因性疾病变体、 识别癌症驱动变体、识别能分层或区分不同群体的变体,或分析基因 组来识别对健康管理、治疗、个性化药物和/或个别化药物感兴趣的变 体。

  在一些实施方式中,预配置器与精选汇总的生物医学内容的知识 库通信,其中,使用知识本体来构建所述知识库。

  在一些实施方式中,来自用户的信息包括生物信息,生物信息包 括一个或多个基因、转录本、蛋白、通路、过程、表型、疾病、功能 性结构域、行为、解剖特性、生理性状或状态、生理标志物或其组合。

  在一些实施方式中,一种计算机程序产品具有制定预配置器的机 器可读指令。

  在一些实施方式中,在此提供一种用于识别预期原因性变体的方 法,包括:接收变体的列表、通过一个或多个常见变体过滤器过滤变 体的列表、通过一个或多个预测有害过滤器过滤变体的列表、通过一 个或多个遗传分析过滤器过滤变体的列表、通过一个或多个生物演化 过滤器过滤变体的列表,和将所过滤的变体列表输出为预期原因性变 体的列表。

  在一些实施方式中,原因性输出步骤发生在接收步骤后的不到1 天。

  在一些实施方式中,原因性输出步骤发生在接收步骤后的不到1 周。

  在一些实施方式中,变体的列表包括超出1百万的变体以及所输 出的过滤的变体列表包括小于50变体。

  在一些实施方式中,一种图形用户界面用于显示过滤器级联的输 出,其中,过滤器级联包括下述的一个或多个:常见变体过滤器、预 测有害过滤器、遗传分析过滤器,或生物演化过滤器。

  在一些实施方式中,在此提供一种用于分发交互式报告的方法, 包括步骤:接收报价请求,其中,报价请求包括客户的数量的公开, 其中,数量是客户希望用于基因组分析服务的报价的样本数;传送至 少部分基于样本数的报价,其中,报价包括使用生物信息数据库,用 于样本中的变体的生物解释的交互式报告的价格,其中,生物信息数 据库是精选汇总的生物医学内容的知识库,以及其中,使用知识本体 来构建所述知识库;从客户接收订单,其中,订单包括定购使用生物 信息数据库,用于变体的生物解释的交互式报告;以及向客户提供超 级链接,其中,超级链接将客户引导到使用生物信息数据库,用于变 体的生物解释的交互式报告。

  在一些实施方式中,在此提供一种用于分发交互式报告的方法, 包括步骤:接收报价请求,其中,报价请求包括客户的数量的发现, 其中,数量是客户希望用于基因组分析服务的报价的样本数;传送至 少部分基于样本数的报价,其中,报价包括使用生物信息数据库,用 于变体的生物解释的交互式报告的费用;从客户接收订单,其中,订 单不包括定购使用生物信息数据库,用于变体的生物解释的交互式报 告;以及向客户提供超级链接,其中,超级链接将客户引导到使用生 物信息数据库,用于变体的生物解释的交互式报告,为客户提供在线 交易所述交互式报告的能力。在一些实施方式中,在提供第二报价前, 已经生成使用生物信息数据库的变体的生物解释的交互式报告。在一 些实施方式中,第二报价包括分析的预览。在一些实施方式中,分析 的预览是预测客户会感兴趣的变体。

  在一些实施方式中,提供一种使用生物信息数据库,为客户提供 交互式报告,用于变体的生物解释的方法,包括:从合作公司接收包 含基因组信息的数据集,其中,合作公司从客户接收样本以及由该样 本生成数据集,以及将数据集加载到用于变体的生物解释的软件系统, 用于用户未来访问。在一些实施方式中,软件系统包括在本文中所述 的过滤器的一个或多个。在一些实施方式中,该方法进一步包括:在 生成交互式报告后,从客户接收订单的确认;以及将交互式报告提供 给客户。在一些实施方式中,生物信息数据库是精选汇总的生物医学 内容的知识库,以及其中,使用知识本体来构建所述知识库。

  在一些实施方式中,客户是保健提供者。在一些实施方式中,客 户是个人。在一些实施方式中,客户是保健消费者。在一些实施方式 中,客户是组织。

  在一些实施方式中,由基因组分析服务的提供者分发数据集,以 及在同一天,将用于所述数据集的交互式报告分发给客户。在一些实 施方式中,将由基因组分析服务的提供者分发的数据集和用于所述数 据集的交互式报告在同一周内分发给客户。在一些实施方式中,分发 能几乎与客户支付同时发生。

  在一些实施方式中,在同一天,向客户报价基因组分析服务和将 由所述基因组分析服务产生的数据集的交互式报告。在一些实施方式 中,报价在1小时、1分钟内或同时。

  在一些实施方式中,在同一天,向客户报价基因组分析服务和将 由所述基因组分析服务产生的数据集的交互式报告。

  在一些实施方式中,使用过滤器级联,生成交互式报告,其中, 过滤器级联包括下述的一个或多个:药物遗传学、常见变体过滤器、 预测有害过滤器、癌症驱动变体过滤器、物理位置过滤器、遗传分析 过滤器、表达过滤器、用户定义变体过滤器、生物演化过滤器,或定 制注释过滤器。

  在一些实施方式中,一种用于向用户显示遗传信息的方法,包括: 向用户显示具有一个轴上为样本和另一轴上为出现在一个或多个样本 中的变体的二维网格,其中,网格的每一单元表示每一样本中的变体 的不同实例(或缺少实例),在每一单元中显示一个或多个彩色图标, 其中,网格的每一单元中的一个或多个图标的颜色变化取决于由那一 单元所表示的变体是否被预测为导致功能增益、功能丧失,还是导致 由那一单元所示的样本中的基因或基因网络的正常功能。

  在一些实施方式中,在表示特定变体和特定样本的单元内的多个 可视不同形状线性地与所述特定样本中的所述特定变体的位置的接合 性和/或拷贝数有关。

  在一些实施方式中,如果由单元所表示的样本具有与参比基因组 相同的基因型,那一单元中的图标在形状和/或颜色上不同。

  在一些实施方式中,根据基因型质量,改变颜色强度,其中,颜 色强度越高,表示越高质量度量。

  在一些实施方式中,单元中的一个或多个图标改变形状和/或颜 色,如果预测由那一单元表示的变体在由那一单元表示的样本中产生 基因融合。

  在一些实施方式中,单元中的图标在形状和/或颜色方面不同,如 果由那一单元表示的变体的位置不具有数据,或在由那一单元表示的 样本中的那一变体的位置,没有进行准确基因型调用的能力。

  在一些实施方式中,一种计算机程序产品具有制定用于显示遗传 信息的方法的机器可读指令。

  在一些实施方式中,一种计算机实现的系谱构造器,其中,配置 成来利用来自用户的输入来识别最可能源自得到指定样本的个体的母 亲的样本;在另一实施方式,系谱构造器被配置来利用来自用户的输 入来识别最可能源自得到指定样本的个体的父亲的样本。在其他实施 方式中,系谱构造器被配置成构成系谱信息并且使信息可用于权利要 求62的遗传分析过滤器,用于进一步过滤变体。在一些实施方式中, 系谱构造器还可以推断指定研究内的三人组和家庭关系,或识别潜在 的系谱不一致性,诸如源自用户输入、源自计算分析的关系之间的不 一致性,或不一致性包括非亲生、样本贴错标签或样本混淆错误。

  在一些实施方式中,系谱构造器将相同的单个标识符指定给源自 相同个人的多个样本,使得程序能从同一患者推断患者的正常基因组 和匹配肿瘤基因组。

  在一些实施方式中,一种计算机实现的统计关联过滤器,其中, 统计关联过滤器被配置成将过滤器级联中的前一过滤器的输入用作输 入;使用在两个以上样本组之间,统计上显著不同的基本等位、显性、 或隐性模型,过滤变体;使用负荷测试,以统计学显著性来过滤在两 个以上样本组之间以不同的方式干扰基因的变体;以及使用通路或基 因集负荷测试,过滤在两个以上样本组之间以不同的方式干扰通路/基 因集的变体。

  在一些实施方式中,统计过滤器使用从下述选择的负荷测试:案 例负荷、对照负荷和双向负荷测试,能够区分受疾病影响和未受影响 的状态。在其他实施方式中,统计关联过滤器使用负荷测试,能够区 分受疾病影响和未受影响的状态,所述负荷测试仅利用通过输入到程 序中的过滤器级联中的前一过滤器的变体来计算统计上显著的变体。

  在一些实施方式中,统计关联过滤器能通过利用预测有害过滤器 和遗传分析,识别有害并且导致推断的在基因级别上的功能丧失或推 断的在基因级别上的功能增益的变体。

  在一些实施方式中,统计关联过滤器通过利用来自文献的研究结 果的知识库,能区分受疾病影响和未受影响的状态,以及识别基因, 所述基因基于从下述的一个或多个选择的一个或多个共享要素:通路 生物学、结构域、表达、生物过程、疾病关联性、组或复合物注释, 一起形成共同的相关集合。

  在一些实施方式中,统计关联过滤器通过识别在两个以上样本组 之间显著更多或显著更少干扰所述通路或基因集的变体,区分受疾病 影响和未受影响的状态。

  在一些实施方式中,权利要求187的统计关联过滤器,其中,能 在通路/基因集库或其用户指定子集上,执行通路或基因集负荷测试。

  在一些实施方式中,一种计算机实现的发布功能部件,其中,发 布功能部件被配置成:使用户指定感兴趣的分析、使用户输入所述分 析的简要名称和描述、为用户提供能由用户嵌入出版物中的URL互联 网链接、为用户提供发行所公布的分析的能力,用于广泛访问;以及 在用户所述发行后,为访问步骤(c)的URL或浏览可用发布分析列表 的其他用户提供对用户发布的分析的访问。

  在一些实施方式中,一种计算机实现的可药化通路功能部件,其 中,假定一个或多个患者样本中,有作为疾病的原因性或驱动变体的 一个或多个变体,可药化通路功能部件被配置成:识别已知针对、活 化和/或抑制在与所述一个或多个变体相同通路或基因网络中共同出现 的基因、基因产物或基因集的药物,通过原因性网络分析,识别患者 样本中的所述一个或多个变体对通路或基因网络的预测净效应,以及 进一步识别在步骤(a)中所识别的药物,其对通路或基因网络的净效 应与变体对所述通路或基因网络的预测影响完全相反。

  在一些实施方式中,可药化通路功能部件用来识别基于患者的序 列变体简档,表示患者很可能对一个或多个感兴趣的特定药物起反应 的患者样本。

  在一些实施方式中,一种频繁击中(Frequent Hitters)过滤器被配 置成:访问在源自未受感兴趣的疾病或表型影响的个体的样本集合中, 突变的高可变基因和基因组区的知识库;过滤在高可变基因和/或基因 组区内出现的变体;以及通过三核苷酸重复注释器,列举三核苷酸重 复。

  在一些实施方式中,频繁击中过滤器的三核苷酸重复注释器被配 置成:与包含有关良性的重复数和与一个或多个人类表型或其严重性 有关的重复数的信息的已知三核苷酸重复区的知识库交互;评估一个 或多个患者的全基因组或外显子组测序样本中,在知识库中定义的一 个或多个基因组区处的三核苷酸重复的数量;对每一三核苷酸重复, 基于知识库,评估在(b)计算的三核苷酸重复长度是否足以导致表型; 以及与预测有害过滤器通信来基于三核苷酸重复注释器的结果,实现 导致表型的变体的过滤。

  通过参考引入

  在本说明书中提及的所有公开文献和专利申请均通过参考引入本 文,其引用程度就如同将各主题公开文献或专利申请具体地和单独地 地通过参考引入一样。

  附图说明

  在权利要求书中,具体地阐述本发明的新颖特征。通过参考阐述 利用本发明的原理的示例性实施方式的下述详细描述和附图,将获得 本发明的特征和优点的更好理解,在所述附图中:

  图1描绘了用户界面的一个实施方式,其示出沿左手侧垂直展开 的包含一个或多个过滤器,在这种情况下,由常见变体过滤器、预测 有害过滤器、遗传分析过滤器和生物演化过滤器组成的过滤器级联。 每一过滤器能够从变体数据集“保留”、“排除”或“加回(addback)” 变体。每一过滤器还可以任选地从在前过滤器获取一个或多个掩码作 为输入,其规定在过滤器级联的在前过滤步骤中,已经保留哪些变体 以及屏蔽哪些变体。在该非限制性实例中,向用户呈现最终过滤的变 体数据集,以及在最左侧竖条中,在过滤器级联的底部,向用户呈现 在最终过滤的变体数据集中示出的变体数量和相关基因。在右侧以表 视图形式示出未被屏蔽掉的变体的详情,用于显示在左侧过滤器级联 的选择步骤保留的变体。

  彩色编码的“案例样本(Case Samples)”和“对照样本(Control Samples)”列将用于遗传信息的分析的有用信息的频谱组合成单一多 色图形显示,在右侧示出所述显示的图例。蓝色表示在基因级别上功 能的丧失,橙色表示功能增益,以及黑色表示可能正常的基因功能。 图形图标允许用户快速目视检测每一案例样本和每一对照样本的遗传 信息的多个关键要素,包括:(a)拷贝数增益,(b)拷贝数丢失, (c)变体的接合性,(d)与参比基因组的同一性,(e)变体或基因 型质量,(f)基因融合状态,(g)指定样本中特定位置处基因型读取 的不定性或能力缺乏,和/或(g)包括以下原因的功能丧失:纯合型变 体、半合区中的杂合型变体、发生复合杂合或单倍剂量不足的基因中 的杂合型变体。

  图2A描绘了生物演化过滤器用户界面的一个实施方式的视图。注 意右侧的生物演化过滤器用户界面示出了用户调整过滤器严格性的例 子,其中,在该具体例子中,用户已经选择2个中继段并且即将指定 在感兴趣的生物过程中,“直接活化/导致功能增益(Directly Activate/Cause gain of function in)”的变体。过滤器用户界面还允许用户指定下游中继段和具有自动补全功能(autocompletion)的一个或多 个感兴趣的生物概念,所述自动补全功能利用使用知识本体组织的知 识库。图2B描绘了链接到使用知识本体构建的知识库的过滤器能从自 动补全功能受益,其中,用户输入生物概念名称的全部或一部分,然 后呈现给用户的是随着用户的每次击键动态更新的、所输入字符包括 来自所述本体的同义词的匹配物。这允许用户方便地选择生物信息和 生物概念,以及允许在按各感兴趣的生物概念归入所述本体中的概念 中涉及的生物信息被自动包括在内。该非限制性例子显示了在用于生 物演化过滤器的用户界面内,基于使用知识本体构建的知识库的自动 补全功能的应用。

  图3描绘用于癌症驱动变体过滤器的用户界面的一个实施方式, 其中,滤过的变体被观察或预测为满足下述一个或多个标准:

  1.在具有小鼠直向同源物的人类基因中,所述直向同源物具有癌 症相关基因破坏表型,

  2.在强制或不强制适当的方向性的情况下,影响癌症相关的细胞 过程,

  3.在强制或不强制适当的方向性的情况下,影响癌症相关通路,

  4.与癌症治疗靶标和/或上游/原因性子网络有关,

  5.在变体和/或基因级别上,与知识库中公开的癌症文献研究结果 关联,

  6.以指定频率存在于体细胞变体的COSMIC数据库中,和/或

  7.影响已知的或预测的癌症通路子网络调控位点。

  该过滤器还受益于将其他过滤器要素全部集中在与由疾病模型描 述的特定癌症形式有关的生物信息上的、疾病模型(例如“乳腺癌”) 的选择。

  图4描绘用来识别癌症驱动变体的知识库。

  图5描绘一个实施方式中的常见变体过滤器。在该实施方式中, 常见变体过滤器能够基于变体在一个或多个变体数据库中的频率来过 滤变体。这为用户提供了快速和方便的机制,用于在变体数据集内过 滤(即屏蔽或暴露)在指定人群中,已经观察到以指定频率、高于指 定频率或低于指定频率出现的变体的。

  图6描绘定制注释变体过滤器用户界面的一个实施方式。在本发 明的一些实施方式中,用户能基于变体数据集中的变体的字母数字注 释,产生定制过滤器,查找例如“染色体”注释栏等于“X”的变体将 等效于用来识别X染色体上的变体的物理位置过滤器。同时在一些实 施方式中,用户能将定制栏导入变体数据集中以及应用定制注释过滤 器来在这些定制栏中出现的注释上过滤。该过滤器还能用于从RNA-Seq、蛋白质组学或微阵列研究输入的表达数据栏,例如来识别出 以大于或等于指定水平表示的存在于外显子上的变体、或过滤在染色 质免疫沉淀反应或甲基化研究中识别的区域中出现的变体。

  图7描绘遗传分析过滤器用户界面的一个实施方式,其允许通过 变更(a)案例和/或对照接合性和/或(b)案例和/或对照变体质量或基 因型质量,和/或(c)案例样本的数量或部分,其中,变体(i)以所 述案例接合性和案例质量出现和/或(ii)影响同一基因,和/或(iii) 影响一个或多个中继段内的相同网络,和/或(d)对照样本的数量,其 中,变体(i)以所述对照接合性和对照质量出现,和/或(ii)影响同 一基因,和/或(iii)影响一个或多个中继段中的相同网络,来调整严 格性。在此未示出实现(ii)和(iii)的界面,但在本发明中,通过例 如将底部的文字修改为“上述所选的基因型在2个案例样本(100%) 的至少[1/2]中,[出现/影响同一基因/影响同一网络(1中继段)]”能 易于实现。上框示出了简化的遗传分析过滤器用户界面的例子,通过 点击定制(customize)按钮,其能扩展成在底部显示的更复杂和丰富 的特色遗传分析过滤器。

  图8描绘药物遗传学过滤器用户界面的实施方式。该过滤器,与 使用知识本体构建的精选汇总的生物医学内容的知识库通信,能应用 与一个或多个药物或药物靶标有关的结构化的生物医学信息来快速地 识别观察到或预测到影响药物反应、药物代谢、药物毒性,或影响一 个或多个药物的靶标的变体。在优选实施方式中,过滤器的缺省行为 是识别满足一个或多个与任意药物相关的这些标准的变体,在适用时, 任选能够使用自动补全工具过滤出特定的目标药物或药物靶标,所述 自动补全工具随着用户的每次敲键,向其显示所述本体内感兴趣的生 物信息的匹配物,在这种情况下,药物、药物靶标和它们既定的同义 词。与其他过滤器一样,药物遗传学过滤器能配置成排除(即屏蔽或 移除满足过滤标准的变体)、仅保留(即屏蔽或移除不满足过滤标准 的所有变体),或增加(即,暴露或加回满足过滤标准的所有变体), 作为过滤器操作的一部分。

  图9描绘预测有毒过滤器用户界面的一个实施方式,其允许用户 方便地配置基于以下标准屏蔽或暴露数据集中的变体的过滤器的严格 性:基于病原性注释,变体是否在选择的感兴趣的病原性种类中;变 体是否被预测或观察到与基因功能增益有关;或变体是否被预测或观 察到与基因功能丧失有关。与其他过滤器一样,预测有毒过滤器能与 其他上游和下游过滤器交互,从之前的过滤器接收变体数据集和任选 地,一个或多个掩码,以及基于过滤器设定值,屏蔽或暴露数据集内 的变体。

  图10描绘用户定义变体过滤器用户界面的一个实施方式。在本发 明的一些实施方式中,用户能保存用户定义的基因和/或变体的列表, 以及从计算机系统再调用那些列表,用在用户定义变体过滤器的实例 中。在该非限制性例子中,用户已经从研究调取了推定原因性变体集, 并且正在应用用户定义变体过滤器来“仅保留”该列表中的变体。这 具有屏蔽或移除没有出现在“颅骨推定原因性(cranio putative causal)” 变体列表上的所有其他变体的作用。

  图11描绘向客户提供用于变体的生物解读的交互式报告的示例 性流程图。该过程包含客户、生成变体数据集的基因组服务提供者, 以及用于变体的生物解读的交互式报告的提供者。与基因组服务的服 务提供者的报价一起,提供用于变体的生物解读的交互式报告的报价, 并且按每一样本定价。此外,基因组服务提供者将由客户的样本生成 的数据集,当该数据集变为可用时,直接上传到交互式报告系统,简 化客户经历并且一旦由基因组服务提供者生成,允许客户几乎立即访 问其变体数据集的交互式报告。注意,无论客户在订购她的基因组服 务时是否订购该报告,都执行该数据上载步骤。这在客户从基因组服务提供者接到其数据集准备就绪的通知后,提供了与客户就所述交互 式报告进行交易的第二次机会。当已经完成基因组服务并且客户的数 据集准备就绪时,基因组服务提供者向客户发送将客户引导到该交互 式报告的链接。客户几乎与从服务提供者接到他们的测序结果可用的 通信的同时,接收到该链接。

  图12是示出代表性示例逻辑设备的框图,通过该设备,能实现与 本发明有关的数据的审阅或分析。

  图13描绘根据本发明构造的系统的实施方式的流程图。该系统提 供一种方法,其将用于获得数据分析包的进入权限的交易,与针对用 来生成将输入到数据分析包中用于分析的数据集的产品或服务的交易 进行捆绑。

  图14描绘用于家族性胶质母细胞瘤的预期原因性变体的识别。

  图15描绘个体化的癌症RNA变体的识别。

  具体实施方式

  定义

  如在下述描述中所使用的:

  “疾病”是指所涉及的任何表型或表型特性,举例来说,包括疾 病或疾病状态、疾病的倾向性或易感性,或异常药物反应。疾病状态 的示例性和非限制性例子包括癌症、高胆固醇水平、充血性心力衰竭、 高血压、糖尿病、葡萄糖耐受不良、抑郁症、焦虑、传染病、中毒状 态、药物治疗副作用、药物治疗无效、酒精中毒、上瘾、外伤等等。

  “疾病相关通路”是导致疾病的身体中的一系列生物化学反应, 即,共同地影响疾病状态例如开始、进行、缓和或恶化的身体中的一 系列、线性或分支的生物相互作用。这些生物相互作用,即生物效应 或功能关系均是在身体内出现的生物过程,例如,结合、激动、拮抗、 抑制、活化、调控、改变等等。

  “治疗”和“治疗的”包括预防或预防性的,以及包含与疾病状 态有关的症状的防止和减轻、疾病状态的进展的抑制或延迟以及疾病 状态的治疗。

  “蛋白质”或“基因产品”是指肽、寡肽、多肽或蛋白质,正如 所翻译的或在翻译后被修饰。基因产品还能是RNA分子。

  “研究结果”是用来构建信息数据库的数据。该数据可以来自公 共资源,诸如数据库和科技出版物,但也可以包括专有数据或专有和 公共数据的混合。在各种实施方式中,研究结果源自根据在下文更详 细概述的方法的自然语言(例如英语)正式化的文本内容。

  “生物效应”包括指定生物概念的分子效应和这种概念在细胞、 组织或生物体级别上的效应。

  “变体”是指相对于确定的参比核苷酸或核苷酸序列,核苷酸或 核苷酸序列的任何特定变化,这样的参比物包括但不限于被称作 NCBI36/hg 18和GRCh37/hg19的公共参比人类基因组序列。这还包括 但不限于核酸修饰,诸如甲基化,以及基因组中的核苷酸或核苷酸序 列的异常拷贝数。

  “全基因组”是指包括对象的可测序基因组的绝大部分,包括外 显子、内含子和基因间区。

  “全基因组分析”是指从一个或多个全基因组的测序产生的数据 的解释。

  “对象”通常是指具有可用于分析的相关序列信息,以及任选地, 表型信息的生物体。

  “用户”是指正使用在本文中所述的一种或多种方法来分析或解 释核苷酸序列信息的人。

  “疾病模型”是在疾病的进展中涉及的、用科学确定的现象的知 识本体的表现。这些现象包括:患病个体通常表现出的所述疾病的特 征性症状;疾病状态中通常被异常调节的细胞过程、或者信号或新陈 代谢通路;已知影响疾病进展或作为用于所述疾病的药物的靶标的变 体、基因或分子复合物。能将疾病模型中的现象翻译为基因,所述基 因来自报告这些基因和现象之间的关系的独立生物医学研究结果。疾 病模型中的现象在疾病状态中可能具有相关的方向性(过度活跃或不 够/不活跃),来自生物医学研究结果的每一基因被确定为如何来影响 所述现象(增加/活化或降低/抑制)能被用来确定数据集中的变体对基因的净效应(功能的增益或丧失)是否与促进疾病进展一致。

  “过滤”是指注释或变更一个或多个数据集。过滤能指从数据集 保留、增加、减去或加回数据点。过滤能指屏蔽数据集中的一个或多 个数据点。过滤能指暴露数据集中的数据点。在一些实施方式中,过 滤是迭代过程。在一些实施方式中,能通过一个或多个过滤器执行过 滤。在一些实施方式中,由一个过滤器移除或屏蔽的数据点由第二过 滤器加回或暴露。在一些实施方式中,在变体列表上执行过滤。滤过 的数据集能小于或大于原始数据集。在一些实施方式中,滤过的数据 集包括未从原始数据集移除的数据点。在一些实施方式中,滤过的数 据集包括比原始数据集更多的信息。例如,滤过的数据集能包括下述 的一个或多个:原始数据集、有关当前是否屏蔽每一数据点的信息、 有关先前是否屏蔽每一数据点的信息,以及有关在前过滤的信息。有 关在前过滤器的信息能是所应用的过滤器的类型、为应用那一过滤器 而选择的任意变量、由该过滤器所做的任意假定或该过滤器所依赖的 任意信息(例如,来自数据库的信息)。

  “物理位置过滤器:”物理位置过滤器是这样的过滤器,其将变 体数据集用作输入,其中所述变体数据集包括来自一个或多个个体的 一个或多个样本的变体数据,并且其基于各变体出现的染色体,以及 任选地,所述染色体上各变体的物理位置来过滤变体。这能是过滤器 级联的非常有用的部件,因为允许用户识别处于与感兴趣的遗传病一 致的位置处的变体。在一个简单和非限制性例子中,物理位置过滤器 能用来识别位于X染色体上的那些变体,用来识别X染色体连锁病症 的原因性变体。物理位置过滤器能从用户接收一个或多个感兴趣的物 理位置以及识别在那些物理位置的任何一个或全部内的或与之重叠的 变体。逻辑“和”或逻辑“或”关系能存在于为过滤而指定的物理位 置之间。在另一实施方式中,能基于由用户指定和/或从用户的数据集 和研究设计而推断的研究设计参数,自动地选择物理位置。一个或多 个物理位置能分别包括染色体和包含所述染色体上的感兴趣的开始和 任选停止坐标的任选数值坐标范围。物理位置还能指定为一个或多个 细胞学带或带范围(例如,“13q14.3-q21.1”)。物理位置还能指定为 由两个遗传标记限定的坐标范围,其中,所述遗传标记可以包括下述 的一个或多个:RFLP(或限制性片段长度多态性)、SSLP(或简单序 列长度多态性)、AFLP(或扩增片段长度多态性)、RAPD(或随机 扩增多态性DNA)、VNTR(或可变数目串联重复序列)、微卫星多 态性、SSR(或简单重复序列)、SNP(或单核苷酸多态性)、STR(或 短串联重复序列)、SFP(或单征多态性)、DArT(或多样性序列芯 片技术)、RAD标记(或限制位点相关的DNA标记)。

  物理位置过滤器能基于变体是否在由用户指定的坐标范围内(或 任选地,与之重叠)并且位于指定染色体上,屏蔽或暴露来自数据集 的变体。在一些实施方式中,能由用户调节物理位置过滤器的严格性, 例如,选择一个或多个染色体和坐标范围。在一些实施方式中,能基 于最终过滤的数据集中的变体的所需目标数量,和/或基于数据集的方 面和/或研究设计的方面,自动地配置物理位置过滤器的严格性。物理 位置过滤器可以与其他过滤器组合成过滤器级联来将变体数据集变换 成具有例如少于200或少于50变体的最终数据集。在一些实施方式中, 物理位置过滤器的功能由定制注释过滤器实现。

  “定制注释过滤器”:在本发明的各个实施方式中,定制注释过 滤器用户能基于变体数据集中的变体的字母数值注释,产生定制过滤 器,查找例如,“染色体”注释栏等于“X”的变体将等效于用来识别 X染色体上的变体的物理位置过滤器。同时,在一些实施方式中,用 户能将定制栏输入到变体数据集中,并且能应用定制注释过滤器来在 存在于这些定制栏或数据集中的任何其他栏中的注释上过滤。在一些 实施方式中,用于定制注释过滤器的用户界面为用户提供用于过滤的 选项,基于正为其创建过滤器的数据集中感兴趣的指定栏的内容,优 化所述选项。例如,定制注释过滤器能将“大于”、“大于或等于”、 “等于”、“小于”、“在..之间”或“小于或等于”提供为用于数值 栏的方便过滤选项。在一些实施方式中,过滤器为用户提供选择列表, 用于在过滤选项中为具有低基数内容的栏进行选择。在一些实施方式 中,定制注释过滤器提供过滤选项,诸如“包含”、“从…开始”、 “以…结束”和“是”,用于在包含文本信息的栏上过滤。该过滤器 能被用于来自RNA-Seq、蛋白质组学或微阵列研究的输入表达数据栏, 以例如过滤存在于以大于或等于指定水平表达的外显子上的变体,或 作为另一例子,过滤出现在染色质免疫沉淀反应研究中识别的区域中 的变体,或者作为又一例子,过滤影响以指定水平表达的基因或在该 基因内的变体,所述水平用绝对项或相对项表示。定制注释过滤器, 与其他过滤器一样,可以屏蔽或暴露、移除或加回满足所指定的过滤 标准的变体。在一个实施方式中,定制注释过滤器允许用户“仅保留”、“排除”或“增加”满足指定过滤标准的变体。定制注释过滤器,与 在本文中所述的所有其他过滤器一样,可以与一个或多个其他过滤器 组合成过滤器级联来将变体数据集变换成最终数据集。在一些实施方 式中,自动或手动地将过滤器组合配置,以产生用于传送给用户的具 有例如少于200或少于50变体的最终数据集。

  “表达过滤器”:表达过滤器是这样的过滤器,其将变体数据集 用作输入,其中所述变体数据集包括来自一个或多个个体的一个或多 个样本的变体数据,并且其基于在指定样本中外显子、转录本、基因、 蛋白质、肽、miRNA、非编码RNA或其他生物实体的表达程度来过滤 变体以便“保留”、“排除”或“增加”变体。在一些实施方式中, 表达过滤器在包含来自两个以上样本的相对表达值的差异表达数据集 上操作。在一些实施方式中,各种样本的表达值能被预加载到供表达 过滤器使用的数据库中。在一些实施方式中,所述数据库是根据知识 本体构建的知识库。在一些实施方式中,表达过滤器使得用户能够输 入一个或多个例如来自微阵列、RNA-Seq或蛋白质组学研究的表达数 据集。在一些实施方式中,由用户输入的数据集直接对应于在变体数 据集中表示的个体和样本。在一些实施方式中,表达过滤器由定制注 释过滤器实现。表达过滤器,与在本文中所述的所有其他过滤器一样, 可以与一个或多个其他过滤器组合成过滤器级联来将变体数据集变换 成最终数据集。在一些实施方式中,自动或手动地将过滤器组合配置, 以产生用于传送给用户的具有例如少于200或少于50变体的最终数据 集。

  除非具体说明,“包括”和“包含”是指包括但不限于此,以及 不带具体数量的指称是指一个或多个。

  获得基因组信息

  研究人员和临床医师能从对象获得大量基因组信息。通常,对象 能是具有基因组的任何生物体。对象能是人,例如,为获得其基因组 序列而付费的主体对象人。对象能是患者,例如,怀疑具有遗传疾病 的患者。对象还能是研究对象,例如,具有感兴趣的表型或疾病的表 面正常个体。对象还能是动物,例如研究动物或家畜。对象还能是细 菌或植物。在一些情况下,对象是一系列人造核苷酸。在一些情况下, 从多个对象获得基因组信息。在一些情况下,从相关对象获得基因组 信息。

  在各个实施方式中,本发明允许分析和解释基因组数据。为使用 该系统,用户能获得基因组数据集或多个数据集。数据能卖给或赠予 用户,但通常用户将是执行生物实验或诊断的研究人员或临床医师。 数据可以是从软件提取或输出的数据。例如,数据可以是由测序实验 生成的数据文件。在一些实施方式中,系统能从多个源,例如从多个 用户或在多个实验上接收数据。在各个实施方式中,数据集的内容包 括与基因表达、基因分型、测序、单核苷酸多态性、拷贝数目变异、 单体型分析、基因组结构或基因组变异有关的数据。数据集能与诊断 或临床数据有关,或能为了基础科学研究生成数据集。

  通常,通过分析来自对象的样本,获得基因组信息。样本能是包 含对象的一些或全部基因组的任何材料。例如,能从患者获得血样、 头发样本或口颊涂片以便分析基因组。能从同一对象获得多个样本。 在一些实例中,从对象的癌变组织获得样本。在一些实例中,从对象 的免疫系统获得样本。在一些实例中,在不同时间点,从同一对象获 得样本。有时,取样时间是规律的(例如,一天一次或一周一次), 有时,取样时间受疾病的状态控制(例如,能在疾病症状增加时或当 患者有利地对药物治疗起反应时,获取基因组样本)。

  存在若干方法来通过分析基因组,生成基因组信息。能通过本领 域非常公知的经典桑格测序方法,实现测序。还能使用高通量系统, 实现测序,一些高通量系统允许在被测序核苷酸并入生长链后马上或 在其并入时,检测所述核苷酸,即,实时或基本上实时检测序列。在 一些情况下,高通量测序每小时生成至少1,000、至少5,000、至少 10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少 100,000或至少500,000序列读数,每一读数为每次读取至少50、至少 60、至少70、至少80、至少90、至少100、至少120或至少150碱基。

  在一些实施方式中,高通量测序包含通过合成化学,基于可逆终 止子的测序。例如,Illumina的HiSeq 2000机器在8天中能产生2000 亿DNA读数。

  在一些实施方式中,高通量测序基于染料标记的寡核苷酸的顺序 连接反应。例如,通过使用可从ABI Solid System获得的技术。该基因 分析平台使得能够对连接到珠粒上的克隆性扩增的DNA片段进行大规 模的平行测序。

  在一些实施方式中,高通量测序包含使用可从Ion Torrent个人基 因组测序仪(PMG)获得的技术。PGM能在两小时内执行1千万次读 取。

  在一些实施方式中,高通量测序包含使用可从Helicos BioSciencesCorporation(剑桥,马萨诸塞)获得的技术,诸如单分子合成测序 (SMSS)。SMSS允许在至多24小时内测序整个人类基因组。该快速 测序方法还允许基本上实时或实时地检测序列中的SNP核苷酸。SMSS 很强大,因为与MIP技术一样,其不要求在杂交前的预扩增步骤。SMSS不要求任何扩增。在US公开申请号2006002471I、20060024678、 20060012793、20060012784和20050100932中部分描述了SMSS。

  在一些实施方式中,高通量测序包含使用可由454Lifesciences, Inc.(布兰福德,康涅狄格州)获得的技术,诸如包括光纤板的超微量 滴定板装置(Pico Titer Plate),所述光纤板传送由测序反应生成的化 学发光信号以便由仪器中的CCD照相机记录。使用光纤允许在4.5小 时中,检测最少2千万个碱基对。

  在Marguiles M.等的“Genome sequencing in microfabricated high-densitypricolitre reactors”,Nature,doi:10.1038/nature03959,以 及在US公开申请号20020012930、20030058629、20030100102、 20030148344、20040248161、20050079510、20050124022和20060078909 中描述了在光纤检测后使用珠粒扩增的方法。

  在一些实施方式中,使用克隆单分子阵列(Solexa,Inc.)或利用 可逆终止子化学的合成测序(SBS),执行高通量测序。在US专利号 6,969,488、6,897,023、6,833,246、6,787,308、和US公开申请Nos. 20040106130、20030064398、20030022207和Constans,A.,TheScientist 2003,17(13):36中部分描述了这些技术。

  在一些实施方式中,RNA或DNA高通量测序能使用AnyDot芯片 (Genovoxx,德国)发生。特别地,AnyDot芯片允许核苷酸荧光信号 检测的10x-50x增强。在国际公开申请号WO02/088382、 WO03/020968、WO03/031947、WO2005/044836、PCT/EP05/105657、 PCT/EP05/105655,和德国专利申请号DE 101 49 786、DE 102 14 395、 DE 103 56 837、DE 10 2004009 704、DE 10 2004 025 696、DE 10 2004 025 746、DE 10 2004 025 694、DE 10 2004025 695、DE 10 2004 025 744、 DE 10 2004 025 745和DE 10 2005 012 301中部分描述了AnyDot芯片 及其使用方法。

  其他高通量测序系统包括在Venter,J.,等,2001年2月16日 Science、Adams,M.等,2000年3月24日Science、和M.J,Levene,等, 2003年1月Science 299:682-686,以及US公开申请号20030044781和 2006/0078937中描述的那些高通量测序系统。大体上这些系统包含经 在核酸分子上测量的聚合反应,通过临时添加碱基,测序具有多个碱 基的目标核酸分子,即,实时追踪待测序的模板核酸分子上的核酸聚 合酶的活性。然后,通过识别在碱基添加顺序中的每个步骤处,哪一 碱基通过核酸聚合酶的催化活性被并入到目标核酸的生长互补链中, 能推导出序列。在适合于沿目标核酸分子移动和在活性位点延伸寡核 苷酸引物的位置处,提供目标核酸分子复合物上的聚合酶。在活性位 点附近提供多个标记类型的核苷酸类似物,每一可区别类型的核苷酸 类似物与目标核酸序列中的不同核苷酸互补。通过使用聚合酶将核苷 酸类似物添加到活性位点处的核酸链,来延伸生长的核酸链,其中, 所添加的核苷酸类似物与目标核酸在活性位点处的核苷酸互补。识别 作为聚合步骤的结果而被添加至寡核酸引物的核苷酸类似物。重复进 行提供标记的核苷酸类似物、聚合生长的核酸链以及识别添加的核苷 酸类似物的步骤,使得进一步延伸核酸链并确定目标核酸序列。

  在一个实施方式中,稀有细胞的遗传材料的序列分析可以包括通 过连接方案(简并连接)的四色测序(例如SOLiD测序),其包含将 锚定引物杂交到四个位置中的一个。然后,执行锚定引物针对用荧光 染料标记的简并九聚体的群体的酶连接反应。在任何指定循环,所使 用的九聚体的群体是结构,使得其位置之一的身份(identity)与附加 到所述九聚体的荧光团的身份关联。只要连接酶辨别出所述被查询位 置处的互补性,那么荧光信号允许推导出碱基身份。在执行连接和四 色成像后,除去锚定引物:九聚体复合物,开始新的循环。在执行连 接后,成像序列信息的方法在本领域是公知的。

  在本发明的一些实施方式中,由用户或客户获得基因组信息。基 因组信息能经网络传送给接收基因组信息,分析信息并且将分析结果 传送回用户或网络的实体。在一些实施方式中,仅传送基因组信息的 子集用于分析。只要在网络上获得或传送基因组信息,则能电子地存 储它。

  3.基因组变体的识别

  识别基因组信息中的变异是有用的,因为它可以表示对象中的表 型变异的原因-一种理论是正常对象的基因组的不变区对编码那些对象 的发育和生存所需的主要成分非常重要。变体可能说明人之间的正常 表型差异或变体可以说明疾病相关变体。

  只要从对象获得基因组信息,就能研究基因组信息来确定对象的 基因组不同于标准或对照基因组之处。在一些实例中,基因组信息包 括基因组或部分基因组。这些差异区称为“变体”。变体能是单核苷 酸差异或能是较长段基因组,例如,超出10,100或1000碱基对或更 长。变体还能包括一个或多个染色体的缺失。变体还能包括一个或多 个染色体的插入。变体能包括倒位或易位。在一些实例中,变体包括 纯合性区。在一些实例中,变体包括基因组中的重复序列,例如,一 个或多个三核苷酸重复(例如,一个或多个CAG重复或一个或多个 CGG重复)。在一些实例中,变化包括重复序列数量上的差异。在一 些实例中,变体是SNP或SNV。在一些实例中,变体存在于线粒体遗 材料、质粒遗传材料,或叶绿体遗传材料上。在一些实例中,变体处 于特定染色体中,诸如se染色体。在一些实例中,变体处于染色体内 的特定位置。

  在一些实例中,应用在本文中所述的系统和方法来查找和研究转 录组或部分转录组中的变体。因此,在一些实例中,变体处于成熟 mRNA、rRNA、tRNA或非编码RNA中。

  在一些实例中,变体存在于人造核苷酸序列上。因此,在一些实 施方式中,能使用在本文中所述的系统和方法来分析包含人造核苷酸 序列的样本。

  能通过将基因组信息与先前收集的基因组信息数据库进行比较, 识别变体。或选或并选地,能将基因组信息与测试样本一致收集的样 本进行比较来识别变体。或选或并选地,能从单个对象收集多个样本。 例如,能收集来自一个家庭的基因组样本。这些样本与大量先前收集 的样本的数据库有怎样的区别能告知研究员来自该较大群体的变异。 来自家庭的基因组样本还能相互比较来确定样本间的变异。再例如, 能从单个对象收集癌症细胞的基因组样本和非癌症细胞的基因组样 本。能确定来自单个对象的多个基因组样本之间的变体,以及任选地, 与先前收集的基因组信息或家庭成员进行比较。能统计地执行基因组 比较来确定基因组样本中的变体。

  4.变体的分析

  从指定样本或样本,很可能将发现许多变体,但仅一些变体与用 户有关(例如,与疾病有关的变体)。因此,存在分析变体的重要性 的需要。

  如在本文中所述的系统和方法,能分析变体。用于分析变体的方 法和系统能用来排序或过滤变体,以便将用户的注意力集中在潜在相 关变体上。给出用于确保为用户提供易处理的数据量的自动方法和系 统。

  A)变体属性的算法分析

  能使用算法来研究在基因组信息中识别的变体,以便例如预测变 体如何起作用、变体如何影响生物结果,或确定特定变体是否与特定 表型有关。能使用各种算法来分析变体。例如,能单独或组合使用下 述算法来分析变体:SIFT、PolyPhen、PolyPhen2、PANTHER、SNPs3D、 FastSNP、SNAP、LS-SNP、PMUT、PupaSuite、SNPeffect、SNPeffectV2.0、 F-SNP、MAPP、PhD-SNP、MutDB、SNP Function Portal、PolyDoms、 SNP@Promoter、Auto-Mute、MutPred、SNP@Ethnos、nsSNPanalyzer、 SNP@Domain、StSNP、MtSNPscore或基因组变异服务器。这些算法 均试图预测突变对蛋白质功能/活性的影响。能将这些算法的预测输出 给用户。或者,算法的预测能用作系统的一部分,用于排序或过滤变 体。在一些实例中,变体导致基因产物,诸如RNA或蛋白质的序列变 化。在一些实例中,变体导致基因产物的转录或翻译调控的差异。在 一些实例中,变体位于启动子、增强子、沉默基因或调节一个或多个 感兴趣基因的另一调控序列中。在一些实例中,变体导致基因产物的 剪接的变化。在一些实例中,变体导致蛋白质的翻译后修饰或定位的 变化,例如,磷酸化、细胞间运输或分泌的变化。在一些实例中,变 体导致基因产物的免疫原性的差异。

  B)常见变体

  通过比较多个基因组样本,可以确定在那些样本上,个体变体有 多常见。能对变体指定数字或得分,其表示例如在指定群体中,那一 变体的分布。例如,1000基因组项目已经收集了超出1000人对象的全 基因组。将这些基因组进行比较来量化人的遗传变异。还能执行与美 国国家医学图书馆中的当前研究或人类参比基因组修订版18(hg18) 的比较。因此,本发明的系统能确定样本中个体变体有多常见(或共 性得分的值)。

  不受理论的限制,识别常见变体可以用在识别导致疾病的变体中。 例如,如果有疾病的对象具有大量变体,研究人员能确定那些变体中 的哪些在不具有疾病的群体中是常见的。能不将这些常见变体视为导 致疾病的变体。或者,能将这些常见变体排序为导致疾病变体的似然 性更低。

  还能确定常见和不常见变体之间的关联。例如,能计算两个以上 变体出现在指定群体的指定对象中的似然性。研究人员能使用本发明 的系统来确定例如,具有疾病的对象是否具有变体的不太可能的组合。 在一些实例中,在分析中利用单体型信息,以便例如确定同时具有两 个变体的可能性。

  C)将变体与信息关联

  可能已经在某种程度上研究了从对象识别出的变体,以及变体周 围或与之有关的基因组区。将启发研究人员或临床医师收集和分析与 在样本中识别出的变体有关的先前已知的信息,例如,科技文献中的 信息。对所有所识别的变体收集该信息很耗时。收集也会很困难,因 为文献用于描述可能与变体有关的特性的术语可能不一致。可能给研 究人员或临床医师留下难以在合理的时间框中筛选的大量信息。因此, 在本文中所述的是用于从与基因组变体有关的科技文献识别信息的方 法和系统。例如,只要变体位于基因组中并且与特定基因相关,研究 人员将希望尽可能地了解该基因、其可能编码的蛋白质、包含所述蛋 白质的通路以及已知受那一通路影响的任何疾病。该知识能帮助研究 人员或临床医师确定该变体是否很可能与感兴趣的疾病或表型有关。 因此,对每一变体,研究人员或临床医师能使用大量公开出版的科技 文献来试图确定变体是否很可能与感兴趣的疾病有关,以及在一些实 施方式中,本发明具有用于加速该过程的方法和系统。在其他实施方 式中,在本文中的方法和系统用于通过根据研究人员或临床医师最可 能感兴趣的表型来排序或过滤,缩小临床医师或研究人员应当注意哪 些变体。

  能通过将变体与已知关于所述变体在基因组上的特定区的信息进 行比较,研究变体。例如,如果已知变体存在于已知编码特定蛋白质 或调控特定蛋白质的表达的基因组区中,那么,能将那一变体链接到 那一蛋白质、与那一蛋白质有关的任何疾病、那一蛋白质可能在其中 起作用的任何通路、已知针对该蛋白质的任何药物等等。因为变体能 遍布基因组,因此,与该变体有关的信息量非常大。为了将大量变体 与大量生物数据进行比较,能使用可获得的各种计算机化系统和数据 库。

  指定样本中的变体的数量可能非常大,例如,超出1,000、5,000、 10,000、25,000、50,000、100,000、500,000、1,000,000或更大。研究 人员或临床医师可能希望缩小或按优先程序排列待了解变体的数量。 能使用过滤器来排序变体。在一些实例中,应用一个或多个过滤器识 别少于500、200、100、50、30、10、5或更少变体,用于进一步查询 和将一个或多个所识别的变体输出给用户。例如,研究人员能从具有 疾病的患者获得样本。然后,研究人员能获得全基因组序列。然后, 研究人员能识别全基因组序列中的变体。然后,研究人员能使用在本 文中所述的系统和方法来识别与变体有关的科技文献。接着,研究人 员能按与变体有关的已知特性排序或过滤变体。因此,例如,研究人 员能将指令提供给计算机来识别与已知属性,例如,特定疾病、蛋白 质、基因、通路或患者群体具有已知关系的变体。相应地,在本文中 描述了用于使用已知信息,例如,科技文献中的信息排序或排列变体 的方法和系统。

  变体周围的序列还能与先前收集的数据进行比较来预测变体周围 的基因组区的功能。在各种实施方式中,接近但不与变体重叠的基因 或基因组区与已知信息进行比较。变体和与已知信息比较的基因或基 因组区之间的距离可以是变体有多大可能影响或与所述基因或基因组 区相关的度量。例如,研究人员可能选择指示计算机选择样本中位于 离感兴趣的基因特定距离内的所有变体。如果返回太多结果,研究人 员可能减小该距离,以便降低所识别的变体的数量。在一些情况下, 计算机将自动地调整变体和感兴趣的基因之间的距离以便输出预定数 目的变体。

  D)用于变体分析的数据库

  使用在本文中所述的专用数据库和计算机系统,实现将大量已知 信息与变体列表进行比较。相应地,本发明的各种实施方式提供系统 和方法,以映射和/或比较用户提供的基因组数据库与知识本体或知识 库的内容。在一些实施方式中,在用户提供的数据集的内容和以知识 本体或知识库表示的生物实体之间,执行映射和/或比较。在一些实施 方式中,选择生物实体的子集,用于比较和/或映射。比较可以包括分 析知识库或知识本体中的生物实体的属性值之间的差异。映射可以包 括识别或匹配用户提供的数据集中的一个或多个生物实体与在知识库 或知识本体中存储的一个或多个生物实体。映射还能包括识别共享行 为,例如,用户提供的数据集中的一个或多个生物实体的性质的增加 和知识库或知识本体中的一个或多个生物实体的增加。用户提供的数 据集可以包括本领域已知的各种适当的数据类型,例如基因表达、基 因分型、测序或单核苷酸多态性、变体、拷贝数目变异、单体分型或 基因组结构。数据集能与诊断或临床数据有关,或能生成数据集,用 于基本科学研究。

  在各种实施方式中,可以在能交互的一个或多个数据库中存储和 访问信息,例如,科学研究结果。例如,第一数据库能是根据通常采 用效应物基因(和/或产物)->客体基因(和/或产物)型关系的形式的 预定因果关系构造的科学研究结果的知识库(“KB”)(在下文中, “研究结果KB”)。在一些情况下,用于该研究结果KB的数据库结 构是基于帧的知识表示数据模型,尽管也可以将其他数据库结构用于 科学研究结果的结构化。第二数据库可以是知识本体。知识本体是与 感兴趣的领域有关的分类学和形式概念和关系的多层次表示,最好以 基于帧的格式组织。研究结果KB和知识本体在此统称为知识表示系统(“KRS”)。当实施本发明时,可以采用其他数据库结构来表示知识 体,所述数据库结构包括含有KRS的一个或多个知识库。然而,当使 用知识本体与其他KB一起来形成KRS,或单独作为KRS时,为推理 有关并非显而易见的科学研究结果的结论,尤其是在研究结果形成一 系列复杂或多方向的原因性事件的情况下,本发明的方法能利用在知 识本体中定义的分类学和形式概念和关系。因此,下文提供的是可以 用来实施本发明的示例性知识本体的进一步描述。

  在此所述的系统能使用结构化数据库来组织数据。在一些实施方 式中,系统包括知识本体式数据库。在一些实施方式中,数据分析包 中的知识本体式数据库包括与数据集的生物内容有关的有组织的信 息。在US 2011-0191286 Al、US 2008-0033819 Al、US 7,650,339、US 2004-0236740 Al、US 7,577,683、US 2007-0178473 Al、和US 2006-0036368中描述了与知识本体式数据库有关的系统和方法,所述 文件通过参考引入本文。

  在各种实施方式中,在本文中所述的系统和方法涉及基因组信息 的组织和分析,所述基因组信息包括与基因、它们的DNA序列、mRNA、 当表达基因时产生的蛋白质以及所表达的蛋白质的一个或多个生物效 应有关的信息,还包括其他相关信息。对读者来说,很清楚基因组信 息还可以是与其他基因组学、蛋白质组学、新陈代谢和行为信息有关 的,与其他生物过程有关的,以及与除蛋白质和基因外的生物组成部 分诸如细胞包括例如细胞的生物效应有关的信息。知识本体结构的例 子以基于帧的格式存储其内容,允许知识本体的检索来发现知识本体 中存储的项之间的关系或对之进行推理。在该示例性知识本体中,主要的组织分组称为类。类表示共享类似属性的一组事物。例如,在本 文中所述的知识本体中,一个类是人类细胞,该类包括肺细胞、皮肤 细胞、脑细胞等等。类的成员的每一个是那一类的“实例”,那些实 例表示属于特定类内的单个项或要素。由此,对象的血细胞是人类细 胞的类的实例。

  知识本体中的不同实例之间的关系由“槽(slot)”定义。槽能视 作关联两个类的动词。例如,胰腺的β细胞具有槽“产生”,其将它 们链接到胰岛素。“方面(facet)”表示有关“槽”的更详细信息并 且在一些情况下,当涉及类的特定实例时,能限制槽能具有的值。槽和方面限定和结构化类之间的分类关系和部分子(partonomic)关系。

  当将科学研究结果输入到知识本体中时,将每一研究结果分成其 离散组分,或“概念”。因此,例如,在研究结果:“在感染Sindbis 病毒后,通过大鼠DRG神经元的凋亡,人类Bax蛋白加速死亡(Human Bax protein accelerated the death by apoptosis of ratdorsal root ganglion (\"DRG\")neurons after infection with Sindbis Virus)”中,下述每一个加 括号的短语是概念:在[感染][Sindbis病毒]后,通过[大鼠][DRG神经 元]的[凋亡],[人类Bax蛋白]加速[死亡]。作用物概念是使得或导致通 路中的另一反应的所述通路的物理生物成分。在该实例中,作用物概 念是人类Bax蛋白和Sindbis病毒。作用物概念很可能是基因或基因产 物(包括例如受体和酶),但还可以是例如其他DNA序列(包括例如 未转录或未转录和翻译的DNA)、RNA(包括例如mRNA转录本)、 细胞以及细菌、病毒或其他病原体。

  为增加知识本体效率,对相同的事物开发共同的术语集是很有用 的。对由不同实验室应用于同一基因、蛋白或其他生物材料的不同术 语,以及对随惯例发展,随时间改变的术语,是在快速进展的科学领 域,如基因组学中公认的问题。由此,最好组织基因组信息的存储和 访问以确保语义一致性。例如,数据输入能被限制成预置术语或术语 汇编,包括将所输入的术语自动地转换成可接受术语的科学词典,以 及更新所述词典或汇编的人工审核。

  与由知识本体获得和描述的主题无关,不管是基因组学还是毒物 学,有必要仔细地检验包括该主题的知识体,使得该知识能被组织成 适当的类并且由适当槽和方面链接,并且最终以允许适当地表示、搜 索、访问和维护包含在知识本体中的内容和关系的形式存储。

  在共同受让的美国专利:(1)6,772,160、(2)6,741,986和(3) 7,577,683中描述了选择用于将包括在知识本体中的信息或“事实”的 源以及用来消化吸收那些源使得能以适当形式,将事实提供给知识本 体的方法,所述专利的全部内容通过参考并入本文用于所有目的。

  阅读包括用于知识本体的数据源的文章的科学家可以通过填写事 实模板,对那些文章中包含的事实进行摘要(abstract)。所摘要的事 实是指从以知识本体的计算机信息语言重写(例如,通过使用模板) 的信息源检索的事实。所完成的事实模板称为实例化模板。实例化模 板的内容位于知识本体中。这些事实模板的类型和格式由知识本体的 内容和结构规定。包含在这些事实中的信息还存储在如上所述,用来 存储科学研究结果的研究结果KB中。尽管研究结果KB中的所有信息 均包含在知识本体中,但当稍后检索特定研究结果时,使用研究结果 KB会是有利的,因为这有助于在以下情况中检索多个研究结果的计算效率,在所述情况中不需要有关知识本体内研究结果中的例如效应物 和/或客体的分类的信息。

  知识本体的每一所允许的事实类型还能与事实模板关联,创建该 事实模板以便于将包括那一特定事实类型的信息或数据适当输入知识 本体中。在科学家从这些资源进行信息摘要时,将这些事实模板向其 呈现。在本文中所述的用于生成知识本体和/或知识库的系统可以提供 用于数据输入的计算机界面。例如,模板内的下拉菜单可以为系统的操作人员提供用于特定事实类型的适当的类、槽和方面。

  对信息进行摘要的过程称为结构化知识,因为其将知识放在知识 本体的结构和架构中。用于结构化知识的方法基于实验设计和生物概 念的形式化模型。这些模型为捕获通常在学术文献中发现的表述松散 随意的研究结果的相当大部分提供构架。特别是能够有针对性地捕获 具体等级的实验结果,其对本文所述的系统的用户,例如,工业和学 术科学家最有价值。例如,在基因组领域中,能挑出聚焦在对基因、 基因产物(RNA和蛋白质)和小分子的干扰以及各种物理刺激两者对 生物系统的影响的知识。这些干扰和刺激形成示例性知识本体的主干 并且为开发复合生物信息的更复杂表示提供必要构架。

  能翻译成知识本体的事实和生物关系的类型的例子是:a)Fadd 蛋白量的增量增加凋亡;b)Raf水平的减小增加Rip2的活化;以及c) 与野生型等位基因相比,CCR5的等位基因Δ32降低HIV传输。在一些 实施方式中,根据过程和客体限定生物系统。分立的客体是实际物体, 诸如特定基因、蛋白、细胞和器官。过程是作用在那些客体上的动作。 过程的例子包括磷酸化,其作用在诸如蛋白的分立客体上,以及作用 在细胞上的细胞凋亡。对客体的干扰能对过程或客体产生影响。使用 客体和过程的这些概念,可以由各种事实类型表示知识本体中的信息。

  如上所述,模板与每一事实类型关联。在一些实施方式中,存在 用于事实输入到知识本体中的五种模型类型。可以将相应的事实类型 描述为观察事实、比较事实、案例对照事实、案例对照修饰物(modifier) 事实,或案例对照比较事实。当然,如本领域的技术人员所公知的, 事实类型的结构和种类由知识本体的知识领域而定。

  一些实施方式的上述事实类型的每一个的例子如下。观察事实 (OF)有关某物的观察。OF的例子是“观察到INRS-1的酪氨酸磷酸 化”。对照事实(CF)将一物的属性与另一物的属性进行比较。CF的 例子是“一个器官中的淋巴细胞的大小大于另一器官中的淋巴细胞的 大小”。案例对照事实(CCF)描述某一事物的变更,导致某一事物的 属性方面的变化。CCF的例子是“源自小鼠的Brca-1增加了293细胞 的凋亡率”。案例对照比较事实(CCCF)将某一事物在第一事实中的 影响与某一事物在第二事实中的影响进行比较。CCCF的例子是“Fas 增加具有Brd4(由载体转化引入)的293细胞的总凋亡,大于没有Brd4 的293细胞的总凋亡”。案例对照修饰物事实(CCPMF)表示某一事 物的变更,导致过程修饰物的属性的变化。CCPMF的例子是“源自小 鼠的BRCA-1提高了293细胞凋亡的诱导率。

  在一些实施方式中,事实验证方案包括源自模板的事实的自然语 言显示,使得科学家能通过审阅输入到模板中的结构化事实的自然语 言表示来校验所输入到模板中的事实是否是期望的事实。

  作为替代或附加地,通过使用计算机“读取”和分析论文以及从 其提取数据,来自动地提取信息以用于包括在知识本体中。在这些实 施方式中,首先使用计算语言学解释自然语言(例如英语)源文本来 最大程度地确定包含在自然语言来源中的“事实”的准确含义。在该 “事实”被确定之后,其可以被审阅,然后根据自动化过程、手动过 程(人工参与)或两者的结合来对其进行摘要。在一些实施方式中, 结合手动和自动过程用来校验从源文本提取的事实是感兴趣的事实、 准确地反映源文本的预期含义,以及为存储在知识本体中,被适当地 结构化。数据源不限于期刊文章。其他数据源,包括例如公共数据库、 私有数据库和专有数据,诸如在特定实验室内开发并且局限于该实验 室的机密数据。

  研究结果信息可以来自非正式源,以及如上所述的更正式的文件 和出版物源。例如,可以使用搜索网络然后试图提取包含在看来有关 感兴趣的生物概念的页面中的信息的网络搜索工具(例如,在互联网 上搜索的网络爬虫),提取研究结果。作为替代或附加地,可以使用 搜索引擎来扫描公司邮件、讨论组、PowerPoint演示文稿等等,来尝试 识别,然后提取与生物功能有关的信息。当然应当预期来自这些源的 结果的较低质量,因为数据解析将是自动的,可能将比手动输入内容 有较高的错误率,以及内容源更大可能是非正式的或失效的讨论,而 不是同行评审期刊等等。

  研究结果不需要限于基于文献的私有或公共信息。例如,研究结 果能包括来自例如公司的微阵列芯片实验的研究结果。在这种情况下, 能审阅阵列数据来试图识别哪些基因正被共表达和/或共调控,能由此 推导出“A<-->B”关系。然后,将这些研究结果直接加入KB或直接 加入图形结构。该数据还可以包括科学家直接输入的研究结果,或能 是直接来自实验的数据(即,未经科学家解释)。上述的研究结果采 集过程除数据提取或输入过程外,也可以用作用于出版的工具。当计 划提交出版时,作者需要做的事是包括摘要和索引关键字,还可能要 求他们以“研究结果格式”写下他们的主要结论。在该预期用途中, 作者或第三方可以执行研究结果提取(例如,如与国家医学图书馆目 前负责审批、如果不是创建的话,与论文摘要有关的关键字的方式一 样)。为创建结构化数据库,不需要KRS技术。而在一些情况下,KRS 技术可能是有利的,因为它简化数据采集和数据结构化过程中的某些任务,还可以使用现有的关系、对象或XML数据库技术来创建KB。

  通过从多个源采集数据并且存储在数据库中,诸如如上所述,可 以确定先前非常难以或甚至不可能识别的变体、基因和基因产物之间 的关系,因为例如,采集数据的源的数量以及使用不一致语言(例如, 同时或随时间流逝相同蛋白使用不同名称)。因此,尽管对一个或少 量对象来说,可能能跟上与非常窄限定的领域有关的所有或大部分出 版物,但想要搜索公共数据源来识别与大量变体有关的疾病通路,而 不借助于诸如上述的结构化数据库的想法是不现实的。即使对于特定 变体、疾病、基因或基因产物,不借助结构化数据库,该任务也会非 常困难并且耗时。

  本发明的各种实施方式涉及分组知识库或知识本体中的生物实体 的方法和系统。在一些实例中,使用方法学,构建分组来产生上述简 档(profile)。能使用生物实体的过程或通路关联生成简档。在一些实 例中,将对简档或分组注释由简档或分组中统计学上显著的基因集共 享的生物关联。在一些实例中,共享类似生物关联,诸如生物过程、 通路、或组织特异性表达的简档或分组将被汇编成简档和分组的集合。 然而,用于生成简档或分组的集合的根本原因不限于生物关联。能使 用由知识库或知识本体制定的其他共享特性,形成简档和分组的集合。 在一些实例中,能由除知识库或知识本体外的其他源,诸如系统的管 理员或用户,制定共享的特性。或者,能在没有任何显而易见的原因 或在用户意愿(例如用户喜爱的简档或分组)的情况下,生成集合。

  本发明的各种实施方式提供将知识本体或知识库中的生物实体过 滤成实体的子集的方法和系统。在一些实例中,使用预先形成的组或 简档或其集合来将生物实体过滤成子集。在一些实例中,系统允许用 户通过用户界面生成过滤器或过滤器集。或者,系统可以提供预先配 置的过滤器或过滤器集。在一些实例中,系统使用由用户提供的输入 来生成、选择和/或修改预先配置的过滤器。在各种实施方式中,通过 在本文中所述的标准,过滤用户提供的数据中的序列变体,为用户提 供可管理的变体集。在许多情况下,在产生数据集的研究目的背景下, 应用过滤器。

  “简档”可以包括有关诸如基因或基因产物的特定组合的概念的 信息并且可以根据所述概念来进行限定,所述基因或基因产物看来以 生物协同的方式起作用,例如形成以下的全部或部分:疾病相关通路, 细胞和/或细胞成分,解剖学部位,分子、细胞或疾病过程,以及它们 之间的关系。用在本论述中的“简档”是指根据适合于研究人员的目 的的标准限定的、包含在数据库中的数据的子集。就此而言,标准是 指至少部分由研究人员的需要确定的简档的任何属性。这可以包括根 据一个或多个生物概念、简档的大小(或图形大小),或简档中的研 究结果连通性限定的标准。因此,应当记住下述列举的简档标准的例子仅是简档定义标准的示例性实施方式。通常,应理解并且真正预期 简档定义标准将在本发明的不同应用间改变,因为根据本发明的简档 结构受研究目的影响。

  由此,一个或多个简档在通信信息中的效率由用来定义简档的标 准而定,其自然而然地由正为其找寻信息的具体科学目标而定。例如, 如果认为与特定细胞过程有关的信息将对目标通路非常有益,那么, 与该细胞过程有关的研究结果将是当选择简档标准时考虑的因素。在 另一情况下,研究结果源(例如组织类型)或简档的大小(例如,示 例简档的图形结构的大小)可能是有效的简档选择准则。

  本发明的分析的各个方面生成用于生物通路的计算模型。这些模 型,称为“简档”变为用于询问和解释基因组数据集,例如变体的工 具。它们从KB中的研究结果构建而成,并且由基因(产物)抽象体 (abstraction)以及它们已知的大分子相互作用的集合,以及KB声称 所述基因在其中起作用的各种生物过程组成。

  在示例性实施方式中,基因抽象包括KB中可能来自人和非人物 种的基因和基因产物的已知实例所映射的官方LocusLink基因符号。分 子间相互作用由效应物基因(产物)→客体基因(产物)关系的特定 实例组成,因此将基因(产物)实例映射到更抽象基因符号允许推理 出一般化的效应物基因符号→客体基因符号关系(如前所述)。借用 图论的概念,能将可用基因和基因相互作用计算上表示为由有向“边”(用于相互作用)连接的“节点”(用于基因)的集合,各种属性与 每一节点(基因属性)关联,以及各种属性与每一边关联(例如分子 过程类型、过程变化的方向、断言所述相互作用的研究结果/出版物的 数量等等)。此外,各种属性能与整个简档关联,包括例如生物过程、 简档中基因的数量、构建方法等等。

  将丰富的节点、边和图形属性的集合与简档关联的能力提供将各 种选择标准用在简档上的机会:选择节点和/或边期间应用的标准能提 供所生成的简档的组成和结构的多样性。在简档构成后但在针对用户 提供的数据进行评分之前应用的标准能降低徒劳无功的错误“命中” 或提供更集中的分析。在简档构成后和针对用户提供的数据进行评分 后应用的标准能提供简档的其它分级(通过评分以外的标准),用于 由研究人员评审。在各个实施方式中,在本文中所述的方法和系统使 用过滤器来将标准应用在简档、其分组或集合上来分级、强调、削弱 或消除所述简档、其分组或集合。

  简档生成从适合某一标准集的主图(或网络)的动态预计算开始。 标准可以由系统预置或用户定义,以及可以属于数据库中的任何种类, 例如基因或基因产物、化学物质、蛋白复合物、蛋白家族、过程、研 究结果源、实验技术、有机体环境或其他标准,例如,根据用户的数 据缺少的基因。然后,基于由系统预置或用户定义的另外的标准,例 如,用户特别感兴趣的基因、每一简档的节点的最大数等等,由该图 创建简档。

  从概念上讲,每一简档是针对KB,查找满足该标准的研究结果网 络的响应。这些简档可以脱离KB的拷贝预先构建来优化性能(产生预 制简档库),或可以直接针对KRS构建简档,使得允许简档包含当前 发现的研究结果,就象它们存储在KB中一样。还能使用某种“自举 (bootstrap)方法”构建简档:能构建初始简档集,然后测试其对进一 步提供的数据的变化的灵敏度,诸如表达变化,以及能扩大最佳简档(通过增加更多基因成员、通过合并简档,或通过改变定义简档模型 的标准),以及重复灵敏度测试。

  在示例性实施方式中,通过首先抽取KB研究结果的子集,然后 将研究结果转换成大的图形数据结构来生成简档。这本质上是经得起 高性能图形数据结构操作的KB的简化版本。该简化的一部分可以包括 将来自基于文献表示的研究结果,其中,每一研究结果表示来自所实 施的实验的结果,转换成基于生物学的表示,其中,每一研究结果表 示有关生物学的结论。然后,简档生成算法处理该图来产生子网络(简 档)的集合,所述子网络可以是分析特定的,例如用户提供的生物数 据,诸如测序、变体或阵列表达数据,被输入作为简档生成算法的参 数,并且与输入标准匹配。输入标准的例子是简档的大小(每一简档 的节点数)、它们是否在用户数据集中显示出差示结果,或者标记为 用户感兴趣、所包含的过程(例如“活化+分裂”或“磷酸化”),和 /或研究结果源(例如,仅在人的肝细胞中观察到的)。给定简档生成 算法和参数集,能预先生成许多这种集合。如果在KB的拷贝上构建简 档集合,当KB改变时(例如当添加新的研究结果时),可以重新构建 简档来保持它们最新。还可以动态地构建集合,即,当KB改变时,或 当新的用户提供的生物数据变为可用时。在本发明的范围内设想和考 虑了任一配置。

  能使用各种简档生成算法来生成在本文中所述的简档,诸如基因 中心算法。在一些实施方式中,算法对KB中的每一基因创建一个简档。 每一基因的简档由“锚定(anchor)”简档的基因和一组匹配某一标准 的“邻近”基因组成。“邻近”基因或基因产物可以指通过由将基因 链接到锚定基因的研究结果、或这样的研究结果的数量定义的某种关 联,与锚(或“种子”)最直接相关的那些基因或基因产物。该方法 称为“模型驱动型”,因为简档基于预定的算法模型。或者,可以使 用“数据驱动型”模型,其中,不预先生成简档,相反,假定是用户 感兴趣的数据集(例如变体)以及由KB揭示的它们已知的相互作用。 基本上,能使用来自KB的研究结果,以这种方式联系所有用户基因。

  在一些实施方式中,与第二生物实体最直接相关的“邻近”生物 实体,最常见的是基因或基因产物,称为与第二生物实体相隔一个“中 继段”。在一些实施方式中,彼此相隔一个中继段的生物实体是由知 识本体构成的知识库中的边连接的节点。在此所使用的“中继段”可 以包括根据知识本体构造的知识库中的生物实体(包括但不限于基因/ 基因产物)之间的关系。这些关系可以包括但不限于“结合”、“活 化”或“抑制”。

  在非限定性例子中,可以按来自知识库的文献支持度和/或使直接 相互作用优于间接相互作用,定义中继段的强度或质量。例如,如果 在知识库中存在许多特定事实的表示,则中继段更强,以及如果在知 识库中存在特定事实的矛盾表示,则中继段更弱。在另一例子中,如 果起因关系是中继段源,则中继段能更强,如果关联是中继段源则更 弱。在一些实施方式中,能至少部分使用中继段的数量来确定中继段 的强度。例如,能使第一中继段重于第二中继段,以及第二中继段重 于第三中继段。

  在先前所述的实施方式中,使用混合模型和数据驱动方法,至少 部分基于用户预定的数据集,例如变体来确定所构成的简档的属性。 在此使用“基因”来可互换地描述基因或基因产物,在其指示在由知 识本体构建的知识库中或在知识本体中表示的生物实体时。可以使用 纯模型驱动的方法来构成简档。该方法可以视作本质为“基因中心”: 围绕KB中的每个基因符号来构建通路简档,将每个基因符号用作“种 子”基因,并且包括在KB中已知与所述种子相互作用的其它基因。用 这种方式,简档用来表示种子基因的“相互作用邻域”或“影响的范 围”。或者可以将非基因概念用作“种子”来构建简档。例如,能使 用细胞过程,如凋亡来选择多个基因充当种子,在这种情况下,凋亡 中涉及的KB的所有或一些基因子集。能将形成种子的基因添加到简 档,以及它们已知的分子间相互作用(如边)。能通过一次、二次或 多次增加所需数目的“邻近”基因,增加与原始种子基因可能不直接 相关的更多基因,进一步扩增简档。与简档中的“种子”的属性无关, 能使用简档来赋予数据集另外的含义,如果它们能与用户提供的数据 集关联,诸如基因组数据集(例如变体),那么,“种子”变为解释 的中心。

  除“种子”节点和将该种子与其他节点相连的边外,可以以各种 方式构建简档。许多这些方法受驱使来处理下述问题:由KRS表示的 整个大分子相互作用的集合通常会过大和太不同,以致不能整体上与 用户提供的数据,通常是与基因组内容进行比较。因此,需要算法来 将该大的“大分子相互作用空间”“瓜分”成许多实用大小的相互作 用邻域来支持基因组数据集的更细粒度探测。该瓜分的完成能在不同 简档之间具有相当大的基因重叠,以便最小化可以丢失基因的稀有组 合的机会。另一方面,能设计大小适度的简档,使得归属于该简档的 生物功能的集合不会太不同或混杂。较小的简档也显著地有助于人工 评审和解释。另一方面,简档应当足够大(即,它们应当包括例如足 够多个基因),使得当计算与基因组数据集和/或与生物关联,诸如在 KB中定义的分子、细胞、生物体和/或疾病过程的关系时,有足够的统 计功效。另一考虑是连接到中心“种子”基因的基因集合中的简档的相对对称性。换句话说,高度互连的“第一层”基因(即,直接与种 子相连的基因)不应当用第2层基因(即离种子一步的基因)来淹没 (swamp)简档,因为这会改变简档的种子基因中心性。对集中在离感 兴趣的基因一个或多个中继段的基因的研究,能将简档设计成允许离所需基因所需量的中继段。例如,能生成包括离目标基因1、2、3、4、 5、6、7、8、9或10“中继段”的基因的简档。

  为解决上述目的而开发的另外的算法的例子称为“螺旋”算法。 在该算法中,由所有已知的相互作用的全扩展主图生成简档。由保存 在KB中的成对大分子相互作用的整个集合构成该图,以及在其不同部 分,密度(节点间的连通性)自然不同。对由主图中的节点表示的每 一基因或基因产物:1)将基因(例如,随机基因或包含变体的基因, 或按另一标准选择的基因,例如,与特定生物通路的基因中的一个) 或其产物指定为“种子”节点。2)只要支持种子和近邻相互作用的主 张的研究结果数大于1,增加所有直接相邻节点(已知参与种子基因的 相互作用的基因),或如果已经达到最大节点数,则停止增加。消除 仅基于单个研究结果的相互作用被认为是剔除未经确认或未充分证实 的研究结果。这些是第1层节点以及从种子到所述节点的连接是第1 层边。3)对每一第1层节点,只要支持相互作用的研究结果的数量为 4或更大,汇编作为第1层节点的近邻的节点和边(除种子外)的列表。这增加了所述相互作用中科学置信度的严格性,如上所述,这与一个 基因对另一个基因的影响度在它们之间存在居间基因时降低这样的假 设相一致。这些额外的节点和边被视为“第2层”候选物。4)通过减 少研究结果数,排序第2层候选边。5)在已经按研究结果数列举和排 序所有第2层边候选物后,开始以循环方式,将第2层候选物增加到 简档,通过选择具有最高研究结果数的第2层边,对第1层节点的每 一个,挑选一个第2层边候选物。6)重复步骤5)中的循环边添加, 直到用完第2层边候选数,或已经达到用于简档的最大节点数。这导致基于具有证实相互作用的最大科学研究结果数的边的简档。

  上述“螺旋”法(基本上为可用节点的宽度优先搜索)目标在于 以对称方式扩大简档。通过均等的机会(但优先具有更多研究结果数 的那些),从第1层节点增加第2层边,降低高度关联的第1层节点 (具有多个第2层边)用其连接来淹没简档。由此,最佳地表示种子基因周围的影响范围。还可以使用另外的简档汇编算法。

  上述算法,当应用于KB中的每一基因或产物时,产生简档库, 在其中采集每一基因的影响范围的模型。可以构建简档库,当从可用 边选择时,使用特定的边类型/分子过程标准、细胞过程类型、疾病状 态等等(例如,仅结合、仅功能相互作用,或所有类型)。边方向性 也能是标准,在许多情况下,将上游或下游角色指定到节点。当分析 基因组数据集时(例如,序列变体数据集),可使用简档库(或多个 简档库)中的每一对象模型来询问数据集。在一些情况下,计算模型 和数据集之间的相应拟合。在一些情况下,在不同模型简档中定义的 相互作用能指导数据分析。例如,在分析中,能考虑离一个或多个“种 子”基因预定数目的“中继段”的模型简档内的“邻近”基因。以选 定方向性选择这些“邻近”基因来与“种子”基因关联。“邻近”基 因的变化对“种子”基因的净影响(已知活化或非活化其他基因的活 性的一个基因活化/增加或抑制/减少作用的调和)能是标准。当分析用 户提供的数据时,“种子”基因对“邻近”基因的净影响也能是标准。

  该方法称为“模型驱动型”。如上所述,还可以执行简档构建的 基本不同的“数据驱动型”方法。

  汇编简档的用途集中在询问和解释将简档视作静态模型的大型基 因组数据集上。简档的另外的用途也是可行的。例如,能将通路简档 供给能允许研究交互基因的动态行为的模拟软件。能使用分子间相互 作用的过程属性和方向性(增加/减小)来跟踪有关简档中一个或多个 基因的变化(充足)的“假设”情景分析以及那一变化对简档的其他 成员的后果。布尔网络和佩特里网提供可以用在这些模拟中的一些技 术。能如何使用通路的另一例子是在生成可检验假定中。能设计计算 系统来生成有关分子相互作用的实验上可检验的预测,以及甚至可能 报告用于执行实验的可用试剂(例如在一些简档基因中,小鼠基因敲 除)以及另外的信息。还能有用于简档模型的修正/微调的计算支持来 反映从那些实验验证获得的新知识。

  在各种实施方式中,基于与用户提供的生物数据集,例如变体的 关系,选择和分级简档。例如,能分析来自患同一疾病的多个对象的 序列变体数据。包含所述对象共有的多个变体的简档分级更高。如果 共有变体在正常对象中不常见,能进一步调整分级。考虑在指定简档 中找到所述变体集的统计学显著性,能进一步调整分级。还能以生物 概念为基础,基于简档和疾病之间的匹配,调整分级。通过相对于用 户提供的数据,例如,序列变体数据或基因表达数据,分级简档来计 算P值,对简档进行评分。在特定应用中,存在所生成的许多简档库, 每一简档库包含匹配用户或系统指定标准的简档。

  在一些实施方式中,可以开发包括图论度量的综合计分度量,或 作为综合得分或用于基于现有得分对匹配的简档的粗略分级。例如, 对使用第一度量非常均等得分的N个简档,进一步基于例如假定基因 越相关,它们更可能一起运转的图连通性度量分级它们。

  在另一实施方式中,系统能允许用户注释来表示(假定)表达数 据集内的依赖性。具体地,如果用户具有有关他们的实验中的基因(例 如包含变体的基因)之间的依赖性的先验知识,能允许用户将先验知 识(例如作为边注释、新边的添加或移除假定其证据弱的边)包括在 待分析的基因集中。该特征可能要求分析基因集具有边图(如果期望 以图形式显示该信息),所述边图使用与简档边所基于的那些相同的 指向性语义(semantics ofdirectness),即,能由用户提供的信息构建 数据驱动型简档。或者,可以提供输入为用于边的可视输出而提供的 边和表的方式。由此,除来自文献的研究结果外,用户能增加他们自 己的研究结果,或通过例如指定置信量度,修改现有的研究结果。这 些用户的研究结果能是对KB本身或图形本身的改进。更新KB可以使 用模板来输入这些新的研究结果。如果将这些研究结果增加到图形, 那么可以使用为图形编辑定制的模板。然后,可以使用该产生的数据 或模型驱动型简档(或多个简档,如果对基因集,存在一个以上的假 定依赖性的话)来通过例如与基于模型的简档进行同构比较,进一步 分级现有的简档。由此,在一些实施方式中,相对于在KRS中声称的 先验知识和有关数据的用户的个体知识假设,分级数据或模型驱动型 简档。

  可以将结果输出在线提供给用户,作为使所有相关KB应用均可 用的集成站点的一部分。这能是有利的,因为在所有输出中生成的多 个信息基于在KB中存储的概念和研究结果,也可以使这样的信息可为 位于网络(例如互联网)上的客户获得,用于询问KB以获得有关结果 的更详细信息。由此,本发明的实施方式能例如通过允许“点通 (click-thru)”和“下挖(drill-down)”功能性来将用户从高级结果 带入到详细支持证据,与支持内容紧密结合。

  能揭示来自以统计上显著的方式,与简档中的基因的集合有关的 KB的生物现象。尽管简档中的20或40基因各自可能与许多生物过程 有关,但最感兴趣的生物过程是由简档中的许多基因共有的生物过程。 为成为统计上显著,共有生物关联应当以比仅凭偶然所期望的频率高 的频率发生。此外,能计算出用于这些关联的统计学显著性度量,例 如,使用p值。

  例如,假定简档X具有20基因,以及那些20个基因中,(从KB) 已知12个基因与细胞过程“迁移”有关。待回答的问题是:链接到“迁 移”的20个基因中的12个是否能被简单地解释为反映整个KB的基因 集中,“迁移”细胞过程的频率,或“迁移”基因的该浓度是否为不常见。为回答该问题,需要知道将KB中的任何随机选择的基因与“迁 移”关联的概率(p)。通过计算KB中表示的各种细胞过程中的KB 基因的分布,能确定该概率。然后,通过将信息存储在数据库中,能 使该分布通过分析软件被快速访问。在一个示例性例子中,该KB中的 总共10,500基因中的386个基因被链接到“迁移”的细胞过程。这表 示任何随机选择的基因将是“迁移”基因的概率为386÷10,500或 0.0368。使用二项式分布,计算20个随机选择的基因中的12被链接到 “迁移”的概率:

其中,n是随机选择项的数量,k是一个类型的观察事件的数量, 以及p是单项作为特定事件 的概率(频率),项是“n中选k”,其等效于:

  从上述例子,p将为0.0368。从(1),能计算随机选择的20个 基因中的12个将被链接到“迁移”的概率为:

  重要的是注意到这计算的是20个基因中的正好12个基因被链接 到“迁移”的概率。在判断该概率的显著性时,对20基因中的12“或 更多个”基因的累积概率感兴趣。通过求和二项式概率,由(1)来计 算所述概率:

  其中,kl=12,n=20,p=0.0368。

  对于该“迁移”细胞过程,这给出了在20个基因的简档中,任何 观察到12以上基因通过偶然发生的累积概率为1.9e-12。这是p值,以 及在这种情况下,这给出1.0e12分之一的机会,所述结果是由于偶然 性引起的。

  该测试通常称为“费歇尔符号测试”,在一些实施方式中,在用 于链接到KB中的基因的细胞、有机体和疾病关联的任何一个的简档上 自动地执行。

  可以将其他类型的结果提供给用户,例如,通过可视地标亮已知 为药物靶标(即,已经为其找到或产生出靶向分子的那些)的基因或 基于例如基因家族成员,有暗示它们是良好的药物靶标的证据的那些 基因(或与那些基因有关的变体),用药物靶标信息注释的简档。可 以通过简单地标亮简档图上的基因,药物目标信息可以整合到结果中, 或当评分简档时,考虑药物靶标信息。还能标亮触发简档的识别的生 物实体。能进一步显示具有与用于药物的不期望副作用有关的注释的 简档。在简档的评分中,能考虑生物演化关系,诸如与研究的焦点有 关的组织特异性。简档的评分能进一步至少部分基于简档中获得专利的生物实体的数量。

  通过诸如上述的知识本体,查询用于与疾病有关的作用物概念, 诸如变体、基因和基因产物的知识表示系统,由此来构建向后延伸若 干步骤的疾病相关通路,以及向外扩展来识别重叠的疾病相关通路是 很实用的,如上所述。通路中的每一基因或基因产物能与一个或多个 变体有关,以及能识别与疾病相关通路相关的来自指定样本的变体。

  对本领域的技术人员来说进一步确认很显然是适当的。如果需要 的话,以多种方式,包括通过将变体与其他相关数据,诸如在此所述 的差示基因表达数据关联,或通过使用动物模型,能完成这种进一步 确认。

  通常,通过如下步骤查询数据库来识别指向表型特征,例如,疾 病状态或疾病状态的倾向性或其他感兴趣的表型特征的通路,所述步 骤为:进行数据库(或知识本体)的计算分析,以揭示生物学上与表 型特征状态有关的、或与已知与所述表型特征生物学上有关的身体的 生物成分有关的所有概念,然后构建被设计成产生响应的查询。查询 还能固定从表型特征或其他生物成分移除的步骤数。

  用于存储和访问基因组信息的装置和用于计算所存储的概念之间 的复杂关系的计算分析的装置通常包括计算机系统,即,由所存储, 例如数字化的数据和查询所存储的数据的装置构成的任何类型的系 统。这种计算机系统能是独立的计算机、多元计算机,例如,使所存 储的数据物理上远离用户接口计算机、联网计算机等等。用于查询数 据库的任何已知的手段将是有用的,例如,用于电子地查询字段、种 类或整个数据库的软件和硬件。

  由此,在一个方面中,在本文中所述的系统和方法用于通过以下 步骤识别疾病相关变体:(a)提供用于存储和访问基因组信息的装置, 其中,所述装置允许所存储的概念之间的复杂关系的计算分析;(b) 查询数据库来识别疾病相关通路,以及(c)识别疾病相关通路中的生 物化学反应,由此,所述生物化学反应涉及的一个或多个作用物概念 包括与疾病有关的变体。疾病相关变体能进一步用于诊断目的。例如, 能对对象筛查在疾病相关靶标中发现的与序列变体有关的其他相关生 物特性,诸如表达简档的存在。

  在一些实施方式中,对数据集中的每一物理样本,推断转录本(例 如基因)活性的模型。物理样本是指在特定时间点(例如,治疗前后), 从特定位置(例如组织或肿瘤)获得的个体的基因组中发现的变体。 基于缺省(或定制)预测有害过滤器设定值、来自生物信息数据库的 基因功能和结构的生物知识,以及遗传学原理,推断物理样本中的每 一基因具有正常起作用的能力,或过度活化(功能增益),或无活性 (丢失功能)。这允许识别不存在于来自同一个体的另一样本中的、 一个物理样本(例如正常组织和肿瘤)中的具有异常功能的基因(以 及相应的有害变体)。这还实现计算被破坏的基因内的变体对位于其 下游一个或多个调控中继段处的基因(例如涉及疾病的)的“净效应” 的原因性分析。此外,这使得在整个基因组范围中实现原因性推理, 假定物理样本中的每一基因的推理能力和已知每一基因如何将活化/抑 制影响施加在来自生物医学研究结果的现象上,来确定物理样本内的 多个样本中的多个有害变体是如何被推理来影响在数据库中表示的任 何或任一现象。

  在一些实施方式中,使用计算机系统或逻辑设备来实现在本文中 提供的系统和方法。图12是示出代表性示例逻辑设备的框图,通过该 设备,能实现评审或分析与本发明有关的数据。这些数据能与个体的 疾病、病症或健康状况有关。图12示出连接到装置820的计算机系统 (或数字设备),用于与扫描感知系统824一起使用来例如产生结果。 可以将计算机系统800理解为能从介质811和/或任选地连接到具有固 定介质812的服务器809的网络端口805读取指令的逻辑装置。图12 所示的系统包括CPU 801、硬盘驱动器803、任选输入设备,诸如键盘 815和/或鼠标816以及任选监视器807。能通过与位于本地或远程位置 的服务器809的所示的通信介质,实现数据通信。通信介质能包括传 送和/或接收数据的任何装置。例如,通信介质能是网络连接、无线连 接或互联网连接。这种连接能提供环球网上的通信。预见能在这种网 络或连接上传送与本发明有关的数据,用于由一方822接收和/或评审。 接收方802能是但不限于用户、科学家、医师、患者、健康护理员或 健康护理管理员。在一个实施方式中,计算机可读介质包括适用于传 输生物样本的分析结果的介质。介质能包括与对象的疾病状况或状态 有关的结果,其中,使用在本文中所述的方法得出这种结果。

  4.按优先顺序排列和过滤变体

  由于各种原因,用户可能希望按优先顺序排列或过滤在基因组样 本中识别的多个变体。例如,能获得来自患者的基因组信息,以及能 识别多个变体。研究人员或临床医师能根据与那些变体有关的特性, 排序或过滤变体。这些特性能例如与患者的疾病有关。最后,临床医 师将识别与患者的疾病有关的变体。然后,临床医师会评估该变体是 否是致病原因或某一治疗方案是否是优选的。在本文中所述的系统和 方法识别关联性和执行变体的优先排序和/或过滤。

  能配置计算机来帮助变体的优先排序或过滤。在一些情况下,能 根据用户选择的特性,由计算机排序多个变体。例如,用户可以输入 基因组数据集、识别那一数据集内的变体、选择感兴趣的特性、指示 计算机识别哪些变体与感兴趣的特性有关,以及接收表现为每一变体 与被选特性有多强关联的分级形式的信息。在一些实施方式中,配置 计算机来接收一个或多个基因组数据集、识别那一数据集内的变体、 接收感兴趣的特性的选择,以及计算感兴趣的特性或多个感兴趣的特 性与每一变体之间的关联性。能将计算机进一步配置成输出基于每一 变体与被选特性有多强关联的分级或过滤形式的信息。或者,能由系统提供高于阈值水平的、与被选特性关联的变体的列表。在一些情况 下,能对每一变体提供关联性的度量。

  在一些实施方式中,基于变体所具有的与生物事实的关联的类型, 按优先顺序排列变体。与事实的一些关系可以表示变体很可能是疾病 或表型的致病原因或与之有关,而其他关系可能表示变体不太可能与 疾病或表型有关。例如,与磷酸化或活化第二基因产物的基因产物有 关的变体可以是特别感兴趣的,因为磷酸化关系很可能是生物相关的。 类似的,与涉及特定通路、过程、疾病表型或生物标志物的基因产物 有关的变体可能是特别感兴趣的。能高度优先排序这些变体。另一方 面,群体中常见、进化上不太保守、不预期会干扰生物过程,或其相 关基因产物不与相关通路、过程、疾病表型或生物标志物关联的变体 可以具有表示感兴趣的表型的原因性或驱动变体的较低可能性。类似 地,可以不按优先顺序排列具有高冗余链接,即包含在多个其他通路 中的基因,因为作为靶标,预期它们的破坏会干扰多个通路,可以预 计不会导致特定疾病。类似地,可以不按优先顺序排列具有高的假阳 性率的方法或实验建立的关联性。

  除按优先顺序排列外或与之结合,能使用过滤来识别感兴趣的变 体。过滤器能使用户从大量变体开始并且去除不满足过滤器的变体。 因此,在本文中描述了各种过滤器。能单独使用或组合使用过滤器。 能以多种方式激活过滤器。在最基本上的层面上,用户能手动地过滤 结果。例如,临床医师能从样本获得变体的列表,然后逐个查看每一 变体并且基于感兴趣的特性,排除变体。例如,研究人员能排除不位 于感兴趣的基因附近的变体。这些手动方法很麻烦且耗时。在优选实 施方式中,在计算机上激活过滤器。能在计算机上由用户在多个预定 过滤器中进行选择来制定过滤器。能在过滤器选择的同时显示经过过 滤器后剩余的变体数量,以便为用户提供有关过滤器应用对变体集的 减小程度的几乎瞬时反馈。在其他实施方式中,能根据用户的预定或 预测需求,自动地制定过滤器。

  A)常见变体过滤器

  如在本文中所述,能在指定群体中计算指定变体的可能性。指定 群体能是例如不知受特定疾病或表型影响的群体。能将计算机配置成 通过去除、仅保留或加回常见变体来过滤变体集。这种过滤器在本文 中称为常见变体过滤器。不受理论约束,常见变体过滤器可以是有用 的,因为如果变体在普通群体中很常见,则不太可能是疾病的致病原 因。或者,保留常见变体会对对于影响指定通路的常见等位基因感兴 趣的研究人员有用。通过过滤或多或少常见变体,能调整常见变体过 滤器的严格性。因此,例如,在一些实施方式中,将计算机配置成接 收变体集。然后,计算机查询常见变体的数据库并且去除待输出给用户的变体中的常见变体列表。在一些实施方式中,计算机去除在已知 不具有感兴趣的病症的约1000对象的样本中,出现一次或多次的变体 或不按优先顺序排列。在一些实施方式中,在多于1000、多于2000、 多于5000、多于20,000或多于50,000随机获得的基因组中,出现2次 或更少的变体。在一些实施方式中,用于常见变体过滤器的阈值近似 是群体中的表型或疾病的已知或预测分布。例如,如果已知病症在群 体中的100,000分之1的对象中出现,那么,能将常见变体过滤器设置 成去除或不按优先顺序排列出现在例如那一群体中的100,000对象中 的5个以上中的变体。在一些实施方式中,能将计算机配置成将变体 的输入列表与统计的基因组图谱进行比较,其中,统计的基因组图谱 反映基因组区的统计变异性的计算水平。

  B)癌症驱动变体过滤器

  能应用各种过滤器来将用户的关注集中在非常可能包含在癌症或 其他增生性病症中的变体上。这些过滤器在本文中统称为癌症驱动变 体过滤器。

  能获得从对象中的正常细胞和测试细胞(例如癌细胞或可疑癌细 胞)获得的基因组样本,能确定变体,以及能分析样本中的变体。在 一些实施方式中,配置计算机来执行分析和比较。例如,能从测试样 本获得的变体列表中过滤掉正常细胞中的纯合型变体。用于该过滤器 的一个基本原理是癌变样本很可能获得在正常样本中应当找不到的突 变。因此,存在癌细胞中并且在正常细胞中是纯合型的变体不太可能 是驱动癌症的获得性突变。

  在一些实施方式中,癌症驱动变体过滤器使用在数据库,例如使 用通过知识本体构建的知识库来精选汇总而成的生物医学内容的知识 库中存储的信息来通过识别a)影响已知的或预测的癌症子网络调控位 点的变体,b)影响癌症相关细胞过程(例如,DNA修复,凋亡)的变 体,c)影响具有适当方向性的癌症相关通路的变体,和/或d)癌症治 疗靶标&上游/病原子网络,预测和添加最可能驱动癌症表型的变体。

  在一些实施方式中,癌症驱动过滤器被配置成使用上述策略的组 合。在一些实施方式中,基于由用户生成的假设,选择组合。在各种 实施方式中,癌症驱动变体过滤器使用来自与研究有关的多个信息层 的信息。在一些情况下,能将患者级别上的信息(例如药物反应)、 疾病机理级别上的信息(例如与前列腺癌的过程有关的信息)、细胞 机理级别上的信息(例如与凋亡或血管生成有关的信息)以及分子机 理级别上的信息(例如与Fas通路有关的信息)中的一个或多个结合到 分析中。在一些实施方式中,当单独使用或结合其他过滤器来形成过 滤器级联时,由系统自动地选择该组合来输出易处理数量的多个变体, 用于用户的后续研究。

  癌症驱动变体过滤器能使其严格性调整到过滤更多或更少变体。 在本文中讨论调整癌症驱动变体过滤器的严格性的各种方法,例如, 通过变更变体和癌症相关的生物功能之间的中继段数,调整严格性。 为调整严格性,也可以期望实现或禁止过滤器是否查找满足下述标准 的一个或多个的变体:(a)影响具有动物模型直向同源物的人类基因, 所述直向同源物具有癌症相关的基因破坏表型;(b)影响已知的或预 测的癌症子网络调控位点,(c)在强制或不强制适当的方向性的情况 下,影响癌症相关的细胞过程,(d)在变体和/或基因级别上,与知识 库中公开的癌症文献研究结果关联,或(e)在强制或不强制适当的方 向性的情况下,影响癌症相关通路,和/或(f)与癌症治疗靶标和/或上 游/病原子网络关联。

  C)预测有害过滤器

  用户可能希望保留、从变体列表中移除或加回到所述列表预测有 害或未预测有害的那些变体。例如,研究具有可疑遗传性障碍的患者 的基因组的临床医师可能希望仅检查预测对患者的生物学有负效应的 变体。因此,本发明的一个方面是预测有害过滤器。在一些实施方式 中,预测有害过滤器包括基于与待过滤的变体有关的序列的算法。这 些算法能例如预测单核苷酸变体(SNV)是否被预测成无害(例如, 使用功能预测算法,诸如SIFT或Polyphen)。能单独或组合使用下述 算法,作为预测有害过滤器的一部分:SIFT、PolyPhen、PolyPhen2、 PANTHER、SNPs3D、FastSNP、SNAP、LS-SNP、PMUT、PupaSuite、SNPeffect、SNPeffectV2.0、F-SNP、MAPP、PhD-SNP、MutDB、SNP Function Portal、PolyDoms、SNP@Promoter、Auto-Mute、MutPred、 SNP@Ethnos、nsSNPanalyzer、SNP@Domain、StSNP、MtSNPscore或 基因组变异服务器。可以采用这些算法和本领域已知的其他适当的算 法,尝试预测突变对蛋白功能、活性或调控的影响。例如,能将预测 转录因子结合位点、ncRNA、miRAN靶标、增强子和UTR包含在过滤 器中来执行数据分析。相对非编码区有关的变体,能不同地处理与编 码区有关的变体。类似地,相对内含子有关的变体,能不同地处理与外显子有关的变体。此外,相对编码区中的同义变体,能不同地处理 非同义变体。在一些情况下,当分析密码子变化时,可以考虑对象的 蛋白翻译体系(translational machinery)。

  在一些实施方式中,预测有害过滤器确定与变体有关的序列是否 进化上保守。可以预期出现在进化上高度保守的那些序列中的变体更 有害,因此,在一些实施方式中,预测有害过滤器能根据应用,保留 (或移除)这些变体。能用来量化核苷酸级别上的进化保守度的一种 度量是基因组进化速率评测(Genomic Evolutionary Rate Profiling)(GERP)。

  在一些实施方式中,预测有害过滤器评估与变体有关的氨基酸置 换的性质。例如,能计算格兰瑟姆矩阵(Grantham matrix)得分。在一 些实例中,过滤掉以高或低分相关的变体。类似地,在一些实施方式 中,根据多态性表型分型(Polymorphism Phenotyping)或Sorting Intolerant from Tolerant算法,过滤变体。

  在一些实施方式中,预测有害过滤器使用数据库,例如,使用通 过知识本体构建的知识库来精选汇总而成的生物医学内容的知识库中 存储的信息,来预测和添加最可能致病的变体。相反,预测有害过滤 器能过滤不太可能致病的变体。例如,通过识别变体和已知致病要素 之间的关联,能确立致病性的可能性。

  在一些实施方式中,预测有害过滤器能基于信息的演化,对有关 变体是否很可能是致病的信息给予更多权重。例如,当存在文献中报 告并且知识库中存储的多个无关案例或受控研究时,能使将变体链接 到致病表型的单个案例或单次观测的权重较低。类似地,给由单个家 庭生成的数据的权重低于来自多个家庭的数据。证据的权重能用来决 定是否应用过滤器。通过包括或排除加权证据,能调整过滤器的严格 性。在一些实例中,能用来对有关变体是否很可能是用于预测有害过 滤器的致病变体的信息提供更多权重的另一变量是特定事实已被证实 的程度。例如,如果存在演示了与突变有关的表型或基因产物功能的变化的报告实验,则更重地加权有关预测的功能丧失型突变的信息。 如果在动物模型中再造相同突变来论证病因,甚至对该事实赋予更多 权重。

  能用来加权与变体有关的信息的演化的其他因子包括但不限于与 变体有关的突变的外显率、支撑该信息的研究的统计功效、支撑该信 息的研究中涉及的对照的数量和类型、是否已知有治疗剂基于该信息 可预测地起作用、通路中是否已知有多个突变导致可预测的表型、在 知识库中是否存在矛盾证据以及这种证据的数量/可信度、在健康个体 中是否频繁地观察到破坏同一基因/通路的变体、出现变体的位置或区 域是否进化上非常保守、和/或与变体有关的拟表型是否存在并且可预 测地起作用。

  在一些实施方式中,与预测有害过滤器有关的信息能用来根据变 体是否很可能致病来分类变体。这种分类能由致病性注释器执行。在 一些实施方式中,预测与生物实体有关的特性的致病性或非致病性的 数据的强度,表示为基于知识本体和/或知识库中的项的可能性。因此, 在一些实施方式中,致病性注释器将数值可能性表示为分类协议。

  在另一实施方式中,致病性注释器将变体放在与提供便利的机制 来获得与疾病具有最强有力的原因性链接的那些变体的临床&人类基 因组研究人员产生共鸣的分类中。这能例如通过利用使用知识本体构 建的、精选汇总的来自文献的研究结果的知识库,以及将文献证据的 独立路线与进化保守的分析和“正常”人群中所观察到的等位基因频 率结合来实现。在一些实施方式中,致病性注释器将具有支持有害表 型的原因性关联的文献证据的多个独立线路的变体注释为“致病”变 体。另一方面,由单篇文章引证为稀有疾病的原因,但发现在缺少所 述稀有疾病表型的群体中以高百分比存在的变体更可能是良性的。

  例如,通过致病性注释器,将变体分类为带注释的,如“致病”、 “可能致病”、“不确定”、“可能良性”或“良性”,其中,“致 病”是指没有已知遗传疾病的个体的基因组数据库中,变体的频率 <0.07%,以及在变体(和/或任选地,由变体破坏的基因或通路)与有 害表型之间建立原因性或关联链接的来自生物医学文献中的多个不同 文章的2个以上研究结果;“推测致病”是指没有已知遗传疾病的个 体的基因组数据库中的变体的频率<0.07%,以及在变体(和/或任选地, 由变体破坏的基因或通路)与有害表型之间建立原因性或关联链接的1 个研究结果;“未知”是指没有已知遗传疾病的个体的基因组数据库 中,变体的频率在0.07%和0.1%之间;“推测良性”是指在没有已知 遗传疾病的个体的基因组数据库中,变体的频率在0.1%和1%之间;以 及“良性”是指在没有已知遗传疾病的个体的基因组数据库中,变体 的频率>=1%。

  在一些实施方式中,致病性注释器与定义与那一疾病有关的变体、 基因和通路的疾病模型知识库通信。致病性注释器利用疾病模型来提 供用于特定变体和特定疾病的特定组合的致病性评估。

  在一些实施方式中,在该预测中,还使用进化保守性。在一些实 施方式中,预测过滤器将推断用于知识库中不具有在变体级别上的文 献研究结果的任一变体的致病状态以便计算临床重要性。在这些情况 下,如果变体处于知识库中已知牵涉到疾病的基因中和/或预测对所述 基因(几千中的一个)有害,以及如果变体不同义,或通过功能预测 算法未预测到无害(如,无SIFT预测或与无或损害/激活SIFT预测不 同义的移码),那么基于用于变体级别的研究结果的1000基因组频率, 将推断所述变体是致病、推测致病、不确定、可能良性或良性的,如 上所述。公开的SIFT分析评估相对于蛋白的进化趋异度观测到的编码变化,和评估预测由指定变体引起的生物化学变化(例如亲水或疏水 氨基酸变化)的严重性。

  D)生物演化过滤器

  如在癌症驱动变体过滤器和预测有害过滤器中所述,生物演化能 用作筛选变体的变量。生物演化过滤器能使用在数据库,例如使用通 过知识本体构建的知识库来精选汇总而成的生物医学内容的知识库中 存储的信息,来预测和添加最可能与生物功能有关的变体。生物功能 能是例如表型、疾病、功能性结构域、细胞过程、新陈代谢或信号通 路、行为、解剖特性、生理性状或状态,或上述的一个或多个的生理 标志物。还能由其他物种中的基因破坏的影响推断生物功能,例如, 可以使用在特定基因中具有基因破坏的小鼠的表型来识别可能在人类 中产生相关表型的人直向同源基因中的人类变体。

  能调整生物演化过滤器的严格性,便利允许更多或更少变体通过 过滤器。在一些实施方式中,由用户调整该严格性。在一些实施方式 中,严格性由计算机调整并且受经过过滤器或过滤器级联仍然存在的 预定目标的变体数目驱动。

  生物功能的选择是变更生物演化过滤器的严格性的一种方式。例 如,严格性相当低的过滤器可以是,如果在变体的数据集中过滤具有 与自身免疫疾病已知关系的变体。较高严格性筛选将是针对用于具有 与1型糖尿病已知关系的变体的过滤器。

  变更生物演化过滤器的严格性的另一方法是变更变体和生物功能 之间的中继段数。通常,要求越多中继段,则过滤器的严格性将越低。 在生物演化过滤器中增加中继段有助于发现当被破坏时,会导致人类 疾病的新颖原因性变体和基因。

  在变体与实体诸如具有已知生物功能的基因或基因产物有关的情 况下,通过一系列中继段,可以过滤仅在指定实体的下游或上游起作 用的变体。相应地,用户能过滤例如很可能在一个或多个已知生物过 程或实体的上游起作用的变体。

  此外,能使用生物演化过滤器来过滤具有特定净效应的变体。例 如,能建立筛选来筛选出一个或多个中继段后,很可能导致一个或多 个特定生物实体或过程中的原因性功能丧失的变体。在一些实施方式 中,这能通过检查中继段之间的因果关系来实现。在一个非限制性例 子中,如果用户正在寻找基因(或基因产物)中的变体,所述变体在 生物实体、基因C上游的两个中继段内并且已知或预测会导致基因C 或其产物的净功能丧失,以及已知基因B激活基因C,以及已知基因A 激活基因B,那么,将已经或预测会导致基因A中的功能丧失(而不 是功能增益)的变体识别为满足该过滤器标准。在另一非限制性例子 中,如果用户正在寻找已知或预测会导致基因C或其产物的净功能丧 失的上游2个中继段内的变体,以及已知基因B抑制基因C,以及已 知基因A激活基因B,那么,将来识别已知或预测会导致基因A的功 能增益(而不是功能丧失)的变体。

  E)遗传分析过滤器

  能使用遗传逻辑,例如,通过它们是否显示与孟德尔遗传一致的 特性;在一个群体(例如受稀有遗传性疾病影响的患者,或不能对特 定的治疗过程起反应的患者)中是否经常观测到它们,而在另一个(例 如没病的个体,或对同一治疗过程起反应的患者)中不经常观察到; 它们是否频繁地干扰一个群体,而不干扰另一群体中的相同基因;和/ 或它们是否频繁地干扰一个群体而不干扰另一群体中的相同通路来过 滤变体。这种过滤器在本文中称为遗传分析过滤器。遗传分析过滤器 能包含从遗传相关的对象获得基因组信息。例如,如果研究人员或临 床医师对分离在一个或多个家庭中的遗传疾病感兴趣,他或她能过滤 出与孟德尔遗传不一致的变体。在该例子中,研究人员或临床医师能 获得有关家庭成员的基因组信息,其中,一些家庭成员具有遵循孟德 尔遗传模式的疾病,但原因未知。对每一家庭成员,能识别变体。能 过滤不满足孟德尔遗传的规则的变体。例如,能过滤出在父或母或双 亲中纯合,但在受影响的子女中不存在的变体。还能过滤存在于受影 响的子女中,但在父母的任何一个中不存在的变体。还能过滤出在子 女中纯合但在于父母中的一个中不存在的变体。基因组信息的拷贝数 分析能用于遗传分析过滤器。能过滤出通常不足以引起功能丧失的单 拷贝变体,但在基因组的半合子区中出现的相同变体能保留为潜在的 疾病原因。同样地,来自同一个体的多个样本,诸如来自不同组织位 置或在治疗后不同时间的肿瘤能与个体的正常基因组进行比较,过滤 出由于在数据集中每一个体的对照和匹配疾病样本两者中存在而不太 可能是致病原因的变体。

  遗传分析过滤器还能利用已知信息来包括或排除变体。这能通过 使用包含在有关人类基因和与其他基因的网络关系的知识库中的数据 来实现。例如,能由遗传分析过滤器将预测会干扰单倍剂量不足基因 的杂合型变体包括在内,因为所述变体潜在地带来致病性功能丧失。 能由遗传分析过滤器将预测会干扰不被认为是单倍剂量不足的基因的 杂合变体排除,因为所述变体不太可能孤立地致病。遗传分析过滤器 还能识别始终导致功能丧失的变体。通常,遗传性疾病会具有均能带 来相同或非常类似的临床病症的多个遗传原因。例如,能由成纤维细 胞生长因子受体(FGFR)1,FGFR2,FGFR3,TWIST和EFNB1中的突变引起颅缝早闭症。当突变时,会导致颅缝早闭的新基因陆续被发现。 对会由于一个以上基因中的突变引起的这种遗传性疾病,以及对未知 是否由一个以上基因中的突变引起的那些疾病,遗传分析过滤器能强 有力地使用知识库来识别被预期始终在一个群体(例如具有感兴趣的 疾病或表型的个体)中破坏相同基因或离所述基因1中继段或2中继 段内的基因的功能,但始终不存在于另一群体(例如没有感兴趣的疾 病或表型的个体)的变体。一些变体是导致基因的单拷贝变为过度活 跃的突变,例如,通过丢失自抑制调控序列的突变。遗传分析过滤器 能保留这些已知或预测的显性作用变体,与基因组中发现的拷贝的数 量无关。

  遗传分析过滤器还能确定是否预测到多个不同变体干扰一个或多 个样本的群体上的相同基因(或基因转录本)。例如,遗传分析过滤 器能确定两个杂合型变体是否可能在相同样本中组合来破坏指定基因 (即复合杂合型变体)或通路的功能,由此确定该相同基因(或通路) 在一个个体(例如具有感兴趣的疾病或表型的个体)群上是否始终被 破坏,而在另一群体(例如不具有感兴趣的疾病或表型的个体)中则 不。该性能能例如保留在肿瘤和匹配正常样本中杂合、但由于拷贝数 变化或基因中的另外的(复合)突变,推断仅导致肿瘤中的基因功能 丧失的有害变体。

  遗传分析过滤器还能考虑序列信息的质量。例如,遗传分析过滤 器可以具有有关数据库中的表示的质量或数量的信息。可以过滤低质 量或低表示序列。能根据数据质量的度量,调整该过滤器的严格性。 例如,遗传分析过滤器的低严格性版本将允许包括具有低质量的数据, 而高严格性过滤器仅能包括高质量数据。遗传分析过滤器能包括特定 变体是否很可能是高质量的估算。例如,如果测序基因组并且在测序 中,仅表示该特定变体一次,那么,那一变体作为测序误差的可能性 高于如果测序相同基因多次。在一些实例中,遗传分析过滤器能过滤 数据库中,具有较少表示的序列。遗传分析过滤器还能考虑最可能难以为其获得质量数据的基因组区域。当变体位于已知较低测序质量的 基因组特征上或附近和/或人为地增加变体的发生率时(即,“频繁击 中”区),遗传分析过滤器可以过滤出这些变体。能通过包括或排除 与潜在有问题基因组特征更近或更远的变体,调整严格性。例如,如 果指定变体位于基因组的高重复区上或附近,该遗传分析过滤器可以 排除该变体。

  因此,能将特性,诸如功能的增益/丧失、拷贝数、复合杂合性、 单倍剂量不足、对照群体中的频率、与孟德尔遗传模式的一致性以及 在等位基因级别、基因级别和/或通路级别上在2个以上群体内观察到 和/或未观察到的一致性包含到遗传分析过滤器中。例如,遗传分析过 滤器可以识别随着用药物治疗肿瘤,在等位基因级别、基因级别和/或 通路级别上,随时间始终增多或频率增加的变体。

  F)药物遗传学过滤器

  在一些实例中,用户可能希望基于已知或预测的变体与包含在药 物处理和新陈代谢中的药物靶标或蛋白的关系,过滤变体,因此,在 一些实施方式中,药物遗传学过滤器过滤变体列表来识别例如影响一 个或多个潜在药物靶标的变体或已经观察到或被预测会影响药物反 应、新陈代谢和/或毒性的变体。例如,不是选择所有药物,用户能选 择感兴趣的药物,药物A。知识库能识别药物A针对基因Z,以及知 识库能识别基因Z的功能丧失降低患者中药物A的有效性。因此,药 物遗传学过滤器能认识到期望导致或预测会导致基因Z的功能丧失的 用户的数据集中的变体具有与由用户输入的药物A有关的遗传药理反 应。

  G.预配置器

  本发明的不同实施方式提供从大的数据集,包括整个基因组和整 个外显子组测序数据分析序列变体数据的系统和方法。在一些情况下, 分析包含搜索可能涉及疾病或感兴趣的另一表型的序列变体。能由用 户提供并由系统分析一个或多个这种数据集。上述描述了各种过滤方 法来消除可能与研究的疾病无关的序列变体。在本发明的各个实施方 式中,能预配置过滤器集来分析所需数据类型和识别指定研究类型最 可能感兴趣的变体。例如,能预配置过滤器集来基于生物演化(例如 组织类型、疾病关联、表型、通路或过程),消除用户提供的数据集 中的序列变体,同时将所允许的基因变体集扩大到离由过滤器识别的 那些1个以上中继段。能由系统建议过滤器集以及可以允许用户评审 和修改它们。或者,能由用户组合过滤器集,以及在一些情况下,将 其在该系统中保存为集合。

  减少变体的数量会增加应用的可接近性,以及帮助用户从上千、 上万、几十万或百万或更多变体中,快速地获得例如<200或<50的感 兴趣变体,而无需各个过滤器的手动配置。不管组合过滤器的方法如 何,能预配置它们来将变体的数量减少到所需数量,例如,1,2,3,4,5, 6,7,8,9,10,15,20,25,50,100,200或更多个变体。或者,能预配置过 滤器来将变体的数量减少到低于所需数量,例如,低于2,3,4,5,6,7,8, 9,10,15,20,25,50,100,200或更多个变体。在一些情况下,能预配置 过滤器来减少变体的数量,而不返回低于阈值数,例如,不低于1,2,3, 4,5,6,7,8,9,10,15,20,25,50,100,200或更多个变体。

  本发明的各个实施方式提供使用预配置过滤器,将序列变体的数 量减少到目标范围的方法。在一些实施方式中,该方法是迭代,例如, 用于过滤器集的初始设定值被用来减少用户提供的数据集。如果所返 回的变体数低于预期,在一些情况下,可以将一个或多个过滤器切换 到较低严格设定值。在一些情况下,能从该集合消除一个或多个过滤 器。另一方面,如果所返回的变体数大于预期,在一些情况下,可以 将一个或多个过滤器切换到更严格的设定值。在一些情况下,能将一 个或多个过滤器增加到该集合。

  在一些实施方式中,向用户提出过滤问题,以便指示计算机有关 过滤器的哪一集合用于预配置器。例如,能向用户提供下述问题:

  (1)下述哪种最好描述你正尝试完成的内容?(界面上的单选按 钮允许用户选择-由方括号所示)

  a.[]遗传疾病:识别用于指定疾病的原因性或驱动变体(缺 省)

  b.[]癌症:识别癌症驱动变体

  c.[]层理:识别将一组(案例)与另一组(对照)组区分开 来的变体(如果<1案例或<1对照样本,禁止)

  d.[]个体基因组:查找潜在地与疾病或表型有关的变体(如 果>1样本,禁用)

  e.[]其他:[描述]

  f.[下一个>>]

  (2)是否存在感兴趣的特定疾病或生物过程?

  a.通过自动补全,象Outlook“包含”在知识库中搜索所有疾 病和过程,用户能选择1个或多个。

  b.[<<返回][不,没有>>][是,如上选择>>](如果未选择,则 禁用)

  3.[如果如上选择了“疾病”]最好描述疾病的遗传模式?(单选 按钮)

  a.[]显性

  b.[]隐性

  c.[]X-连锁

  d.[]新生突变

  e.[]其他/未知

  f.[<<返回][下一个>>](如果未选择,禁用)

  (4)[<<返回][开始分析>>]

  由向用户提供的问题的答案而定,过滤器逻辑能选择适当的过滤 器来输出易处理数目的变体,用于后续研究。过滤器逻辑的例子是:

  (1)自动增加具有缺省参数的常见变体过滤器

  (2)自动增加预测有害过滤器

  a.如果选择个体基因组,以及未选择特定疾病,则仅勾选“致 病”&“可能致病”

  b.否则,使用缺省参数,除如由下述(4).a.iii修改外

  (3)如果选择了疾病/过程,则增加生物演化过滤器,其中“仅 保留”上游2中继段(“效果”选项被选择)以及下游2中继段,以 及被选疾病/过程在框中生物演化过滤器

  (4)如果选择了“癌症”,则增加遗传分析过滤器,其中对100% 案例“仅保留”以及“排除”存在于“1个或多个”对照样本中的相同 变体类别。预设用于“癌症:仅体细胞(限于功能影响)的选项”

  a.如果匹配所有样本,选择“来自相同对象的成对/匹配样本” 选项,以及增加“空合子(nullzygous)”和“半合子”选项。同时, 需要增加/勾选预测有害过滤器中的“拷贝数增益”、“空合子”和“半 合子”选项。

  b.增加癌症驱动变体过滤器,其中“仅保留”的所有选项被 选。

  i.如果所选择的疾病具有癌症疾病模型,用那一疾病模型 填充癌症驱动变体过滤器

  (5)如果选择了“疾病”或“层理”以及存在1个或多个案例或 1个或多个对照样本:增加遗传分析过滤器,其中对100%案例,“仅 保留”以及“排除”存在于“1个或多个”对照样本中的相同变体类别。

  a.如果如上选择了“隐性”:设置用于“隐性遗传性疾病” 的选项

  b.如果如上选择了“显性”或“其他/未知”,设置用于“显 性遗传性疾病”的选项

  c.如果如上选择了X连锁”,增加物理位置过滤器来仅保留 位于X染色体上的那些变体

  d.如果如上选择了“新生突变”,设置用于“新生突变”的 选项(即:遗传分析过滤器中的“限制到与孟德尔遗传一致的变体” 选项=未勾选)

  (6)如果所选择的疾病是癌症,增加癌症驱动变体过滤器,其 中“仅保留”的所有选项被选

  a.如果所选择的疾病具有癌症疾病模型,用那一疾病模型填充 癌症驱动变体过滤器

  (7)如果最底过滤器的结果是0变体

  a.使遗传过滤器中的#/案例减1。如果仍然为0,重复该步骤 直到遗传过滤器中的#/案例=1为止

  b.将常见变体1000基因组频率从缺省增加到2%

  c.如果癌症:将遗传分析过滤器从“癌症:仅体细胞(限制 到功能影响)”改变成“癌症:仅体细胞”设定值

  d.删除最底过滤器,直到结果为1个或多个变体为止

  (8)如果最底过滤器的结果为>50变体

  a.将生物演化过滤器下游中继段从2减小到1。如果仍然 >50…

  b.断开生物演化过滤器下游基因。如果仍然>50…

  c.使生物演化过滤器上游中继段从2减小到1。如果仍然 >50…

  d.将生物演化过滤器上游设定值从“影响”改变成“直接影 响”。如果仍然>50…

  e.断开生物演化过滤器上游基因。如果仍然>50…

  f.改变预测有害过滤器选项来消除非编码变体。如果仍然 >50…

  g.改变预测有害过滤器选项来仅保留“致病”类别中的变体。

  在一些实施方式中,预配置器考虑用户的实验的来龙去脉来调整 计算中的相关内容(例如,他们使用何种细胞系类型、他们是否已知 某些基因被敲除或转染等等)。这能允许基于与有关该实验的背景知 识有多相符来对简档评分。在其他实施方式中,预配置器基于在用户 的数据集中观察到的变体的数据驱动的属性,预配置或提供缺省选择, 例如,基于Y染色体的指定个体数据集中,存在或缺少变体,预指定 “男性”或“女性”,或基于数据集中存在(或缺少)某些变体,预 指定“癌症”或癌症类型。在其他实施方式中,预配置器考虑中等通 量数据来对不同细胞,优化什么是“正常”、何种蛋白质可能会起作 用等等的预期值。这能在不同生物演化上提供归一化基线并且优化能 辨别统计学上显著的结果的灵敏度。

  H.系谱(pedigree)构造器

  本发明的不同实施方式提供确定具有序列变异的样本之间的关系 的系统和方法。考虑样本之间的关联性的差异或度量,本发明的一些 实施方式可以允许重新汇编系谱,或样本之间的关系的简图。这可以 通过系谱构造器来实现。

  在一些情况下,可以使用系谱构造器来提供有关从测序数据识别 的序列变体的相位信息。定相分析包含搜索可能涉及疾病或感兴趣的 另一表型的序列变体的亲本来源。在一些实施方式中,例如,配置系 谱构造器来推断或从用户接受输入来识别样本是否最有可能衍生自从 其获得指定样本的个体的母亲。在其他的实施方式中,配置系谱构造 器,推断或从用户接受输入来识别最可能源自得出指定样本的个体的 父亲的样本。定相信息在确定一个或多个变体是否以顺式(即DNA的 单链)或以反式(即在DNA的多链上)存在中可能很重要。该信息在 评估与变体序列有关的表型的疾病的严重性中也会很重要。

  有关序列变体的定相信息也可以由在本文中所述的遗传分析过滤 器利用。遗传过滤器分析可以利用相位信息来过滤与孟德尔遗传模式 一致的变体。该信息也可以用在允许系谱构造器来推断指定研究中的 三人组和家庭关系。例如,这可以包括但不限于临床试验样本处理。

  此外,配置系谱构造器来识别个体标识符并且将该个体标识符指 定给从单一个体获得的多个样本。配置系谱构造器来基于遗传系谱的 结构,区分个体之间的遗传差异,同时保留将同一标识符指定给可能 来自同一个体,但反映一些遗传变异的样品的能力。在本发明的一些 实施方式中,这可以用于系谱构造器来从取自同一患者的额外样本的 肿瘤基因组,推断患者一个样本中的正常基因组。

  在一些实例中,也可以配置系谱构造器来识别源自用户输入的关 系和完全源自患者的序列数据的计算分析的推断关系之间的不一致 性。在一个例子中,这可以包括但不限于识别可能涉及非亲生、样本 贴错标签或样本混淆问题的的案例。这些问题可能在其他方面混淆序 列数据集的分析和解释。

  I.统计关联过滤器

  在一些实例中,用户可能期望基于两个以上样本组与感兴趣的疾 病或表型之间的统计关联来过滤变体。在本发明的一个实施方式中, 配置统计关联过滤器来将在前过滤器的输入包括在过滤器级联中,以 及使用基本等位、显性或隐性模型过滤变体。能使用案例负荷、对照 负荷或双向负荷测试,进一步过滤彼此之间示出统计学上显著区别的 变体。这可以表示不同的统计学上显著的变体在两个以上样本组(例 如受影响表型对未受影响表型)之间如何不同地干扰基因。

  在一个例子中,可以配置统计关联过滤器来识别有害的、以及导 致所推断的基因级别上的功能丧失和推断的基因级别上的功能增益的 变体。该分析还可以利用在本文中所述的预测有害和遗传分析过滤器。

  在本发明的其他实施方式中,统计关联过滤器还可以用来过滤干 扰整个通路或基因集的变体。可以使用负荷测试,进一步过滤显示出 在两个以上样本组之间统计上显著不同的变体。在一些情况下,负荷 测试可以利用来自文献的研究结果的知识库来识别基因,其基于共享 的通路生物学、结构域、表达、生物过程、疾病关联性、组或复合物 注释,一起形成共同的相关集合。在一些情况下,统计关联过滤器可 以识别两个以上样本组之间,显著更多或显著更少干扰通路或基因集 的变体。在其他情况下,可以在由用户进一步定义的通路库或基因集 上,执行负荷测试。

  J.发布功能部件

  在本发明的一些实施方式中,用户可能希望共享或发布分析结果。 可以配置发布功能部件来使用户指定感兴趣的分析、描述分析和将分 析的详情链接到URL互联网链路。可以由用户将URL嵌入出版物或 其他类型的公开内容中。也可以配置发布功能部件,使得当用户期望 时,用户保留发行所发布的分析用于广泛访问的能力。在本发明的其 他实施方式中,发布功能部件可以为访问上述URL或浏览可用的已发 布分析的列表的其他用户提供对用户发布的分析的访问。

  在已经过滤和识别指定变体后,本发明的各种实施方式提供识别 药物和对受这样的变体影响的通路的可能作用的系统和方法。在一些 情况下,变体是疾病或表型的原因性变体。在其他情况下,变体是疾 病或表型的驱动源。可以配置可药化的通路功能部件来首先识别已知 针对、活化和/或抑制在与一个或多个变体相同的通路或遗传网络中共 同出现的基因、基因产物或基因集的药物。在本发明的一些实施方式 中,可以进一步配置该功能部件来通过原因性网络分析,预测患者样 本中的一个或多个变体对通路或遗传网络的净效应。在其他实施方式 中,可药化通路功能部件还可以进一步识别对通路或基因网络的净效 应与先前识别的变体对通路或遗传网络的预测影响完全相反的药物。

  在一些情况下,可以使用可药化通路功能部件来识别基于患者的 序列变体简档,表示可能对感兴趣的一个或多个特定药物起反应的患 者的患者样本。在一些情况下,可药化通路功能部件在药物临床试验 中,对患者的招募、选择或录用很重要。在其他情况下,可药化通路 功能部件可以用于为患者提供新颖治疗选择。

  本发明的不同实施方式还提供识别高可变基因或基因组区的系统 和方法。在一些实施方式中,配置频繁击中过滤器来访问在源自未受 感兴趣的疾病或表型影响的个体的样本集合中,频繁突变的高可变基 因和基因组区的知识库。频繁击中过滤器还可以过滤出现在高可变基 因或基因组区内的变体。另外,频繁击中过滤器还可以允许通过三核 苷酸注释器,对高重复性的三核苷酸重复进行注释。

  在一些情况下,配置三核苷酸注释器来与包含有关良性的重复数 和与一个或多个人类表型或严重性有关的重复数的信息的已知三核苷 酸重复区的知识库交互。在其他情况下,配置频繁击中过滤器来评估 一个或多个患者的全基因组或外显子组测序样本中,在知识库中定义 的一个或多个基因组区处的三核苷酸重复的数量。在其他情况下,配 置频繁击中过滤器来对每一三核苷酸重复,基于知识库,评估先前计 算的三核苷酸重复长度是否足以引起表型。然后,可以通信该信息, 使得与先前计算的三核苷酸重复长度有关的应用能够知道与所述三核 苷酸重复有关的潜在疾病或表型。从频繁击中过滤器获得的信息还可 以与预测有害过滤器共享来基于三核苷酸重复注释器的结果,实现可 能或不可能导致表型的变体的过滤。

  在一个例子中,频繁击中过滤器的应用可以用于具有亨廷顿疾病 的家族史的患者。该神经退行性疾病由亨廷顿基因(HTT)中的可变长 度三核苷酸重复引起。该重复长度可以在个体之间以及世代之间改变。 认为该重复长度影响亨廷顿疾病本身的严重性。频繁击中可以将有关 三核苷酸重复长度和已知与那一变体长度有关的疾病的严重性有关的信息提供给怀疑具有亨廷顿疾病的个人。

  5.变体的应用

  能使用本发明来通过阐明对象,帮助个性化医疗,所述对象或多 或少可能响应治疗或预防方案;或者,由于特定治疗方案,或多或少 可能经历毒理学终点或不利事件;或者,或多或少对指定治疗敏感, 并因此可能要求替代剂量、治疗的持续时间和/或治疗强度。通过使用 本发明获得的这些发现能显明例如用于现有或未来治疗的新的搭配诊 断,使这些治疗针对将受益最多并且具有最低不利事件风险的患者群 体。

  本发明还用来通过识别特定患者中的癌症特异性驱动变体,来开 发个性化癌症治疗作为所述患者的个性化免疫疗法,所述患者是对这 样的疗法最有吸引力的对象。

  本发明还用来识别对感兴趣的人类疾病或其他表型来说,在单独 或与其他变体和/或环境刺激组合的情况下,是原因性的变体。

  在另一方面,本发明包括用于识别用于指定疾病的诊断标志物的 方法。在该方面中,本发明包括:(a)提供用于存储和访问基因组信 息的装置,其中,所述装置允许所存储的概念中的复杂关系的计算分 析,以及(b)查询数据库来识别与疾病有关的标志物。与疾病有关的 标志物能是变体。

  本发明还用在药物基因组学领域中。例如,在另一方面,本发明 提供用于识别专用于药物反应,例如,不期望的副作用或无反应性的 诊断标志物。通过识别预测副作用或无反应性的变体,能基于具有严 重不利事件或对指定治疗无反应的可能性,将具有指定疾病的患者群 体分成子群体,用于临床试验的录用或为了治疗目的。

  通过利用经查询具有从用于识别用于药物发现的疾病通路或靶标 的其他方法获得的数据的数据库获得的信息,可以增强本发明用于药 物发现的疾病通路和靶标的预测方法。例如,本发明的方法可以另外 包括结合数据库中断言的关系的绝对和/或差异表达数据的应用。

  6.将数据提供给系统/访问系统和交易模型

  用户将数据提供给系统以便分析或者解释数据。能将数据加载到 运行软件的本地计算机或加载能发生在网络上。存在本地软件和允许 用户提供数据的系统的网络或基于“云”的方面两者的组合。在一些 实例中,提供数据仅是用户允许系统访问生物数据,不管将其放在何 处,例如,用户可以允许系统访问已经包含该数据的硬盘驱动器。

  用户可以将数据重复地提供给系统。在一些实施方式中,数据位 于提供给系统的计算机可读介质上。例如,用户可以购买允许用户在 用户方便时,通过接入或不接入网络来分析新的数据集的软件。或者, 用户可以经网络访问分析工具。例如,用户可以获得允许访问网络上 的分析工具的密码。在另一实施方式中,用户将数据存储在可操作地 链接到系统的计算机可读介质上。链接能是允许接入系统。

  在一个实施方式中,当用户购买生成数据所需的组件时,赋予用 户将数据提供给系统的能力。例如,当用户购买测序仪器或消耗品, 或购买测序服务时,可以向用户提供用于访问网络上的系统的代码。 在一些实施方式中,这种交易包含购买用于一个或多个数据集的生成 的一个或多个产品或服务。以链接到交易的方式,任选地提供访问数 据分析包的许可。在一些实施方式中,访问系统和/或支付状态链接到 用户的电子邮件地址。在一些实施方式中,访问数据分析包包括访问 码或部分代码。在一些实施方式中,提供对整个数据分析包的访问。 在一些实施方式中,提供对分析包的特定部分的部分访问。在一些实 施方式中,访问时间有限,例如,在3、6、9、12、25、24个月或以 上之后,终止该访问。在一些情况下,可以延长访问时间段,例如可 以将访问延长1、2、3、4、5、6个月或以上。为了延长,可能要求额 外的付费。在一些情况下,数据保留在系统中,与延长的付费状态无 关。在各种实施方式中,数据加载到系统,与用于接入到系统中的付 费状态无关或加载到由系统产生的任何报告。使用在第一交易购买的 产品或服务,生成数据集。在一些实施方式中,由用户至少部分执行 数据采集。在一些实施方式中,数据集与服务供应商共享。在一些实 施方式中,至少部分由服务供应商执行数据采集。在一些实施方式中, 数据集与用户共享。在一些实施方式中,第一交易在用户和服务供应 商之间。在一些实施方式中,在数据采集后,将数据集输入到数据分 析包中。在一些实施方式中,在数据采集期间,将数据集输入到数据 分析包中。在一些实施方式中,由服务供应商,将数据输入到系统。 在一些实施方式中,系统为服务供应商提供输出或报告。在一些实施 方式中,系统为用户提供输出或报告。在一些实施方式中,在第一交 易之前或期间,将购买分析包的接入的报价或选项传送到用户。可以 为用户提供详述仅用于产品或服务的价格的报价,诸如用于测序基因 组的价格,或除获得产品或服务外,为用户提供用于有权接入数据分 析/报告包和/或由插件/系统生成的任何输出/报告的捆绑价格。在一些 实施方式中,第二交易包括购买有权接入或部分有权接入分析包的许 可。在一些实施方式中,第一和第二交易是独立的事件。

  在本发明的一些实施方式中,数据分析包将接受用户以各种格式 提供的一个或多个数据集为输入。用户可能是产品或服务的买家或提 供产品或服务的二级实体,诸如测序机构。在一些实施方式中,数据 集包括来自实验的未处理/原始数据。在不同实施方式中,用户提供的 数据集是生物数据集。在一些实施方式中,用户生成的数据集包括全 基因组或部分基因组序列。在一些实施方式中,用户生成的数据集包 括RNA序列或基因表达数据。

  图11示例将测序服务的购买链接到所生成的测序数据的分析和/ 或报告的购买的捆绑交易系统的例子。在该例子中,客户与服务供应 商通信以及生成用于测序服务的报价。报价包括除测序服务外,包括 由测序服务的分析产生的报告服务的捆绑选项。基于该报价下单以及 将样本发送到测序服务供应商。处理所生成的数据。在许多情况下, 数据处理将包括使测序数据与系统中,例如在本申请的其他地方所述 的数据库中的其他测序数据比对,以及调用用户数据差异,由此识别 测序变体。在不同情况下,执行质量控制功能。作为数据处理的结果, 生成变体调用文件(VCF)。在许多情况下,服务供应商将测序服务的结果提供给客户,例如通过将结果上载到硬盘驱动器并且将其寄送给 客户。本领域的技术人员能想到并且已知数据传送的可选适当方法, 例如通过互联网。在一些情况下,还将VCF提供给客户。VCF被上载 到报告服务,诸如使用本领域已知的适当方法的变体分析报告系统, 诸如经应用编程接口(API)或用户接口(UI)。在一些实施方式中, 将数据传送到报告系统,与是否对报告系统付费无关。然后,在没有 进一步交易的情况下,能生成报告。如果用户提供用于报告系统的付 费或定单,服务供应商将报告委托发送给报告服务供应商。在各种情 况下,服务供应商将服务的状态传送到用户。在该通信或另一独立通 信期间,能包括接入报告服务的结果的链接。用户能使用该链接来访 问报告系统。如果对该报告系统已经付费,用户能访问该报告。如果 还未支付,能提供进行支付以便有权接入该系统的选项。在许多情况 下,为用户提供操作分析和生成替代报告的许可。在一些情况下,能 付费或免费将附加功能包括在报告系统中,诸如用于系统的帮助使用 的电话支持。

  在图13中,示例根据本发明构建的系统的实施方式的流程图。该 系统通常由参考数字100表示。系统100提供用于将用于有权接入数 据分析包的交易与用于被用来生成将插入到数据分析包中以便分析的 数据集的产品或服务的交易捆绑的方法。示例系统100的流程图示出 用于数据分析包的应用的产品或服务交易或折扣交易102以及访问或 部分访问交易或折扣交易103。交易102和103或者被提供为选择,或 者提供包括102和103两者的单一交易选项。在一些实施方式中,与 组合交易有关的价格或价值低于与主题交易102和103有关的两个价 格或价值的总和。在一些实施方式中,与交易102有关的价格值为0。 在一些实施方式中,与交易103有关的价格值为0。系统100包括在交 易102期间购买的产品或服务110。使用产品或服务110,生成一个或 多个数据集111。在交易103期间,购买对数据分析包的访问或部分访 问120。访问或部分访问120在特定条款下,授权使用数据分析包。在一些实施方式中,交易102授权购买多个产品或服务110。在一些实施 方式中,交易103授权购买对数据分析包的重复的访问或部分访问。 在一些实施方式中,链接产品或服务110的数量和访问或部分访问120 的数量。在一些实施方式中,在特定时段或特定时间长度内,授权访 问或部分访问。

  系统100使用产品或服务110,便于生成数据111。访问或部分访 问120允许数据111输入到数据分析包。使用数据分析包,执行第一 分析130。系统100提供一个或多个辅助交易140。在辅助交易140期 间,购买对数据分析包的增强的访问或部分访问150。在一些实施方式 中,为针对数据分析包的特定部分或功能性的增强的部分访问150,调 整辅助交易140。使用在交易150期间购买的数据分析包的部分或功能 性,执行增强分析160。在一些实施方式中,将增强的访问或部分访问 交易140捆绑在初始交易101中。

  在一些实施方式中,通过用于产品或服务101的用户注册,提供 对数据分析包的访问或部分访问。在一些实施方式中,将对数据分析 包的访问或部分访问提供给服务供应商。在一些实施方式中,服务供 应商执行与产品或服务110有关的全部或部分实验。在一些实施方式 中,核心实验室执行数据分析。

  在一些实施方式中,产品或服务110的用户注册包括电子邮件地 址和密码。在一些实施方式中,密码包括字母数字字符。在一些实施 方式中,密码包括所有可打印字符。在不同实施方式中,密码为1,2,3, 4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20字符长或更长。

  在一些实施方式中,在一次或多次基础上,提供访问部分或全部 数据分析包的权限。在一些实施方式中,访问权限被限制在一定时段 内。在一些实施方式中,对产品或服务110,提供访问部分或全部数据 分析包的权限。在一些实施方式中,产品或服务110附有编码或序列 号,能用来有权部分或全权访问数据分析包。在一些实施方式中,产 品或服务101附有的编码或序列号将产品或服务101的类型编码到数 据分析包。在一些实施方式中,用户在每一样本的基础上,购买对产 品的访问,在此之后,对预先指定的时段,在无需额外付费的情况下, 允许用户执行分析和与其他用户共享那一样本和最终分析。在一些实 施方式中,用户还可以运行分析和共享样本集合的分析,其中,样本 集合仅包含先前已经购买访问的样本。

  在一些实施方式中,计算机可读访问识别软件识别用户。因此, 系统授权具有访问权限的用户访问。在一些实施方式中,访问识别软 件安装在用户的计算机中。在一些实施方式中,访问识别软件远程安 装。在一些实施方式中,通过产品或服务的用户购买,通知访问识别。 在不同实施方式中,使用产品或服务来生成用户使用数据分析包进行 分析的数据集。在一些实施方式中,识别基于识别用户的计算机。在 一些实施方式中,识别基于识别注册的电子邮件地址、IP地址或存储 在用户计算机上的软件(例如cookie)。

  在各种实施方式中,安装产品或服务110来生成生物数据以及所 生成的数据111包括生物数据集。

  7.实施例

  实施例1:通过使用独创的知识库来分析比较性全基因组测序结果,识别颅缝早闭中的IL11RA的作用

  识别变体。将四个对象的完整的人类基因组序列加载到系统中: 两个基因组来自具有遗传性颅缝早闭的儿童,以及两个基因组来自未 受该疾病影响的他们的父母。受影响的儿童1的基因组包括3,714,700 个变体,受影响的儿童2的基因组包括3,607,874个变体,未受影响的 父亲的基因组包括3,677,130个变体,以及未受感染的母亲的基因组包 括3,779,223个变体。在四个基因组的组合中,发现总共5,394,638个 变体。

  应用常见变体过滤器。减去在整个基因组学69基因组数据库中的 一个或多个对象或未观察到具有所述疾病的1000基因组项目对象中观 察到的变体,使变体总数下降到330,302。所除去的DNA变体倾向于 在群体中是常见的,因此,认为不太可能导致稀有遗传性疾病。

  应用预测有害过滤器。使用知识库,识别和减去未观察到破坏生 物功能或未预测到这样做的变体,使剩余变体的数量减少到2,734。例 如,移除同义或由一个或多个突变功能预测算法,例如,SIFT和/或 Polyphen,预测不会破坏蛋白功能的编码变体。另外,移除非编码变体, 除非它们破坏预测的或已知的剪接位点、miRNA靶标、增强子位点、 ncRNA或转录因子结合位点。

  应用遗传分析过滤器。所包括的变体满足使剩余变体的数量减少 到12的下述标准:它们必须是(1)在两个受影响的儿童中纯合(或 可能纯合)(或未受影响的父母均不是),或(2)预期不然则导致在 两个受影响的儿童中指定基因(例如复合杂合)的两个拷贝的功能丧 失(未受影响的父母均不),或(3)预期在两个受影响的儿童中,导 致由独创知识库已知是单倍剂量不足的指定基因的一个或两个拷贝的 功能丧失(或未受影响的父母均不是),或(4)预期导致第一受影响 儿童中的基因(“基因1”)的两个拷贝的功能丧失,或期望导致另一 受影响儿童的不同基因(“基因2”)的两个拷贝的功能丧失,其中, 基因2处于与基因1相同的通路中或1或2个网络中继段内。任选地, 还过滤变体,使得仅保留与孟德尔遗传一致的变体。

  应用生物演化过滤器。

  过滤出使用知识库,通过网络分析,与疾病的生物演化无关的变 体,例如:

  未改变离基于知识库和知识本体,先前已知突变导致颅缝早闭的 其他基因1或2中继段上游(和/或下游)的基因的功能的变体,或

  未改变离基于知识库和知识本体,先前已知与骨形成、与颅缝早 闭有关的生物过程关联的其他基因的1或2中继段上游(或下游)的 基因的功能的变体。

  在过滤的最后一轮后,减少变体的总数,使得仅包括一个IL11RA 基因中的编码变体,其被证实是该家族的疾病的原因性变体。

  实施例2:识别用于胶质母细胞瘤的预期驱动变体

  将胶质母细胞瘤患者的肿瘤的整个或部分人基因组序列和来自患 者的健康组织的另一类似的基因组序列加载到系统中。

  减去在整个基因组学69基因组数据库中的一个或多个对象或未 观察到具有所述疾病的1000基因组项目中的一个或多个对象中观察到 的变体,使变体的总数减少到933,866(图14)。这些消除的DNA变 体倾向于在群体中很常见,因此,认为不太可能导致稀有遗传性疾病。

  使用知识库识别和减去先前未观察到破坏生物功能或未预测到会 这样的变体,使剩余变体的数量减少到10,527。所排除的变体满足下 述标准的一个或多个:

  ·与独创知识库中的突变表型研究结果不直接相 关

  ·基于来自一个或多个突变功能预测算法,例如 SIFT和/或Polyphen的预测,未同义或者无害(即, 非有害)

  ·非蛋白编码和未知或预测出现在剪接位点、转 录因子结合位点、ncRNAs、miRNA靶标和/或增强子

  移除在健康组织中纯合的变体,留下由癌症挑取的那些具有下述 遗传学的变体:

  ·肿在瘤样本中纯合(或可能纯合),或

  ·预期会导致肿瘤样本中的指定基因的两个拷贝 的功能丧失(例如复合杂合),或

  ·预期会导致肿瘤的指定基因的一个或多个拷贝 的功能增益,或

  ·(任选地)预期会导致由独创知识库已知是单 倍剂量不足的指定基因的一个或两个拷贝的功能丧失

  此外,应用另一过滤器,仅保留患者的正常组织中的杂合的变体, 考虑在该案例中患者疾病的极早发作,暗示了有害等位基因的两个拷 贝中的一个可能出生时就已经存在。在应用这些遗传分析过滤器后, 使变体的剩余数量减少到107。

  该患者看来以比平常更高的速率累积突变,建议所述疾病的生物 演化能与DNA修复有关。由此,移除使用知识库,通过网络分析不与 疾病的生物演化有关的所有变体。在该例子中,仅保留满足下述标准 的一个或两个的变体,移除其余变体,使变体的剩余数量减少到2:

  ·变更离基于知识库和知识本体,先前已知突变 导致胶质母细胞瘤的其他基因1或2中继段上游(和/ 或下游)的基因的功能的变体

  ·变更在基于知识库和知识本体,先前已知与 “DNA”修复有关的其他基因1或2中继段上游(和/ 或下游)内的基因的功能的变体

  实施例3:识别DNA变体用于开发个性化癌症治疗RNA鸡尾酒

  图15示例使用级联过滤器来识别用在癌症治疗RNA鸡尾酒中的 变体。将患者肿瘤的整个人类基因组和患者的正常组织加载到提供两 个数据集间的~25,000变体的系统。

  保留对该肿瘤唯一且不存在于正常组织中的变体以及移除其余变 体,使变体的数量减少到~2,000。

  不同义的变体是产生患者的免疫系统会潜在地用来将肿瘤细胞识 别为不同于正常细胞,因此“异物”的蛋白编码差异的候选物。保留 这些非同义变体以及移除其余变体,使变体的数量减少到~700。

  由患者的免疫系统识别出的肿瘤特异性抗原提供用于免疫系统对 抗肿瘤的可能候选物。由此,过滤未知在肿瘤中被表达的变体,使剩 余变体的数量减少到~150。在肿瘤中未良好表达的变体不太可能以足 以由免疫系统检测的丰度出现在肿瘤细胞的表面上。

  在本文中概述了预测对肿瘤很重要的变体,即癌症驱动变体。集 中在这些变体上减少癌症将能进化来“逃脱”未来免疫疗法治疗的可 能性。使用癌症驱动变体过滤器,使剩余变体的数量减少到~40。

  能基于来自IEDB数据库的度量,预测最可能引出免疫响应的变 体。另外的免疫原性过滤器使变体的数量减少到~30。在本实施例中, 应用所述的连续过滤器期间,调整上述过滤器的严格性,使得少于50, 理想地,少于30变体经过滤器仍然存在。该范围提供用于包含在RNA 疫苗中的期望变体数量。能使用在本实施例中获得的变体信息开发 RNA疫苗并且能输送到例如患者的淋巴结,其中,所述疫苗将由树突 状细胞吸收,其将有效地“训练”患者的T细胞来攻击患者的肿瘤细 胞。

  尽管在本文中已经示出和描述了本发明的优选实施方式,但对本 领域的技术人员来说,仅通过举例提供这些实施方式是显而易见的。 本领域的技术人员在不背离本发明的情况下,能想到许多变化、改变 和替代。应理解到,在实施本发明中,可以采用对在本文中所述的本 发明的实施方式的各种替代。旨在由权利要求定义本发明的范围,由 此覆盖在这些权利要求的范围及它们的等效内的方法和结构。

《用于识别原因性基因组变体的方法和系统.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)