欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> DNA甲基化的数字序列分析独创技术76981字

DNA甲基化的数字序列分析

2021-02-01 03:57:50

DNA甲基化的数字序列分析

  相关申请的交叉引用

  本申请要求于2011年2月2日提交的美国临时专利申请序列第61/438,649号的权益,其以引用方式整体并入本文。

  发明领域

  本发明涉及测定和使用指示腺瘤和癌的特异性甲基化模式的方法和组合物。具体地讲,本发明涉及对得自癌症和腺瘤样品的DNA中协调甲基化的限定CpG基因座的分析,用于鉴定协调甲基化基因座的方法,以及在腺瘤和癌症的测定法设计中使用对一个或多个标记区域中协调甲基化基因座进行分析的方法,所述方法具有改善的灵敏性和特异性。

  发明背景

  在高等真核生物中,DNA可在位于CpG二核苷酸中鸟苷5'的胞嘧啶处发生甲基化。这种修饰对于基因表达具有重要的调节作用,特别是在涉及富含CpG的区域时,这种区域称为CpG岛,通常存在于基因的启动子区域。虽然在整个人类基因座中大约75%的CpG位点发生甲基化,但是在CpG岛内的CpG位点通常不发生甲基化,而CpG岛的异常甲基化已与许多疾病相关,包括癌症。例如,CpG岛高甲基化在例如结直肠癌的人类癌症中与限定的肿瘤抑制基因的转录失活相关。因此,检测高甲基化核酸应当能够指示多种形式的癌症的易感性或发生。

  尽管有迹象表明在CpG岛甲基子表型(CIMP)与癌症之间存在联系(参见例如Baylin SB等,Adv Cancer Res1998;72:141–196和JonesPA等,Nat Rev Genet2002;3:415–428),但是关于单独分析甲基化状态可能是有用的诊断或预后工具的想法仍存在争议。如Issa等在Gastroenterology179(3):2005的一篇社论中所论述,研究人员在确认CI,MP与癌症之间的联系中得到了矛盾复杂的结果。虽然据报道在多种其它恶性肿瘤中已证实了CIMP(Shen,I.等,J Natl Cancer Inst2002;94:755–761;Garcia-Manero G等,Clin Cancer Res2002;8:2217–2224;Toyota M等,Blood2001;97:2823–2829;Ueki T等,Cancer Res2000;60:1835–1839;Toyota M等,Cancer Res1999;59:5438–5442;Strathdee G等,Am J Pathol2001;158:1121–1127;Abe M等,Cancer Res2005;65:828–834)并且多个小组已使用相似的标记物和技术证实了原来的发现结果(Whitehall VL等,Cancer Res2002;62:6011–6014;van Rijnsoever M等,Gut2002;51:797–802),但是其它小组却未能建立此类联系(Eads CA等,Cancer Res2001;61:3410–3418;Esteller M等,Cancer Res2000;60:129–133)。迟至2003年才有出版物得出结论:在结直肠癌中的所有甲基化事件与老化而非瘤形成相关(Yamashita K等,Cancer Cell2003;4:121–131)。

  这些存在矛盾的结果部分地归因于以下事实:已证实在结直肠癌中70%至80%的异常DNA甲基化事件与年龄有关(Toyota M等,ProcNatl Acad Sci U S A1999;96:8681–8686)并且癌症相关的表型只有在过滤掉这些因素后才能清楚。还注意到,过度灵敏的非定量方法会过高估计甲基化并掩盖与癌症相关的和不与癌症相关的甲基化之间的区别。Issa指出“甲基化事件(单独地)无法提供曾被认为是的理想通用癌症标记物,因为CIMP靶基因将不能用于筛选所有结直肠癌(经预测会存在许多假阴性),并且非CIMP靶基因将可能得出高假阳性率,因为它们也在无肿瘤的年长个体表现正常的粘膜中发生甲基化”(Issa等,同上)。

  一种增加癌症检测中甲基化分析临床特异性的方法是考虑多个标记基因。例如,Zou等调查了癌症样品中BMP3、EYA2、ALX4和波形蛋白的甲基化状态。虽然对于这四个基因的每一个而言甲基化水平在癌症和腺瘤两者中均明显高于正常上皮中的水平,但是通过接受者操作曲线确定的灵敏性未能通过合并任何或所有标记物而与最佳的单个标记物相比得到明显改善。(Zou等,Cancer EpidemiolBiomarkers Prev2007;16(12):2686)。

  Zou还研究了在所述标记基因不止一个中表现出甲基化的新生物并发现共甲基化(co-methylation)频繁发生,其中所测试的72%的癌症和84%的腺瘤表现出在所述基因两个或更多个中的高甲基化。Zou报道了分别在74例癌症的88%、72%、53%和41%以及62例腺瘤的98%、84%、60%和39%中注意到了这四个标记基因中一个或多个(至少一个)、两个或更多个、三个或更多个或四个的甲基化,相比之下在70例正常上皮中为24%、7%、3%和0%,从而表明虽然在将更多的基因包括在共甲基化组中时测定法获得了越来越高的特异性,但是灵敏性急剧下降。

  发明概述

  本发明涉及鉴定可用于检测与结直肠癌相关的甲基化的特定基因的区域和基因组核酸的特定区域的方法。方法包括例如以改善的灵敏性和特异性检测例如活检组织、粪便提取物或其它体液中的甲基化序列。在优选实施方案中,本发明提供甲基化分析的方法,包括鉴定在将非正常细胞例如癌症或腺瘤细胞中的甲基化与正常细胞中的背景甲基化进行比较时表现出有利甲基化比率的甲基化基因座。在一些实施方案中,本发明涉及分析标记序列内一组可能的甲基化位点中多个基因座中每一个处的甲基化的方法,其中在位点的限定组内的所有基因座处存在甲基化的频率在癌症和腺瘤细胞中比在正常细胞中更高,使得在样品中限定的基因座亚组内的所有基因座处发现甲基化则指示腺瘤或癌症。

  在一些实施方案中,本发明提供鉴定标记核酸中甲基化CpG基因座组的方法,其中甲基化指示腺瘤,所述方法包括:

  a)测定来自多个正常样品的标记核酸的多个独立拷贝的每一个中限定的CpG基因座组的甲基化状态;

  b)测定来自多个非正常(例如腺瘤或癌症)样品的所述标记核酸的多个独立拷贝的每一个中所述限定的CpG基因座组的甲基化状态以从所述限定组内鉴定限定的CpG基因座亚组,

  其中在所述限定亚组中的所有所述CpG基因座处发生甲基化的来自所述多个正常样品的所述标记核酸的独立拷贝的百分比小于在所述限定亚组中的所有所述CpG基因座处发生甲基化的来自所述多个非正常样品的所述标记核酸的独立拷贝百分比,并且其中在所述标记核酸中的所述限定亚组内所有所述CpG基因座处的甲基化指示非正常状态,例如腺瘤和/或癌症。在某些实施方案中,在所述多个非正常样品中在所述限定的CpG基因座组内的所有基因座处发生甲基化的标记核酸的独立拷贝的平均百分比大于在多个正常样品中在所述限定的CpG基因座组内的所有基因座处发生甲基化的标记核酸的独立拷贝的平均百分比。在优选实施方案中,在多个非正常样品中在所述限定的CpG基因座组内的所有基因座处发生甲基化的标记核酸的独立拷贝的平均百分比相比在所述多个正常样品中在所述限定的CpG基因座组内的所有基因座处发生甲基化的所述标记核酸的独立拷贝的平均百分比大至少一个标准偏差,优选地至少两个标准偏差,更优选地至少三个标准偏差。

  在一些实施方案中,限定的CpG基因座亚组由限定的CpG基因座组中的相同基因座组成。

  测定所述CpG基因座组的甲基化状态可通过本领域技术人员已知的任何方法完成。在一些实施方案中,该方法包括将得自样品的DNA用亚硫酸氢盐处理。亚硫酸氢盐修饰处理在例如美国专利号6,017,704中有所描述,该专利的全部公开内容以引用方式并入本文。在一些实施方案中,测定限定的CpG基因座组的甲基化状态包括对标记核酸的多个独立拷贝中的多个CpG基因座的每一个进行数字分析。在一些优选实施方案中,数字分析包括数字测序和/或数字PCR。

  在某些优选实施方案中,非正常样品包括腺瘤样品,并在特别优选的实施方案中,包括结直肠腺瘤样品。在一些优选实施方案中,非正常样品包括癌症样品,并在某些优选实施方案中,包括结直肠癌样品。

  本发明提供检测例如得自受试者的样品中的癌症或腺瘤的方法。在一些实施方案中,本发明提供方法,包括测定至少一种癌症或腺瘤标记核酸分子中限定的CpG基因座亚组内各CpG基因座的甲基化状态,其中在癌症或腺瘤标记核酸分子中的限定的CpG基因座亚组内的基因座中每一个CpG基因座的每一个处的甲基化指示样品中的癌症或腺瘤。在某些优选实施方案中,所述限定亚组包含至少三个CpG基因座,而在一些优选实施方案中,所述限定亚组包含至少四个CpG基因座或至少五个CpG基因座。

  在某些实施方案中,测定包括在核酸检测测定法中对CpG基因座进行分析,所述核酸检测测定法被配置成在单一核酸检测测定法中测定基因座中每一个的甲基化状态。在一些优选实施方案中,测定包括在被配置成在单一反应混合物中测定所述基因座中每一个的甲基化状态的核酸检测测定法中分析CpG基因座。在一些实施方案中,核酸检测测定法包括引物延伸测定法。在某些优选实施方案中,核酸检测测定法可包括以下一者或多者:核酸扩增测定法、核酸测序测定法、结构特异性裂解测定法、5'核酸酶裂解测定法、侵入式裂解测定法和/或连接测定法。

  本发明的方法不限于分析单个癌症或腺瘤标记核酸。例如,在一些实施方案中,在至少一个癌症或腺瘤标记核酸分子中的限定的CpG基因座亚组内的各CpG基因座的甲基化状态包括分析得自多个癌症或腺瘤标记物的核酸分子。在一些实施方案中,多个癌症或腺瘤标记物包括至少三个癌症或腺瘤标记物,而在一些实施方案中,多个包括至少四个癌症或腺瘤标记物。在一些优选实施方案中,癌症或腺瘤标记物及核酸分子选自波形蛋白、BMP3、胞裂蛋白9、TFPI2、LRAT的2个区域和EYA4标记物及核酸分子。在一些实施方案中,将本发明的测定方法与对一种或多种其它癌症标记物的分析相结合,诸如大便潜血标记物(例如血红蛋白、α防御素、钙卫蛋白、α1-抗胰蛋白酶、白蛋白、MCM2、转铁蛋白、乳铁蛋白和溶菌酶)。

  在本文所述方法的某些优选实施方案中,癌症或腺瘤标记核酸分子包括波形蛋白核酸分子,并且在一些特别优选的实施方案中,在波形蛋白核酸分子中的限定的CpG基因座亚组包括基因座37、40和45。

  在本文所述方法的某些优选实施方案中,癌症或腺瘤标记核酸分子包括BMP3核酸分子,并且在一些特别优选的实施方案中,在BMP3核酸分子中的限定的CpG基因座亚组包括基因座34、53和61。

  在本文所述方法的某些优选实施方案中,癌症或腺瘤标记核酸分子包括胞裂蛋白9核酸分子,并且在一些特别优选的实施方案中,在胞裂蛋白9核酸分子中的限定的CpG基因座亚组包括基因座59、61、68和70。

  在本文所述方法的某些优选实施方案中,癌症或腺瘤标记核酸分子包括TFPI2核酸分子,并且在一些特别优选的实施方案中,在所述TFPI2核酸分子中的限定的CpG基因座亚组包括基因座55、59、63和67。

  在本文所述方法的某些优选实施方案中,癌症或腺瘤标记核酸分子包括EYA4核酸分子,并且在一些特别优选的实施方案中,在所述EYA4核酸分子中的限定的CpG基因座亚组包括基因座31、34、37和44。

  在本文所述方法的某些优选实施方案中,所述至少一个癌症或腺瘤标记物或核酸分子包括包含波形蛋白、BMP3、胞裂蛋白9和TFPI2标记物或核酸分子的多个标记物或核酸分子。

  本发明还提供选择标记核酸中限定的CpG基因座组的方法,其中甲基化指示非正常状态,例如腺瘤或癌症,所述方法包括a)测定来自多个正常样品的标记核酸的多个独立拷贝的每一个中多个CpG基因座的甲基化状态;b)测定来自多个非正常(例如腺瘤或癌症)样品的所述标记核酸的多个独立拷贝的每一个中所述多个CpG基因座的甲基化状态;c)测定在标记核酸的多个所述CpG基因座中每个基因座的甲基化比率;以及d)选择标记核酸中限定的CpG基因座组,其中限定的CpG基因座组包含多个具有与非正常状态(例如腺瘤或癌症)相关的有利甲基化比率的CpG基因座。

  在一些实施方案中,测定甲基化比率包括测定在正常样品中多个CpG基因座中每一个处的平均甲基化与在非正常样品中所述多个CpG基因座中每个对应CpG基因座处的平均甲基化的比率。在优选实施方案中,在正常和非正常(例如腺瘤或癌症)样品中分析的标记核酸的所述多个独立拷贝包括至少10个,优选地至少100个,更优选地至少1000个,还更优选地至少10,000个,以及还更优选地至少100,000个拷贝。所分析的拷贝数不限于这些整数,而是可以为大于约10的任何整数。得自不同样品类型例如正常和非正常样品的拷贝数不必相等。

  在本文所述的标记核酸中选择限定的CpG基因座组的方法的某些优选实施方案中,进行比较的多个正常和非正常(例如腺瘤或癌症)样品包括至少10个,优选地至少25个,还更优选地至少100个样品。所分析的样品数不限于这些整数,而是可以为大于约10的任何整数。得自不同样品类型例如正常和非正常样品的不同样品数不必相等。

  在某些实施方案中,限定的CpG基因座组包含至少三个CpG基因座,优选地至少四个CpG基因座,更优选地至少五个CpG基因座。

  测定多个CpG基因座的甲基化状态可通过本领域技术人员已知的任何方法完成,包括在下文更详细地描述的那些。在一些实施方案中,该方法包括将得自样品的DNA用亚硫酸氢盐处理。在一些实施方案中,测定限定的CpG基因座组的甲基化状态包括对标记核酸的多个独立拷贝中的多个CpG基因座的每一个进行数字分析。在一些优选实施方案中,数字分析包括数字测序和/或数字PCR。制备用于分析的样品(例如粪便样品)的方法在本领域也是已知的。参见例如US7005266、6,303,304、5,741,650、5,952,178和6,268,136,它们均以引用方式并入本文。

  定义

  为了有利于理解本发明,下文定义了多个术语和短语。

  如本文所用,术语“数字测序”和“单分子测序”可互换使用并指测定各个核酸分子的核苷酸序列。用于各个分子测序的系统包括但不限于454FLXTM或454TITANIUMTM(Roche)、SOLEXATM/Illumina基因组分析仪(Illumina)、HELISCOPETM单分子测序仪(HelicosBiosciences)和SOLIDTMDNA测序仪(Life Technologies/AppliedBiosystems),以及其它正在由诸如Intelligent Biosystems和PacificBiosystems的公司开发的平台。

  如本文所用,关于基因座或区域使用的术语“背景”是指在正常细胞或样品中在正常细胞中通常未甲基化的核酸基因座或区域处观察到的甲基化。例如,CpG岛在正常人类细胞中通常被视为未甲基化,但是甲基化并非在正常细胞的CpG岛中完全不存在。

  如本文所用,关于例如CpG基因座中的胞嘧啶的甲基化状态使用的“甲基化”或“甲基化的”通常是指在胞嘧啶残基的5位存在或不存在甲基基团(即,特定的胞嘧啶是否为5-甲基胞嘧啶)。甲基化可直接测定,例如,如通过分析胞嘧啶的甲基化状态的常规方法所证实,例如通过用亚硫酸氢盐处理而测定特定C残基转化成尿嘧啶的灵敏性(或不存在)。例如,将样品用亚硫酸氢盐以预计将会转化未甲基化的残基的方式处理时(例如在将样品中的大部分或全部未甲基化的胞嘧啶转化成尿嘧啶的条件下),样品中未转化成尿嘧啶的胞嘧啶残基一般可被视为“甲基化的”。

  如本文所用,术语“数字PCR”、“单分子PCR”和“单分子扩增”是指被配置成通过单个起始分子提供扩增产物或信号的PCR和其它核酸扩增方法。通常,将样品例如通过序列稀释或通过分配进足够小的部分(例如微室中或乳液中)而分开,使得每个部分或稀释样平均而言具有不超过靶核酸的单个拷贝。单分子PCR的方法在例如以下专利中有所描述:US6,143,496,其涉及一种方法,包括将样品分到多个室中使得至少一个室具有至少一个靶标,然后扩增靶标以确定有多少室具有靶分子;US6,391,559,其涉及用于容纳和分配流体的组合件;以及US7,459,315,其涉及将样品分到具有样品室的组合件中的方法,其中将样品通过表面亲和力分配到室中,然后用可固化的“驱替流体”密封室。另见US6,440,706和US6,753,147,以及Vogelstein等,Proc.Natl.Acad.Sci.USA,第96卷,第9236–9241页,1999年8月。另见US20080254474,该专利描述了与甲基化检测相结合的数字PCR的组合。

  如本文所用,关于诊断测定法例如甲基化测定法使用的“灵敏性”是指临床灵敏性:使用诊断测定法得出阳性结果的阳性样品的比例。灵敏性的计算方式通常为:通过测定法鉴定的真阳性数除以对已知阳性样品进行的测定法确定的真阳性数和假阴性数的总和。相似地,术语“特异性”是指测定法确定的真阴性数除以对已知阴性样品进行的测定法确定的真阴性数和假阳性数的总和的比例。

  如本文关于诊断或分析测定法所用,术语“互补的”是指当一起使用时不同的测定法提供比通过单独使用的不同测定法的任一种所能提供的更灵敏和/或特异的结果。

  如本文所用,术语“信息性的”或“信息量”是指一定质量的某一标记物或一组标记物,并且具体地讲是指在阳性样品中发现某一标记物(或一组标记物)的可能性。

  如本文所用的术语“样品”以其最广泛的含义使用。例如,疑似含有人类基因或染色体或与人类染色体相关的序列的样品包括细胞、从细胞分离的染色体(例如中期染色体涂片)、基因组DNA(在溶液中或结合到固体载体,诸如用于Southern印迹分析)、RNA(在溶液中或结合到固体载体,诸如用于Northern印迹分析)、cDNA(在溶液中或结合到固体载体)等。

  如本文所用,术语“CpG岛”是指相对于平均基因组CpG发生率(每个相同的物种、每个相同的个体或每个亚群(例如族类、种族亚群等))包含高百分比的CpG位点的基因组DNA区域。CpG岛存在多种参数和定义;例如,在一些实施方案中,将CpG岛定义为具有大50%的GC百分比,并具有大于60%的观测/预计CpG比率(Gardiner-Garden等(1987)J Mol.Biol.196:261-282;Baylin等(2006)Nat.Rev.Cancer6:107-116;Irizarry等(2009)Nat.Genetics41:178-186;均以引用方式整体并入本文)。在一些实施方案中,CpG岛可具有>55%的GC含量和0.65的观测CpG/预计CpG(Takai等(2007)PNAS99:3740-3745;以引用方式整体并入本文)。还存在关于CpG岛的长度的多种参数。如本文所用,CpG岛的长度可短于100bp、100-200bp、200-300bp、300-500bp、500-750bp、750-1000bp、1000或更多个bp。在一些实施方案中,CpG岛表现出相对于对照而言改变的甲基化模式(例如,相对于无癌症的受试者在癌症受试者中改变的甲基化;组织特异性改变的甲基化模式;相对于无结直肠新生物的受试者而言在得自具有结直肠新生物(例如结直肠癌、结直肠腺瘤)的受试者的粪便中改变的甲基化)。在一些实施方案中,改变的甲基化涉及高甲基化。在一些实施方案中,改变的甲基化涉及低甲基化。

  如本文所用,术语“CpG海岸”或“CpG岛海岸”是指具有或可能具有改变的甲基化模式的CpG岛外部的基因组区域(参见例如,Irizarry等(2009)Nat.Genetics41:178-186;以引用方式整体并入本文)。CpG岛海岸可表现出相对于对照而言改变的甲基化模式(例如,相对于无癌症的受试者在癌症受试者中改变的甲基化;组织特异性改变的甲基化模式;相对于无结直肠新生物的受试者而言在得自具有结直肠新生物(例如结直肠癌、结直肠腺瘤)的受试者的粪便中改变的甲基化)。在一些实施方案中,改变的甲基化涉及高甲基化。在一些实施方案中,改变的甲基化涉及低甲基化。CpG岛海岸可位于相对于CpG岛的多个区域中(参见例如Irizarry等(2009)Nat.Genetics41;178-186;以引用方式整体并入本文)。因此,在一些实施方案中,CpG岛海岸与CpG岛的距离小于100bp、100-250bp、250-500bp、500-1000bp、1000-1500bp、1500-2000bp、2000-3000bp、3000bp或更多个bp。

  术语“靶标”当关于核酸检测或分析方法使用时是指例如在疑似含有靶核酸的样品中具有待检测或分析的特定核苷酸序列的核酸。在一些实施方案中,靶标是具有希望测定其甲基化状态的特定序列的核酸。当关于聚合酶链反应使用时,“靶标”一般是指被用于聚合酶链反应的引物结合的核酸区域。因此,试图将“靶标”从可能存在于样品中的其它核酸序列中分选出来。“片段”定义为靶序列内的核酸区域。术语“样品模板”是指来源于分析靶标存在性的样品中的核酸。

  如本文所用,术语“基因座”是指在核酸的限定区域或片段(诸如基因或者染色体或RNA分子上的任何其它表征序列)内CpG二核苷酸中例如突变、多态性或C残基的特定位置。基因座不限于任何特定的大小或长度,并可指染色体的一部分、基因、功能遗传元件或单核苷酸或碱基对。如本文关于可甲基化的CpG位点所用,基因座是指CpG二核苷酸中的C残基。

  如本文所用,术语“甲基化比率”是指在多个非正常细胞(例如处于特定疾病状态的细胞,诸如癌细胞或癌前细胞)中特定甲基化区域或基因座(例如标记基因或区域中的CpG基因座)所观察到的甲基化的量或程度与多个正常细胞(例如不处于所关注的特定疾病状态的细胞)中相同区域或基因座所观察到的甲基化的量或程度的比较。例如,对于在正常细胞采样中表现出8.39889%的平均甲基化以及在多个腺瘤细胞的采样中表现出74.0771%的平均甲基化的CpG基因座,甲基化比率可表示为正常细胞:腺瘤细胞测定的平均值的比率或0.11348。甲基化比率不需要以任何特定的方式或通过任何特定的计算来表示。以举例的方式并且不进行限制,上述甲基化比率作为另外一种选择可表示为例如8.39889:74.0771、8.39889/74.0771、74.0771:8.39889;表示为“相对于背景的倍数甲基化”计算值8.81987等等。

  如本文所用,术语“有利的甲基化比率”是指甲基化与细胞状态例如特定的疾病状态(例如正常、癌前、癌状态)相关所处的基因座的甲基化比率,该基因座在和与相同疾病状态相关的其它甲基化基因座相比时在非正常细胞群中展示出的甲基化百分比与正常细胞群中相同基因座处的背景甲基化水平相比更高。在一些情况下,例如在甲基化标记序列内的某些CpG基因座展示出大得多的信噪比,即与背景相比的甲基化程度比相同标记序列中的其它基因座与背景相比的甲基化程度大。在其它情况下,某些疾病相关标记基因或区域展示出与另一标记序列内一些或全部基因座所观察到的甲基化比率相比而在一些或全部基因座处有利的甲基化比率。

  如本文所用,术语“协调甲基化的”关于甲基化基因座(例如标记序列中的CpG基因座)而使用,这些基因座表现出与细胞状态例如特定疾病状态(例如正常、癌前、癌状态)相关的特定甲基化模式。在优选实施方案中,以与疾病状态相关的方式全部甲基化的甲基化基因座可被视为在具有该疾病状态的细胞中协调甲基化。“协调甲基化”不限于其中所有协调基因座均甲基化的情形。在与细胞状态相关的一组特定基因座之中的任何甲基化模式(包括其中所有协调基因座均甲基化的模式,其中基因座表现出甲基化和未甲基化可再现模式的模式,以及其中该组内的基因座均未甲基化的模式)均包括在“协调甲基化”的含义范围内。

  如本文所用,术语“协调甲基化分析”可与“多甲基化分析”互换使用,并指其中对标记序列中各个甲基化基因座(例如CpG基因座)的多个的甲基化状态一起进行测定的测定法。在优选实施方案中,协调甲基化分析采用以下方法进行:数字/单拷贝方法(例如数字测序)或被配置成询问在所测试的每个分子上的所有选定CpG基因座使得揭露出所测试的各单一分子中的甲基化模式的测定方法。

  如本文所用,术语CpG基因座(或其它甲基化基因座)的“限定组”是指被选择用于甲基化分析的标记基因或区域中的一组CpG基因座。标记基因或区域中限定的CpG基因座组可包括该基因或区域中的所有CpG基因座,或者其可包括比该基因或区域中的所有基因座少的基因座。

  如本文所用,术语CpG基因座(或其它甲基化基因座)的“限定亚组”是指标记基因或区域中限定的CpG基因座组的亚组,所述标记基因或区域的甲基化已被确定为指示非正常状态,例如腺瘤或癌症。例如,在确定结直肠癌的存在性的协调甲基化分析中,对至少一个癌症标记核酸中的限定的CpG基因座亚组的甲基化状态进行测定,而在指示样品中的癌症的限定亚组中的所有所述CpG基因座处同时发生甲基化。标记基因或区域中限定的CpG基因座亚组可包括限定组中的所有CpG基因座,或者其可包括比该基因或区域中基因座限定组中的所有基因座少的基因座。

  如本文所用,术语“结直肠癌”旨在包括公认的医学定义,其将结直肠癌定义为特征在于小肠之下肠道的细胞癌症的医学状况(例如大肠(结肠),包括盲肠、升结肠、横结肠、降结肠和乙状结肠以及直肠)。另外,如本文所用,术语“结直肠癌”旨在进一步包括特征在于十二指肠和小肠(空肠和回肠)的细胞癌的医学状况。

  如本文所用,术语“转移”旨在指代其中起源于一个器官或身体部分中的癌细胞迁移到另一身体部分并继续复制的过程。转移的细胞随后形成可进一步转移的肿瘤。转移因此是指癌症从其最初出现的身体部分扩散到其它身体部分。如本文所用,术语“转移的结直肠癌细胞”旨在指代已转移的结直肠癌细胞;位于十二指肠、小肠(空肠和回肠)、大肠(结肠)(包括盲肠、升结肠、横结肠、降结肠和乙状结肠以及直肠)之外的身体部分中的结直肠癌细胞。

  如本文所用,“个体疑似易感转移结直肠癌”旨在指代超过发生转移结直肠癌平均水平的风险中的个体。处于发生转移结直肠癌特定风险中的个体的实例为其家族医疗史表明在家族成员之中结直肠癌发病率高于平均水平的那些个体和/或已经发生结直肠癌并得到了有效治疗因此面临复发和重现风险的那些个体。可造成发生转移结直肠癌的风险高于平均水平因而会导致将个体分类成疑似易感转移结直肠癌的其它因素可基于个体的特定遗传学、医学和/或行为背景和特征。

  如本文所用的术语“新生物”是指任何新的和异常的组织生长。因此,新生物可以是前恶性新生物或恶性新生物。

  术语“新生物特异性标记物”是指可用于指示新生物存在性的任何生物材料。生物材料的实例包括但不限于核酸、多肽、碳水化合物、脂肪酸、细胞组分(例如细胞膜和线粒体)和全细胞。在一些情况下,标记物为特定的核酸区域,例如基因、基因内区域等。为标记物的核酸区域可以例如称为“标记基因”、“标记区域”、“标记序列”等。

  术语“结直肠新生物特异性标记物”是指可用于指示结直肠新生物(例如前恶性结直肠新生物、恶性结直肠新生物)存在性的任何生物材料。结直肠新生物特异性标记物的实例包括但不限于脱落上皮标记物(例如bmp-3、bmp-4、SFRP2、波形蛋白、胞裂蛋白9、ALX4、EYA4、TFPI2、NDRG4、FOXE1、长DNA、BAT-26、K-ras、APC、黑素瘤抗原基因、p53、BRAF和PIK3CA)和大便潜血标记物(例如血红蛋白、α防御素、钙卫蛋白、α1-抗胰蛋白酶、白蛋白、MCM2、转铁蛋白、乳铁蛋白和溶菌酶)。另见US7485420、US7432050、US5352775、US5648212、USRE36713、US5527676、US5955263、US6090566、US6245515、US6677312、US6800617、US7087583和US7267955,它们均以引用方式并入本文。

  另外的标记物包括但不限于下文表1中的那些:

  表1

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  另见Ilana Keshet等,Nature Genetics38,149–153(1February2006)和Gerd P Pfeifer等,Expert Opinion on Medical Diagnostics,September2007,第1卷,第1期,第99-108页,它们每一者均以引用方式并入本文。

  如本文所用,术语“腺瘤”是指腺体起源的良性肿瘤。虽然这些生长是良性的,但是随着时间的推移,它们可逐渐变成恶性的。如本文所用,术语“结直肠腺瘤”是指良性结直肠肿瘤,其中细胞形成可识别的腺体结构或者其中细胞明显来源于腺上皮。

  在核酸背景中的术语“扩增”是指产生多核苷酸或多核苷酸一部分的多个拷贝,通常从少量的多核苷酸(例如单个多核苷酸分子)开始,其中扩增产物或扩增子通常可以检测。多核苷酸的扩增涵盖多种化学和酶法过程。在聚合酶链反应(PCR)或连接酶链反应(LCR;参见例如以引用方式整体并入本文的美国专利号5,494,810)中由靶标或模板DNA分子的一个或几个拷贝生成多个DNA拷贝是扩增的形式。另外的扩增类型包括但不限于等位基因特异性PCR(参见例如以引用方式整体并入本文的美国专利号5,639,611)、装配PCR(参见例如以引用方式整体并入本文的美国专利号5,965,408)、解旋酶依赖性扩增(参见例如以引用方式整体并入本文的美国专利号7,662,594)、热启动PCR(参见例如均以引用方式整体并入本文的美国专利号5,773,258和5,338,671)、序列间特异性PCR(intersequence-specficPCR)、反向PCR(参见例如以引用方式整体并入本文的Triglia等(1988)Nucleic Acids Res.,16:8186)、连接介导PCR(参见例如均以引用方式整体并入本文的Guilfoyle,R.等,Nucleic Acids Research,25:1854-1858(1997);美国专利号5,508,169)、甲基化特异性PCR(参见例如以引用方式整体并入本文的Herman等,(1996)PNAS93(13)9821-9826)、小引物PCR(miniprimer PCR)、多重连接依赖性探针扩增(参见例如以引用方式整体并入本文的Schouten等,(2002)Nucleic AcidsResearch30(12):e57)、多重PCR(参见例如均以引用方式整体并入本文的Chamberlain等,(1988)Nucleic Acids Research16(23)11141-11156;Ballabio等,(1990)Human Genetics84(6)571-573;Hayden等,(2008)BMC Genetics9:80)、巢式PCR、重叠延伸PCR(参见例如以引用方式整体并入本文的Higuchi等,(1988)NucleicAcids Research16(15)7351-7367)、实时PCR(参见例如均以引用方式整体并入本文的Higuchi,等,(1992)Biotechnology10:413-417;Higuchi等,(1993)Biotechnology11:1026-1030)、逆转录PCR(参见例如以引用方式整体并入本文的Bustin,S.A.(2000)J.MolecularEndocrinology25:169-193)、固相PCR、热不对称交错PCR和降落PCR(参见例如均以引用方式整体并入本文的Don等,Nucleic AcidsResearch(1991)19(14)4008;Roux,K.(1994)Biotechniques16(5)812-814;Hecker等,(1996)Biotechniques20(3)478-485)。多核苷酸扩增还可使用数字PCR完成(参见例如均以引用方式整体并入本文的Kalinina等,Nucleic Acids Research.25;1999-2004,(1997);Vogelsteinand Kinzler,Proc Natl Acad Sci USA.96;9236-41,(1999);国际专利公布号WO05023091A2;美国专利申请公布号20070202525)。

  术语“聚合酶链反应”("PCR")是指K.B.Mullis美国专利号4,683,195、4,683,202和4,965,188的方法,这些专利描述了在不用克隆或纯化的情况下增大基因组DNA混合物中靶序列的片段的浓度的方法。这种扩增靶序列的过程包括将大量过剩的两种寡核苷酸引物引入含有所需靶序列的DNA混合物中,然后是在DNA聚合酶存在下精确的热循环序列。两种引物与它们的双链靶序列的相应链互补。要实现扩增,对混合物变性,然后将引物退火到它们在靶分子内的互补序列。在退火后,将引物用聚合酶延伸,以便形成一对新的互补链。变性、引物退火和聚合酶延伸步骤可重复许多次(即,变性、退火和延伸构成一个“循环”;可以存在许多个“循环”)以获得高浓度的所需靶序列的扩增片段。所需靶序列的扩增片段的长度由引物针对彼此的相对位置确定,并因此而言,该长度是一个可控制的参数。借助该过程的重复方面,该方法称为“聚合酶链反应”("PCR")。由于靶序列的所需扩增片段变成混合物中的主要序列(在浓度方面),因此它们被称为“PCR扩增的”并为“PCR产物”或“扩增子”。

  如本文所用,术语“核酸检测测定法”是指测定所关注核酸的核苷酸组成的任何方法。核酸检测测定法包括但不限于DNA测序方法、探针杂交方法、结构特异性裂解测定法(例如INVADER测定法(Hologic,Inc.)在例如美国专利号5,846,717、5,985,557、5,994,069、6,001,567、6,090,543和6,872,816;Lyamichev等,Nat.Biotech.,17:292(1999);Hall等,PNAS,USA,97:8272(2000)以及US2009/0253142中有所描述,它们每一者均以引用方式整体并入本文以用于所有目的)、酶错配切割方法(例如以引用方式整体并入本文的Variagenics美国专利号6,110,684、5,958,692、5,851,770)、聚合酶链反应、支链杂交方法(例如以引用方式整体并入本文的Chiron美国专利号5,849,481、5,710,264、5,124,246和5,624,802)、滚环式复制(例如以引用方式整体并入本文的美国专利号6,210,884、6,183,960和6,235,502)、NASBA(例如以引用方式整体并入本文的美国专利号5,409,818)、分子信标技术(例如以引用方式整体并入本文的美国专利号6,150,097)、电子传感器技术(以引用方式整体并入本文的Motorola美国专利号6,248,229、6,221,583、6,013,170和6,063,573)、循环探针技术(例如以引用方式整体并入本文的美国专利号5,403,711、5,011,769和5,660,988)、Dade Behring信号扩增方法(例如以引用方式整体并入本文的美国专利号6,121,001、6,110,677、5,914,230、5,882,867和5,792,614)、连接酶链式反应(例如Barnay Proc.Natl.Acad.Sci USA88,189-93(1991))以及夹心杂交方法(例如以引用方式整体并入本文的美国专利号5,288,609)。

  如本文所用,关于多核苷酸(即核苷酸序列)所用的术语“互补的”或“互补性”是指通过碱基配对原则相关的多核苷酸。例如,序列"5'-A-G-T-3'"与序列"3'-T-C-A-5'。互补性可以是“部分的”,其中只有一些核酸的碱基根据碱基配对原则匹配。或者,也可在核酸之间存在“完全”或“总”互补性。核酸链之间的互补程度对于核酸链之间的杂交效率和强度具有显著的影响。这在扩增反应以及依赖核酸之间的结合的检测方法中具有尤其重要的意义。

  如本文所用,术语“引物”是指无论天然存在的(如在经纯化的限制性消化物中)还是合成产生的寡核苷酸,当置入诱导与核酸链互补的引物延伸产物的合成所处的条件下时其能够作为合成的引发点(例如,在存在核苷酸和诱导剂诸如生物催化剂(例如DNA聚合酶等)的情况下)。引物通常为单链的以得到最大的扩增效率,但是作为另外一种选择可部分地或完全地为双链的。杂交到模板核酸的引物部分足够长,以在存在诱导剂的情况下引发延伸产物的合成。引物的确切长度将取决于许多因素,包括温度、引物的来源和方法的使用。引物可包含标记、标签、捕获部分等。

  如本文所用,术语“核酸分子”是指含有任何核酸的分子,包括但不限于DNA或RNA。该术语涵盖包括DNA和RNA的任何已知碱基类似物的序列,包括但不限于:4-乙酰基胞嘧啶、8-羟基-N6-甲基腺苷、吖丙啶基胞嘧啶、假异胞嘧啶、5-(羧基羟甲基)尿嘧啶、5-氟尿嘧啶、5-溴尿嘧啶、5-羧甲基氨基甲基-2-硫尿嘧啶、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、肌苷、N6-异戊烯腺嘌呤、1-甲基腺嘌呤、1-甲基假尿嘧啶、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-甲基腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、5-甲氧基氨基甲基-2-硫尿嘧啶、β-D-甘露糖Q核苷(beta-D-mannosylqueosine)、5'-甲氧基羰基甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-N-异戊烯基腺嘌呤、尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸、氧丁氧核苷(oxybutoxosine)、假尿嘧啶、Q核苷(queosine)、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、N-尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸、假尿嘧啶、Q核苷、2-硫胞嘧啶和2,6-二氨基嘌呤。

  如本文所用,术语“核碱基”与用于本领域的其它术语同义,这些术语包括“核苷酸”、“脱氧核苷酸”、“核苷酸残基”、“脱氧核苷酸残基”、“核苷三磷酸(NTP)”或脱氧三磷酸核苷(dNTP)。

  “寡核苷酸”是指包含至少两个核酸单体单元(例如核苷酸)、典型地多于三个单体单元以及更典型地多于十个单体单元的核酸。寡核苷酸的确切大小通常取决于多种因素,包括寡核苷酸的最终功能或用途。为了进一步说明,寡核苷酸的长度典型地短于200个残基(例如,在15和100之间),然而,如本文所用,该术语也旨在涵盖较长的多核苷酸链。寡核苷酸通常通过其长度来表示。例如,24个残基的寡核苷酸称为"24-mer"。通常,核苷单体通过磷酸二酯键或其类似物连接,包括含有相关反离子例如H+、NH4+、Na+(若此类反离子存在)的硫代磷酸、二硫代磷酸、硒代磷酸、二硒代磷酸、苯胺硫代磷酸、苯胺磷酸酯(phosphoranilidate)、磷酰胺。另外,寡核苷酸通常为单链的。寡核苷酸任选地通过任何合适的方法制备,包括但不限于分离已有的或天然的序列、DNA复制或扩增、逆转录、合适序列的克隆和限制性消化、或通过诸如以下的方法直接化学合成:Narang等(1979)Meth Enzymol.68:90-99的磷酸三酯方法;Brown等(1979)MethEnzymol.68:109-151的磷酸二酯方法;Beaucage等(1981)TetrahedronLett.22:1859-1862的二乙基亚磷酰胺方法;Matteucci等(1981)J AmChem Soc.103:3185-3191的三酯方法;自动合成方法;或授予Caruthers等的1984年7月3日公布的名称为"PROCESS FORPREPARING POLYNUCLEOTIDES"的美国专利号4,458,066的固体载体方法或本领域技术人员已知的其它方法。所有这些参考文献以引用方式并入。

  生物聚合物的“序列”是指生物聚合物中单体单元(例如核苷酸、氨基酸等)的顺序和种类。核酸的序列(例如碱基序列)通常以5'至3'方向读取。

  术语“野生型”是指具有从天然存在的来源中分离时的基因或基因产物的特征的基因或基因产物。野生型基因是在群体中最频繁观察到的并因此随意指定为基因的“正常”或“野生型”形式的基因。相比之下,术语“修饰的”、“突变体”和“变体”是指与野生型基因或基因产物相比时展示出序列和/或功能特性修饰(即改变的特征)的基因或基因产物。应当注意到,可以分离天然存在的突变体;这些通过以下事实而加以鉴定:与野生型基因或基因产物相比时具有改变的特征。

  如本文所用,术语“基因”是指包含对于多肽的产生所必需的编码序列的核酸(例如DNA)序列、前体或RNA(例如rRNA、tRNA)。多肽可由全长编码序列或编码序列的任何部分编码,只要保持全长或片段多肽的所需活性或功能特性(例如,酶活性、配体结合、信号转导、免疫原性等)即可。该术语还涵盖结构基因的编码区以及在5'和3'末端上位于编码区附近的序列,距离为在任一末端上约1kb或更大,使得基因对应于全长mRNA的长度。位于编码区5'并存在于mRNA上的序列称为5'非翻译序列。位于编码区3'或下游并存在于mRNA上的序列称为3'非翻译序列。术语“基因”涵盖基因的cDNA和基因组两种形式。基因的基因组形式或克隆包含通过称为“内含子”、“间插区”或“间插序列”的非编码序列中断的编码。内含子是转录成核RNA(例如hnRNA)的基因片段;内含子可以包含调控元件(例如增强子)。内含子从核或初级转录本中移除或“剪除”;因此内含子不存在于信使RNA(mRNA)转录本中。mRNA在翻译过程中起到指定新生多肽中的氨基酸序列或顺序的作用。

  除了含有内含子外,基因的基因组形式还可包含位于RNA转录本上存在的序列的5'和3'末端的序列。这些序列称为“侧翼”序列或区域(这些侧翼序列位于mRNA转录本上存在的非翻译序列的5'或3')。5'侧翼区域可包含控制或影响基因转录的调控序列,诸如启动子和增强子。3'侧翼区域可包含指导转录终止、转录后裂解和多聚腺苷酸化的序列。

  如本文所用,术语“多甲基化”、“序列甲基化”和“特异性甲基化”可互换使用以指代在标记序列中必须甲基化以在协调或多甲基化测定法中调用该甲基化序列的CpG位点或基因座的限定组合。例如,BMP3的CpG位点的特异性甲基化测定法可能需要参考图1A和1B编号的第23、34、53、61、70和74位的CpG位置均发生甲基化,以便将样品归类为在BMP3标记物处甲基化。BMP3的特异性甲基化不限于此特定基因座组,而是可以包括更多、更少或不同集合的CpG基因座。选定为在多甲基化测定法中共分析的CpG基因座优选地例如通过以下方式鉴定:分析正常(非腺瘤、非癌症)样品以鉴定在正常样品中的存在频率较低的CpG甲基化组合。在优选实施方案中,甲基化位点的组合被选择为在癌症和腺瘤样品中产生良好的信噪比(即,在癌症样品中特定基因座组合的平均多甲基化除以正常样品中那些基因座的平均多甲基化得到的值较高)。

  如本文所用,术语“各个”和“平均”甲基化可互换使用以指代下述分析,其中单独地对各CpG基因座进行分析,使得其中碱基发生甲基化的所有分子均被包括在计算内,而不论例如相同标记物中其它基因座的甲基化状态。一般来讲,然后对标记物/区域中所有基因座的甲基化百分比求平均值,以产生该标记物的百分比甲基化图。

  如本文所用,术语“试剂盒”是指用于递送材料的任何递送系统。在反应测定法的背景下,此类递送系统包括允许储存、运输或从一个位置到另一位置递送反应试剂(例如合适容器中的寡核苷酸、酶等)和/或支持性材料(例如缓冲剂、执行测定法的书面说明等)的系统。例如,试剂盒包括装有相关反应试剂和/或支持性材料的一个或多个容器(例如,盒子)。如本文所用,术语“分立试剂盒”是指包括两个或更多个单独的容器而每个容器容纳总试剂盒组成部分的子部分的递送系统。容器可一起或单独地递送给预期的受体。例如,第一容器可容纳用于测定法的酶,而第二容器则容纳寡核苷酸。术语“分立试剂盒”旨在涵盖容纳受《联邦食品、药品和化妆品法案》的第520(e)节管理的分析物特异性试剂(ASR)的试剂盒,但并不限于此。实际上,包括两个或更多个单独容器而每个容器容纳总试剂盒组成部分的子部分的任何递送系统均包括在术语“分立试剂盒”的范围内。相比之下,“组合试剂盒”是指将反应测定法的所有组成部分均容纳在单个容器中(例如,在装有每种所需组成部分的单个盒子中)的递送系统。术语“试剂盒”包括分立和组合试剂盒。

  如本文所用,术语“信息”是指事实或数据的任何集合。关于使用包括但不限于互联网的计算机系统存储或处理的信息,该术语是指以任何格式(例如模拟、数字、光学等)存储的任何数据。如本文所用,术语“与受试者相关的信息”是指属于受试者(例如人、植物或动物)的事实或数据。术语“基因组学信息”是指属于基因组的信息,包括但不限于核酸序列、基因、等位基因频率、RNA表达水平、蛋白表达、与基因型相关的表型等。“等位基因频率信息”是指属于等位基因频率的事实或数据,包括但不限于等位基因种类、等位基因存在性与受试者(例如人类受试者)特征之间的统计关联、等位基因在个体或群体中的存在或不存在、等位基因存在于具有一个或多个特定特征的个体中的百分比可能性等等。

  附图简述

  图1A和1B提供用于本分析中的示例性标记区域的序列和CpG信息。对于各靶基因,区域的天然序列在头一行示出。将会通过亚硫酸氢盐和扩增而转化成Ts的未甲基化C残基显示为T残基。候选甲基化位置在方框中显示。碱基和CpG位置的参考编号在各天然序列上方示出。扩增的引物位置显示为一排带下划线的碱基位置。

  图2A-J提供显示了正常、腺瘤和癌症样品分析的表格,其中在指定标记区域中的各指定CpG位置测定了平均甲基化。对于各标记物,带编号的CpG位置如图1A和1B中的参考编号所指示。在各特定基因座处的平均甲基化显示在正常、腺瘤和癌症样品的各列的底部。各基因座的正常/突变甲基化比率(在各基因座处的甲基化比率)显示在腺瘤和癌症样品数据的各列的底部。在各表格右侧的平均值列指示在各样品的所有指定CpG基因座中甲基化的平均值。在所有正常样品中在所有基因座处的平均值和SD值如得自正常样品的值的各表格下方所指出。

  图3A-I提供显示了正常、腺瘤和癌症样品分析的表格,其中对各样品中的各标记物计算了在图2A-J中指出的所有CpG基因座中的平均甲基化。对于图3A中的正常样品,指出了各标记物的平均值、标准偏差和平均值+2或3个标准偏差。对于腺瘤和癌症样品,图3B和3C中阴影单元格指出阳性结果,反映为该标记物的平均甲基化值,该值大于在正常样品中针对该标记物测定的平均甲基化+3个标准偏差。

  图3D和3E显示了将腺瘤和癌症DNA20倍稀释进正常DNA的计算出的影响,图3F和3G显示了计算的10倍稀释,而图3H和3I显示了计算的5倍稀释。在各计算的稀释中,将标记物的平均甲基化除以20、10或5,加到该标记物的正常DNA的平均甲基化。图3D-3I中的阴影单元格指出该标记物的平均甲基化值,该值大于在正常样品中针对该标记物测定的平均甲基化+2个标准偏差(97.5%的特异性)。

  在图3B-3I每一者的下方,指出了在该图的样品类型和稀释中各标记物的阳性值的百分比。得出波形蛋白、BMP3、胞裂蛋白9和TFPI2标记物至少一者的阳性信号的样品的百分比在各图的底部指出。

  图4A和4B提供用于本发明分析中的示例性基因的序列和CpG信息。包括在用于在结直肠腺瘤和癌症样品中进行协调甲基化分析的限定的CpG基因座亚组内的各标记基因中的CpG基因座以黑色背景和白色字体显示。

  图5A-I提供显示了正常、腺瘤和癌症样品分析的表格,其中在指定标记区域中的各指定CPG位置处测定了甲基化(即,对样品测定了在限定亚组内的所有CpG基因座处展示出甲基化的DNA拷贝百分比)。在图4A和4B中指出的限定亚组内的每个CpG基因座处测试了各标记物,并且百分比甲基化数据反映在所有测试的CpG基因座处具有甲基化的标记物拷贝的百分比(协调甲基化或“多甲基化”分析)。对于图5A中的正常样品,指出了各标记物的平均甲基化、标准偏差和平均值+2或3个标准偏差。对于腺瘤和癌症样品,图5B和5C中阴影单元格指出阳性结果,反映为该标记物的多甲基化值,该值大于在正常样品中针对该标记物测定的平均多甲基化+3个标准偏差。

  图5D和5E显示了将腺瘤和癌症DNA20倍稀释进正常DNA的计算出的影响,图5F和5G显示了计算的10倍稀释,而图5H和5I显示了计算的5倍稀释。在各计算的稀释中,将标记物的平均多甲基化除以20、10或5,加到该标记物的正常DNA的平均多甲基化。图5D-5I中的阴影单元格指出该标记物的平均多甲基化值,该值大于在正常样品中针对该标记物测定的平均多甲基化+2个标准偏差(97.5%的特异性)。

  在图5B-5I每一者的下方,指出了在该图的样品类型和稀释中各标记物的阳性值的百分比。得出波形蛋白、BMP3、胞裂蛋白9和TFPI2标记物至少一者的阳性信号的样品的百分比在各图的底部指出。

  图6显示了对腺瘤和癌症样品中各标记物计算出的百分比阳性值进行比较的表格和坐标图,如所示,使用单独/平均甲基化或多甲基化分析方法在各指定的计算稀释下测试各指定的标记物。

  图7显示了对腺瘤和癌症样品中测定的百分比阳性值进行比较的表格和坐标图,测定中使用在这些样品中具有最低平均背景的四个标记物(波形蛋白、BMP3、胞裂蛋白9、TFPI2),使用单独/平均甲基化或多甲基化分析方法,在稀释进正常DNA的各指定计算稀释下进行。

  具体实施方式

  本发明的实施方案在此概述和以引用方式并入此处的上文的“发明概述”中加以描述。虽然已结合具体实施方案对本发明进行了描述,但是应当理解,要求保护的本发明不应不当地限于此类具体实施方案。

  本发明涉及测定和使用指示腺瘤和癌的特异性甲基化模式的方法和组合物。具体地讲,本发明涉及对得自癌症和腺瘤样品的DNA中协调甲基化的限定的CpG基因座亚组的分析,用于鉴定协调甲基化基因座的方法,以及在腺瘤和癌症的测定法设计中使用对一个或多个标记物或区域中协调甲基化基因座进行分析的方法,所述方法具有改善的灵敏性和特异性。

  本发明涉及以下观察结果:在其甲基化状态指示细胞状态例如癌、癌前、正常状态等的标记核酸内,在非正常细胞中的各个甲基化基因座例如CpG基因座的亚组通常展示出相对于在正常细胞中相应基因座处观察到的背景甲基化水平更大程度的甲基化,而在非正常细胞中的其它甲基化基因座可表现出与背景水平更接近的甲基化水平。在一些实施方案中,将相对于正常细胞的多个癌细胞或癌前细胞中特定基因座观察到的甲基化程度表示为甲基化比率。

  本发明的一些实施方案涉及筛选已知的或疑似的标记基因,以鉴定相对于背景甲基化表现出更大的疾病相关甲基化比率的特定甲基化基因座,如与其它标记基因或相同标记基因中的其它基因座相比。在一些优选实施方案中,本发明涉及协调甲基化分析,以测量标记分子或样品在所有选定的基因座表现出甲基化的程度。

  本发明涉及对腺瘤样品或癌症样品中数量足够大的各个DNA分子内的甲基化标记物(或此类标记物内的靶区域)中各个限定的CpG基因座组进行甲基化状态分析,以鉴定与相同腺瘤或癌症样品中的其它基因座相比具有有利甲基化比率的限定的CpG基因座亚组。在样品中具有有利甲基化比率的限定的CpG基因座亚组可包括特定标记物或标记物靶区域中的整组CpG基因座,或者其可比标记物表征区域中的所有CpG基因座少。

  分析标记物甲基化状态的常规方法通常涉及分析一群混合的分子。例如,扩增样品中的标记核酸通常产生来自于靶分子的许多拷贝的扩增子混合物。如果扩增条件不是基因变体选择性的,则扩增在产物包含变体和正常或野生型DNA的混合物。即使引物为突变或特定甲基化位点特异性的,当从衍生自许多细胞的靶DNA的许多拷贝扩增DNA时,也会在所得的扩增子中的其它碱基位置存在异质性。如果对这些混合的扩增子直接测序,则所得的序列图谱揭露混合群体的共有序列,而存在于群体小部分中的特定序列或突变基本上无法检测。虽然一些研究人员已对得自此类扩增的各个克隆进行了测序以研究得自混合物的各个分子的序列信息,但是只对分子中的少数进行了分析并且汇集的数据未能表明以下任一情况:标记物内的任何特定基因座可预测地表现出与相同靶标内的其它甲基化基因座相比有利的甲基化比率,或具有有利化的基因座的协调分析可用于改善测定法在检测新生物中的特异性和灵敏性。本发明的一个方面基于以下观察结果:从正常和非正常样品两者中极大量的各个分子收集甲基化比率信息揭露出标记区域或序列中的一些甲基化基因座表现出非正常细胞中与背景相比的甲基化程度比相同标记区域或基因中其它各个基因座与背景相比的甲基化程度更大。在具有更大的与背景相比的甲基化水平的非正常序列中的这些基因座可被视为尤其有利的,因为它们易于鉴定高于在正常细胞中观察到的背景甲基化水平。此优势的一个方面在于,对这些特定基因座的分析允许以更高的灵敏性并在更大的正常细胞背景中鉴定癌症相关甲基化。

  本发明还涉及以下观察结果:多个基因座的协调分析在尤其是也可包含大量正常细胞的样品中进行癌或癌前细胞鉴定时提供明显提高水平的灵敏性。例如,图6对检测腺瘤和癌细胞的灵敏性进行比较。对于各指定的标记基因,将甲基化确定为标记区域中的平均值(例如,在基因座26、37、40、45、52、54、59、63和74的全部中波形蛋白标记物中的平均甲基化;参见图3A-I),指定为“各个”平均甲基化;或确定为在选定基因座的亚组的全部中展示出甲基化的分子的百分比(例如,在基因座37、40和45中所有三个处波形蛋白标记物中的甲基化;参见图5A-I),即多个各个基因座的协调甲基化分析,指定为“多个”。相同样品的灵敏性也以稀释进正常DNA的计算5、10或20倍稀释而显示。图6显示了,虽然测定法灵敏性可在不稀释而直接从组织分析的DNA中相似,但是由于在更大的稀释下得自正常DNA的背景量增大,因此协调甲基化分析表现出远比平均甲基化分析灵敏。例如,在胞裂蛋白9的分析中,当分析标记物中的平均甲基化时,腺瘤和癌症样品只能在未稀释和5倍稀释度下检测到高于背景,而使用基因座37、40和45的协调甲基化分析时,这些相同的样品可在20倍稀释下以高于约69-74%的灵敏性以及在10倍稀释下以90-93%的灵敏性检测。

  在一些实施方案中,本发明提供用于设计鉴定疾病状态的甲基化测定法的方法,包括:I)选择至少一个供分析的序列;II)测定正常细胞群和非正常细胞群中该序列内多个基因组的甲基化状态以测定各正常和非正细胞中所述多个基因座中每一个的平均甲基化率;以及III)鉴定所述多个基因座中至少两个具有有利甲基化比率的基因座。

  I.序列选择。已鉴定了多种疾病状态的与特定疾病状态相关的甲基化标记物。例如,结直肠新生物特异性标记物包括例如bmp-3、bmp-4、SFRP2、波形蛋白、胞裂蛋白9、ALX4、EYA4、TFPI2、NDRG4、FOXE1、长DNA、BAT-26、K-ras、APC、黑素瘤抗原基因、p53、BRAF和PIK3CA。另外的标记物包括但不限于上文表1中的那些。分析候选甲基化基因座以鉴定具有有利甲基化比率的那些可包括分析靶序列中的每个基因座(例如每个CpG)或者可包括分析甲基化基因座的亚组。在一些实施方案中,CpG通过其在特定甲基化热点中的位置而选择用于分析,而在其它实施方案中,用于分析的基因座可便利地相对于引物结合位点或其它序列特征而定位。图1A提供新生物相关标记物的示例性选择,其中CpG基因座中的每个C残基由方框指示。对于每个靶基因,区域的天然序列在头一行中显示,而将会在亚硫酸氢盐转化和扩增后出现的未甲基化和甲基化DNA的序列在下面显示。将会通过亚硫酸氢盐和扩增转化成T残基的未甲基化C残基显示为Ts。

  在一些实施方案中,本发明提供核酸检测测定法协调分析样品中的多个有利基因座的用途,从而测定样品中细胞的疾病状态。

  II.测定选定序列中基因座的甲基化比率。如上所讨论,测定基因座的甲基化比率包括测定正常细胞群中该基因座的平均甲基化率以及测定非正常细胞群中相同基因座处的平均甲基化率。如上所述,对混合核酸例如从得自混合细胞群的未分离DNA(诸如从多细胞组织样品纯化的DNA)产生的扩增子进行常用的标记基因甲基化分析方法。虽然一些研究已经分析了由未分离的样品DNA制成的扩增子的独立拷贝,但是分析的克隆数通常太小而不能揭露序列内各个CpG基因座处甲基化比率的明显或可再现差异。例如,在结直肠癌中的高度甲基化基因的比较中,Zou等只分析了得自每个样品的六个克隆(Zou等,Cancer Epidemiol Biomarkers Prev2007;16(12):2686),而Weisenberg等已对其进行了使用。本发明包括各个DNA分子的大规模分析,例如通过对各个DNA分子直接测序或通过对克隆扩增的DNA测序。

  虽然本发明不限于任何特定方法,但是克隆扩增核酸独立拷贝的方法(例如使用PCR)可用于得自正常和非正常样品的大量各个标记物的快速分析。单分子扩增方法可包括使用微室、乳化反应、固体载体上的“桥式PCR”或用于分开来自各个靶分子的扩增产物的多种既定方法中的任何一种。在单分子扩增后,可对扩增子测序。

  对各个分子测序的改进方法直接避免了将分子克隆进细胞的需要,或在一些方法中在测序前进行克隆扩增的需要。无需克隆进细胞使得能明显更有效地分析大得多的分子集合。用于各个分子测序的平台包括454FLXTM或454TITANIUMTM(Roche)、SOLEXATM/Illumina基因组分析仪(Illumina)、HELISCOPETM单分子测序仪(HelicosBiosciences)、离子个人基因组仪器(Ion Torrent)和SOLIDTMDNA测序仪(Life Technologies/Applied Biosystems),以及其它正在由诸如Intelligent Biosystems和Pacific Biosystems的公司开发的平台。虽然生成序列信息所借助的化学过程对于不同的下一代测序平台有所不同,但是它们都具有在同时运行的测序反应中从极大量的各个测序模板生成序列数据的共同特征。使用例如流动池、化学或光学传感器和/或扫描仪采集反应中的数据,并使用生物信息学软件装配和分析序列。

  在某些优选实施方案中,本发明提供使用数字测序而分析甲基化标记物的方法,以鉴定具有与相同标记物中的其它基因座相比为统计上显著有利的甲基化比率的新生物相关甲基化基因座。在优选实施方案中,以高度或大规模平行的方式进行数字测序,从而在鉴定具有有利甲基化比率的CpG甲基化位点中提供更高的精度。

  对于上文所述的大规模平行数字测序方法,对每个分子分析每个CpG基因座处的甲基化,因此可在实验运行后分析在任何CpG基因座组合中具有甲基化的DNA拷贝的百分比。另外,可对每个特定的标记序列(例如每个靶核酸分子或克隆扩增子)询问许多次,例如至少100次,有时超过1000次,并在一些情况下超过100,000次,或多达500,000次。因此,可以揭露出将在一小部分各个靶分子的分析中无法检测的指示癌症或腺瘤的协调甲基化模式。

  III.选择甲基化基因座亚组用于协调分析

  如上所述,在得自正常样品和非正常样品(例如腺瘤或癌症样品)的大量标记DNA拷贝中测定一组CpG基因座的甲基化状态揭露出在标记基因或区域中的某些CpG基因座往往可能协调甲基化。另外,设计询问多个CpG基因座(其协调甲基化指示样品中的腺瘤或癌症)的核酸检测测定法可提供与探查整个标记基因中的平均百分比甲基化的测定法相比具有改善信噪比的测定法。

  选择CpG基因座亚组的一个方面包括选择已通过使用例如数字分析方法被确定为协调甲基化的基因座。另一方面包括选择当将正常DNA与腺瘤或癌症DNA相比时被确定为具有有利甲基化比率的CpG基因座。测定法的设计可以但不必利用与相同标记物中的其它基因座相比具有最有利甲基化比率的CpG基因座。在一些实施方案中,选择多个CpG基因座作为亚组包括选择具有最有利的甲基化比率的多个基因座。在其它实施方案中,选择多个CpG基因座作为亚组包括选择具有最有利的甲基化比率的基因座,然后选择至少另外的相对于第一选定基因座便利定位的CpG基因座以配置特定的核酸检测测定法(例如,选择彼此特别接近的CpG基因座以配置侵入式裂解测定法、连接测定法、扩增测定法等)以便在单个测定法中询问靶DNA拷贝上所有选定的CpG基因座。在一些实施方案中,对CpG基因座的候选亚组进一步分析以测定在那些候选基因座处协调甲基化的得自非正常样品的标记DNA的拷贝百分比,以及在正常样品中具有很少或无协调甲基化的拷贝百分比。

  分析样品以检测腺瘤或癌症

  甲基化分析的常规方法(例如常规甲基化特异性PCR、实时甲基化特异性PCR,参见例如US5,786,146、6,017,704、6,200,756、6,265,171)通常以非数字方式分析,例如分析衍生自DNA靶核酸的共扩增分子的混合物,使得扩增产物的分析提供序列信息,该信息反映扩增子群体中的聚合或平均甲基化状态,但不提供关于在多个CpG基因座的全部中具有协调甲基化的起始分子的百分比的信息。在一些情况下,研究人员已分析了多个克隆的扩增子,其可揭露靶标记基因内的CpG基因座中甲基化的多样性。然而,对各个克隆测序未提供足够的数据以揭露CpG基因座特定亚组的统计显著性协调甲基化。

  与常规方法相比,我们力图以大规模平行数字测序方式分析甲基化标记基因,以鉴定与新生物(腺瘤和癌)相关的特定CpG基因座的统计显著性协调甲基化。该分析方法使得我们能够:

  1.对样品分析标记基因中的协调甲基化作为检测新生物的手段,而无需测试任何遗传(突变)标记物

  2.对样品分析多个标记基因中的协调甲基化作为检测新生物的手段,而无需测试任何遗传(突变)标记物

  我们决定了对大量通过从结直肠腺瘤、结直肠癌、正常结直肠上皮或其它GI癌活检获得的组织样品使用“数字”测序并对若干基因内的多个特定区域测序。这种类型的测序提供各甲基化基因的甲基化模式。对于第一运行,我们具有9个正常组织、38个腺瘤和36个癌症样品,它们具有以下标记物:波形蛋白、BMP3、胞裂蛋白9、TFPI2、LRAT的2个区域和EYA4。

  令人惊讶的是,我们发现了在其中一些基因中,在正常样品中观察为甲基化的背景在序列中随机分布,而与癌症和腺瘤相关的甲基化则不。因此,如果某些规则适用,例如,如果所有C残基a、b和c必须在诊断测定法中甲基化,则在该序列中的所有三个位置表现出甲基化的DNA拷贝数与在所述位置的亚组中展示出甲基化的DNA拷贝数相比而言减少。在所测试的其中一些标记基因或区域中,在所有选定的位点展示出甲基化的正常DNA中的DNA拷贝数的减少比在得自癌症和/或腺瘤样品的DNA中的DNA拷贝数的减少下降程度更大,从而导致明显提高的特定信号与背景噪声的比率。对于某些基因,得自正常DNA的背景通过使用多甲基化(协调甲基化)分析而显著降低,而在得自癌症和腺瘤DNA的信号中未观察到等同的降低。对于其它基因,采用多甲基化分析时在正常样品中的背景降低较少和/或得自癌症DNA的信号也降低,使得存在较少的或不存在信噪比的净改善并且使用多甲基化分析实现的优势较少。在多甲基化分析中具有良好信噪比的基因易于通过经验确定。

  通过本文提供的多甲基化数据(参见例如图2A-J),可:

  a.鉴定基因序列内给出更高程度的正常与非正常(例如癌症和腺瘤)细胞区分的区域;

  b.鉴定具有更大信噪比(非正常细胞信号与正常细胞背景相比)的特定基因;

  c.鉴定具有更大信噪比的特定甲基化基因座;

  d.鉴定在腺瘤和癌症样品中但不在正常样品中协调甲基化的特定甲基化基因座,使得检测这些基因座的协调甲基化是腺瘤或癌症的灵敏指标;

  e.鉴定具有极低背景甲基化的基因,从而允许以较低的测定法灵敏性降低在正常DNA中更大倍数地稀释甲基化DNA;

  f.鉴定在诊断学上彼此互补的基因,当将这些基因结合分析时产生与单独分析的基因相比灵敏性提高和/或特异性提高的诊断信息。

  g.鉴定在提高的特异性下给出提高的灵敏性的基因组合,例如在100%的特异性下对于癌症和腺瘤100%的灵敏性。

  实验实施例

  实施例1

  使用数字PCR和测序鉴定在癌症和腺瘤样品中甲基化的特异性CpG基因座亚组

  将从冷冻组织样品提取的DNA用EPITECT亚硫酸氢盐转化试剂盒(Qiagen)处理以将未甲基化的胞嘧啶转化成尿嘧啶。甲基化的胞嘧啶保持未转化。对各序列设计各基因区域的引物,使得扩增产物的组成保持与原始靶序列相同并以相等的效率扩增甲基化和未甲基化的序列。含dU的转化DNA的扩增产生具有用T残基替代dU残基的扩增子。然后制备扩增子以在Illumina仪器上测序。对于各组织样品,由亚硫酸氢盐处理的DNA的相同样品准备各靶标的扩增反应。

  测序后,对数据进行定量分析作为与Sanger测序相似的平均甲基化,但是精度和分辨率更高,因为由各个分子计算各位置的组合信号。针对各扩增子序列,对一组CpG基因座评估在不同组织中的百分比甲基化,以鉴定在癌症和/或腺瘤样品中比在正常组织中更频繁共甲基化的基因座亚组。

  Illumina测序方案:

  测序根据Illumina基因组分析仪IIx、GAIIx、数据采集软件2.5版和Pipeline分析软件1.5版推荐的程序进行。简而言之,Illumina程序包括:a)通过附连允许索引、流动池附连、扩增和测序的已知序列标签而由样品DNA制备文库;b)将文库附连到流动池表面;c)桥式扩增以产生衍生自单分子的DNA片段簇;以及d)在使用经标记的可逆终止子的迭代引物延伸反应中测序,以测定每个扩增子簇的核苷酸序列。参见例如具有补充方法和数据的Bentley等,Nature456,53-59(6Nov.r2008)/doi:10.1038/nature07517,该文献以引用方式并入本文。使用独特的标签序列进行索引允许在单个流动池中分析多个样品。参见例如以引用方式并入本文的Craig等,Nat.Methods Nat Methods.2008Oct;5(10):887-93(Epub14Sept.2008)。

  样品组:N=82,由从42例结直肠癌、31例癌前腺瘤和9例正常结肠粘膜提取的组织DNA组成。

  流动池配置

  将样品按总共7道每道12个进行索引。流动池由8道组成,其中一条道专用于phiX质量控制。

  文库制备:

  将得自患者的组织提取DNA用亚硫酸氢盐处理,并进行了使用初始材料的大约10,000个基因组拷贝的2步扩增。第一轮使用了标记序列特异性的加尾(T1)(Illumina)引物。这些尾巴是通过Illumina得到的第二轮所需的序列。第二轮(T2)(Illumina)PCR使用在T1中添加的Illmuna尾巴特异性的引物,并结合索引、测序引物和流动池附连序列。在文库制备期间,对样品进行了多个qPCR校验,以确保文库中的所有扩增子以等摩尔存在。

  引物设计:

  设计了具有转化的非CpG胞嘧啶的区域特异性的正向和反向引物(使用例如MethPrimer软件),以按非甲基化特异性方式扩增特定生物标记物位点的每一个。当CpG胞嘧啶无法在引物设计中加以避免时,将简并混合物(C/T;G/A)用于引物中的那些位点。如果需要查询一级扩增子(primary amplicon)之外的附加序列,则可以设计附加的引物。如果无法避免靶序列中的CpG,则引物可在CpG位点处结合简并碱基(BiSearch软件)。

  第二轮PCR的引物包含用于Illumina流动池附连的序列(桥式扩增位点)、测序引物位点(用于样品读取)、索引位点和测序引物位点(用于索引读取)。每个引物组(x)具有12个不同的索引标签,总共12x组。对转化的未甲基化DNA(例如人类DNA)和转化的甲基化DNA进行索引无关引物组(n=x)的优化。例如,对DNA进行扩增、纯化(例如使AMPURE处理(Agencourt))并在Agilent2100生物分析仪上运行以评估扩增核酸的大小和量。

  实验步骤:

  DNA分离和亚硫酸氢盐转化:

  1)使用DNAZOL(Invitrogen)或QIAAMP试剂盒(Qiagen)从组织提取并纯化DNA,并通过使用Nanodrop ND-1000分光光度计(ThermoScientific)由吸光度(A230/A260/A280)测量浓度和纯度。将PICOGREEN荧光(Molecular Probes)与TECAN F-200(Tecan)酶标仪相结合用于表现出高A230值的高值样品。

  2)必要时使用Speedvac蒸发浓缩仪(Thermo Scientific)将样品调节到至少200ng/μL的浓度。

  3)对于各样品,将2ug DNA用EPITECT96孔板(Qiagen)进行亚硫酸氢盐处理。

  4)通过吸光度和OLIGOGREEN荧光(Molecular Probes)评估了回收率,使用未转化DNA特异性的含胞嘧啶的非CpG引物通过定量PCR评估了转化效率。转化效率经确定为大于99%。

  第一轮PCR:

  5)使用标记物特异性(T1)引物组在具有30ng DNA的反应中扩增了84个样品。所用的循环数为每个标记物组特定的并通过对甲基化和未甲基化DNA的初始控制反应从经验上加以确定。循环数大约设定在平均计算Ct值。例如,将以下循环数用于指定的标记物:

  TFPI12;26个循环

  SEPT9;27个循环

  BMP3;28个循环

  VIM;28个循环

  EYA4;29个循环

  6)使用AMPURE珠(Agencourt)通过在EB缓冲液(Qiagen)中洗脱而对得自各反应的扩增产物进行了纯化。

  7)使用T2引物组,如上所述通过qPCR对每个标记物的产物进行了定量。制备了对于各样品含有等量生物标记物的母板。

  第二轮PCR:

  8)然后将第一轮样品通过12个T2索引引物进行了扩增。

  9)再次对各反应的产物进行了纯化并使用qPCR测量了浓度,这次,采用流动池特定的引物和使用PhiX对照DNA的序列稀释创建的标准曲线。

  最终文库制备:

  10)将每块板的12列以等摩尔比例合并到1个主列中。将1uL各文库上样到高灵敏性DNA芯片(Agilent)上并在生物分析仪以上运行。还通过PhiX标准品在480LightCycler(Roche)上进行了最终qPCR。

  11)在Illumina仪器上对文库进行了测序,并获得了每个样品各标记物的序列数据。

  12)针对每个样品的各标记物,计算了各CpG位点的平均甲基化。参见图2A-J。

  13)针对每个样品的各标记物,计算了在各标记物中限定的CpG基因座亚组内的所有CpG基因座处发生了甲基化的分子的百分比。参见图5A-I。

  在上述说明书中提到的所有出版物和专利以引用方式并入本文。本发明的所述方法和系统的各种修改形式和变型形式将在不脱离本发明范围和精神的情况下对本领域的技术人员显而意见。虽然已结合具体优选实施方案对本发明进行了描述,但是应当理解,受权利要求书保护的本发明不应不当地限于此类具体实施方案。实际上,对相关领域技术人员显而易见的对实践本公开的所述模式的各种修改旨在包括在以下权利要求书的范围内。

  

  

  

  

  

  

《DNA甲基化的数字序列分析.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)