欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 用于鉴定候选生物标志物的方法独创技术371498字

用于鉴定候选生物标志物的方法

2021-03-06 15:42:06

用于鉴定候选生物标志物的方法

  交叉引用

  本申请要求以下临时申请的权益:2017年11月11日提交的美国临时申请No.62/421,182;2017年2月22日提交的美国临时申请No.62/462,320;2017年6月19日提交的美国临时申请No.62/522,052;2017年6月20日提交的美国临时申请No.62/522,636;以及2017年11月3日提交的美国临时申请No.62/581,581,每个临时申请以引用的方式整体并入本文中。

  发明背景

  从健康进展至疾病会伴随有循环和患病组织中蛋白质表达的复杂变化。人蛋白质组大规模的比较询问可以提供对疾病生物学的了解,以及发现用于诊断的新生物标志物、用于治疗剂的新标靶,并能够鉴定最可能从治疗中获益的患者。

  发明内容

  本文中提供了使用免疫标记的识别肽鉴定候选生物标志物的方法、装置和测定。在一方面,提供了一种用于鉴定疾患的至少一种候选蛋白质生物标志物的方法。在一些方面,所述方法、装置和测定提供对自身免疫性疾病的至少一种候选生物标志物的鉴定,其包括:(a)提供肽阵列并使来自多个已知患有所述自身免疫性疾病的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽的集合,所述识别肽区别自身免疫性疾病与至少一种不同健康状况;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定所述自身免疫性疾病的至少一种候选生物标志物。

  在一些方面,所述方法、装置和测定还包括获得重叠分数,其中所述分数对肽阵列上肽的组成进行校正。在其它方面,对所鉴定的蛋白质中的每一种蛋白质的分级是相对于由比对非识别肽所鉴定的蛋白质的分级进行的。在其它方面,所鉴定的候选生物标志物是根据p值小于10-3而分级。

  在其它方面,鉴定所述识别肽集合的步骤包括:(i)检测来自多个患有自身免疫性疾病的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同健康状况;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有自身免疫性疾病的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  在一些方面,识别肽包含与阵列上的剩余肽相比至少100%地富集的一种或多种序列基序。在其它方面,第一结合信号组合包含比来自第二结合信号组合的信号低的信号。在一些方面,所述区别结合信号集合是通过检测来自患有自身免疫性疾病的受试者的样品中存在的抗体和来自一个或多个参考受试者群组的样品中的抗体与包含至少10,000种不同肽的肽阵列上的至少25种肽的结合来获得。在其它方面,识别肽的数目与阵列上肽总数的至少一部分相对应。在一些方面,区别自身免疫性疾病与至少一种不同健康状况的方法性能是由在0.60至0.70、0.70至0.79、0.80至0.89或0.90至1.00范围内的接收器工作特性(ROC)曲线下面积(AUC)来表征。

  在一些情况下,本文公开的方法、装置和测定中靶向的自身免疫性疾病为硬皮病(SSc),且参考受试者群组为健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图8A中列出的一种或多种序列基序。在一些情况下,自身免疫性疾病为硬皮病,且参考受试者群组为健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图8B中列出的一种或多种氨基酸。在其它情况下,自身免疫性疾病为SSc,且参考受试者群组为健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽包含表3中提供的清单中的至少一种肽。

  在其它情况下,在本文公开的方法、测定和装置中鉴定的识别肽包含图8A中提供的一种或多种序列基序,其中识别肽区别来自患有SSc的受试者与健康受试者的样品的抗体结合。在其它情况下,肽是选自图8C中提供的清单。

  在一些情况下,所述方法、装置和测定提供了选自表3中提供的清单的SSc的候选生物标志物,其中所述候选生物标志物预测相对于健康受试者群体的SSc发生率。

  在其它情况下,本文公开的方法、装置和测定靶向的自身免疫性疾病为SLE,且参考受试者群组为健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图62A中列出的一种或多种序列基序。在一些情况下,自身免疫性疾病为SLE,且参考受试者群组为健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图62B中列出的一种或多种氨基酸。在其它情况下,自身免疫性疾病为SLE,且参考受试者群组为健康受试者,且选择区别第一结合信号组合与第二结合信号组合的识别肽,其包含图90中提供的清单中的至少一种肽。在其它情况下,自身免疫性疾病为SLE,且参考受试者群组为健康受试者,且其中至少一种候选生物标志物是选自图75A中提供的清单。

  在一方面,所述方法、装置和测定提供一种识别肽集合,其中所述识别肽包含图62A中提供的一种或多种序列基序,其中所述识别肽区别来自患有SLE的受试者与健康受试者的样品的抗体结合。在一些情况下,肽是选自图90中提供的清单。

  在其它方面,所述方法、装置和测定提供了选自图75A中提供的清单的SLE的候选生物标志物,其中所述候选生物标志物预测相对于健康受试者群体的SLE发生率。

  在一些情况下,本文公开的方法、装置和系统中靶向的自身免疫性疾病为SLE,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图63A中列出的一种或多种序列基序。在一些方面,自身免疫性疾病为SLE,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图63B中列出的一种或多种氨基酸。在其它方面,自身免疫性疾病为SLE,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且选择区别第一结合信号组合与第二结合信号组合的识别肽,其包含图91中提供的清单中的至少一种肽。在其它方面,自身免疫性疾病为SLE,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且其中至少一种候选生物标志物是选自图75B中提供的清单。

  在一些方面,本文公开的方法、装置和测定提供一种识别肽集合,其中所述识别肽包含图63A中提供的一种或多种序列基序,其中所述识别肽区别来自患有SLE的受试者与患有其它自身免疫性和非自身免疫性模拟疾病的受试者的样品的抗体结合。在一些情况下,肽是选自图91中提供的清单。

  在其它情况下,本文公开的方法、装置和测定提供了选自图75B中提供的清单的SLE的候选生物标志物,其中所述候选生物标志物预测相对于患有其它自身免疫性和非自身免疫性模拟疾病的受试者群体的SLE发生率。

  在一些方面,本文公开的方法、装置和测定中靶向的自身免疫性疾病为SLE,且参考受试者群组为患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图64A中列出的一种或多种序列基序。在一些情况下,自身免疫性疾病为SLE,且参考受试者群组为患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图64B中列出的一种或多种氨基酸。在其它情况下,自身免疫性疾病为SLE,且参考受试者群组为其它自身免疫性、非自身免疫性模拟疾病和健康受试者,且选择区别第一结合信号组合与第二结合信号组合的识别肽,其包含图92中提供的清单中的至少一种肽。在其它情况下,自身免疫性疾病为SLE,且参考受试者群组为其它自身免疫性、非自身免疫性模拟疾病和健康受试者,且其中至少一种候选生物标志物是选自图75C中提供的清单。

  在其它方面,本文公开的方法、装置和测定提供一种识别肽集合,其中所述识别肽包含图64A中提供的一种或多种序列基序,其中所述识别肽区别来自患有SLE的受试者与其它自身免疫性、非自身免疫性模拟疾病和健康受试者的样品的抗体结合。在一些情况下,肽是选自图92中提供的清单。

  在一方面,本文公开的方法、装置和测定提供了选自图75C中提供的清单的SLE的候选生物标志物,其中所述候选生物标志物预测相对于其它自身免疫性、非自身免疫性模拟疾病和健康受试者群体的SLE发生率。

  在其它情况下,本文公开的方法、装置和测定中靶向的自身免疫性疾病为RA,且参考受试者群组为健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图76A中列出的一种或多种序列基序。在一些情况下,自身免疫性疾病为RA,且参考受试者群组为健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图76B中列出的一种或多种氨基酸。在其它情况下,自身免疫性疾病为SLE,且参考受试者群组为健康受试者,且选择区别第一结合信号组合与第二结合信号组合的识别肽,其包含图93中提供的清单中的至少一种肽。在一些方面,自身免疫性疾病为RA,且参考受试者群组为健康受试者,且其中至少一种候选生物标志物是选自图87A中提供的清单。

  在一方面,本文公开的方法、装置和测定提供一种识别肽集合,其中识别肽包含图76A中提供的一种或多种序列基序,其中识别肽区别来自患有RA的受试者与健康受试者的样品的抗体结合。在一些实施方案中,肽是选自图93中提供的清单。

  在其它方面,本文公开的方法、装置和测定提供了选自图87A中提供的清单的RA的候选生物标志物,其中所述候选生物标志物预测相对于健康受试者群体的RA发生率。

  在一些方面,本文公开的方法、装置和测定中靶向的自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图78A中列出的一种或基序。在一些情况下,自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图78B中列出的一种或氨基酸。在其它情况下,自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者,且选择区别第一结合信号组合与第二结合信号组合的识别肽,其包含图95中提供的清单中的至少一种肽。在其它情况下,自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者,且其中至少一种候选生物标志物是选自图87C中提供的清单。

  在一些方面,本文公开的方法、装置和测定提供一种识别肽集合,其中所述识别肽包含图78A中提供的一种或多种序列基序,其中所述识别肽区别来自患有RA的受试者与患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者的样品的抗体结合。在一些情况下,肽是选自图95中提供的清单。

  在其它方面,本文公开的方法、装置和测定提供了选自图87C中提供的清单的RA的候选生物标志物,其中所述候选生物标志物预测相对于患有其它自身免疫性、非自身免疫性模拟疾病的受试者和健康受试者群体的RA发生率。

  在其它情况下,本文公开的方法、装置和测定中靶向的自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图79A中列出的一种或多种氨基酸。在其它情况下,自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图79B中列出的一种或多种氨基酸。在其它情况下,自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且其中至少一种候选生物标志物是选自图87B中提供的清单。在其它情况下,自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且选择区别第一结合信号组合与第二结合信号组合的识别肽,其包含图94中提供的清单中的至少一种肽。在其它情况下,自身免疫性疾病为RA,且参考受试者群组为患有其它自身免疫性和非自身免疫性模拟疾病的受试者,且其中至少一种候选生物标志物是选自图87B中提供的清单。

  在一方面,本文公开的方法、系统和测定提供一种识别肽集合,其中所述识别肽包含图79A中提供的一种或多种序列基序,其中所述识别肽区别来自患有RA的受试者与患有其它自身免疫性和非自身免疫性模拟疾病的受试者的样品的抗体结合。在一些情况下,肽是选自图94中提供的清单。

  在其它方面,本文公开的方法、系统和测定提供了选自图87B中提供的清单的RA的候选生物标志物,其中所述候选生物标志物预测相对于患有其它自身免疫性和非自身免疫性模拟疾病的受试者群体的RA发生率。

  本文还公开了用于鉴定感染的至少一种候选生物标志物的方法、系统和测定,其包括:(a)提供肽阵列并使来自多个已知患有或疑似患有感染的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽的集合,所述识别肽集合显示出能够区别对所述感染性疾病呈血清阳性的样品与对所述感染性疾病呈血清阴性的样品的结合信号;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定自身免疫性疾病的至少一种候选生物标志物。在一些方面,所述方法、系统和测定还包括获得重叠分数,其中所述分数对肽文库的肽组成进行校正。在一些情况下,对所鉴定的蛋白质中的每一种蛋白质的分级是相对于由比对随机挑选的非识别肽鉴定的蛋白质的分级进行的。在其它情况下,所鉴定的候选生物标志物是根据p值小于10-3而分级。

  在一些情况下,鉴定所述识别肽集合的步骤包括:(i)检测来自多个已知患有或疑似患有感染的受试者的样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测抗体与相同肽阵列的肽的结合,所述抗体存在于来自一个或多个参考受试者群组的样品中,鉴定与来自所述受试者的生物样品中的抗体结合的识别肽的集合,所述识别肽集合显示出能够区别对所述感染性疾病呈血清阳性的样品与对所述感染性疾病呈血清阴性的样品的结合信号;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有自身免疫性疾病的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  在一些情况下,识别肽包含与阵列上的剩余肽相比至少100%地富集的一种或多种序列基序。在其它情况下,识别肽包含与阵列上的剩余肽相比至少100%地富集的一种或多种氨基酸。在其它情况下,第一结合信号组合包含比来自第二结合信号组合的信号低的信号。在其它实施方案中,所述区别结合信号集合是通过检测来自患有或疑似患有感染的受试者的样品中存在的抗体和来自一个或多个参考受试者群组的样品中的抗体与包含至少10,000种不同肽的肽阵列上的至少25种肽的结合来获得。在一方面,识别肽的数目与阵列上肽总数的至少一部分相对应。在其它方面,区别自身免疫性疾病与至少一种不同健康状况的方法性能由在0.60至0.70、0.70至0.79、0.80至0.89或0.90至1.00范围内的接收器工作特性(ROC)曲线下面积(AUC)来表征。

  在一些方面,感染是选自寄生虫感染。在一些情况下,感染为克氏锥虫(T.cruzi)感染,且所述方法区别对克氏锥虫呈血清阳性的受试者与对克氏锥虫呈血清阴性的受试者。在一方面,患有或疑似患有所述感染的受试者无克氏锥虫感染的症状。在另一方面,患有或疑似患有所述感染的受试者有克氏锥虫感染的症状。在其它情况下,患有或疑似患有克氏锥虫感染的受试者和参考受试者无任何感染性疾病的症状。在一方面,区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图36B-图36F中列出的一种或多种基序。在另一方面,区别第一结合信号组合与第二结合信号组合的识别肽至少100%地富集图36A中列出的一种或多种氨基酸。在其它方面,选择区别第一结合信号组合与第二结合信号组合的识别肽,其包含图48A-图48N中提供的清单中的至少一种肽。在其它方面,至少一种候选生物标志物是选自表6和表7中提供的清单。

  在一些情况下,本文公开的方法、系统和测定提供一种识别肽集合,所述识别肽集合区别来自对克氏锥虫呈血清阳性的受试者与对克氏锥虫呈血清阴性的受试者的样品中的抗体的结合,其中所述识别肽包含图36B-图36F中提供的一种或多种序列基序。在一些情况下,肽是选自图48A-图48N中提供的清单。在其它方面,肽包含与克氏锥虫感染的活动度相关的肽。

  在一方面,本文公开的方法、装置和测定提供克氏锥虫感染的候选生物标志物,其中所述生物标志物是选自表6和表7中提供的生物标志物,且其中所述候选生物标志物鉴定对克氏锥虫呈血清阳性的受试者。

  本文还公开了用于鉴定指示自身免疫性疾病活动度的至少一种候选生物标志物的方法、测定和装置,其包括:(a)提供肽阵列并使来自多个已知患有自身免疫性疾病的受试者的多个生物样品与所述肽阵列接触;(b)鉴定与生物样品中的抗体结合的识别肽的集合,其中与识别肽的结合与已知疾病分数相关,且其中与识别肽的结合还使抗体结合的变化与已知疾病分数的变化相关;(c)将所述的识别肽的集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定指示自身免疫性疾病活动度的至少一种候选生物标志物。

  在一方面,鉴定所述相关性肽的集合的步骤包括:(i)检测来自多个患有在对应的已知第一疾病分数下的自身免疫性疾病的受试者的样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测在后来的时间和在对应的已知至少第二疾病分数下从相同多个受试者收集的样品中的抗体与相同肽阵列的肽的结合,以至少获得所述受试者中的每一个受试者的第二结合信号组合;(iii)将第一结合信号组合和第一已知疾病分数与第二结合信号组合和至少第二疾病分数比较;以及(iv)鉴定显示出(i)第一结合信号组合与至少第二组合之间的变化与(ii)每个受试者的已知疾病分数的对应变化之间的相关性的肽;从而鉴定所述相关性肽的集合。

  在其它方面,第一结合信号组合与第一已知疾病分数相关,且其中第二结合信号组合与第二疾病分数相关。在其它方面,自身免疫性疾病包含全身性红斑狼疮(systemiclupus erythematosus,SLE)、类风湿性关节炎、舍格伦病(Sjogren’s disease)、多发性硬化、溃疡性结肠炎、牛皮癣性关节炎、硬皮病和/或I型糖尿病。在其它方面,自身免疫性疾病为全身性红斑狼疮(SLE)。在其它情况下,识别肽与SLE疾病活动度分数和/或如由SLEDAI分数所定义的狼疮疾病活动度分数的变化相关。在一方面,所述识别肽集合超过100%地富集图60A-图60G中列出的一种或多种序列基序或氨基酸。在其它情况下,所述识别肽集合包含图61中提供的肽中的一种或多种。在其它方面,候选生物标志物是选自表11中提供的生物标志物的集合。在其它方面,第一结合信号组合包含比来自第二结合信号组合的信号低的信号。在其它方面,所述识别肽集合是通过检测来自受试者的样品中存在的抗体与包含至少10,000种不同肽的肽阵列上的至少25种肽的结合来获得。在一些情况下,识别肽的数目与阵列上肽总数的至少一部分相对应。

  在一些方面,本文公开的方法、测定和装置提供一种识别肽集合,其中所述识别肽包含图60A-图60G中提供的一种或多种序列基序,其中所述识别肽与SLE疾病活动度分数和/或如由SLEDAI分数定义的SLE疾病活动度分数的变化相关。在一些情况下,肽是选自图61中提供的清单。

  在一方面,本文公开的方法、测定和装置提供一种用于预测存在和/或SLE疾病活动度的候选生物标志物,其中所述候选生物标志物为选自表11中的清单的蛋白质或其片段。

  以引用的方式并入

  本说明书中所提及的所有公布、专利和专利申请都以引用的方式并入本文中,其引用程度如同特别且个别地指示各个别公布、专利或专利申请以引用的方式并入一般。

  附图说明

  本专利或申请文件含有至少一个以彩色制作的图。在提出请求并交纳必要费用的情况下,具有彩色图式的本专利或专利申请公布的拷贝将由官方提供。

  本发明的新颖特征在随附权利要求书中详细地阐述。通过参考阐述其中利用本发明的原理的例示性实施方案的以下详细说明和以下附图,将更好地了解本发明的特征和优点。

  图1展示了免疫标记的抗体结合阵列肽的检测。

  图2展示了用于所公开的实施方案中的例示性肽阵列的示意图。

  图3展示了显示自身蛋白/抗原如何引起免疫标记在肽微阵列中的上调和下调的路径。

  图4展示了5倍交叉验证的支持向量机(SVM)过程。

  图5为SSc的临床表现和生理症状的清单。

  图6为用于评定SSc诊断和评定的临床症状清单的一实例。

  图7展示了多发性肌炎和皮肌炎的临床表现和症状的清单,以及两者的临床区别标准。

  图8展示了当比较患有SSc的患者与健康受试者时获得的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单;以及由比较来自SSc患者的样品与来自健康受试者的样品所获得的前50种识别肽的清单(C)。

  图9为图8中所见的结果的图示。

  图9A为通过肽结合强度,描绘区别患有硬皮病(SSc)的受试者与健康对照者的火山图。来自硬皮病患者的样品间的平均强度与对照患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图9B展示了用于鉴定硬皮病患者与健康对照者的硬皮病免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图9C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供五倍交叉验证的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建硬皮病对比健康对照者的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图10展示了当比较经诊断患有SSc和其它自身免疫性病症的患者时获得的所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图11为图10中所见的结果的图示。

  图11A为通过肽结合强度,描绘区别患有硬皮病(SSc)的受试者与其它自身免疫性模拟疾病(“其它AI”)的火山图。来自硬皮病患者的样品间的平均强度与患有其它自身免疫病症的患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图11B展示了用于鉴定硬皮病患者与其它自身免疫性疾病的硬皮病免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图11C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供四倍交叉验证的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建硬皮病对比其它自身免疫性病症的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图12展示了在当比较经诊断患有SSc的患者与处于肾危象中的患者时获得的免疫标记中所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图13为图12中所见的结果的图示。

  图13A展示了通过肽结合强度,描绘区别患有硬皮病(SSc)的具有肾危象的受试者与患有SSc的无肾危象的受试者的火山图。来自患有硬皮病的具有肾危象的患者的样品间的平均强度与患有SSc的无肾危象的患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图13B展示了用于鉴定患有硬皮病的具有肾危象的患者与患有SSc的无肾危象的受试者的硬皮病免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图13C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供四倍交叉验证的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建具有肾危象的硬皮病对比无肾危象的SSc的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图14展示了描绘当比较经诊断患有SSc与胃窦血管扩张症(GAVE)的患者时获得的免疫标记中的最高识别肽的表进行比较时在免疫标记中所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图15为图14中所见的结果的图示。

  图15A展示了通过肽结合强度,描绘区别患有硬皮病(SSc)的具有胃窦血管扩张症(GAVE)的受试者与患有SSc的无GAVE的受试者的火山图。来自患有硬皮病的具有GAVE的患者的样品间的平均强度与患有SSc的GAVE的患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图15B展示了用于鉴定患有硬皮病的具有GAVE的患者与患有SSc的无GAVE的受试者的硬皮病免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图15C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供四倍交叉验证的ROC曲线(+/-95%CI)下面积。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建具有GAVE的硬皮病对比无GAVE的SSc的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图16展示了当比较经诊断患有SSc和DM的患者时获得的免疫标记中所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图17为图16中所见的结果的图示。

  图17A展示了通过肽结合强度,描绘区别患有硬皮病(SSc)的受试者与患有皮肌炎(DM)的受试者的火山图。来自DM患者的样品间的平均强度与DM患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图17B展示了用于鉴定硬皮病患者与DM患者的硬皮病免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图17C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供四倍交叉验证的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建硬皮病对比DM的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图18展示了当比较经诊断患有SSc和间质性肺病(ILD+)的患者与诊断患有SSc但无间质性肺病(ILD-)的患者时获得的免疫标记中所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图19为图18中所见的结果的图示。

  图19A展示了通过肽结合强度,将患有硬皮病(SSc)的具有间质性肺病(ILD)(ILD+)的受试者与患有SSC的无ILD(ILD-)的受试者的区别可视化的火山图。来自患有硬皮病-ILD+的患者的样品间的平均强度与患有SSC ILD-的患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图19B展示了用于鉴定患有硬皮病的ILD+患者与患有SSc的ILD-受试者的硬皮病免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图19C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供四倍交叉验证的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建SSc ILD+对比SSc ILD-的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图20展示了当比较经诊断患有DM的患者与健康受试者时获得的免疫标记中所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图21为图20的图示。

  图21A展示了通过肽结合强度,描绘区别患有皮肌炎(DM)的受试者与健康对照者的火山图。来自DM患者的样品间的平均强度与对照患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图21B展示了用于鉴定DM患者与健康对照者的DM免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图21C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供四倍交叉验证的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建DM对比健康对照者的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图22展示了当比较经诊断患有DM的患者与诊断患有其它自身免疫性病症的患者时获得的免疫标记中所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图23为图22的图示。

  图23A展示了通过肽结合强度,描绘区别患有皮肌炎(DM)的受试者与患有其它自身免疫性模拟疾病(“其它AI”)的受试者的火山图。来自硬皮病患者的样品间的平均强度与患有其它自身免疫病症的患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图23B展示了用于鉴定患有皮肌炎(DM)的受试者与患有其它自身免疫性模拟疾病(“其它AI”)的受试者的DM免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图23C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供四倍交叉验证的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建DM对比其它自身免疫性病症的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图24展示了当比较经诊断患有DM和间质性肺病(ILD+)的患者与诊断患有DM但无间质性肺病(ILD-)的患者时获得的免疫标记中所鉴定的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)的清单。

  图25为图24的图示。

  图25A展示了通过肽结合强度,描绘区别患有皮肌炎(DM)的具有间质性肺病(ILD)(ILD+)的受试者与患有DM的无ILD(ILD-)的受试者的火山图。来自患有DM的ILD+患者的样品间的平均强度与患有DM的ILD-患者中的平均强度的比率相对于来自t检验的均数差的p值绘图。

  图25B展示了用于鉴定患有DM的具有ILD的患者与患有DM的无ILD的受试者的DM免疫标记模型的ROC曲线。绿线(顶部)指示分级器(中间)的上95%置信区间且红线(底部)指示下95%置信区间。灵敏度估计为检验提供90%特异度,且特异度估计为检验提供90%灵敏度。准确度估计为匹配灵敏度与特异度的阈值。

  图25C展示了与输入大小有关的ROC估计-为不同输入肽大小的模型提供五倍交叉证实的ROC曲线下面积(+/-95%CI)。肽基于t检验来选择,且顶部k个特征用于支持向量机以构建DM ILD+对比DM ILD-的分级器。在交叉验证环内进行特征选择和模型构造以防偏倚。

  图26展示针对沿着RNA Pol II子单元L aa位置绘制的IMS肽-子基序的比对计算的肽重叠差异分数s(A),和显示人蛋白质组中的每种蛋白质对比SSc对比健康分类肽的蛋白质表位分数S的分布的直方图(B)。

  图27展示了表示沿着CCL22的蛋白质序列,区别患有SSc的具有GAVE的受试者与患有SSc的没有GAVE的受试者的IS识别肽的比对频率的直方图。

  图28展示了表示单克隆抗体(mAb)标准(4C1(图28A)、p53Ab1(图28B)、p53Ab8(图28C)和LnkB2(图28D)与阵列上的同源表位对照特征的结合的条形图。一组标准单克隆抗体以2.0nM一式三份地施加于阵列。对于每种单克隆抗体,同源对照特征的平均log10 RFI用于计算Z分数。Z分数单独针对每个对照特征绘图,其中个别单克隆抗体作为个别条柱绘图。误差条表示个别对照特征Z分数的标准偏差。在每个条形图上方提供每种mAb的已知表位。

  图29展示了将显示在恰加斯氏病血清阳性受试者与恰加斯氏病血清阴性受试者之间显著不同的抗体结合信号的文库肽集合可视化的火山图。作为t检验p值对比信号强度平均值的对数差(比率对数)的联合分布,火山图用于评定此区别。在每个标定位置处肽的密度通过热标度指示。通过免疫标记技术(IST),在针对多样性应用邦弗朗尼调整之后,在95%置信度下,在绿色虚线上方的356种肽区别阳性疾病与阴性疾病。色环指示通过p<4e-7的邦弗朗尼阈值(绿色)或者<10%的伪发现率(蓝色),具有与克氏锥虫ELISA获得的信号比截止值(S/CO)值显著相关的强度的个别肽。大部分S/CO相关性肽位于IST邦弗朗尼白色虚线上方。

  图30展示了由恰加斯氏病分类对比供体S/CO值显示的信号强度模式。热图将区别恰加斯氏病血清阳性供体与恰加斯氏病阴性供体的370种文库肽的信号强度的范围排序,其中次条形图将这些与每个供体的ELISA S/CO值相关联。

  图31展示了免疫标记测定(IST)区别恰加斯氏病血清阳性供体与恰加斯氏病血清阴性供体的性能。(图31A)2015训练队列的接收器工作特性(ROC)曲线。蓝色曲线是通过计算100个四倍交叉验证试验中袋外预测的中值而产生。(图31B)2016验证队列的ROC曲线。蓝色曲线是通过应用训练集获得的算法而产生,以预测2016样品。在训练队列中通过供体的自助重采样来估计置信区间(CI),以灰色显示,且在验证队列中通过DeLong法(DeLong ER等人,Biometrics44:837-845[1988])来估计。

  图32展示了恰加斯氏病鉴定诊断分类的性能。病例为恰加斯氏病阳性且对照由具有西尼罗河病毒、B型肝炎和C型肝炎的受试者的组合组成。接收器工作特性曲线由100个4倍交叉验证试验的袋外预测估计。

  图33展示了来自前370种肽的比对分数针对所有恰加斯氏病蛋白质的直方图(以蓝色条柱描绘)。用370种随机挑选的文库肽的10个同等比对重复映射算法。所产生的每个直方图示为彩虹色线图。

  图34展示了文库分类肽与克氏锥虫蛋白抗原家族的类似性水平的表示。前370种肽与黏蛋白II GPI附着位点的比对表示为条形图,其中条柱由每个比对位置处的氨基酸组成替代,使用标准单字母代码。x轴指示黏蛋白II蛋白中比对位置处的保守氨基酸。y轴表示分类肽对该氨基酸位置的覆盖范围。一个位置处所有字母的高度是每个位置处的绝对数比对,其中单一氨基酸采纳的每个字母条的百分比等于该位置处比对的组成百分比。

  图35展示了恰加斯氏病、B型肝炎、C型肝炎和西尼罗河病毒类别分派的概率。通过来自四倍交叉验证分析的袋外预测,使用多类别SVM机械分类器,迭代100次,计算每个样品的平均预测概率。针对在0(黑色)至100%(白色)范围内的每个疾病类别,每个样品具有预测的类别成员。

  图36展示了在区别感染恰加斯氏病的血清阳性受试者的样品与来自对恰加斯氏病呈血清阴性的受试者(健康)的样品的前1000种识别肽中最富集的最高氨基酸(A)和子基序(B-F)。

  图37展示了在区别感染恰加斯氏病的受试者的样品与来自一组感染HBV、HCV和WNV的受试者的样品的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)。

  图38展示了在区别感染HBV的受试者的样品与来自一组感染恰加斯氏病、HCV和WNV的受试者的样品的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)。

  图39展示了在区别感染HCV的受试者的样品与来自一组感染HBV、恰加斯氏病和WNV的受试者的样品的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)。

  图40展示了在区别感染WNV的受试者的样品与来自一组感染HBV、HCV和恰加斯氏病的受试者的样品的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)。

  图41展示了在区别感染恰加斯氏病的受试者的样品与来自感染HBV的受试者的样品的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)。

  图42展示了在区别感染恰加斯氏病的受试者的样品与来自感染HCV的受试者的样品的前1000种识别肽中最富集的最高子基序(A)和氨基酸(B)。

  图43展示了在区别感染恰加斯氏病的受试者的样品与来自感染WNV的受试者的样品的前1000种识别肽中最富集的子基序(A)和氨基酸(B)。

  图44展示了在区别感染HBV的受试者的样品与来自感染HCV的受试者的样品的前500种识别肽中富集的子基序(A)和氨基酸(B)。

  图45展示了在区别感染HBV的受试者的样品与来自感染WNV的受试者的样品的前1000种识别肽中富集的子基序(A)和氨基酸(B)。

  图46展示了在区别感染HCV的受试者的样品与来自感染WNV的受试者的样品的前500种识别肽中最富集的子基序(A)和氨基酸(B)。

  图47展示了在将来自感染恰加斯氏病、HCV、HBV和WNV的受试者的样品彼此相区别的通过多类别分类器确定的前1000种识别肽中最富集的子基序(A)和氨基酸(B)。

  图48(A-N)展示了区别血清阳性恰加斯氏病样品与血清阴性恰加斯氏病样品的识别肽的序列。

  图49展示了用于评定全身性红斑狼疮诊断和评定的临床和实验室表现的SLEDAI评分表(A-B)。

  图50展示了通过种类,即症状缓解、轻度、中度和重度(A),以及用于产生免疫标记的抽血数目(B)示出的SLEDAI分数的分布。

  图51展示了区别活动性SLE疾病与非活动性SLE疾病的肽的火山图。y轴为针对患有活动性SLE的供体与非活动性SLE(SLEDAI=0)内的供体之间每种肽的平均强度的差异的t检验的p值。x轴展示了患有活动性SLE的供体的平均肽强度与患有非活动性SLE的供体的平均肽强度的比率。比色刻度尺指示在假设的p值和比率的组合下肽的数目。在p=4e-7下的绿色虚线指示针对多样性测试的邦弗朗尼校正;具有较小p值(超过此线)的肽各有超过95%的可能在患有活动性疾病的供体当中的平均强度与患有非活动性疾病的供体的平均值不同。

  图52展示了与SLEDAI指数中阐述的多种生物标志物(如抗dsDNA、UPCR(尿蛋白/肌酐比率)和C3蛋白)相比,疾病活动度的免疫标记(IMS)模型的接收器工作特性(ROC)曲线。

  图53示出两个热图。在顶部热图中,彩色指示与患有非活动性SLE的供体当中的平均强度相比,在具体供体的血清中测量的肽的相对强度。所述图包括基于成对样品的SLEDAI与肽强度之间的强相关和SLEDAI的变化和肽强度的变化之间的强相关所选择的702种肽(表11)。矩阵的每列是具体的肽,其中肽已经群集,从而跨越供体具有类似的强度概况的肽集合在一起。矩阵的每行是具体的供体,其中供体已经通过增加SLEDAI分数而集合。矩阵中的每个点指示具体供体的血清中具体肽的相对强度。具有较高强度的肽以黄色阴影显示,意指其比在来自患有非活动性疾病的供体的样品(SLEDAI=0)中平均观察到的抗体结合更多的与具体肽的抗体结合。在下部热图中,呈现上面热图中所示的702种肽中的每种肽的组成,其中比色刻度尺指示每种肽内每个氨基酸出现的次数。

  图54展示了使用映射已知和推定的SLE抗原的免疫标记(IMS)肽的方法的一实例。图54(A)展示了重叠分数的分布;图54(B)展示了映射已知蛋白质NGRN的肽的比对;且图54(C)展示了通过肽比对和其细胞定位所鉴定的已知和候选生物标志物的实例。

  图55展示了一个直方图,其示出了如通过根据四倍交叉验证法估计的ROC曲线下面积(AUC)所测量,一系列分类器模型使用由活动性对比非活动性SLE的对比所鉴定出的识别肽将供体的疾病正确地分类为活动性或非活动性的能力。所述模型使用如x轴上指示的活动性疾病的逐步严格的定义,使得第一个模型应用于SLEDAI为零或超过二的供体,而最后一个模型只应用于SLEDAI为零或超过15的供体。当SLE活动度的定义较严格时,模型更准确地将供体分类,这表明区别具有较高活动度的供体与症状缓解的那些供体(非活动性疾病)比区别具有包括轻度活动度的较大范围疾病活动度的供体与症状缓解的供体更容易。

  图56在图左侧展示了在症状缓解(非活动性疾病)、轻度、中度和重度SLE的患者中免疫标记(IMS)的预测能力与测量的SLEDAI分数的相关性。右上方的表将具有四种SLEDAI水平(症状缓解、轻度、中度或重度)的被IMS分类为症状缓解、轻度、中度或重度的供体的分数的清单。分类之间的一致性以绿色突出。该表在右下角比较IMS预测的准确度和其与SLEDAI的相关性与以下已知的SLEDAI生物标志物的准确度和相关性:抗dsDNA、C3、C4和UPCR。所述数据例示免疫标记模型能够与这些标准生物标志物一样或比其更佳地估计SLEDAI分数。

  图57展示了针对免疫标记(IMS)(图57)和三种已知的SLEDAI生物标志物C3(图57B)、抗dsDNA(图57C)和UPCR(图57D),在来自在不同时间获取的相同患者样品的成对抽血的血清中测定的抗体结合免疫标记的变化(y轴)与在相同时间内SLEDAI的变化(x轴)的相关性。这通过将SLEDAI分数的变化针对在识别肽中获得的肽强度的弹性网模型拟合来进行。数据表明抗体结合的变化相比于其它生物标志物的变化与SLEDAI的变化更密切相关。

  图58A-C展示了针对以下三种模型,在来自在不同时间获取的相同患者样品的成对抽血的血清中测定的抗体结合免疫标记的变化(y轴)与在相同时间内SLEDAI的变化(x轴)的相关性:一种模型使用三种已知生物标志物的组合测量、一种模型仅仅使用免疫标记(IMS)和一种模型使用IMS与三种生物标志物组合。与三种生物标志物相比,仅仅IMS的SLEDAI与模型预测r2之间的相关性显著更高,且当IMS与生物标志物组合时比三种标记物或者仅仅IMS更高。

  图59使用图56中使用的相同格式,进一步证明与症状缓解相比,免疫反应的差异随着SLEDAI分数增加而增加。在此分析中,每个供体的抽血已经分成两组:在研究期间供体的SLEDAI处于其最大值时获取的抽血,和所有其它抽血。在前一组上训练模型(网格线),然后在后一组上测试(实心)。在所有情况下,通过AUC,在后一组上的性能在训练组的95%置信区间内。

  图60A-60G展示了与来自SLEDAI分数的诊断相关的肽中富集的肽子基序和氨基酸。

  图61展示了列出与SLEDAI分数相关的702种显著肽的前50种肽的表格。

  图62展示了区别全身性红斑狼疮(SLE)样品与健康供体(HC)样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图63展示了区别SLE样品与一组作为自身免疫性和非自身免疫性模拟疾病的其它疾病(其它AI+非AI模拟)的肽中富集的肽子基序(A)和氨基酸(B)。

  图64展示了区别SLE样品与“非SLE”样品的肽中富集的肽子基序(A)和氨基酸(B),“非SLE”样品为其它自身免疫性疾病、非自身免疫性模拟疾病和健康对照者的样品。

  图65展示了区别SLE样品与类风湿性关节炎(RA)组样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图66展示了区别SLE样品与骨关节炎(OA)组样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图67展示了区别SLE样品与纤维肌痛(FM)组样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图68展示了区别SLE样品与舍格伦病(SS)组样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图69展示了将显示显著区别SLE样品与来自健康供体的样品的抗体结合信号的文库肽可视化的火山图(A);将显示显著区别SLE样品与“其它AI+非AI模拟”组的受试者的样品的抗体结合信号的文库肽可视化的火山图(B);并展示了将显示显著区别SLE样品与“非SLE”组的受试者的样品的抗体结合信号的文库肽可视化的火山图(C)。

  图70展示了文氏图,其展示每个对比通过邦弗朗尼截止值的肽和所有对比共有的478种肽的分布。

  图71展示了在SLE健康供体测定中在95%置信水平下5倍交叉验证性能(Y轴)作为输入识别肽的数目(特征,即肽的数目;x轴)的函数的图。

  图72展示了接收器工作特性曲线下面积(AUC),其作为区别SLE样品与HC、其它AI+非AI模拟疾病和“非SLE”组,即其它AI+非AI模拟+HC的测定性能。在每个组中,左侧的条柱表示区别仅仅SLE与所指示疾患的性能,且右边的条柱表示区别混合SLE的混合物和其它AI样品的性能。

  图73展示了用于鉴定诊断SLE与RA、舍格伦病、OA和纤维肌痛的测定性能。

  图74展示了使用同时区别每种疾病与剩余其它疾病的混合物的多重分类器的测定性能。

  图75展示了通过区别SLE与健康受试者(A)、一组患有其它自身免疫性疾病或自身免疫性模拟疾病(其它AI+非AI模拟)的受试者(B)和所表示的“非SLE”组(C)的肽鉴定的最高候选生物标志物。

  图76展示了区别RA样品与健康供体(HC)样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图77展示了区别RA样品与来自其它风湿性疾病的样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图78展示了区别RA样品与由来自其它AI+非AI模拟和HC(C)的样品表示的“非RA”组的肽中富集的肽子基序(A)和氨基酸(B)。

  图79展示了区别RA样品与其它AI+非AI模拟组的肽中富集的肽子基序(A)和氨基酸(B)。

  图80展示了区别RA样品与OA组样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图81展示了区别RA样品与FM组样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图82展示了区别RA样品与SS组样品的肽中富集的肽子基序(A)和氨基酸(B)。

  图83A展示了将显示显著区别RA样品与来自健康供体的样品的抗体结合信号的文库肽可视化的火山图。

  图83B展示了将显示显著区别RA样品与“其它AI+非AI模拟”组受试者的样品的抗体结合信号的文库肽可视化的火山图。

  图83C展示了将显示显著区别RA样品与“非RA”组受试者的样品的抗体结合信号的文库肽可视化的火山图。

  图84展示了文氏图,其展示每个对比通过邦弗朗尼截止值的肽和所有对比共有的491种肽的分布。

  图85展示了接收器工作特性曲线下面积(AUC),其作为区别RA样品与HC、其它AI+非AI模拟疾病和“非RA”,即其它AI+非AI模拟+HC的测定性能。在每个组中,左侧的条柱表示区别仅仅RA与所指示疾患的性能,且右边的条柱表示区别混合RA的混合物与其它AI+非AI模拟样品的性能。

  图86展示了用于鉴定诊断RA与SLE、舍格伦病、OA和纤维肌痛的测定性能。

  图87展示了通过区别RA与健康受试者(A)、来自一组患有其它自身免疫性疾病(其它AI+非AI模拟疾病)的受试者的RA(B)和由来自其它AI+非AI模拟和HC的样品表示的“非RA”组(C)的肽鉴定的候选生物标志物。

  图88展示了将SLE、RA、FM、OA、SS和HC彼此同时区别的肽中富集的肽子基序(A)和氨基酸(B)。

  图89展示引手SLE、RA、FM、OA、SS和HC类别分配的概率可视化的热图。每个样品针对在0(黑色)至100%(白色)范围内的每个疾病类别具有预测的类别成员。

  图90展示了区别SLE样品与健康(HC)组样品的最高显著肽。

  图91展示了区别SLE样品与其它自身免疫性和非自身免疫性模拟疾病(其它AI+非AI)组样品的最高显著肽。

  图92展示了区别SLE样品与非SLE(非SLE-其它AI+非AI+HC)组样品的最高显著肽。

  图93展示了区别RA样品与健康(HC)组样品的最高显著肽。

  图94展示了区别RA样品与其它自身免疫性和非自身免疫性模拟疾病(其它AI+非AI)组样品的最高显著肽。

  图95展示了区别RA样品与非RA(非RA-其它AI+非AI+HC)组样品的最高显著肽。

  具体实施方式

  所公开的实施方案涉及用于鉴定候选生物标志物、尤其蛋白质生物标志物的方法、设备和系统,所述候选生物标志物可用于诊断受试者中的疾病和疾患、尤其是癌症、自身免疫性疾病和感染性疾病、预后、监测疾病活动度和筛选所述疾病和疾患和/或可用作治疗所述疾病和疾患的标靶的。候选生物标志物的鉴定是基于发现肽阵列上存在的识别肽预测,所述识别肽可以通过样品中存在的抗体的结合模式,区别来自具有不同健康状况的不同受试者的样品。

  除非本文中另外定义,否则本文中使用的所有技术和科学术语都具有与本发明所属领域的一般技术人员通常所了解的含义相同的含义。包括本文中所包括的术语的多种科学词典是本领域技术人员众所周知的并可以利用的。虽然与本文所述的方法和材料类似或同等的任何方法和材料都可以用于实践或测试本发明,但描述一些优选的方法和材料。

  数值范围包括界定该范围的数字。意图在本说明书通篇给出的每个最大数值限度包括每个较低数值限度,如同此类较低数值限度在本文中明确地写出一般。在本说明书通篇给出的每个最低数值限度包括每个较高数值限度,如同此类较高数值限度在本文中明确地写出一般。在本说明书通篇给出的每个数值范围将包括在此类较宽数值范围内的每个较窄数值范围,如同此类较窄数值范围在本文中明确地写出一般。

  本文提供的标题不限制本发明的多个方面或实施方案,这些方面或实施方案可以通过总体上参考说明书而得出。

  通过总体上参考说明书,更完整地描述以下即将描述的术语。应了解本发明不局限于所述的具体的方法、方案和试剂,因为这些方法、方案和试剂会变化,取决于本领域普通技术人员使用其的背景。

  定义

  术语“疾患”和“健康状况”在本文中可交换使用,是指健康状态以及包括疾病和病症的所有病,但可以包括可能影响一个人的健康、得益于医疗救护或暗示医学治疗的损伤和正常的健康状况,例如怀孕。

  术语“免疫标记”(IS、IST或IMS)在本文中是指相对于参考样品中的抗体与肽阵列的结合,由来自受试者的样品中的抗体与肽阵列的差别结合所产生的结合信号组合。

  本文中术语“受试者”是指人受试者以及非人受试者,例如非人哺乳动物。因此,涵盖多种兽医学应用,在此情况下,受试者可以是非人哺乳动物(例如猫科动物、猪科动物、马科动物、牛类动物及其类似动物)。本文所述的概念也适用于植物。

  术语“关联性”在本文中用以指针对根据用于查询蛋白质组的方法鉴定的生物标志物所获得的分数。

  术语“患者样品”和“受试者样品”在本文中可互换使用,是指从患者,即接受医疗处理、护理或治疗者获得的样品,例如生物流体样品。受试者样品可以是本文所述的任一样品。在某些实施方案中,受试者样品通过无创程序获得,例如外周血样品。

  如本文所用,术语“微阵列系统”是指通常由在如玻璃、塑料或硅芯片的固体平面表面上格式化的阵列肽和处理样品所需的仪器(自动化机器人)、读取报道分子的仪器(扫描器)和分析数据的仪器(生物信息学工具)中的任一个或多个构成的系统。

  本文中术语“阵列肽”是指固定在微阵列上的肽。

  在提及呈抗体结合概况/模式的肽时,术语“识别”和“区别”在本文中可交换地使用,相对于参考受试者,所述肽区别性地结合来自受试者,例如测试对象的样品中的抗体,以确定测试对象的健康状况。

  本文中术语“准确度”是指通过所述方法分类的正确结果的比例。

  本文中术语“灵敏度”是指被正确地鉴定为对所测试的疾患呈阳性的样品的比例。

  本文中术语“特异度”是指被正确地鉴定为对所测试的疾患呈阴性的样品的比例。

  本文中术语“氨基酸”是指包含以下的天然存在的羧基氨基酸:丙氨酸(三字母代码:ala,一字母代码:A)、精氨酸(arg,R)、天冬酰胺(asn,N)、天冬氨酸(asp,D)、半胱氨酸(cys,C)、谷氨酰胺(gln,Q)、谷氨酸(glu,E)、甘氨酸(gly,G)、组氨酸(his,H)、异亮氨酸(ile,I)、亮氨酸(leu,L)、赖氨酸(lys,K)、甲硫氨酸(met,M)、苯丙氨酸(phe,F)、脯氨酸(pro,P)、丝氨酸(ser,S)、苏氨酸(thr,T)、色氨酸(tip,W)、酪氨酸(tyr,Y)和缬氨酸(val,V)。

  描述

  人血浆蛋白质组可能含有大部分(如果不是全部)人蛋白,以及源自于一些病毒、细菌和真菌的蛋白质。体内几乎所有的细胞都与血浆直接或通过胞外液或脑脊髓液连通,且许多在破坏或死亡后至少释放其内含物的一部分至血浆中。可能任何疾病病况都会引起身体的生物流体中一些特定模式的蛋白质变化,反映实时和既定条件下细胞的多种状态。

  尽管生物标志物对我们了解免疫学具有重要意义,但是生物标志物发现领域的进展缓慢。为了使疗法成功地靶向将最大获益的特定患者群体,需要极大地加快发现生物标志物的速度。

  所提供的方法、设备和系统鉴定出区别性地结合来自具有不同健康状况的受试者的样品的抗体的识别肽。随后,识别肽用于鉴定出作为对健康状况具有特异性的候选生物标志物的蛋白质,通过抗体与肽阵列的结合来区别。除识别健康状况外,识别肽还可以与疾病活动度相关。

  患者样品中的抗体与阵列的差别结合产生指示健康状况的特定结合模式或标记。举例来说,如图1中所示,来自患有类风湿性关节炎或狼疮的受试者的样品中的抗体结合于肽阵列,且检测到其提供只有健康状况才有的结合模式组合。在一些情况下,这些结合模式被称为免疫标记,其可以准确地区别对应于疾病的结合信号组合与对应于不同疾病的结合信号组合,所述不同疾病在一些情况下可以是密切相关的疾病。在其它情况下,还可以区别对应于任一种疾病的结合信号组合与来自健康受试者的结合信号。

  比较结合信号的两个或更多个组合可以鉴定出区别性地结合的肽。这些区别性地结合的肽被称为识别肽,其用于查询蛋白质组以鉴定可以作为任一健康状况的生物标志物标靶的蛋白质。

  呈现了用于鉴定包括自身免疫性疾病和感染在内的疾患的候选生物标志物的方法、设备和系统。鉴定自身免疫性疾病、未分类为自身免疫但呈现常常与某些自身免疫性疾病相关的症状的模拟疾患的候选生物标志物。模拟疾病疾患的非限制性实例包括骨关节炎和纤维肌痛,其症状与例如全身性红斑狼疮(systemic lupus erythematosus,SLE)和类风湿性关节炎(rheumatoid arthritis,RA)等自身免疫性疾病重叠。还鉴定包括例如克氏锥虫等原生生物体感染在内的感染性疾病的其它候选生物标志物。还鉴定与根据例如SLEDAI等已知的疾病评分系统进行评估相对应,与疾病活动度相关,和根据指示疾病进展的临床表现,例如硬皮病的器官受累,与疾病进展相关的候选生物标志物。

  在一方面,本文公开了用于鉴定自身免疫性疾病的至少一种候选生物标志物的方法和装置,所述方法包括:(a)提供肽阵列并使来自多个已知患有所述自身免疫性疾病的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽的集合,所述识别肽将自身免疫性疾病与至少一种不同健康状况相区别;(c)将所述识别肽的集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定自身免疫性疾病的至少一种候选生物标志物。

  免疫标记-结合测定

  所述方法是基于例如血液样品的样品中抗体的复杂混合物与肽阵列的结合进行预测的。本文公开的技术使用至少数千种独特肽的阵列,这些肽是从化学序列空间进行设计,从而能够从小体积的样品广泛调查个体的抗体结合谱。来自已知患有第一疾患的受试者的样品包含结合阵列肽的不同集合或组合的抗体的不同混合物,从而提供抗体结合模式或概况,又名IS。可以检测结合模式的不同组合以提供结合信号数据的组合。典型地,作为疾患特征的免疫标记相对于一种或多种参考免疫标记测定,所述参考免疫标记是从获自一个或多个参考受试者群组的参考样品的一个或多个不同集合获得,每个群组患有不同疾患。举例来说,从已知患有第一疾患的一组受试者获得的免疫标记与已知患有第二不同疾患的参考受试者的免疫标记相比较。因此,两种免疫标记的比较可以鉴定出识别肽,识别肽是来自两组受试者的抗体区别性地结合的阵列肽。参考组可以是一组健康受试者,并且所述疾患在本文中称为健康状况。在一些情况下,‘健康’受试者是疾病处于症状缓解中的受试者。在一些实施方案中,与患有第二不同疾患的参考受试者的免疫标记相比,识别肽可以下调。在其它情况下,与患有第二不同疾患的参考受试者的免疫标记相比,识别肽可以上调。

  因此,鉴定识别肽的步骤包括:(i)检测来自多个患有自身免疫性疾病的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同健康状况;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有自身免疫性疾病的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  区别性地结合来自患有不同疾患的受试者的样品的抗体的阵列肽能够辨别疾患或疾病病况,并用以查询对应蛋白质组以鉴定对所区别的疾病具有特异度的蛋白质生物标志物。

  具有第一健康状况的多个受试者的免疫标记(IS)被确定为与阵列肽的抗体结合的结合模式。肽阵列可以与样品在任何合适的促进样品中的抗体与阵列上固定的肽结合的条件下接触。因此,本发明的方法不受所采用的任何特定类型的结合条件限制。此类条件将变化,取决于使用的阵列、底物类型、底物上排列的肽的密度、结合相互作用的所需严格度以及结合溶液中竞争物质的性质。在一个优选的实施方案中,条件包含从可访问的阵列去除未结合的抗体的步骤。本领域技术人员完全能够确定此类步骤的必要性以及进行此类步骤的适当条件。

  任何合适的检测技术都可以用于本发明的方法中,检测血清中的抗体与阵列上的肽的结合,从而产生健康状况免疫概况。结合的抗体可以例如使用可检测地标记的二次抗体检测。可替代地,任何类型的可检测标记都可以用于标记阵列上的肽,包括但不限于放射性同位素标记、荧光标记、发光标记以及电化学标记(即:具有不同电极中点电势的配体标记,其中检测包括检测标记的电势)。在其它情况下,可以呈竞争格式检测样品中的抗体与阵列上的肽之间的结合相互作用。在结合的竞争性抑制剂存在对比缺乏下阵列与样品的结合概况的差异可以用于表征样品。

  本领域技术人员完全能够检测来自可检测标记的信号。举例来说,荧光阵列读数器是本领域中众所周知的,记录底物上电势的仪器也一样(关于电化学检测,参见例如J.Wang(2000)Analytical Electrochemistry,Vol.,第2版,Wiley--VCH,New York)。还可以使用其它无标记的方法,例如SPR和质谱分析法,检测结合相互作用。SPR可以提供解离常数和离解速率的测量。A-100Biocore/GE仪器例如适合于此类型分析。FLEX芯片可以用于相同支撑物上的400个结合反应。

  分类算法

  典型地使用多种计算机算法和程序对抗体结合信号数据,即免疫标记(IMS)进行分析并对由此获得的识别肽进行鉴定。使用例如激光扫描器扫描由标记的二次抗体产生的抗体结合模式。通过扫描器获得的结合信号的图像可以使用例如GenePix Pro 8软件(Molecular Devices,Santa Clara,CA)的软件输入和处理,从而得到例如在0-65,000范围内的连续值的每种肽的表格信息。表格数据可以输入例如Agilent的GeneSpring 7.3.1(Agilent,Santa Clara,CA)中并使用其进行统计分析,或输入R语言和环境中以进行统计计算(R Foundation for Statistical Computing,Vienna,Austria.URL https://www.R-project.org/)。

  显示从具有不同健康状况的受试者获得的样品之间差别信号传导模式的肽可以使用已知的统计检验,例如韦尔奇校正的T检验(Welch-corrected T-test)或ANOVA鉴定。举例来说,可以针对包含来自一组测试患者,例如患病受试者的样品和来自一组参考受试者,例如健康患者的样品的样品集合,获得抗体与阵列肽的结合模式。比较结合信号信息,并应用统计分析来选择在预定严格水平下区别两种状态,即测试群组和参考群组的识别肽。在一些实施方案中,最有识别力的肽的清单可以通过根据p值将肽分级来获得。举例来说,识别肽可以根据具有在零与一之间的p值而分级和鉴定。p值的截止值可以进一步调整以说明在对单一数据集同时进行若干个依赖性或非依赖性统计检验时的情况。举例来说,邦弗朗尼校正(Bonferroni correction)可以用于在对单一数据集进行多个成对检验时降低获得假阳性的可能性。该校正取决于阵列文库的大小。在一些实施方案中,用于确定识别肽的截止p值可以调整为小于10-30、小于10-29、小于10-28、小于10-27、小于10-26、小于10-25、小于10-24、小于10-23、小于10-22、小于10-21、小于10-20、小于10-19、小于10-18、小于10-17、小于10-16、小于10-15、小于10-14、小于10-13、小于10-12、小于10-11、小于10-10、小于10-9、小于10-8、小于10-7、小于10-6或小于10-5、小于10-4、小于10-3或小于10-2。调整取决于阵列文库的大小。可替代地,不将识别肽分级,且显示多达所有被鉴定的识别肽的结合信号信息用于将疾患,例如样品的血清状态分类。

  可以将统计分析后所选择的识别肽的结合信号信息输入机器学习算法中以获得统计学或数学模型,即以所需准确度、灵敏度和特异度将抗体概况数据分类的分类器,并确定疾病的存在或不存在、疾病的严重度、疾病进展和本文中其它地方描述的其它应用。一种基础分类算法线性差别分析(Linear Discriminant Analysis,LDA)广泛用于分析生物医学数据以将两个或更多个疾病类别分类。LDA可以为例如分类算法。更复杂的分类法-支持向量机(SVM)使用数学核函数,通过超平面来分类,超平面将原始预测因子投射至更高维空间。一些常见核函数包括线性、多项式、S形或辐射基础函数。本领域中描述的常见分类器的比较研究描述于(Kukreja等人,BMC Bioinformatics.2012;13∶139)。基于抗体结合概况的数据进行数据分析和预测模型的其它算法包括贝叶斯网络(Bayes Net)、逻辑回归(Logistic Regression)、简单逻辑(Simple Logistic)、多层感知(MultilayerPerceptron)、K最近邻算法(KNearest neighbor)、K Star、属性选择分类器(AttributeSelected Classifier,ACS)、聚类分类(Classification via clustering)、回归分类(Classification via Regression)、Hyper Pipes、投票特征区间分类器(Voting FeatureInterval Classifier)、J48(C4.5算法的Java执行)、随机树(Random Trees)和随机森林(Random Forest)。

  在一些实施方案中,从样品的训练集获得抗体结合概况,其通过应用基于SVM分析的消除算法用于鉴定最有识别力的肽组合。在多种显著性水平下算法的准确度可以通过交叉验证确定。为了产生和评估可行数目的识别肽的抗体结合概况,可以使用多种识别肽鉴定最佳执行模型来构建多种模型。在一些实施方案中,至少25种、至少50种、至少75种、至少100种、至少200种、至少300种、至少400种、至少500种、至少750种、至少1000种、至少1500种、至少2000种、至少3000种、至少4000种、至少5000种、至少6000种、至少7000种、至少8000种、至少9000种、至少10,000种、至少11,000种、至少12,000种、至少13,000种、至少14,000种、至少15,000种、至少16,000种、至少17,000种、至少18,000种、至少19,000种、至少20,000种或更多种识别肽用于训练特定疾病分类模型。在一些实施方案中,阵列上肽总数的至少0.00001%、至少.0001%、至少.0005%、至少.001%、至少.005%、至少.01%、至少.05%、至少0.1%、至少0.5%、至少1.0%、至少2%、至少3%、至少4%、至少5%、至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%为识别肽,且对应的结合信号信息用于训练特定疾患分类模型。在一些实施方案中,针对阵列上的所有肽获得的信号信息用于训练疾患特定的模型。

  可以产生包含不同数目识别肽的多种模型,并可以通过交叉验证法评估每个模型的性能。可以训练SVM分类器并通过将样品训练集的每个样品分配至多个交叉验证群组之一来交叉验证。举例来说,对于四倍交叉验证来说,每个样品被分配至四个交叉验证组之一,使得每组包含测试和对照,即参考样品;留出交叉验证群组之一,例如第1组,并使用组2-4中的样品训练SVM分类器模型。对识别训练组中的测试例和参考样品的肽进行分析并根据p值分级;然后前k种肽用作SVM模型的预测因子。为了解释输入预测因子的数目与模型性能之间的关系,且为了防止过度拟合,针对一系列前k种,例如25种、50种、100种、250种、1000种、200种、3000种肽或更多,重复子循环。利用使用组2-4产生的模型,在第1组中预测,即样品分类。产生四个组每个组的模型,并使用来自4个模型的所有预测,使用来自真实疾病样品的信号结合数据计算性能(AUC、灵敏度和/或特异度)。交叉验证步骤重复至少100次,并相对于置信区间,例如95%,计算平均性能。可以使用例如火山图、ROC(接收器工作特性)曲线和相对于输入肽的数目的模型性能将诊断可视化。

  基于一组识别输入肽的抗体结合信息选择最优化模型并用于区别健康状况。使用验证集确定不同分类器的性能,并使用样品测试集,从具有最大性能的模型获得例如准确度、灵敏度、特异度和F-量度等性能特征。鉴定不同识别肽集合以区别不同疾患。因此,针对每种健康状况,基于最具识别力的输入肽的集合确立最优化模型。

  在一些实施方案中,所得分类性能可以提供为接收器工作特性曲线(ROC)。可以通过ROC下面积(AUC)确定分类的特异度、灵敏度和准确度量度。在一些实施方案中,所述方法确定/分类多个受试者的健康状况,其中方法性能或准确度通过超过0.60的接收器工作特性(ROC)曲线下面积(AUC)表征。在其它实施方案中,方法性能通过超过0.70、超过0.80、超过0.90、超过0.95的接收器工作特性(ROC)曲线下面积(AUC)表征,方法性能通过超过0.97的接收器工作特性(ROC)曲线下面积(AUC)表征,方法性能通过超过0.99的接收器工作特性(ROC)曲线下面积(AUC)表征。在其它实施方案中,方法性能通过在0.60至0.70、0.70至0.79、0.80至0.89或0.90至1.0范围内的接收器工作特性(ROC)曲线下面积(AUC)表征。在其它实施方案中,方法性能根据灵敏度、特异度、预测值或似然比(LRs)表述。

  在一些实施方案中,所述方法具有至少60%的灵敏度,例如65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的灵敏度。

  在其它实施方案中,所述方法具有至少60%的特异度,例如65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的特异度。

  在一些实施方案中,鉴定识别肽的步骤包括:(i)检测来自患有所述疾病的多个受试者的样品中存在的抗体与不同肽的阵列的结合以获得第一结合信号组合;(ii)检测抗体与相同肽阵列的结合,所述抗体存在于来自一个或多个参考受试者群组的样品中,每个参考群组具有不同健康状况;(iii)将所述第一结合信号组合与所述第二结合信号组合进行比较;以及(iv)鉴定所述阵列上与来自患有所述疾病的受试者的样品中的抗体和来自一个或多个参考受试者群组的所述样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。在一些实施方案中,识别肽的数目与所述阵列上肽总数的至少一部分对应。在一些实施方案中,阵列上肽总数的至少0.1%、至少1%、至少10%、至少25%、至少50%、至少75%、至少80%或至少90%为识别肽。在其它实施方案中,阵列上肽总数的至少0.00005%、至少0.0001%、至少0.0005%、至少0.0001%、至少0.001%、至少0.003%、至少0.005%、至少0.01%、至少0.05%、至少0.1%、至少0.5%、至少1.0%、至少1.5%、至少2%、至少3%、至少4%、至少5%或至少10%。在一些实施方案中,通过有差别的抗体与肽阵列的结合,鉴定识别肽,所述肽阵列包含阵列底物上至少5,000种、至少10,000种、至少15,000种、至少20,000种、至少25,000种、至少50,000种、至少100,000种、至少200,000种、至少300,000种、至少400,000种、至少500,00种、至少1,000,000种、至少100,000,000种或更多种不同肽的文库。在一些实施方案中,抗体结合包含与阵列上至少1种、至少2种、至少5种、至少10种、至少15种、至少20种、至少25种、至少30种、至少35种、至少40种、至少45种、至少50种、至少60种、至少70种、至少80种、至少90种、至少100种、至少125种、至少150种、至少175种、至少200种、至少300种、至少400种、至少500种、至少600种、至少700种、至少800种、至少900种、至少1000种、至少2000种、至少3000种、至少4000种、至少5000种、至少6000种、至少7000种、至少8000种、至少9000种、至少10000种、至少20000种或更多种识别肽的结合信号组合。举例来说,10,000种肽的阵列上至少25种肽被鉴定为给定疾患的识别肽。

  识别肽可以通过一种或多种具体氨基酸的富集和/或通过一种或多种序列基序的富集来表征。氨基酸和基序含量的富集是相对于阵列文库中所有肽的对应的总氨基酸和基序。可以从显著肽清单鉴定富集的基序,除非所述清单小于100种肽长,在这样的情况下使用基于与韦尔奇t检验(Welch′s t-test)相关的p值的前500种肽。将肽的此清单中的不同n聚体与总文库中相同尺寸的n聚体相比,以确定是否有任何富集。通过确定清单中基序(例如ABCD)出现的次数除以文库中基序(ABCD)出现的次数来计算富集倍数。此值进一步除以文库中基序类型(例如四聚体)出现的相对次数(即清单中所有四聚体的总数除以文库中四聚体的总数)。此富集倍数(E)计算可以由以下表示:

  E=(m/M)/(t/T)

  其中m为基序作为识别肽清单的一部分出现的次数;M为文库中基序出现的总次数;t为清单中基序类型出现的次数;以及T为文库中基序出现的次数。富集倍数还可以报道为富集百分比,即“富集值”乘以100。在一些实施方案中,由本文公开的方法和阵列得到的区别第一健康状况与第二健康状况的识别肽富集一种或多种不同蛋白质序列基序。

  抗体概况分析实验的结果提供了肽的清单,其中研究中的肽的强度与研究中包括的样品的所关注的其它协变量有关。此类协变量的实例包括分类变量,例如研究中供体的疾病或治疗反应分类,或连续数值变量,例如生物标志物或疾病活动度指数。此清单是由在研究中测量的肽的最大清单或“文库”得到。

  用于鉴定肽清单内富集的基序或子基序的方法鉴定出肽清单内在清单内的出现频率高于文库内的出现频率的氨基酸的常见模式。此类模式通过将氨基酸模式与蛋白质已知的氨基酸序列比较,可以帮助推断与肽结合的抗体的体内标靶。其还可以形成预测所测量的文库中未包括的哪些其它肽也显示与所关注的协变量相关的基础,从而将研究结果推广。

  肽可以表示成象征从肽的游离胺(“N“)端至游离羧基(“C“)端的氨基酸序列的字母顺序。存在本领域技术人员通常使用标准字母集合用于达成此目的,例如“V”为缬氨酸,“R”为精氨酸且“K”为赖氨酸。

  为执行所述方法,清单中的每种肽被分割成指定长度k的所有可能的相邻子序列。举例来说,假设的肽序列ABCDEFG将被分割成长度k=4的子序列(有时称为“四聚体”或“4聚体”),如下:ABCD、BCDE、CDEF、DEFG。然后计数清单内所有独特肽中每个独特的k聚体的出现总数。然后针对文库中的所有肽重复此方法,并将文库肽中的每个独特的k聚体的出现数目制表。

  典型地,仅仅考虑清单中出现次数最小,例如两次的k聚体。对于清单中剩余的每个独特的k聚体,富集比率计算为清单内独特的k聚体出现的次数/清单中所有k聚体出现的总和除以文库中独特的k聚体出现的次数/文库中所有k聚体出现的总和。为了估计具体的k聚体的富集比率可能偶然出现的可能性(p值),可以应用费雪精确检验(Fisher’s exacttest),使用在富集比率的计算中用作输入的四个量。在例如使用由Benjamini和Hochberg(1995)或Holm(1979)描述的程序针对多个假设检验进行调整后,典型地需要p值<0.05。

  可以重复此程序,其中子序列的长度k从一增加至七,且针对每个长度鉴定富集的子基序。还可以鉴定长度k>2的富集的“缺口”子序列,其中不管插入序列如何,仅仅考虑N端和C端的氨基酸。这通过用例如句号的任意字符取代位置2至k-1中的字母来实现。举例来说,假设的肽序列ABCDEFG将被分割成长度k=4的子序列(有时称为“缺口四聚体”或“缺口4聚体”),如下:A..D、B..E、C..F、D..G。然后重复上文所述的整个程序,以鉴定例如3至7的一系列长度k的富集的缺口k聚体。所有富集的子基序,即k聚体和缺口k聚体,可以组合在单个表中,并通过增加p值,然后在平局情况下通过降低富集比率来排序。所得表含有发现如果从肽文库随机选择相同尺寸的清单,那么在肽清单中比偶然预期更常出现的子序列,其中在说明多样性后每种肽的置信度为95%。

  在一些实施方案中,免疫标记结合模式鉴定出利用本文公开的方法和阵列获得的疾病或疾患的一种或多种识别肽,所述识别肽包含至少1种、至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种或至少10种不同的富集肽基序。在一些实施方案中,基序与肽阵列上的肽至少25%同一、至少30%同一、至少40%同一、至少50%同一、至少60%同一、至少70%同一、至少80%同一、至少90%同一、至少95%同一或至少99%同一。在其它实施方案中,基序与肽阵列上的肽至少25%类似、至少30%类似、至少40%类似、至少50%类似、至少60%类似、至少70%类似、至少80%类似、至少90%类似、至少95%类似或至少99%类似。

  识别肽中的任一种可以至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%地富集针对识别集合鉴定的至少一种蛋白质序列子基序或基序。

  在其它实施方案中,识别肽可以至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%地富集至少一种氨基酸。

  鉴定候选标靶蛋白

  然后所获得的识别肽可以用于鉴定候选治疗标靶并针对所鉴定的病症或疾患为个别受试者研发出治疗。在其它方面,来自具有两种或更多种不同健康状况的受试者群组的样品中的抗体的差别结合鉴定出阵列上的识别肽,可以例如通过比较一种或多种识别肽的序列来分析,所述一种或多种识别肽区别蛋白质数据库中阵列序列中的两种或更多种健康状况,从而鉴定候选标靶蛋白。在一些实施方案中,将抗体谱系在肽阵列上展开(免疫标记,IMS)并将来自患有第一疾患的受试者的样品与来自患有第二疾患的受试者,例如健康参考受试者或患有不同疾患的受试者的样品比较,可以鉴定出相对于两种或更多种不同疾患,可用于鉴定疾患的候选生物标志物的识别肽。

  在信息学无法鉴定假定匹配的情况下,例如在不连续表位的情况下,信息肽可以用作亲和力试剂用来纯化反应性抗体。然后纯化的抗体可以用于标准免疫学技术中以鉴定标靶。

  鉴定出健康状况的一种识别肽集合后,可以查询适当的参考蛋白质组,以与由样品中抗体结合的识别肽的序列相关联。已经在所有蛋白质组当中选择参考蛋白质组(根据许多标准,手动和利用算法来选择),以提供生命树的广泛覆盖。参考蛋白质组构成分类多样性的代表性剖面,将在UniProtKB内http://www.uniprot.org/proteomes/?quer y=reference:yes找到。参考蛋白质组包括充分研究的模型生物体的蛋白质组和用于生物医学和生物技术研究的所关注的其它蛋白质组。尤其重要的物种可以由所关注的特定生态型或品系的许多参考蛋白质组表示。可以查询的蛋白质组的实例包括不限于人蛋白质组和来自其它哺乳动物、非哺乳动物的动物、病毒、细菌和原生动物寄生虫的蛋白质组。另外,可以查询的蛋白质的其它编辑包括不限于疾病相关的蛋白清单、含有已知或未知的突变(包括单核苷酸多态性、插入、取代和缺失)的蛋白质清单、由已知和未知的剪接变体组成的蛋白质清单或来自组合文库(包括天然和非天然氨基酸)的肽或蛋白质清单。在一些实施方案中,可以使用识别肽查询的蛋白质组包括不限于人蛋白质组RefSeq版本84,对应于人类基因组构造GrCh38(https://www.n cbi.nlm.nih.gov/refseq/),于2016年3月10日编辑,各独特基因ID使用最长转录产物变体。在其它实施方案中,可以查询的蛋白质组是克氏锥虫的蛋白质组(Sodré CL等人,Arch Microbiol.[2009]年2月;191(2):177-84.Epub 2008年11月11日.Proteomic map of Trypano soma cruzi CL Brener:the reference strainof the genome project)。

  用于将单一和多种蛋白质与蛋白质组或蛋白质清单比对的软件包括不限于BLAST、CS-BLAST、CUDAWS++、DIAMOND、FASTA、GGSEARCH(GG or GL)、Genoogle、HMMER、H-suite、IDF、KLAST、MMseqs2、USEARCH、OSWALD、Parasail、PSI-BLAST、PSI_Protein、Sequilab、SAM、SSEARCH、SWAPHI、SWIMM和SWIPE。

  可替代地,相对于在阵列上整个肽文库中发现的基序,在识别肽中富集的序列基序可以与蛋白质组比对,以鉴定可以被批准作为治疗疾患的可能治疗标靶的标靶蛋白。将识别肽与蛋白质组数据库中最长的可利用的转录产物比对。可利用用于鉴定蛋白质结构域、家族和功能位点的线上数据库和搜索工具,例如ExPASy的Prosite、Motif Scan(MyHits,SIB,Switzerland)、Interpro 5、MOTIF(GenomeNet,Japan)和Pfam(EMBL-EBI)。

  在一些实施方案中,比对方法可以是用于将查询序列的氨基酸映射至更长蛋白质序列的任何方法,包括BLAST(Altschul,S.F.及Gish,W.[1996]″Local alignmentstatistics.″Meth.Enzymol.266:460-480)、使用成分替换和评分矩阵、有和没有缺口的精确匹配、表位预测、抗原性预测、疏水性预测、表面可接触性预测。对于每种方法,可以使用经典或修改的评分系统,其中修改的评分系统进行优化以针对肽文库组成中的偏倚进行校正。在一些实施方案中,使用修改的BLAST比对,其需要3个氨基酸的种子,缺口罚分为4,利用BLOSUM62的评分矩阵(Henikoff,J.G.Amino acid substitution matrices fromprotein blocks.Proc.Natl.Acad.Sci.USA 89,10915-10919[1992]),其经过修改以反映阵列的氨基组成(States,D.J.,Gish,W.,Altschul,S.F.[1991]″Improved sensitivityof nucleic acid database searches using application-specific scoringmatrices.″Methods 3:66-70.)。本领域技术人员容易辨别种子氨基酸的数目和缺口罚分。这些修改可以包括增加简并取代的分数、从阵列中去除缺乏的氨基酸的罚分和将所有精确匹配同等地评分。

  可以根据所提供的方法用于鉴定候选生物标志物蛋白质的识别肽是根据其区别两种或更多种不同健康状况的能力来挑选的。因此,识别肽可以在预定统计严格性下如下进行选择:通过区别两种或更多种疾患的概率的p值;通过两种或更多种疾患之间相对结合信号强度变化的差异;通过其在单一疾患中的强度级别;通过其在针对两种或更多种疾患训练的机器学习模型中的系数,例如AUC;或通过其与一种或多种研究参数的相关性。在一些实施方案中,被选择用于鉴定一种或多种候选生物标志物的识别肽通过具有p<1E-03,p<1E-04或p<1E-05的p值而被选。

  被提供用于鉴定候选蛋白质生物标志物的方法利用识别肽与蛋白质组或其它蛋白质清单的蛋白质之间的同源性,同时相对于清单,对从包含较大肽的清单可能过度取样进行校正。

  查询肽是能够区别两种或更多种不同健康状况的进行比对的识别肽,可以基于其区别两种或更多种疾患的p值、两种或更多种疾患之间相对信号强度变化、通过其在单一疾患中的强度级别、通过其在针对两种或更多种疾患训练的机器学习模型中的系数或通过其与一种或多种研究参数的相关性选择。

  鉴定出识别肽集合和有待查询的蛋白质组或蛋白质清单后,将所有识别肽比对,并鉴定具有正BLAST分数的肽。对于识别肽进行比对的蛋白质中的每一种,将比对中正BLAST肽的分数装配成矩阵,例如修改的BLOSUM62。这些修改可以包括增加简并取代的分数、从阵列中去除缺乏的氨基酸的罚分和将所有精确匹配同等地评分。

  矩阵的每一行与比对的肽对应,且每一列与构成此蛋白质的连续氨基酸之一对应,其中肽行内允许的缺口和缺失允许与蛋白质比对。

  使用上文所述的修改的BLAST评分矩阵,矩阵中的每个位置接收该列中肽和蛋白质的成对氨基酸的分数。然后针对蛋白质中的每个氨基酸,将对应列求和以产生“重叠分数”,其表示免疫标记识别肽对该氨基酸的覆盖范围。

  氨基酸重叠分数s是表示识别肽中的氨基酸的校正分数,其说明了文库的组成。举例来说,阵列上的肽可以排除20种天然氨基酸中的一种或多种。因此,重叠分数说明文库中的氨基酸含量。为了针对文库组成对此分数进行校正,通过相同方法,针对所有阵列肽的清单,计算重叠分数。这允许经由如下方程式计算每个氨基酸的重叠分数s:

  s=a-(b/d)×c

  其中a为来自免疫标记肽的重叠分数,b为免疫标记肽的数目,c为肽整个阵列的重叠分数,且d为整个阵列上的肽的数目。识别肽的重叠分数“s”可以由“sd”表示。

  然后,将从识别肽的比对获得的氨基酸重叠分数转变成蛋白质分数‘S’,即‘Sd’。为了将氨基酸层面的这些分数sd转变成全蛋白质统计资料Sd,计算蛋白质内每个可能的平铺n聚体表位的分数的总和,且最后分数是沿着例如20聚体的窗口的最大值。在一些实施方案中,可以获得平铺10聚体表位、15聚体表位、20聚体表位、25聚体表位、30聚体表位、35聚体表位、40聚体表位、45聚体表位或50聚体表位的分数。蛋白质分数Sd为沿着滚动窗口获得的最大分数。在一些实施方案中,n聚体与蛋白质的整个长度相关,即识别肽与蛋白质的整个序列比对。可替代地,可以通过将肽序列与整个蛋白质序列比对来获得分数。

  随后相对于随机挑选的非识别肽的分级对所鉴定的候选生物标志物进行分级。因此,如针对识别肽所述,获得与相同蛋白质组或蛋白质清单的一种或多种蛋白质中的每一种进行比对的非识别肽的重叠分数(非识别‘s’分数‘sr’)。然后针对多种随机挑选的非识别肽中的每一种,将非识别‘s’分数转变成非识别蛋白质‘S’分数,即‘Sr’。举例来说,可以获得至少25种、至少50种、至少100种或更多种随机挑选的非识别肽的非识别蛋白质‘S’分数。

  然后相对于通过非识别肽的比对鉴定的蛋白质,将所鉴定的蛋白质生物标志物分级。在一些实施方案中,可以使用用于获得蛋白质分数Sd的同等数目的识别肽,计算随机挑选的非识别肽的最终蛋白质分数Sr分数。在其它实施方案中,用于确定Sd的识别肽的数目的至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少85%、至少90%、至少95%、至少98%、至少99%用于确定非识别蛋白质‘Sr’分数。

  在一些实施方案中,相对于通过非识别肽的比对鉴定的蛋白质的Sr分数,将候选蛋白质生物标志物通过其Sd分数来分级。在一些实施方案中,分级可以由p值决定。最高候选生物标志物可以选为具有小于10-3、小于10-4、小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-12、小于10-15、小于10-18、小于10-20或更小的p值。在一些实施方案中,根据所述方法鉴定至少5种、至少10种、至少15种、至少20种、至少30种、至少40种、至少50种、至少60种、至少70种、至少80种、至少90种、至少100种、至少120种、至少150种、至少180种、至少200种、至少250种、至少300种、至少350种、至少400种、至少450种、至少500种或更多种候选生物标志物。

  在其它实施方案中,根据如前段中所述,通过将多种识别肽平铺至n聚体表位而获得的Sd分数挑选候选生物标志物,且根据针对病原体蛋白质组,具有最大Sd分数的蛋白质的百分比选择候选生物标志物的数目。在一些实施方案中,候选生物标志物为具有最高级别Sd分数并占病原体蛋白质组的蛋白质总数的至少0.01%的蛋白质。在其它实施方案中,候选生物标志物为具有最高级别Sd分数并占病原体蛋白质组的蛋白质总数的至少0.02%、至少0.03%、至少0.04%、至少0.05%、至少0.1%、至少0.15%、至少0.2%、至少0.25%、至少0.3%、至少0.35%、至少0.4%、至少0.45%、至少0.5%、至少0.55%、至少0.6%、至少0.65%、至少0.7%、至少0.75%、至少0.8%、至少0.85%、至少0.9%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少20%或更多的蛋白质。

  在一些实施方案中,提供一种用于鉴定供治疗人类受试者的自身免疫性疾病用的候选标靶蛋白质的方法,所述方法包括:(a)鉴定出区别自身免疫性疾病与一种或多种不同自身免疫性疾病的识别肽集合;(b)将所述肽集合与人蛋白质组中的蛋白质比对;(c)鉴定所述集合中每种肽与免疫原性蛋白质的区域之间同源的区域;以及(d)鉴定所述蛋白质为治疗所述自身免疫性疾病的候选标靶蛋白质。所述方法还可以包括鉴定出区别自身免疫性疾病与健康状况的识别肽集合。

  在一些实施方案中,提供一种用于鉴定受试者的疾病的至少一种候选蛋白质生物标志物的方法,所述方法包括:(a)提供肽阵列并将来自所述受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述肽集合能够区别所述疾病与至少一种不同疾患;(c)利用所述肽集合中的每一种肽查询蛋白质组数据库;(d)将所述肽集合中的每一种肽与蛋白质组数据库比对;以及(e)针对从蛋白质组数据库鉴定出的蛋白质的每一种获得关联性分数和/或分级;其中所鉴定的蛋白质中的每一种为受试者的疾病的候选生物标志物。在一些实施方案中,所述方法还包括获得重叠分数,其中所述分数对肽文库的肽组成进行校正。识别肽可以通过统计方式,例如t检验,根据具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值来鉴定。在一些实施方案中,所得候选生物标志物可以根据在与根据所述方法但使用随机挑选的非识别肽鉴定的蛋白质相比时小于10-3、小于10-4、小于10-5或小于10-6的p值分级。

  随后根据本文中提供的方法鉴定的候选生物标志物可以进行验证并用于诊断、预后、监测以及筛选疾病或疾患,包括但不限于自身免疫性疾病、感染,和/或用作治疗标靶,用于治疗多种疾病或疾患,包括自身免疫性疾病或感染,因此用作研发用于治疗和预防疾病的治疗剂的基础。

  自身免疫性疾病的候选生物标志物

  检测和诊断例如自身免疫性病症等免疫介导的病症具有挑战性,其中患者难以接收到准确或正确的诊断。在许多情况下,患者常常被误诊为其它自身免疫性疾患,因为这些疾病具有密切相关的性质。当前没有可靠的生物标志物可用于检测和评定自身免疫性疾病或病症。

  举例来说,系统性硬化或硬皮病(SSc)是一种多系统的自身免疫性疾病,其中成纤维细胞活动度增加,引起结缔组织异常生长。SSc由于与其它类似疾病的关系密切而难以诊断或获得所述病情的预后。SSc引起皮肤、胃肠(GI)道和其它内脏中血管破坏和纤维化,并在皮肤变粗、手指浮肿或肿胀、手僵硬和疼痛的手指末梢溃疡的患者中受到怀疑。常常存在雷诺现象(Raynaud’s phenomenon)(RP;主要影响手足(手指和脚趾)中的血管的病症;引起血管在寒冷和压力中收缩,引起受影响的手足的麻木感)的症状和胃食道回流。图5描绘了系统性硬化的临床表现的清单,所述临床表现是多层次的,并随着疾病类型(局限性或弥漫性)和器官受累的结果变化。

  系统性硬皮病可以基于皮肤变粗的特征性发现来诊断,皮肤变粗可能与雷诺现象和不同程度的内脏器官受累相关联。在疾病早期,雷诺现象可能是疾病的唯一临床表现。在这些情况下,甲襞毛细血管镜检查可以帮助确定雷诺现象是原发性还是SSc继发性。图6中列出美国风湿病学会(American College of Rheumatology)提出的SSc的诊断标准,然而,专家对于这些标准的适用性有分歧,且至患者满足这些标准的时间,疾病表现常常进展。另外,临床呈现的多相性、内脏器官受累的范围和疾病进展速度的差异使得每个个别患者的疾病的咨询和管理具有挑战性。

  硬皮病可能单独出现或呈与结缔组织的其它疾病(例如全身性红斑狼疮、皮肌炎和类风湿性关节炎)的重叠综合征。取决于其相关联的其它疾病,疾病病况可以称为“重叠综合征”。与硬皮病相关的重叠疾病还可以是模拟疾病,即呈现例如硬皮病,但不容易与硬皮病症状区别的不同疾病。

  实施例1说明了一种使用区别来自健康受试者的样品与来自患有SSc的受试者的样品的识别肽来鉴定候选标靶蛋白质的方法。

  在一个实施方案中,提供了一种鉴定SSc的候选生物标志物的方法。所述方法包括:(a)提供肽阵列并使来自已知多个患有SSc的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽区别SSc与至少一种不同健康状况;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定SSc的至少一种候选生物标志物。

  在一些实施方案中,鉴定识别肽的步骤包括鉴定识别肽集合的步骤,其包括:(i)检测来自多个患有SSc的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同的健康状况;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有SSc的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  在一些实施方案中,可以使用图8C中列出的识别肽中的任一种或多种鉴定SSc的候选生物标志物。发现识别肽富集图8A中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定SSc的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图8A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图8B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定SSc的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图8B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。

  图8C中提供了可以用于鉴定SSc的候选生物标志物的识别肽的例示性清单。所述清单提供了前50种识别肽,所述识别肽是将使用来自患有SSc的受试者的样品获得的抗体结合信号组合与使用来自健康受试者的样品获得的结合信号组合相区别的肽。在一些实施方案中,用于鉴定SSc的候选生物标志物的方法包括鉴定包含图8C中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定SSc的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分和分级,以鉴定SSc的候选生物标志物。在一个实施方案中,SSc的候选生物标志物是选自表3中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质是根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  可替代地,根据所提供的方法鉴定的识别肽可以使用在区别两种不同疾患的最具识别力的肽中富集的序列基序鉴定候选标靶蛋白质,即候选生物标志物。在一个实施方案中,鉴定用于治疗人类受试者的自身免疫性疾病的候选标靶的方法包括:(a)获得区别自身免疫性疾病与一种或多种不同自身免疫性疾病的识别肽集合;(b)鉴定所述识别肽的基序集合;(c)将所述基序集合与人蛋白质组比对;(d)鉴定在所述集合中的每个基序与免疫原性蛋白质的区域之间同源的区域;以及(e)鉴定所述蛋白质为所述自身免疫性疾病的候选标靶。

  类似地,在另一个实施方案中,提供了一种使用区别来自健康受试者的样品与来自患有DM的受试者的样品的识别肽来鉴定候选标靶蛋白质的方法。在一些实施方案中,可以使用发现富集图20A中列出的序列基序的任一种或多种识别肽鉴定DM的候选生物标志物。在一些实施方案中,利用本文公开的方法与阵列用于鉴定DM的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图20A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图20B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定DM的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图20B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。

  根据所提供的方法鉴定的识别肽可以使用在区别两种不同疾患的最具识别力的肽中富集的序列基序鉴定DM的候选标靶蛋白质,即候选生物标志物。在一个实施方案中,鉴定用于治疗人类受试者的自身免疫性疾病的候选标靶的方法包括:(a)获得区别自身免疫性疾病与一种或多种不同自身免疫性疾病的识别肽集合;(b)鉴定所述识别肽的基序集合;(c)将所述基序集合与人蛋白质组比对;(d)鉴定在所述集合中的每个基序与免疫原性蛋白质的区域之间同源的区域;以及(e)鉴定所述蛋白质为所述自身免疫性疾病的候选标靶。

  可以使用区别来自患有其它自身免疫性疾病的受试者的样品和来自患有可能是自身免疫或不是自身免疫的模拟疾病的受试者的样品的识别肽来鉴定候选生物标志物。

  在一些方面,本文公开的方法和装置用于鉴定SSc的至少一种候选生物标志物并与皮肌炎(DM)相区别,所述方法包括:(a)提供肽阵列并使来自已知多个患有SSc的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽将SSc与DM相区别;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定SSc的至少一种候选生物标志物。在一些实施方案中,鉴定识别肽集合的步骤包括:(i)检测来自多个患有SSc的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同的健康状况,包括DM;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有SSc的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  在一些实施方案中,利用本文公开的方法与阵列用于区别自身免疫性疾病的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,在SSc与DM之间进行鉴定诊断。在一些实施方案中,区别SSc与DM参考受试者的识别肽富集丝氨酸、甘氨酸、酪氨酸、精氨酸、丙氨酸、谷氨酰胺和缬氨酸中的一种或多种(图16B)。

  在一些实施方案中,利用本文公开的方法与阵列用于提供受试者的自身免疫性疾病的鉴定诊断的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,自身免疫性疾病为SSc或DM。在一些实施方案中,区别SSc与DM受试者的识别肽富集图16A中提供的一种或多种基序。

  在一些实施方案中,提供用于鉴定自身免疫性疾病的至少一种候选生物标志物的方法和装置,所述方法包括:(a)提供肽阵列并使来自多个已知患有所述自身免疫性疾病的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽区别自身免疫性疾病与至少一种不同健康状况;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质对比;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定自身免疫性疾病的至少一种候选生物标志物。

  在一些实施方案中,自身免疫性疾病为硬皮病或其它自身免疫性疾病,且鉴定用于区别SSc与任一种或多种其它自身免疫性疾病的候选生物标志物。

  在一些实施方案中,可以相对于不同参考受试者群组,鉴定一组受试者的候选生物标志物,每个参考受试者患有多种不同自身免疫性疾病中的一种。在一些实施方案中,相对于患有其它自身免疫性疾病的一组受试者进行鉴定诊断,所述其它自身免疫性疾病包含混合结缔组织病(MCTD)、未分化型结缔组织病(UCTD)、肌炎、多发性肌炎、全身性红斑狼疮和硬斑病。利用本文公开的方法与阵列用于对受试者的自身免疫性疾病进行鉴定诊断的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为鉴定自身免疫性疾病的识别肽的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,自身免疫性疾病为SSc或DM。区别患有SSc的受试者与每个患有多种不同疾病之一的参考受试者的例示性识别肽富集天冬氨酸、谷氨酸、脯氨酸、缬氨酸、甘氨酸和丝氨酸中的一种或多种(图10B)。

  区别患有DM的受试者与每个患有多种不同疾病之一的参考受试者的识别肽富集赖氨酸、组氨酸、丝氨酸、精氨酸、谷氨酸、丙氨酸和甘氨酸中的一种或多种(图22B)。

  在一些实施方案中,利用本文公开的方法与阵列用于提供受试者的自身免疫性疾病的鉴定诊断的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,自身免疫性疾病为SSc或DM。在一些实施方案中,区别SSc与每个患有多种不同自身免疫性疾病之一的参考受试者群组的识别肽富集图10A中提供的基序中的一种或多种。在一些实施方案中,区别DM与每个患有多种不同自身免疫性疾病之一的参考受试者群组的识别肽富集图22A中提供的基序中的一种或多种。

  包括SLE和RA的其它自身免疫性疾病还需要风湿病学家进行谨慎评估。难以准确定量疾病和对治疗的反应会使得患者护理具有主观性且不一致。因此,评定有差别的抗体与阵列肽的结合以鉴定识别肽,从而为这些疾病提供候选生物标志物。

  在一些情况下,呈现了用于鉴定其它自身免疫性疾病的候选生物标志物的方法、设备和系统,所述其它自身免疫性疾病包括全身性红斑狼疮(SLE)、类风湿性关节炎(RA)、舍格伦病(Sjogrens’disease,SS)、硬皮病、骨关节炎(OA)和纤维肌痛(FM)。所公开的实施方案鉴定将自身免疫性疾病彼此相区别以及与未分类为自身免疫但呈现常常与某些自身免疫性疾病相关的症状的模拟病情相区别的识别肽。模拟病情的非限制性实例包括骨关节炎和纤维肌痛,其症状与例如全身性红斑狼疮(SLE)和类风湿性关节炎(RA)等自身免疫性疾病重叠。另外,呈现了用于从获自包括其它自身免疫性疾病和非自身免疫性疾病的疾患的混合群体的样品提供包括SLE和RA的自身免疫性疾病的识别肽和由此获得的候选生物标志物的方法、设备和系统。

  在一些情况下,混合群体还包括来自健康受试者的样品。实施例13-16说明了一种使用区别来自健康受试者的样品与来自患有SLE的受试者的样品的识别肽来鉴定候选标靶蛋白质的方法。

  在一些实施方案中,提供一种鉴定全身性红斑狼疮(SLE)的至少一种候选蛋白质生物标志物的方法,所述方法包括:(a)提供肽阵列并将来自已知患有全身性红斑狼疮的多个参考受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述识别肽集合显示出能够区别全身性红斑狼疮与来自健康受试者的样品的结合信号;(c)利用所述识别肽集合中的每一种肽查询蛋白质组数据库;(d)将所述识别肽集合中的每种肽与人蛋白质组数据库中的一种或多种蛋白质比对;以及(e)针对从蛋白质组数据库鉴定出的蛋白质的每一种获得关联性分数并分级;其中所鉴定的蛋白质中的每一种为全身性红斑狼疮的候选生物标志物。识别肽可以通过统计方式,例如t检验,根据具有小于10-3、小于10-4、小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值来鉴定。在一些实施方案中,所得候选生物标志物可以根据在与根据所述方法但使用非识别肽鉴定的蛋白质相比时小于10-3、小于10-4、小于10-5或小于10-6的p值分级。

  在一些实施方案中,可以使用图90中列出的识别肽中的任一种或多种鉴定SLE的候选生物标志物。发现识别肽富集图62A中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定SSc的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图62A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图62B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定SLE的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。序列基序的富集可以为图62B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。

  在一些实施方案中,例如通过结合信号的差异,通过统计方式,例如t检验,比较两种不同疾患中抗体结合肽的相对结合信号,根据具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值,来鉴定用于方法中的识别肽。

  图90中提供了可以用于鉴定SLE的候选生物标志物的识别肽的例示性清单。所述清单提供了前50种识别肽,所述识别肽是将使用来自患有SSc的受试者的样品获得的抗体结合信号组合与使用来自健康受试者的样品获得的结合信号组合以最大显著性相区别的肽。在一些实施方案中,用于鉴定SSc的候选生物标志物的方法包括鉴定包含图62A中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定SLE的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分并分级,以鉴定SLE的候选生物标志物。在一个实施方案中,SLE的候选生物标志物是选自图75A中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  在其它实施方案中,提供一种用于鉴定全身性红斑狼疮(SLE)的至少一种候选蛋白质生物标志物的方法,所述方法包括:(a)提供肽阵列并将来自已知患有全身性红斑狼疮的多个参考受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述识别肽集合显示出能够区别全身性红斑狼疮与来自患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品的结合信号;(c)利用所述识别肽集合中的每种肽查询蛋白质组数据库;(d)将所述识别肽集合中的每种肽与人蛋白质组数据库中的一种或多种蛋白质比对;以及(e)针对从蛋白质组数据库鉴定出的蛋白质的每一种获得关联性分数并分级;其中所鉴定的蛋白质中的每一种为全身性红斑狼疮的候选生物标志物。识别肽可以通过统计方式,例如t检验,通过具有小于10-3、小于10-4、小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值来鉴定。在一些实施方案中,所得候选生物标志物可以根据在与根据所述方法但使用非识别肽鉴定的蛋白质相比时小于10-3、小于10-4、小于10-5或小于10-6的p值分级。

  在一些实施方案中,本文公开了用于鉴定SLE的至少一种候选生物标志物的方法和装置,所述方法包括:(a)提供肽阵列并使来自多个已知患有SLE的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽区别SLE与至少一种不同健康状况;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质对比;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定SLE的至少一种候选生物标志物。

  在一些实施方案中,鉴定识别肽的步骤包括:(i)检测来自多个患有SLE的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同的健康状况;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有SLE的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  实施例14-16说明了一种使用区别来自患有SLE的受试者的样品与来自患有其它自身免疫或非自身免疫模拟疾病的受试者的识别肽来鉴定SLE的候选标靶蛋白质的方法。

  在一些实施方案中,可以使用图91中列出的识别肽中的任一种或多种鉴定SLE的候选生物标志物。发现识别肽富集图63A中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定SLE的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图63A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图63B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定SLE的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。序列基序的富集可以为图63B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在一些实施方案中,区别SLE与健康参考受试者的识别肽富集一种或多种氨基酸。

  在一些实施方案中,例如通过结合信号的差异,通过统计方式,例如t检验,比较两种不同疾患中抗体结合肽的相对结合信号,通过具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值,来鉴定用于方法中的识别肽。

  图75B中提供了可以用于鉴定SLE的候选生物标志物的识别肽的例示性清单。所述清单提供了前50种识别肽,所述识别肽是将使用来自患有SLE的受试者的样品获得的抗体结合信号组合与使用来自患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品获得的结合信号组合以最大显著性相区别的肽。在一些实施方案中,用于鉴定SLE的候选生物标志物的方法包括鉴定包含图91中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定SLE的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分并分级,以鉴定SLE的候选生物标志物。在一个实施方案中,SLE的候选生物标志物是选自图75B中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  在其它实施方案中,提供一种鉴定全身性红斑狼疮(SLE)的至少一种候选蛋白质生物标志物的方法,所述方法包括:(a)提供肽阵列并将来自已知患有全身性红斑狼疮的多个参考受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述识别肽集合显示出能够区别全身性红斑狼疮与来自未患SLE的健康受试者、患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品的结合信号;(c)利用所述识别肽集合中的每种肽查询蛋白质组数据库;(d)将所述识别肽集合中的每种肽与人蛋白质组数据库中的一种或多种蛋白质比对;以及(e)针对从蛋白质组数据库鉴定出的蛋白质的每一种获得关联性分数并分级;其中所鉴定的蛋白质中的每一种为全身性红斑狼疮的候选生物标志物。识别肽可以通过统计方式,例如t检验,根据具有小于10-3、小于10-4、小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值来鉴定。在一些实施方案中,所得候选生物标志物可以根据在与根据所述方法但使用非识别肽鉴定的蛋白质相比时小于10-3、小于10-4、小于10-5或小于10-6的p值分级。

  一种用于鉴定SLE的至少一种候选生物标志物并与其它自身免疫性疾病或非自身免疫性模拟疾病相区别的方法,所述方法包括:(a)提供肽阵列并使来自多个已知患有SLE的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽区别SLE与包括其它自身免疫性疾病或非自身免疫性模拟疾病的至少一种不同健康状况;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质对比;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定SLE的至少一种候选生物标志物。

  在一些实施方案中,鉴定识别肽的步骤包括:(i)检测来自多个患有SLE的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同的健康状况,包括其它自身免疫性疾病和非自身免疫性模拟疾病;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有自身免疫性疾病的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  实施例14-16说明了一种使用区别来自患有SLE的受试者的样品与来自健康、患有其它自身免疫性疾病或非自身免疫性模拟疾病(“非SLE”)的受试者的样品的识别肽来鉴定SLE的候选标靶蛋白质的方法。

  在一些实施方案中,可以使用图92中列出的识别肽中的任一种或多种鉴定SLE的候选生物标志物。发现识别肽富集图64A中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定SLE的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图64A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图64B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定SLE的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。序列基序的富集可以为图64B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在一些实施方案中,区别SLE与健康参考受试者的识别肽富集一或多种氨基酸。

  在一些实施方案中,例如通过结合信号的差异,通过统计方式,例如t检验,比较两种不同疾患中抗体结合肽的相对结合信号,通过小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值,来鉴定用于方法中的识别肽。

  图92中提供了可以用于鉴定SLE的候选生物标志物的识别肽的例示性清单。所述清单提供了前50种识别肽,所述识别肽是将使用来自患有SLE的受试者的样品获得的抗体结合信号组合与使用来自患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品获得的结合信号组合以最大显著性相区别的肽。在一些实施方案中,用于鉴定SLE的候选生物标志物的方法包括鉴定包含图92中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定SLE的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分并分级,以鉴定SLE的候选生物标志物。在一个实施方案中,SLE的候选生物标志物是选自图75C中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  所提供的方法还可以鉴定其它自身免疫性疾病的候选生物标志物。在一些实施方案中,鉴定RA的候选生物标志物。实施例14、17-18说明了一种使用区别来自健康受试者的样品与来自患有RA的受试者的样品的识别肽来鉴定候选标靶蛋白质的方法。

  在一些实施方案中,提供一种鉴定类风湿性关节炎(RA)的至少一种候选蛋白质生物标志物的方法,所述方法包括:(a)提供肽阵列并将来自已知患有类风湿性关节炎的多个参考受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述识别肽集合显示出能够区别全身性红斑狼疮与来自健康受试者的样品的结合信号;(c)利用所述识别肽集合中的每种肽查询蛋白质组数据库;(d)将所述识别肽集合中的每一种肽与人蛋白质组数据库中的一种或多种蛋白质比对;以及(e)针对从蛋白质组数据库鉴定出的蛋白质的每一种获得关联性分数并分级;其中所鉴定的蛋白质中的每一种为全身性红斑狼疮的候选生物标志物。识别肽可以通过统计方式,例如t检验,通过具有小于10-3、小于10-4、小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值来鉴定。在一些实施方案中,所得候选生物标志物可以根据在与根据所述方法但使用非识别肽鉴定的蛋白质相比时小于10-3、小于10-4、小于10-5或小于10-6的p值分级。

  在一些方面,用于鉴定RA的至少一种候选生物标志物的方法和装置,所述方法包括:(a)提供肽阵列并使来自多个已知患有RA的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽区别RA与健康对照者;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质对比;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定RA的至少一种候选生物标志物。

  在一些实施方案中,鉴定识别肽的步骤包括:(i)检测来自多个患有RA的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同的健康状况;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有RA的受试者的样品中的抗体和来自包括健康对照者的一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  在一些实施方案中,可以使用图93中列出的识别肽中的任一种或多种鉴定RA的候选生物标志物。发现识别肽富集图76A中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定SSc的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图76A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图76B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定RA的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。序列基序的富集可以为图76B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在一些实施方案中,区别RA与健康参考受试者的识别肽富集一或多种氨基酸。

  在一些实施方案中,例如通过结合信号的差异,通过统计方式,例如t检验,比较两种不同疾患中抗体结合肽的相对结合信号,根据具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值,来鉴定用于方法中的识别肽。

  图93中提供了可以用于鉴定RA的候选生物标志物的识别肽的例示性清单。所述清单提供了前50种识别肽,所述识别肽是将使用来自患有SSc的受试者的样品获得的抗体结合信号组合与使用来自健康受试者的样品获得的结合信号组合以最大显著性相区别的肽。在一些实施方案中,用于鉴定SSc的候选生物标志物的方法包括鉴定包含图93中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定RA的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分并分级,以鉴定RA的候选生物标志物。在一个实施方案中,RA的候选生物标志物是选自图87A中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  在其它实施方案中,提供一种鉴定全身性红斑狼疮(RA)的至少一种候选蛋白质生物标志物的方法,所述方法包括:(a)提供肽阵列并将来自已知患有全身性红斑狼疮的多个参考受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述识别肽集合显示出能够区别全身性红斑狼疮与来自患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品的结合信号;(c)利用所述识别肽集合中的每种肽查询蛋白质组数据库;(d)将所述识别肽集合中的每种肽与人蛋白质组数据库中的一种或多种蛋白质比对;以及(e)针对从蛋白质组数据库鉴定出的蛋白质的每一种获得关联性分数并分级;其中所鉴定的蛋白质中的每一种为全身性红斑狼疮的候选生物标志物。识别肽可以通过统计方式,例如t检验,根据具有小于10-3、小于10-4、小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值来鉴定。在一些实施方案中,所得候选生物标志物可以根据在与根据所述方法但使用非识别肽鉴定的蛋白质相比时小于10-3、小于10-4、小于10-5或小于10-6的p值分级。

  在一些实施方案中,鉴定识别肽的步骤包括......。

  实施例14和17-18说明了一种使用区别来自患有RA的受试者的样品与来自患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者的识别肽来鉴定RA的候选标靶蛋白质的方法。

  在一些实施方案中,可以使用图87B中列出的识别肽中的任一种或多种鉴定RA的候选生物标志物。发现识别肽富集图94中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定RA的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图79A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图79B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定RA的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为图79B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在一些实施方案中,区别RA与健康参考受试者的识别肽富集一或多种氨基酸。

  在一些实施方案中,例如通过结合信号的差异,通过统计方式,例如t检验,比较两种不同疾患中抗体结合肽的相对结合信号,根据具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值,来鉴定用于方法中的识别肽。

  图94中提供了可以用于鉴定RA的候选生物标志物的识别肽的例示性清单。所述清单提供了前50种识别肽,所述识别肽是将使用来自患有RA的受试者的样品获得的抗体结合信号组合与使用来自患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品获得的结合信号组合以最大显著性相区别的肽。在一些实施方案中,用于鉴定RA的候选生物标志物的方法包括鉴定包含图94中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定RA的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分并分级,以鉴定RA的候选生物标志物。在一个实施方案中,RA的候选生物标志物是选自图86B中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  在其它实施方案中,提供一种鉴定全身性红斑狼疮(RA)的至少一种候选蛋白质生物标志物的方法,所述方法包括:(a)提供肽阵列并将来自已知患有全身性红斑狼疮的多个参考受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述识别肽集合显示出能够区别全身性红斑狼疮与来自未患RA的健康受试者、患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品的结合信号;(c)利用所述识别肽集合中的每种肽查询蛋白质组数据库;(d)将所述识别肽集合中的每种肽与人蛋白质组数据库中的一种或多种蛋白质比对;以及(e)针对从蛋白质组数据库鉴定出的蛋白质的每一种获得关联性分数并分级;其中所鉴定的蛋白质中的每一种为全身性红斑狼疮的候选生物标志物。识别肽可以通过统计方式,例如t检验,通过具有小于10-3、小于10-4、小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值来鉴定。在一些实施方案中,所得候选生物标志物可以根据在与根据所述方法但使用非识别肽鉴定的蛋白质相比时小于10-3、小于10-4、小于10-5或小于10-6的p值分级。

  在一些实施方案中,鉴定识别肽的步骤包括:(i)检测来自多个患有RA的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自具有其它自身免疫性疾病或非自身免疫性模拟疾病的一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同的健康状况;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有RA的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  实施例14和17-18说明了一种使用区别来自患有RA的受试者的样品与来自健康、患有其它自身免疫性疾病或非自身免疫性模拟疾病(“非RA”)的受试者的样品的识别肽来鉴定RA的候选标靶蛋白质的方法。

  在一些实施方案中,可以使用图95中列出的识别肽中的任一种或多种鉴定RA的候选生物标志物。发现识别肽富集图78A中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定RA的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为图78A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。发现相同识别肽富集图78B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定RA的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为图78B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。

  在一些实施方案中,例如通过结合信号的差异,通过统计方式,例如t检验,比较两种不同疾患中抗体结合肽的相对结合信号,通过具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值,来鉴定用于方法中的识别肽。

  图95中提供了可以用于鉴定RA的候选生物标志物的识别肽的例示性清单。所述清单提供了前50种识别肽,所述识别肽是将使用来自患有RA的受试者的样品获得的抗体结合信号组合与使用来自患有其它自身免疫性疾病或非自身免疫性模拟疾病的受试者群组的样品获得的结合信号组合以最大显著性相区别的肽。在一些实施方案中,用于鉴定RA的候选生物标志物的方法包括鉴定包含图95中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定RA的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分并分级,以鉴定RA的候选生物标志物。在一个实施方案中,RA的候选生物标志物是选自图87C中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  可以鉴定将SLE与RA、OA、FM和SS中的任一种相区别的识别肽,且可以如本文中其它地方所述确定这些肽中序列基序的富集。实施例14-16说明了用于鉴定将SLE与RA、OA、FM和SS中的每一种相区别的识别肽的方法,且富集的序列基序和氨基酸分别提供在图65-68中。类似地,如实施例14和17-18中所述,提供将来自RA患者的样品与来自患有OA、FM和SS的受试者群组中的每一个群组的样品相区别的识别肽,且图66-68分别提供了识别肽中富集的对应序列基序和氨基酸。另外,从患有RA的受试者群组和患有其它风湿病的受试者群组获得的结合信号的比较揭露了富集图77中列出的基序和氨基酸的识别肽集合。

  所鉴定的识别肽可以使用在区别所述不同疾患的识别肽中富集的序列基序鉴定候选标靶蛋白质,即候选生物标志物。在一个实施方案中,鉴定用于治疗人类受试者的自身免疫性疾病的候选标靶的方法包括:(a)获得区别自身免疫性疾病与一种或多种不同自身免疫性疾病的识别肽集合;(b)鉴定所述识别肽的基序集合;(c)将所述基序集合与人蛋白质组比对;(d)鉴定在所述集合中的每个基序与免疫原性蛋白质的区域之间同源的区域;以及(e)鉴定所述蛋白质为所述自身免疫性疾病的候选标靶。

  另外,可以使用将SLE、RA、FM、OA和健康受试者彼此同时区别的识别肽鉴定候选生物标志物。图89中列出在疾病的多重分类中富集的子基序和氨基酸的序列。所述基序可以如本文中其它地方所述用于鉴定候选生物标志物。

  疾病进展的生物标志物

  随后可以将根据统计分析选择的识别肽的结合信号信息输入机器学习算法中,以获得以所需准确度、灵敏度和特异度将抗体概况数据分类并鉴定疾病进展的候选生物标志物的模型。在一些实施方案中,可以鉴定包括(但不限于)SSc和DM的自身免疫性疾病的疾病进展的候选生物标志物。在一些情况下,疾病进展通过器官受累来鉴定。

  较轻度形式硬皮病一般限于厚皮区域;通常只是手指和/或面部。每个患有硬皮病的人可能具有不同的症状模式,包括钙质沉着(其是钙沉淀在皮肤和组织下)、雷诺现象、食管运动功能障碍、指端硬化和毛细血管扩张。然而,硬皮病可能进展至弥漫性疾病,涉及更多区域和皮肤变粗,并可能包括包括手臂、脚和躯体的皮肤。绷紧的皮肤使得难以弯曲手指、手和其它关节。有时关节、腱和肌肉发炎。面部绷紧的皮肤可能减小一个人嘴的尺寸,并使得良好的牙齿护理变得非常重要。皮肤可能失去或获得色素;形成浅色或深色皮肤区域。有些人失去四肢上的毛发,出汗更少,并因皮肤破坏而显现干燥皮肤。更重要地,弥漫性硬皮病可能具有例如胃肠道、心脏、肺或肾等内脏的相关受累。器官受累程度变化剧烈-一些一点也没有,而其它患者器官可能严重受影响。识别肽还可以区别反映例如自身免疫性疾病等疾病的进展的不同状态。举例来说,SSc的进展可以显现为间质性肺病(interstitiallung disease,ILD)。在一些情况下,SSc可能进展至显现为胃窦血管扩张症(GAVE)。在其它情况下,SSc可能进展至涉及肾。与ILD和GAVE有关的并发症还可以发生在例如DM的其它模拟自身免疫性疾病中。

  在一些实施方案中,识别肽区别患有SSc和器官受累的受试者与患有SSc而没有器官受累的受试者。在其它实施方案中,识别肽区别患有DM和器官受累的受试者与患有DM而没有器官受累的受试者。因此,候选生物标志物可以用来诊断疾病,鉴定疾病进展的阶段。生物标志物还可以用于监测疾病。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  在一方面,提供了一种用于鉴定受试者的自身免疫性病症的疾病病况或进展的候选生物标志物的方法,所述方法包括:a.使肽阵列接触来自已知患有自身免疫性病症但没有可能随着AI疾病的进展而发生的临床表现的受试者的第一生物样品;b.检测第一生物样品中的抗体与相同肽阵列的结合以获得第一免疫标记概况;c.使相同肽阵列接触来源于处于自身免疫性病症的已知阶段但具有与AI相关的临床表现的个体的对照样品;d.检测参考样品中的抗体与相同肽阵列的结合以获得第二免疫标记概况;e.将第一免疫标记概况与第二免疫标记概况比较以鉴定出指示临床表现的识别肽。随后,识别肽用于鉴定出指示疾病阶段或进展的候选生物标志物。

  在一些实施方案中,所提供的测定、方法和装置可以确定已知患有自身免疫性疾病的受试者中的疾病进展。所述方法包括:(a)使来自受试者的样品接触肽阵列,所述肽阵列包含至少10,000种原位合成的不同肽;(b)检测样品中存在的抗体与所述阵列上至少25种肽的结合以获得第一结合信号组合;以及(c)将第一结合信号组合与至少参考第二结合信号组合比较,其中参考第二结合信号组合包含从包含多个具有指示所述自身免疫性疾病进展的临床表现的参考受试者群组获得的结合信号组合,从而进行所述鉴定诊断,其中方法性能通过超过0.6的接收器工作特性(ROC)曲线下面积(AUC)表征。在一些实施方案中,确定患有伴有ILD的SSC的受试者中的疾病进展。在其它实施方案中,确定患有伴有GAVE的SSC的受试者中的疾病进展。在其它实施方案中,确定患有伴有ILD的DM的受试者中的进展。

  在一些实施方案中,利用本文公开的方法与阵列用于确定受试者中自身免疫性疾病的进展的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在一些实施方案中,在患有SSc的受试者之间确定疾病进展,并在患有ILD和/或GAVE的受试者中确定进展。在一些实施方案中,相对于患有SSC而没有ILD的受试者,确定患有SSc和ILD的受试者中的疾病进展的识别肽富集脯氨酸、精氨酸、赖氨酸赖氨酸、组氨酸和天冬氨酸中的一种或多种(图18B)。在其它实施方案中,相对于患有SSC而没有GAVE的受试者,确定患有SSc和GAVE的受试者中的疾病进展的识别肽富集精氨酸、酪氨酸、丝氨酸、组氨酸、赖氨酸和苯丙氨酸中的一种或多种(图14B)。

  在一些实施方案中,利用本文公开的方法与阵列用于确定受试者的自身免疫性疾病的进展的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,自身免疫性疾病为SSc或DM。在优选实施方案中,在患有SSc的受试者之间确定疾病进展,并在患有ILD和/或GAVE的受试者中确定进展。在一些实施方案中,相对于患有SSC而没有ILD的受试者,确定患有SSc和ILD的受试者中的疾病进展的识别肽富集图18A中提供的一或多种基序。在其它实施方案中,相对于患有SSC而没有GAVE的受试者,确定患有SSc和GAVE的受试者中的疾病进展的识别肽富集图14A中提供的一或多种基序。

  在一些实施方案中,利用本文公开的方法与阵列用于确定受试者的自身免疫性疾病的进展的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,在患有SSc而没有肾危象的受试者之间确定疾病进展,并在患有SSc并具有肾危象的受试者中确定进展。在一些实施方案中,相对于患有SSC而没有肾危象的受试者,确定患有SSc而没有肾危象的受试者中的疾病进展的识别肽富集脯氨酸、天冬氨酸和和谷氨酸中的一种或多种(图14B)。

  在一些实施方案中,利用本文公开的方法与阵列用于确定受试者的自身免疫性疾病的进展的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,在患有SSc而没有肾危象的受试者之间确定疾病进展,并在患有SSc并具有肾危象的受试者中确定进展。在一些实施方案中,相对于患有SSC而没有肾危象的受试者,确定患有SSc和肾危象的受试者中的疾病进展的识别肽富集图12A中提供的一或多种基序。

  在一些实施方案中,利用本文公开的方法与阵列用于确定受试者的自身免疫性疾病的进展的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,在患有DM的受试者之间确定疾病进展,并在患有ILD和/或GAVE的受试者中确定进展。在一些实施方案中,相对于患有DM而没有ILD的受试者,确定患有DM和ILD的受试者中的疾病进展的识别肽富集脯氨酸、天冬氨酸、谷氨酸、丝氨酸丝氨酸、甘氨酸和谷氨酰胺中的一种或多种(图24B)。

  在一些实施方案中,利用本文公开的方法与阵列用于确定受试者的自身免疫性疾病的进展的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为构成自身免疫性疾病的免疫标记的肽的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。在优选实施方案中,在患有DM的受试者之间确定疾病进展,并在患有ILD和/或GAVE的受试者中确定进展。在一些实施方案中,相对于患有DM而没有ILD的受试者,确定患有DM和ILD的受试者中的疾病进展的识别肽富集图24A中提供的一或多种基序。

  如针对鉴定自身免疫性疾病的候选生物标志物的方法所描述,疾病免疫概况/结合信号组合与反映具有器官受累的受试者的疾病进展,例如疾病免疫概况的参考结合信号组合的比较和鉴定区别性地结合的肽可以揭露与参考相比,在疾病免疫概况中至少一些识别肽结合更多抗体;和/或与参考相比,在疾病免疫概况中至少一些识别肽结合更少抗体。在一些实施方案中,提供了一种用于鉴定自身免疫性病症的进展的候选生物标志物的方法,所述方法包括:(a)提供肽阵列并使来自多个已知患有所述自身免疫性疾病的受试者的多个生物样品与所述肽阵列接触;(b)鉴定与所述生物样品中的抗体结合的识别肽集合,其中与所述识别肽的结合与已知疾病分数相关,且其中与所述识别肽的结合进一步使抗体结合的变化与已知疾病分数的变化相关;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性针对所鉴定蛋白质中的每一种获得蛋白质分数并分级,从而鉴定指示自身免疫性疾病活动度的至少一种候选生物标志物。

  在一些情况下,鉴定相关性肽集合的步骤包括:(i)检测来自多个患有在对应的已知第一疾病分数下的自身免疫性疾病的受试者的样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测在后来的时间和在对应的已知至少第二疾病分数下从相同多个受试者收集的样品中抗体与相同肽阵列的肽的结合,以至少获得每个受试者的第二结合信号组合;(iii)将第一结合信号组合和第一已知疾病分数与所述第二结合信号组合和至少第二疾病分数比较;以及(iv)鉴定显示出(i)第一结合信号组合与至少第二组合之间的变化与(ii)每个受试者的已知疾病分数的对应变化之间的相关性的肽;从而鉴定所述相关性肽集合。

  疾病活动度的候选生物标志物

  自身免疫性疾病患者可能经历长期活动性疾病,在症状缓解和爆发之间来回波动,或长时间静止。准确地检测和确定患者的状态对于指定适当的药物方案、评估治疗结果、界定患者亚群和疾病爆发的早期检测来说是重要的,以改善自身免疫性疾病患者的治疗结果。例如与全身性红斑狼疮相关的爆发的迅速治疗不仅产生更好的即时结果,而是防止累积的长期器官破坏。因此,疾病活动度的灵敏而特异性的诊断仍然是未满足的重要临床需求。参见Oglesby等人,Impact of early versus late systemic lupuserythematosus diagnosis on clinical andeconomic outcomes.Applied HealthEconomics&Health Policy.12(2):179-90,2014;Lisnevskaia等人,Systemic lupuserythematosus.Lancet.384(9957):1878-88,2014。

  代替临床研究的一种常见方法是使用评分系统来评估受试者中自身免疫性疾患的生理和生物化学表现。举例来说,最常用的对临床受试者的狼疮活动度的研究是全身性红斑狼疮疾病活动度指数(SLEDAI)。SLEDAI是24个临床表现和实验室测试的清单,例如癫痫发作、精神病、器质性脑综合征、视力障碍、其它神经问题、脱发、新皮疹、肌无力、关节炎、血管发炎、口疮、随着深呼吸恶化的胸痛以及胸膜炎和/或心包炎和发烧的表现形式。分析的实验室结果包括尿分析测试、血液补体水平、增加的抗DNA抗体水平、低的血小板和低白血球数。基于患者中在前10天内这些表现形式是否已存在或不存在,将每个项目评分。参见图49A和图49B。

  SLEDAI指数需要对不同的临床和实验室测试类别,包括器官受累进行加权。举例来说,关节疼痛和肾病各乘以四,但中枢神经系统神经表现形式乘以八。然后所分配的进行加权的评定合计成最后分数,其在零至105范围内,其中分数超过20为罕见或稀有的。然而,关于如何将这些分数分类意见不一致,但6或更多的SLEDAI分数已显示符合需要治疗的活动性疾病,而低于3的分数一般视为非活动性。4至15的分数表明轻度或中度疾病,且超过15的分数视为重度。已报道临床上有意义的差异是6分的改善或8分的恶化。

  SLEDAI评定在红斑狼疮国家评定雌激素安全性(SELENA)试验中进行修改,又名SELENA-SLEDAI爆发指数。虽然SELENA-SLEDAI提供了一些关于每个条款中临床活动度的定义的说明,但SLEDAI分析中研发和表征的基础的前提和评分系统未显著地变化。

  其它用于评定全身性红斑狼疮的临床评定工具包括BILAG(不列颠群岛狼疮活动度组),BILAG是86个问题的医师对特定的器官功能的评定,包括针对既定器官系统,组合成单一分数的多种表现形式和实验室测试的编辑。此外,其它疾病或病症具有类似的相关性测定,所述测定还可以用于确定疾病活动度或将疾病活动度分等级,尤其包括类风湿性关节炎的DAS28(疾病活动度分数)、癌症的TNM(肿瘤、结节、转移)分期系统、诺丁汉分级系统(又名斯卡夫-布鲁姆-理查德森分级系统(Scarff-Bloom-Richardson grading system)的埃尔斯顿-埃利斯(Elston-Ellis)改良版)、用于预后和诊断前列腺癌的格里森评分系统(Gleason scoring system)。

  因为复杂性,所以例如SLEDAI、BILAG和其它相关性测试等疾病评分系统最常用于研究或临床试验中以评估新药的有效性。然而,由临床医师(例如风湿病学家)日常使用是不切实际的。需要简单、准确的分子测试以改善患者护理。

  患者样品与阵列的差别结合产生指示患者的疾病病况的特定结合模式或标记。这些结合标记可以准确地确定或诊断疾病活动度,包括但不限于自身免疫性疾病活动度、感染性疾病活动度、癌症活动度和糖尿病疾病活动度。举例来说,本文公开的方法和装置可以鉴定或确定SLE活动度,其与例如SLEDAI或BILAG等临床评定结果相关。

  可以从来自多个受试者中的每一个受试者的样品鉴定出信号强度与疾病分数相关且与肽强度的变化和疾病分数的变化相关的肽,以获得随着时间的过去与疾病分数和疾病分数的变化,例如SLEDAI相关的结合信号组合。可以通过比较抗体与从具有已知疾病分数的样品获得的肽阵列结合的信号组合与抗体与在每对来自于相同受试者的成对样品中获得的相同肽阵列结合的信号组合,鉴定出与疾病分数显著相关的肽,其中在比获得第一个样品时间晚的时间获得该对样品中的第二个。在测试样品的每个时间结合信号组合与已知疾病分数之间的相关性和结合信号组合的变化与疾病分数的变化之间的相关性鉴定出与疾病分数相关的阵列肽。相关性肽与针对关于本文中其它地方描述的疾病的生物标志物的鉴定的实施方案所述的识别肽类似,且本文中称为“识别肽”。随后疾病活动度的识别肽可以与蛋白质组比对,且疾病活动度的至少一种候选生物标志物可以如本文中其它地方所述来鉴定。

  在一方面,本文公开了用于鉴定自身免疫性疾病的至少一种候选生物标志物的方法和装置,所述方法包括:(a)提供肽阵列并使来自多个已知患有所述自身免疫性疾病的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽区别自身免疫性疾病与至少一种不同健康状况;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定自身免疫性疾病的至少一种候选生物标志物。

  在一个实施方案中,自身免疫性疾病为SLE,且鉴定具有与SLE活动度相关的信号强度的识别肽。实施例12-13说明了一种使用识别肽鉴定SLE活动度的候选标靶蛋白质的方法,所述识别肽与对应于已知SLEDAI分数的结合信号组合以及与对应SLEDAI分数的变化相关的结合信号组合中信号强度的变化相关。

  图61中提供了与SLEDAI分数相关的702种识别肽的集合。相对于文库肽中的基序和氨基酸含量,识别肽富集肽基序和氨基酸。图60A-60G中提供了SLEDAI相关性肽中富集的基序和氨基酸。

  SLEDAI相关性肽可以富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序和/或氨基酸。相对于肽文库的基序和/或氨基酸含量,序列基序和/或氨基酸的富集可以为至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。

  将识别肽与人蛋白质组比对,并通过肽与设定成重叠10聚体的蛋白质组序列的20聚体部分比对来获得重叠分数。通过蛋白质分数相对于使用随机挑选的非识别肽鉴定的蛋白质分数的统计关联性,鉴定出肽进行比对的蛋白质并分级。表11中提供了与SLEDAI分数相关的识别肽集合。

  感染性疾病的候选生物标志物

  感染性疾病是通常由例如细菌、病毒、真菌或寄生虫等微生物引起的病症。感染的诊断典型地需要例如血液、尿液、喉拭子、粪便样品和在一些情况下脊椎抽液等体液的实验室测试。成像扫描和活组织检查也可以用于鉴定感染源。多种个别测试可以用来诊断感染且包括免疫测定、聚合酶链式反应、荧光原位杂交和针对病原体的基因测试。目前的方法耗费时间、复杂且劳动强度大,且可能需要不同程度的专门技术。另外,可利用的诊断工具检测早期感染常常是不可靠的,且常常需要超过一种方法对感染作出阳性诊断。在许多情况下,感染者可能直到爆发严重并发症才显示出感染症状。

  一实例为克氏锥虫(克氏锥虫)的感染,其引起恰加斯氏病(Chagas disease)。恰加斯氏病是拉丁美洲和加勒比海死亡和发病的主要原因之一[Perez CJ等人,Lymbery AJ,Thompson RC(2014)Trends Parasitol30:176-182],且是心血管疾病的全球负担的重要影响因子[Chatelain E(2017)Comput Struct Biotechnol J15:98-103]。恰加斯氏病被视为是这些地理区域中最被忽视的寄生虫病,且流行病学家正追踪其对包括美国和欧洲在内的非流行国家的进一步传播[Bern C(2015)Chagas′Disease.N Engl J Med 373:1882;BernC及Montgomery SP(2009)Clin Infect Dis 49:e52-54;Rassi Jr A等人,(2010)TheLancet 375:1388-1402]。病原体克氏锥虫是一种鞭毛原生动物,其主要通过吸血的锥蝽昆虫传播至哺乳动物宿主,在哺乳动物宿主中其可以在任何有核细胞中繁殖。其它传播模式包括输血或先天和口腔途径[Steverding D(2014)Parasit Vectors 7:317]。

  需要方法、诊断工具和其它生物标志物来鉴定感染,优选检测早期感染和缺乏症状时的感染。

  所公开的实施方案涉及用于鉴定感染的候选生物标志物的方法、设备和系统。所述方法是基于鉴定肽阵列上存在的识别肽来预测,与来自参考受试者的样品的结合相比,来自感染后的受试者的生物样品有区别性地结合所述识别肽。所鉴定的候选生物标志物可用于诊断、预后、监测和筛选感染,和/或用作治疗感染的治疗标靶。

  任一种感染和感染的候选生物标志物的鉴定是基于免疫标记(IST)的存在,免疫标记将来自受试者的抗体与阵列上的肽文库的结合展示为结合信号模式,即结合信号组合,其反映了受试者的免疫状态。IST是相对于由参考样品中存在的抗体结合的肽组合,区别性地结合受试者样品中存在的抗体的识别肽组合。结合信号模式包含可以指示感染后状态,有症状和/或无症状状态,例如血清阳性或血清阴性的结合信息。

  本文所述的方法提供了若干优于现存方法的优点。在一方面,所述方法可以检测有症状和无症状的受试者中的感染。所述方法效率很高,因为单个测试事件,即单个微阵列标记可以评定多种感染中的任一种的存在,且可以同时确定多种感染的诊断。任一种感染的鉴定仅仅受已鉴定出识别肽的不同感染的数目限制。本文所述的方法、设备和系统适合于鉴定由包括细菌、病毒、真菌、原生动物、蠕虫和害虫等多种病原体引起的感染,且应用于研究、医学和兽医学诊断和保健监护的领域,例如追踪由病原体引起的疾病爆发的传播。

  本文中提供了能够使用鉴定外周血抗体与肽阵列的结合的差别模式的单一无创筛选法检测和诊断感染的方法、设备和系统。患者样品与肽阵列的差别结合产生特定的结合模式,即免疫标记(IST),其指示患者的健康状况,例如感染。另外,本文中提供的设备和系统允许鉴定生物样品的抗体的抗原或结合搭配物,所述抗原或结合搭配物可以被评定为靶向治疗介入的候选生物标志物。

  典型地,作为疾患特征的免疫标记相对于一种或多种参考免疫标记测定,所述参考免疫标记是从参考样品的一个或多个不同集合获得,每个集合从一组或多组参考受试者获得,每组患有不同疾患,例如不同感染。举例来说,从测试对象获得的免疫标记通过与没有感染和/或具有由不同病原体诱发的不同感染的参考受试者的免疫标记相比,可鉴定出测试对象的感染。因此,来自测试对象的免疫标记与参考受试者的免疫标记的比较可以确定测试对象的疾患,例如感染。参考组可以是一组健康受试者,并且所述疾患在本文中称为健康状况。健康受试者典型地是没有所测试的感染或已知对所测试的感染呈血清阴性的受试者。

  所提供的方法可以在高性能、灵敏度和特异度下检测来自对不同感染呈血清阳性的有症状或无症状的受试者群体内的不同个体的样品,例如血液中的许多不同感染。可以根据所提供的方法检测的感染包括不限于由包括细菌、病毒、真菌、原生动物、寄生虫生物体和蠕虫在内的微生物引起的感染。

  在一些实施方案中,IST是基于抗体与肽阵列的结合的不同但可再现的模式,选择所述肽阵列以提供少于20个氨基酸的氨基酸组合的至少一部分的无偏抽样,而非表示已知的蛋白质组序列。由来自受试者的样品中的抗体结合的肽可能不是天然标靶序列,而是代之以模拟同源天然表位的序列或结构。举例来说,在实施例1中描述的IST文库中的肽没有一个与已知的蛋白质组数据库中的任何9聚体序列匹配相同。这并不意外,因为可能的9聚体肽序列的数目比蛋白质组数据库中相邻的9聚体序列的数目大若干个数量级。因此,与天然序列准确对应的任何模拟肽的概率是低的。由抗体选择性地结合的每个IST肽序列可以是抗体在体内识别的表位的功能替代品。因此,包含抗体结合阵列肽序列的部分或全部的蛋白质序列可以用来鉴定候选蛋白质生物标志物,所述生物标志物可以被评定为治疗标靶。

  在一方面,提供了一种用于鉴定患有或疑似患有至少一种感染的受试者的血清状态的方法,所述方法包括:(a)使来自所述受试者的样品接触包含至少10,000种不同肽的肽阵列;(b)检测所述样品中存在的抗体与阵列上至少25种肽的结合以获得结合信号组合;以及(c)将来自受试者的样品的结合信号组合与一组或多组参考结合信号组合比较,其中每一组的参考结合信号组合中的至少一种从已知对感染呈血清阳性的多个参考受试者获得,且其中每一组的参考结合信号组合中的至少一种从已知对感染呈血清阴性的多个参考受试者获得,从而确定受试者的血清状态。在一些实施方案中,对一种感染呈血清阴性的参考受试者可以对不同感染呈血清阳性。阵列肽可以是保藏的或可以在固体表面上原位合成。在一些实施方案中,方法性能可以通过超过0.6的接收器工作特性(ROC)曲线下面积(AUC)表征。在一些实施方案中,从AUC分类的可重现性在0.60至0.69、0.70至0.79、0.80至0.89或0.90至1.0范围内。

  在一些实施方案中,所述方法还包括鉴定将来自已知对感染呈血清阳性的参考受试者的样品与来自已知对相同感染呈血清阴性的参考受试者的样品相区别的区别参考结合信号组合;以及鉴定显示区别结合信号组合的阵列肽的组合。区别结合信号组合可以包含相对于从参考样品获得的对应的结合信号,增加或减少的信号、新添加的信号和/或在感染存在下丧失的信号。显示区别结合信号组合的阵列肽被称为识别肽。术语“识别”在提及阵列肽时使用时在本文中与“分类”可互换使用。在一些实施方案中,区别参考结合信号组合包含与阵列上至少1种、至少2种、至少5种、至少10种、至少15种、至少20种、至少25种、至少30种、至少35种、至少40种、至少45种、至少50种、至少60种、至少70种、至少80种、至少90种、至少100种、至少125种、至少150种、至少175种、至少200种、至少300种、至少400种、至少500种、至少600种、至少700种、至少800种、至少900种、至少1000种、至少2000种、至少3000种、至少4000种、至少5000种、至少6000种、至少7000种、至少8000种、至少9000种、至少10000种、至少20000种或更多种识别肽的结合信号组合。举例来说,10,000种肽的阵列上至少25种肽被鉴定为给定疾患的识别肽。在一些实施方案中,区别结合信号的每个组合通过检测来自多个参考受试者中的每一个受试者的参考样品中存在的抗体与包含至少10,000种不同肽的相同肽阵列上至少25种肽的结合来获得。在一些实施方案中,肽是原位合成的。在一些实施方案中,通过抗体与肽阵列有区别性地结合,鉴定出识别肽,所述肽阵列包含阵列底物上至少5,000种、至少10,000种、至少15,000种、至少20,000种、至少25,000种、至少50,000种、至少100,000种、至少200,000种、至少300,000种、至少400,000种、至少500,00种、至少1,000,000种、至少2,000,000种、至少3,000,000种、至少4,000,000种、至少5,000,000种或至少100,000,000种或更多种不同肽的文库。

  在一些实施方案中,阵列上肽总数的至少0.00005%、至少0.0001%、至少0.0005%、至少0.0001%、至少0.001%、至少0.003%、至少0.005%、至少0.01%、至少0.05%、至少0.1%、至少0.5%、至少1%、至少0.5%、至少1.5%、至少2%、至少3%、至少4%、至少5%、至少10%、至少25%、至少50%、至少75%、至少80%或至少90%为识别肽。在其它实施方案中,阵列上的所有肽都是识别肽。

  识别肽组合的特征包括所鉴定的识别肽中存在的一种或多种氨基酸为数较多和/或特定序列基序为数较多。氨基酸和基序含量的富集是相对于阵列文库中所有肽的对应的总氨基酸和基序。在一些实施方案中,区别由于感染而呈血清阳性的受试者与对相同感染呈血清阴性的参考受试者的免疫标记结合模式的识别肽可以富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。在一些实施方案中,相对于所有文库肽中存在的每一种氨基酸的总含量,识别肽中氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%。

  类似地,在一些实施方案中,区别由于感染而呈血清阳性的受试者与对相同感染呈血清阴性的参考受试者的免疫标记结合模式的识别肽可以富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。相对于所有文库肽中存在的每一种基序的总含量,识别肽中序列基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%。

  可以鉴定出用于感染性疾病的医疗干预的候选生物标志物。在一些实施方案中,感染性疾病由原生动物克氏锥虫的寄生虫感染引起。

  实施例6-11说明了一种使用鉴定已经或疑似已经感染上克氏锥虫(恰加斯氏病)的受试者的血清状态的识别肽鉴定候选标靶蛋白质的方法。在一些实施方案中,识别肽区别对克氏锥虫呈血清阳性的受试者与对克氏锥虫呈血清阴性的受试者。表6和表7中提供了候选蛋白质标靶。类似地,可以使用区别来自患有其它感染性疾病的受试者的样品与来自健康受试者的样品、来自患有其它感染性疾病的受试者的样品和来自患有可能有感染性或可能无感染性的模拟疾病的受试者的样品的识别肽鉴定候选蛋白质标靶。

  本文公开了用于鉴定感染的至少一种候选生物标志物的方法和装置,所述方法包括:(a)提供肽阵列并使来自多个已知具有所述感染的受试者的生物样品与所述肽阵列接触;(b)鉴定与来自多个受试者的生物样品中的抗体结合的识别肽集合,所述识别肽区别感染性疾病与至少一种不同健康状况;(c)将所述识别肽集合中的每种肽与蛋白质组中的一种或多种蛋白质比对;以及(d)根据统计显著性获得所鉴定的蛋白质中的每一种蛋白质的蛋白质分数并对所述的每一种蛋白质进行分级,从而鉴定感染的至少一种候选生物标志物。

  在一些实施方案中,鉴定识别肽集合的步骤包括:(i)检测来自多个患有感染性疾病的受试者的生物样品中存在的抗体的结合以获得第一结合信号组合;(ii)检测来自一个或多个参考受试者群组的样品中存在的抗体与相同肽阵列的结合以获得第二结合信号组合,每个参考群组具有不同的健康状况;(iii)将第一结合信号组合与第二结合信号组合比较,以获得区别结合信号集合;以及(iv)鉴定阵列上与来自患有感染性疾病的受试者的样品中的抗体和来自一个或多个参考受试者群组的样品中的抗体区别性地结合的肽,从而鉴定所述识别肽。

  在一些实施方案中,发现识别肽富集图48A-图48N中列出的序列基序。在一些实施方案中,利用本文公开的方法与阵列用于鉴定克氏锥虫感染的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。相对于阵列文库中所有肽的对应的总基序含量,序列基序的富集可以为图36A中列出的至少一种基序富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。

  发现相同识别肽富集图37B中列出的氨基酸。因此,在其它实施方案中,利用本文公开的方法与阵列用于鉴定克氏锥虫感染的候选生物标志物的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。相对于阵列文库中所有肽的对应的总氨基酸含量,序列基序的富集可以为图36B中列出的至少一种氨基酸富集至少100%、至少125%、至少150%、至少175%、至少200%、至少225%、至少250%、至少275%、至少300%、至少350%、至少400%、至少450%或至少500%。

  在一些实施方案中,例如通过结合信号的差异,通过统计方式,例如t检验,比较两种不同疾患中抗体结合肽的相对结合信号,通过具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值,来鉴定用于方法中的识别肽。

  图48A-图48N中提供了可以用于鉴定克氏锥虫感染的候选生物标志物的识别肽的例示性清单。所述清单提供了最高识别肽,所述识别肽是将使用来自对克氏锥虫呈血清阳性的受试者的样品获得的抗体结合信号组合与使用来自对克氏锥虫呈血清阴性的受试者的样品获得的结合信号组合以最大显著性相区别的肽。在一些实施方案中,用于鉴定克氏锥虫的候选生物标志物的方法包括鉴定包含图48A-图48N中列出的识别肽中的一种或多种的识别肽集合。

  随后通过将识别肽集合与人蛋白质组比对来鉴定克氏锥虫的候选生物标志物。如本文中其它地方所述,由识别肽与蛋白质组的比对确定重叠分数;并将由此鉴定的蛋白质相对于使用随机挑选的非识别肽鉴定的蛋白质评分并分级,以鉴定克氏锥虫的候选生物标志物。在一个实施方案中,克氏锥虫的候选生物标志物是选自表6和表7中列出的候选生物标志物的清单。在一些实施方案中,根据所述方法鉴定的候选生物标志物蛋白质根据p值小于10-3、小于10-4、小于10-5或小于10-6分级。

  可替代地,根据所提供的方法鉴定的识别肽可以使用在区别两种不同疾患的最具识别力的肽中富集的序列基序鉴定候选标靶蛋白质,即候选生物标志物。在一个实施方案中,鉴定用于治疗人类受试者的自身免疫性疾病的候选标靶的方法包括:(a)获得区别自身免疫性疾病与一种或多种不同自身免疫性疾病的识别肽集合;(b)鉴定所述识别肽的基序集合;(c)将所述基序集合与人蛋白质组比对;(d)鉴定在所述集合中的每个基序与免疫原性蛋白质的区域之间同源的区域;以及(e)鉴定所述蛋白质为所述自身免疫性疾病的候选标靶。

  在优选实施方案中,感染性疾病为恰加斯氏病且区别血清阳性受试者的恰加斯氏病与对HBV呈血清阳性的参考受试者的识别肽富集精氨酸、色氨酸、丝氨酸、丙氨酸、缬氨酸、谷氨酰胺和甘氨酸中的一种或多种(图41B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别恰加斯氏病与HBV参考受试者的识别肽富集图41A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在优选实施方案中,感染性疾病为恰加斯氏病且区别血清阳性受试者的恰加斯氏病与对HCV呈血清阳性的参考受试者的识别肽富集精氨酸、色氨酸、丝氨酸、缬氨酸和甘氨酸中的一种或多种(图42B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别恰加斯氏病与健康参考受试者的识别肽富集图42A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在优选实施方案中,感染性疾病为恰加斯氏病且区别血清阳性受试者的恰加斯氏病与对WNV呈血清阳性的参考受试者的识别肽富集赖氨酸、色氨酸、天冬氨酸、组氨酸、精氨酸、谷氨酸和甘氨酸中的一种或多种(图43B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别恰加斯氏病与WNV参考受试者的识别肽富集图43A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在优选实施方案中,感染性疾病为HBV病且区别血清阳性受试者的HCV病与对WNV呈血清阳性的参考受试者的识别肽富集苯丙氨酸、色氨酸、缬氨酸、亮氨酸、丙氨酸和组氨酸中的一种或多种(图44B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别HBV病与HCV参考受试者的识别肽富集图44A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在优选实施方案中,感染性疾病为HBV病且区别血清阳性受试者的WNV病与对WNV呈血清阳性的参考受试者的识别肽富集色氨酸、赖氨酸、苯丙氨酸、组氨酸和缬氨酸中的一种或多种(图45B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别HBV病与WNV参考受试者的识别肽富集图45A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在优选实施方案中,感染性疾病为HCV病且区别血清阳性受试者的HCV病与对WNV呈血清阳性的参考受试者的识别肽富集赖氨酸、色氨酸、精氨酸、酪氨酸和脯氨酸中的一种或多种(图46B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别HCV病与WNV参考受试者的识别肽富集图46A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在其它实施方案中,可以获得个别分类器以相对于两种或更多种不同感染的组合群组鉴定感染,且提供分类器利用的识别肽组合。识别肽组合的特征包括所鉴定的识别肽中存在的一种或多种氨基酸为数众多和/或特定序列基序为数众多。举例来说,如实施例中所示,基于识别肽产生第一个二元分类器,以区别对克氏锥虫呈血清阳性的受试者与作为每一个对HPV、HCV或WNV呈血清阳性的受试者组合的一组受试者。基于识别肽产生第二个二元分类器,以区别对HBV呈血清阳性的受试者与作为每一个对恰加斯氏病、HCV或WNV呈血清阳性的受试者组合的一组受试者。基于识别肽产生第三个分类器,以区别对HCV呈血清阳性的受试者与作为每一个对HPV、恰加斯氏病或WNV呈血清阳性的受试者组合的一组受试者。基于识别肽产生第四个分类器,以区别对WVN呈血清阳性的受试者与作为每一个对HPV、HCV或恰加斯氏病呈血清阳性的受试者组合的一组受试者。

  氨基酸和基序含量的富集是相对于阵列文库中所有肽的对应的总氨基酸和基序。在一些实施方案中,利用本文公开的方法和阵列诊断或检测受试者的感染性疾病时,区别患有感染性疾病的受试者与每个受试者具有两种或更多种不同感染中的一种的一组受试者的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为构成感染性疾病的免疫标记的肽的超过一种氨基酸富集超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%。

  类似地,在一些实施方案中,利用本文公开的方法和阵列,相对于每个受试者具有两种或更多种不同感染中的一种的一组受试者,诊断或检测受试者的感染性疾病的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同序列基序。序列基序的富集可以为构成感染性疾病的免疫标记的肽的超过一种基序富集超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%。

  在一些实施方案中,感染性疾病为恰加斯氏病且区别血清阳性受试者的恰加斯氏病与对HBV、HCV和WNV中的一种呈血清阳性的一组参考受试者的识别肽富集精氨酸、酪氨酸、丝氨酸和缬氨酸中的一种或多种(图37B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别恰加斯氏病与HBV、HCV和WNV参考受试者的识别肽富集图37A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在一些实施方案中,感染性疾病为HBV且区别血清阳性受试者的HBV病与对恰加斯氏病、HCV和WNV中的一种呈血清阳性的一组参考受试者的识别肽富集色氨酸、苯丙氨酸、赖氨酸、缬氨酸、亮氨酸、精氨酸和组氨酸中的一种或多种(图38B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别HBV病与恰加斯氏病、HCV和WNV参考受试者的识别肽富集图38A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在一些实施方案中,感染性疾病为HCV且区别血清阳性受试者的HCV病与对恰加斯氏病、HBV和WNV中的一种呈血清阳性的一组参考受试者的识别肽富集精氨酸、酪氨酸、天冬氨酸和甘氨酸中的一种或多种(图39B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别HBV病与恰加斯氏病、HBV和WNV参考受试者的识别肽富集图39A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在一些实施方案中,感染性疾病为WNV且区别血清阳性受试者的WNV病与对恰加斯氏病、HBV和HCV中的一种呈血清阳性的一组参考受试者的识别肽富集赖氨酸、色氨酸、组氨酸和脯氨酸中的一种或多种(图40B)。相对于阵列文库中所有肽的对应的总氨基酸含量,一种或多种氨基酸的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。在一些实施方案中,区别HBV病与WNV参考受试者的识别肽富集图40A中提供的一种或多种基序。相对于阵列文库中所有肽的对应的总基序含量,一种或多种氨基基序的富集可以超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%或更多。

  在其它实施方案中,基于抗体与不同识别肽集合的结合,获得彼此无关的个别分类器,且组合成多重分类器,以可能实现最佳的可能分类,同时提高分类的效率和准确度。举例来说,基于区别克氏锥虫感染与HBV、HCV和WNV感染的参考群组的识别肽的第一个个别分类器可以与以下各分类器组合以获得多重分类器:第二个个别分类器,其基于区别HBV与恰加斯氏病、HCV和WNV感染的参考群组的识别肽;第三个个别分类器,其基于区别HCV与恰加斯氏病、HBV和WNV感染的参考群组的识别肽;以及第四个个别分类器,其基于区别WNV与恰加斯氏病、HBV和HCV感染的参考群组的识别肽。基于每一个个别分类器的识别肽,可以形成肽的最优组合以提供可以同时将两种或更多种不同感染彼此区别的多重分类器。实施例7证明个别分类器的识别肽的组合产生基于可以同时将克氏锥虫感染、HPV感染、HCV感染和WNV感染彼此相区别的识别肽的组合的多重分类器。

  在一些实施方案中,利用本文公开的方法与阵列用于同时鉴定受试者的两种或更多种感染的免疫标记结合模式的识别肽富集至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种或至少十种不同氨基酸。氨基酸的富集可以为构成感染性疾病的免疫标记的肽的至少一种氨基酸富集超过100%、超过125%、超过150%、超过175%、超过200%、超过225%、超过250%、超过275%、超过300%、超过350%、超过400%、超过450%或超过500%。在一些实施方案中,同时区别恰加斯氏病、HBV、HCV和WNV,其中识别肽同时将这些感染中的每一种彼此相区别。在一些实施方案中,同时将恰加斯氏病与HBV、HCV和WNV感染中的每一种相区别的识别肽富集精氨酸、酪氨酸、赖氨酸、色氨酸、缬氨酸和丙氨酸中的一种或多种(图47B)。在一些实施方案中,同时将HBV与恰加斯氏病、HCV和WNV感染中的每一种相区别的识别肽富集(图47A)中列出的一种或多种基序。

  候选生物标志物的应用

  在其它实施方案中,所提供的方法、设备和系统鉴定与疾病活动度相关和/或与随着时间过去疾病活动度的变化相关的识别肽。举例来说,识别肽可以确定疾病活动度并使其与由现存的评分系统的已知标志物定义的活动度相关。实施例3描述了若干识别肽与恰加斯氏病的S/CO活动度分数相关。这些识别肽已根据所提供的方法用于鉴定蛋白质。因此,这些蛋白质中的一些可能是可以用于恰加斯氏病活动度的测试和监测的新颖的候选生物标志物。

  识别肽还可以用作设计抑制或活化标靶蛋白质-蛋白质相互作用的药物的基础。在另一方面,提供了通过本发明的方法鉴定的新颖识别肽的治疗和诊断用途。因此,方面和实施方案包括包含根据本发明的肽和其衍生物的制剂、药剂和药物组合物。在一些实施方案中,提供新颖识别肽或其衍生物用于药物中。更具体地说,用于拮抗或促进例如细胞表面受体等标靶配体的功能。本发明的识别肽可以用于治疗人类或动物体的多种疾病及疾患,例如癌症和退化性疾病。治疗还可以包括预防性治疗以及治疗性治疗和减轻疾病或疾患。

  因此,本文公开的方法、系统和阵列装置能够鉴定识别肽,所述识别肽用来鉴定候选生物标志物,鉴定疫苗标靶,继而可用于在疾病和/或疾患早期治疗疾病和/或疾患的医疗干预中。举例来说,本文公开的方法、系统和阵列装置能够在传统的基于生物标志物的测定前数天或数周检测、诊断和监测疾病和/或疾患。此外,检测、诊断和监测由传染物引起的疾病和疾患,包括炎性疾患、自身免疫性疾病、癌症和病原性感染的旁侧系列仅仅需要一个阵列,即一个免疫标记阵列。可以鉴定候选生物标志物以验证治疗剂和随后研发。

  疾病

  所提供的测定、方法和装置可以用于鉴定任何疾病的医疗干预的候选生物标志物,其包括:诊断疾病;相对于其它疾病和模拟疾病,提供疾病的鉴定诊断;确定疾病的进展;将疾病活动度评分;用作评估作为治疗疾病的治疗剂的候选标靶;和基于预测的对疗法的反应在临床试验中将患者分层。

  候选生物标志物可以用于包括感染性疾病、血液病症、癌症、心血管疾病、消化疾病、内分泌疾病、营养性疾病、代谢疾病、生殖泌尿系统疾病、免疫系统病症、肌骨胳病症、神经病症和呼吸道病症在内的任何疾病的医疗干预。

  在一些实施方案中,疾病为可以根据所提供的方法鉴定候选生物标志物的自身免疫性疾病或病症。自身免疫性疾病的非限制性实例包括全身性红斑狼疮(SLE)(例如全身性红斑狼疮、盘状狼疮、药物诱发的狼疮、新生儿狼疮)、类风湿性关节炎、舍格伦病、多发性硬化(MS)、炎症性肠病(IBD)(例如克罗恩氏病、溃疡性结肠炎、胶原性结肠炎、淋巴细胞性结肠炎、缺血性结肠炎、转向性结肠炎、白塞氏综合征(Behcet′s syndrome)、感染性结肠炎、不确定性结肠炎)、间质性膀胱炎、牛皮癣性关节炎、硬皮病(SSc)、I型糖尿病、爱迪生氏病(Addison’s disease)、无γ球蛋白血、斑秃、淀粉样变性病、强直性脊柱炎、抗GBM/抗TBM肾炎、抗磷脂综合征(APS)、自身免疫性肝炎、自身免疫性内耳病(AIED)、轴突与神经元神经病(AMAN)、白塞氏病、大疱性类天疱疮、卡斯尔门病(Castleman disease,CD)、乳糜泻、恰加斯氏病、慢性炎性脱髓鞘多发性神经病(CIDP)、慢性复发性多灶性骨髓炎(CRMO)、慢性阻塞性肺病(COPD)、许尔-斯特劳斯病(Churg-Strauss)、瘢痕性类天疱疮/良性粘膜类天疱疮、寇甘氏综合征(Cogan’s syndrome)、冷凝集素病、先天性心脏阻滞、柯萨奇病毒性心肌炎(Coxsackie myocarditis)、CREST综合征、克罗恩氏病、疱疹样皮炎、皮肌炎、德维克氏病(Devic’s disease)(视神经脊髓炎)、盘状狼疮、德雷斯勒综合征(Dressler’s syndrome)、子宫内膜异位、嗜酸性食道炎(Eosinophilic esophagitis,EoE)、嗜酸性筋膜炎、结节性红斑、特发性混合型冷球蛋白血症、埃文斯综合征(Evans syndrome)、纤维肌痛、纤维性肺泡炎、巨细胞性动脉炎(颞动脉炎)、巨细胞性心肌炎、肾小球性肾炎、古德帕斯彻氏综合征(Goodpasture’s syndrome)、移植物抗宿主疾病(GVHD)(例如肾、肺、肝脏或心脏移植的排斥反应)、肉芽肿性多血管炎(Granulomatosis with Polyangiitis)、格雷夫斯氏病(Graves’disease)、吉兰-巴雷综合征(Guillain-Barre syndrome)、桥本氏甲状腺炎(Hashimoto′s thyroiditis)、溶血性贫血、亨-舍二氏紫癜(Henoch-Schonlein purpura,HSP)、妊娠性疱疹或妊娠性类天疱疮(PG)、低丙种球蛋白血症、IgA肾病、IgG4相关的硬化病、包涵体肌炎(IBM)、间质性膀胱炎(IC)、幼年型关节炎、幼年型肌炎(JM)、川崎氏病(Kawasaki disease)、朗伯-伊顿综合征(Lambert-Eaton syndrome)、白细胞破坏性脉管炎、扁平苔癣、硬化性苔癣、木样结膜炎、线状IgA病(LAD)、慢性莱姆病(Lyme diseasechronic)、梅尼耳氏病(Meniere’sdisease)、显微镜下多血管炎(MPA)、混合结缔组织病(MCTD)、莫伦氏溃疡(Mooren’s ulcer)、穆-哈二氏病(Mucha-Habermann disease)、重症肌无力、肌炎、嗜睡症、视神经脊髓炎、中性白细胞减少症、眼瘢痕性类天疱疮、视神经炎、复发性风湿病(Palindromic rheumatism,PR)、PANDAS(伴有链球菌的小儿自身免疫性神经精神障碍)、副肿瘤性小脑变性(Paraneoplastic cerebellar degeneration,PCD)、阵发性睡眠性血红蛋白尿(Paroxysmal nocturnal hemoglobinuria,PNH)、帕罗综合征(ParryRomberg syndrome)、睫状体平坦部炎(周边葡萄膜炎)、帕森-特纳综合征(Parsonnage-Turner syndrome)、天疱疮、周围神经病、静脉周脑脊髓炎、恶性贫血(PA)、POEMS综合征(多发性神经病、脏器肿大、内分泌病、单克隆丙种球蛋白病、皮肤变化)、多发性结节性动脉炎、风湿性多肌痛、多发性肌炎、心肌梗塞后综合症、开胸-心包切开后综合征、原发性胆汁性肝硬化、原发性硬化性胆管炎、黄体酮皮炎、牛皮癣、单纯红细胞再生障碍性贫血(PRCA)、坏疽性脓皮病、雷诺现象、反应性关节炎、反射交感性营养不良、莱特尔氏综合征(Reiter’ssyndrome)、复发性多软骨炎、不宁腿综合征(RLS)、腹膜后纤维化、风湿热、类风湿性关节炎(RA)、结节病、施密特综合征、巩膜炎、精子与睾丸自身免疫性、僵人综合征(SPS)、亚急性细菌性心内膜炎(SBE)、苏萨克氏综合征(Susac’s syndrome)、交感性眼炎(SO)、高安动脉炎(Takayasu’s arteritis)、颞动脉炎/巨细胞性动脉炎、血小板减少性紫癜(TTP)、托-亨综合征(Tolosa-Hunt syndrome,THS)、横贯性脊髓炎、溃疡性结肠炎(UC)、未分化结缔组织病(UCTD)、葡萄膜炎、血管炎、白斑病和/或韦格纳肉芽肿病(Wegener’s granulomatosis)(现称为肉芽肿性多血管炎(GPA))。

  在一些实施方案中,疾病为可以根据所提供的方法鉴定候选生物标志物的感染性疾病或病症。感染性疾病的非限制性实例包括由病原体引起的感染性疾病。病原体可以是病原病毒、病原细菌或原生动物感染。病原病毒和/或病原细菌的感染可引起疾患,例如炎症。病原细菌的非限制性实例可见于以下:a)博德特氏菌属(Bordetella genus),例如百日咳杆菌(Bordetella pertussis)物种;b)疏螺旋体属(Borrelia genus),例如伯氏疏螺旋体(Borrelia burgdorferi);c)布鲁氏菌属(Brucelia genus),例如流产布鲁氏菌(Brucella abortus)、犬布鲁氏菌(Brucella canis)、羊布鲁氏菌(Brucela meliterisis)和/或猪布鲁氏菌(Brucella suis)物种;d)弯曲杆菌属(Campylobacter genus),例如空肠弯曲杆菌(Campylobacter jejuni)物种;e)衣原体属(Chlamydia)和嗜衣原体属(Chlamydophila),例如肺炎衣原体(Chlamydia pneumonia)、沙眼衣原体(Chlamydiatrachomatis)和/或鹦鹉热嗜衣原体(Chlamydophila psittaci)物种;f)梭状芽孢杆菌属(Clostridium genus),例如肉毒梭菌(Clostridium botulinum)、艰难梭菌(Clostridiumdifficile)、产气荚膜梭菌(Clostridium perfringens)、破伤风杆菌(Clostridiumtetani)物种;g)棒状杆菌属(Corynebacterium genus),例如白喉棒状杆菌(Corynebacterium diphtheria)物种:h)肠球菌属(Enterococcus genus),例如粪肠球菌(Enterococcus faecalis)和/或屎肠球菌(Enterococcus faecium)物种;i)埃希氏杆菌属(Escherichia genus),例如大肠杆菌物种;j)弗朗西丝氏菌属(Francisella genus),例如土拉热弗朗西丝氏菌(Francisella tularensis)物种;k)嗜血杆菌属(Haemophilusgenus),例如流感嗜血杆菌(Haemophilus influenza)物种;1)螺旋杆菌属(Helicobactergenus),例如幽门螺旋杆菌(Helicobacter pylori)物种;m)军团菌属(Legionellagenus),例如嗜肺军团菌(Legionella pneumophila)物种;n)钩端螺旋体属(Leptospiragenus),例如问号钩端螺旋体(Leptospira interrogans)物种;o)李斯特菌属(Listeriagenus),例如单核细胞增多性李斯特氏菌(Listeria monocytogenes)物种;p)分枝杆菌属(Mycobacterium genus),例如麻风分枝杆菌(Mycobacterium leprae)、结核分枝杆菌(mycobacterium tuberculosis)和/或溃疡分枝杆菌(mycobacterium ulcerans)物种;q)霉浆菌属(Mycoplasma genus),例如肺炎霉浆菌(Mycoplasma pneumonia)物种;r)奈瑟氏菌属(Neisseria genus),例如淋病奈瑟氏菌(Neisseria gonorrhoeae)和/或脑膜炎奈瑟氏菌(Neisseria meningitidia)物种;s)假单胞菌属(Pseudomonas genus),例如绿脓杆菌(Pseudomonas aeruginosa)物种;t)立克次氏体属(Rickettsia genus),例如立氏立克次体(Rickettsia rickettsii)物种;u)沙门氏杆菌(Salmonella genus),例如伤寒沙门氏杆菌(Salmonella typhi)和/或鼠伤寒沙门氏杆菌(Salmonella typhimurium)物种;v)志贺氏杆菌(Shigella genus),例如宋内氏志贺氏杆菌(Shigella sonnei)物种;w)葡萄球菌属(Staphylococcus genus),例如金黄色葡萄球菌(Staphylococcus aureus)、表皮葡萄球菌(Staphylococcus epidermidis)和/或腐生葡萄球菌(Staphylococcus saprophyticus)物种;x)链球菌属(Streptpcoccus genus),例如无乳链球菌(Streptococcus agalactiae)、肺炎链球菌(Streptococcus pneumonia)和/或酿脓链球菌(Streptococcus pyogenes)物种;y)密螺旋体属(Treponema genus),例如苍白密螺旋体(Treponema pallidum)物种;z)弧菌属(Vibrio genus),例如霍乱弧菌(Vibrio cholera);和/或aa)耶尔森氏菌属(Yersinia genus),例如鼠疫耶尔森氏菌属(Yersinia pestis)物种。

  在一些实施方案中,疾病为可以根据所提供的方法鉴定候选生物标志物的由病原病毒感染引起的感染性疾病或病症。可以根据所提供的方法鉴定候选生物标志物的病原病毒感染的非限制性实例包括由在以下病毒科中可以找到并用例示性物种说明的病毒引起的感染:a)腺病毒科(Adenoviridae),例如腺病毒物种;b)疱疹病毒科(Herpesviridae),例如1型单纯性疱疹、2型单纯性疱疹、水痘-带状疱疹病毒、埃-巴二氏病毒(Epstein-barrvirus)、人类巨细胞病毒、8型人类疱疹病毒物种;c)乳头瘤病毒科(Papillomaviridae),例如人类乳头瘤病毒物种;d)多瘤病毒科(Polyomaviridae),例如BK病毒、JC病毒物种;e)痘病毒科(Poxviridae),例如天花物种;f)嗜肝DNA病毒科,例如B型肝炎病毒物种;g)细小病毒科(Parvoviridae),例如人类博卡病毒(bocavirus)、细小病毒B19物种;h)星状病毒科(Astroviridae),例如人类星状病毒物种;i)杯状病毒科(Caliciviridae),例如诺如病毒(Norwalk virus)物种;j)黄病毒科(Flaviviridae),例如C型肝炎病毒、黄热病病毒、登革热病毒(dengue virus)、西尼罗河病毒(West Nile virus)物种;k)披膜病毒科(Togaviridae),例如风疹病毒(Rubella virus)物种;1)戊型肝炎病毒科(Hepeviridae),例如E型肝炎病毒物种;m)反转录病毒科(Retroviridae),例如人类免疫缺陷性病毒(HIV)物种;n)正粘病毒科(Orthomyxoviridaw),例如流感病毒物种;o)沙粒病毒科(Arenaviridae),例如瓜纳瑞托病毒(Guanarito virus)、胡宁病毒(Junin virus)、拉沙病毒(Lassa virus)、马丘波病毒(Machupo virus)和/或沙比亚病毒(Sabiá virus)物种;p)布尼亚病毒科(Bunyaviridae),例如克里米亚-刚果出血热病毒(Crimean-Congohemorrhagic fever virus)物种;q)纤丝病毒科(Filoviridae),例如埃博拉病毒(Ebolavirus)和/或马尔堡病毒(Marburg virus)物种;副粘病毒科(Paramyxoviridae),例如麻疹病毒、腮腺炎病毒、副流感病毒、呼吸道合胞病毒、人类变性肺病毒(metapneumovirus)、亨德拉病毒(Hendra virus)和/或尼帕病毒(Nipah virus)物种;r)弹状病毒科(Rhabdoviridae),例如狂犬病病毒;s)呼肠孤病毒科(Reoviridae),例如轮状病毒、环状病毒属(Orbivirus)、科考蒂病毒(Coltivirus)和/或班纳病毒(Banna virus)物种;t)黄病毒科(Flaviviridae),例如寨卡病毒(Zika Virus)。在一些实施方案中,病毒未分派病毒科,例如D型肝炎。

  在一些实施方案中,受试者罹患寄生虫感染,例如恰加斯氏病。原生动物的非限制性实例可以在以下原生动物科中找到且以例示性物种说明:a)克氏锥虫物种;布氏锥虫(Trypanosoma brucei)物种;刚地弓形虫(Toxoplasma gondii)物种;恶性疟原虫(Plasmodium falciparum)物种;溶组织内阿米巴(Entamoeba histolytica)物种和兰氏贾第鞭毛虫(Giardia lamblia)物种。实施例中显示所提供的方法鉴定感染性疾病的候选生物标志物的能力,其展示识别肽可以鉴定来自感染原生动物克氏锥虫(其引起恰加斯氏病,又名美洲锥虫病)的受试者的样品中的候选生物标志物。

  在一些实施方案中,疾病为可以根据所提供的方法鉴定候选生物标志物的癌症。癌症的非限制性实例包括:急性和慢性白血病、淋巴瘤、间叶组织或上皮组织的许多实体肿瘤、脑癌、乳腺癌、肝癌、胃癌、结肠癌、B细胞淋巴瘤、肺癌、支气管癌、结肠直肠癌、前列腺癌、乳腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌症、周围神经系统癌症、食道癌、子宫颈癌、黑色素瘤、子宫或子宫内膜癌、口腔或咽癌、肝癌、肾癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、脂肪肉瘤、睾丸癌和恶性纤维组织细胞瘤和其它癌症。

  在一些实施方案中,疾病为可以根据所提供的方法鉴定候选生物标志物的代谢疾病。代谢疾病的非限制性实例包括:酸碱平衡失调;代谢性脑疾病;钙代谢病症;DNA修复缺陷障碍;葡萄糖代谢病症;高乳酸血症;铁代谢病症;脂类代谢病症;吸收不良综合征;X代谢综合征;先天性代谢缺陷;线粒体疾病;磷代谢病症;卟啉症;以及蛋白质稳态缺乏症。

  样品

  根据所提供的方法利用的样品可以是任何生物样品。举例来说,生物样品可以是包含抗体的生物液体样品。合适生物液体样品包括(但不限于)血液、血浆、血清、汗液、泪液、痰液、尿液、粪水、耳流体、淋巴、唾液、脑脊髓液、损害(ravages)、骨髓悬浮液、阴道液、经子宫颈灌洗液、滑液、水状液、羊水、耳垢、母乳、支气管肺泡灌洗液、脑液、囊液、胸膜液和腹膜液、心包液、腹水、乳汁、胰液、呼吸道、肠道和泌尿生殖道的分泌物、羊水、乳汁和白细胞去除术样品。生物样品亦可包括胚囊腔、脐带血或可来源于胎儿或母体的母体循环。在一些实施方案中,样品为容易通过无创程序获得的样品,例如血液、血浆、血清、汗液、泪液、痰液、尿液、痰液、耳流体或唾液。在某些实施方案中,样品为外周血样品,或外周血样品的血浆或血清部分。如本文所用,术语“血液”、“血浆”和“血清”明确涵盖其部分或加工部分。

  因为其可以微创获得且现成可利用,所以血液为在日常临床实践中测量的最佳和使用的人体体液。此外,血液灌注所有身体组织且因此,其组成为个体的所有生理机能的指示物。在一些实施方案中,用于获得免疫标记/抗体结合概况的生物样品为血液样品。在其它实施方案中,生物样品为血浆样品。在其它实施方案中,生物样品为血清样品。在其它实施方案中,生物样品为干血液样品。生物样品可以通过第三方,例如不进行抗体结合概况的分析方和/或进行与肽阵列的结合的测定方来获得。举例来说,样品可以通过临床医师、医师或样品所源自的受试者的其它卫生保健管理者获得。可替代地,生物样品可以通过对样品与肽阵列的结合进行分析方和/或相同分析抗体结合概况方来获得。待测定的生物样品可以编档保存(例如冷冻)或以其它方式存储在防腐条件下。

  术语“患者样品”和“受试者样品”在本文中可互换使用,是指从患者,即接受医疗处理、护理或治疗者获得的样品,例如生物流体样品。受试者样品可以是本文所述的任一样品。在某些实施方案中,受试者样品通过无创程序获得,例如外周血样品。

  生物流体样品中循环抗体的抗体结合概况可以根据所提供的方法,使用有限量的样品获得。举例来说,阵列上的肽可以接触一毫升血液的一小部分,以获得足以鉴定受试者的健康状况的数目的信息性肽-蛋白质复合物的抗体结合概况。

  在一些实施方案中,获得抗体结合概况所需的生物样品的体积小于10ml、小于5ml、小于3ml、小于2ml、小于1ml、小于900ul、小于800ul、小于700ul、小于600ul、小于500ul、小于400ul、小于300ul、小于200ul、小于100ul、小于50ul、小于40ul、小于30ul、小于20ul、小于10ul、小于1ul、小于900nl、小于800nl、小于700nl、小于600nl、小于500nl、小于400nl、小于300nl、小于200nl、小于100nl、小于50nl、小于40nl、小于30nl、小于20nl、小于10nl或小于1nl。在一些实施方案中,生物流体样品可以稀释若干倍以获得抗体结合概况。举例来说,从受试者获得的生物样品可以稀释至少2倍、至少4倍、至少8倍、至少10倍、至少15倍、至少20倍、至少30倍、至少40倍、至少50倍、至少100倍、至少200倍、至少300倍、至少400倍、至少500倍、至少600倍、至少700倍、至少800倍、至少900倍、至少1000倍、至少5000倍或至少10,000倍。抗体存在于稀释的血清样品中,且认为其对受试者的健康来说是重要的,因为如果抗体保持存在于稀释的血清样品中,那么其必须适当地以相对较高的量存在于患者血液中。

  根据本文所述的方法检测受试者的疾病的实例在实施例中给出。所述实施例证明仅仅使用100微升血清或血浆即可正确诊断硬皮病。

  治疗及疾患

  本发明的方法与阵列提供了用于鉴定疾病的候选生物标志物的方法、测定和装置。本文公开的实施方案的方法与阵列可以例如用于鉴定受试者的疾病的一种或多种候选生物标志物。受试者可以是人、豚鼠、犬、猫、马、小鼠、兔和多种其它动物。受试者可以是任何年龄,例如受试者可以是婴儿、幼儿、儿童、青春期前、青春期、成年人或老年个体。

  本发明的阵列和方法可以由一名使用者使用。多名使用者可以使用本发明的方法鉴定和/或提供疾患的治疗。使用者可以是例如希望监测自己健康的人。使用者可以是例如医护人员。卫生保健提供者可以是例如医师。在一些实施方案中,使用者是照料受试者的医护人员。可以作为本发明的使用者的医师和医护人员的非限制性实例可以包括麻醉学家、减肥手术专家、血库输送医学专家、认证护士助理、临床心脏电生理学专家、临床神经生理学专家、临床护理专家、结肠直肠外科医生、危重症医学专家、危重症外科专家、卫科保健员、牙科医生、皮肤科医生、急诊医学技术人员、急诊医学医师、胃肠外科医生、血液学家、终关怀与舒缓治疗、顺势疗法专家、感染性疾病专家、内科医师、口腔颌面外科医生、医助、体检医生、医学遗传学家、医学肿瘤学家、助产士、新生儿-围产期专家、肾病学家、神经病学家、神经外科医生、核医学专家、护士、开业护士、产科医师、肿瘤学家、口腔外科医生、正牙医生、矫形外科专家、疼痛管理专家、病理学家、儿科医师、灌注师、牙周病学家、整形外科医生、足病医生、直肠病学家、假肢专家、精神病学家、肺病学家、放射学家、外科医生、胸科专家、移植专家、血管科专家、血管科外科医生和兽医。用本发明的阵列和方法鉴定的诊断可以归并至受试者的病历卡中。

  阵列平台

  在一些实施方案中,本文公开了提供允许增加化学文库合成的多样性和保真度的阵列平台的方法和工艺。阵列平台在阵列表面上包含多个个别特征。每个特征典型地包含多个在阵列表面上原位合成的个别分子,其中所述分子在特征内是相同的,但分子的序列或同一性在特征之间是不同的。阵列分子包括(但不限于)核酸(包括DNA、RNA、核苷、核苷酸、结构类似物或其组合)、肽、肽模拟物和其组合等等,其中所述阵列分子可以在分子内包含天然或非天然单体。此类阵列分子包括大的合成肽阵列的合成。在一些实施方案中,阵列中的分子为模拟表位,模拟表位是模拟表位的结构并能够结合表位引发的抗体的分子。在一些实施方案中,阵列中的分子为互补位或互补位模拟物,包含结合于抗原表位的抗体可变区的位点(或T细胞受体)。在一些实施方案中,本发明的阵列为包含随机、伪随机或最大程度不同的肽序列的肽阵列。

  肽阵列可以包括匹配良好表征的单克隆抗体(mAb)的表位的对照序列。可以测量与对照序列和文库肽结合的模式以使阵列和免疫标记测定过程合格。可以在不同的剂量下测定具有已知表位,例如4C1、p53Ab1、p53Ab8和LnKB2的mAb。另外,晶片间信号精确度可以通过在来自不同晶片的阵列上测试重复样品,例如血浆样品,并计算所有文库肽的变异系数(CV)来确定。结合信号的测量精确度可以作为在同一批(晶片批料内)晶片上合成的阵列上进行的阵列间、载片间、晶片间和日间变异的总和来确定。另外,可以在不同批料的晶片上(在晶片批料之间)测定阵列的测量精确度。在一些实施方案中,可以在晶片批料内和/或之间测量结合信号,其中精确度变化小于5%、小于10%小于15%、小于20%、小于25%或小于30%。

  本文公开的技术包括光刻阵列合成平台,其将半导体制造法与组合化学合成合并,从而在硅片上产生基于阵列的文库。通过利用光刻特征图形化的巨大进步,阵列合成平台高度可伸缩,且能够产生在8英寸晶片上具有四千万个特征的组合化学文库。光刻阵列合成使用半导体晶片生产设备在类别10,000的清洁室中进行以实现高可重现性。当晶片切成普通显微镜载片尺寸时,每个载片含有超过三百万个不同化学实体。

  在一些实施方案中,通过本文公开的光刻技术产生的具有化学文库的阵列用于基于免疫的诊断测定,例如所谓的免疫标记测定。使用来自一滴结合于阵列的血液的患者抗体谱系,结合阵列的荧光结合概况图像提供了充足的信息将疾病对比健康分类。

  在一些实施方案中,正在研发免疫标记测定用于临床应用以诊断/监测自身免疫性疾病和评定对自身免疫治疗的反应。免疫标记测定的例示性实施方案详细描述于标题为“Compound Arrays for Sample Profiling”的美国预授予公布第2012/0190574号和标题为“Immunosignaturing:A Path to Early Diagnosis and Health Monitoring”的美国预授予公布第2014/0087963号中,两者中的此类公开内容都以引用的方式并入本文中。本文中研发的阵列在每个合成的阵列内并入了分析测量能力,其使用正交分析法,包括椭圆光度法、质谱分析法和荧光。这些测量能够纵向定性和定量评定阵列合成性能。

  在一些实施方案中,阵列是基于晶片的光刻原位肽阵列,其使用可以再用的掩模和自动化产生,从而获得具有可伸缩数目的组合序列肽的阵列。在一些实施方案中,肽阵列包含至少5,000种、至少10,000种、至少15,000种、至少20,000种、至少30,000种、至少40,000种、至少50,000种、至少100,000种、至少200,000种、至少300,000种、至少400,000种、至少500,000种、至少1,000,000种、至少2,000,000种、至少3,000,000种、至少4,000,000种、至少5,000,000种、至少10,000,000种、至少100,000,000种或更多种具有不同序列的肽。不同序列肽中的每一种的多个拷贝可以位于晶片上被称为特征的可处理位置处。

  在一些实施方案中,肽阵列上抗体结合的检测产生一些挑战,本文公开的技术可以解决这些挑战。因此,在一些实施方案中,本文公开的阵列和方法在阵列表面上利用可以调整进行免疫标记测定所需的所需性质的特定涂层和官能团密度。举例来说,肽阵列上非特异性抗体结合可以通过用适度亲水性单层聚乙二醇(PEG)、聚乙烯醇、羧甲基葡聚糖和其组合涂布硅表面而减至最少。在一些实施方案中,亲水性单层是均质的。其次,使用使肽远离硅表面的间隔物将合成肽连接于硅表面,以便肽以不受阻碍的取向呈现至抗体。

  原位合成的肽文库与疾病无关,且可以在事先不知道其意图诊断的疾病下合成。同一阵列可以用于确定任何健康状况。

  如本文所用的术语“肽”是指一起接合在线性或循环链中的多个氨基酸。出于本发明的目的,术语肽不局限于任何具体数目的氨基酸。然而,优选地,其含有至多约400个氨基酸、至多约300个氨基酸、至多约250个氨基酸、至多约150个氨基酸、至多约70个氨基酸、至多约50个氨基酸、至多约40个氨基酸、至多30个氨基酸、至多20个氨基酸、至多15个氨基酸、至多10个氨基酸或至多5个氨基酸。在一些实施方案中,阵列的肽介于5个与30个氨基酸之间,5个与20个氨基酸之间,或5个与15个氨基酸之间。形成肽分子整个或一部分的氨基酸可以是二十种常规的天然存在的氨基酸中的任一种,即丙氨酸(A)、半胱氨酸(C)、天冬氨酸(D)、谷氨酸(E)、苯丙氨酸(F)、甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、赖氨酸(K)、亮氨酸(L)、甲硫氨酸(M)、天冬酰胺(N)、脯氨酸(P)、谷氨酰胺(Q)、精氨酸(R)、丝氨酸(S)、苏氨酸(T)、缬氨酸(V)、色氨酸(W)和酪氨酸(Y)。形成本发明的阵列的肽中的任一氨基酸可以经非常规的氨基酸置换。一般说来,优选保守置换。在一些实施方案中,阵列上的肽由少于20种氨基酸合成。在一些实施方案中,在合成所述肽期间排除氨基酸甲硫氨酸、半胱氨酸、异亮氨酸和苏氨酸中的一种或多种。

  数字处理装置

  在一些实施方案中,本文所述的系统、平台、软件、网络和方法包括数字处理装置或其用途。在其它实施方案中,数字处理装置包括一种或多种硬件中央处理器(CPU),即执行装置功能的处理器。在其它实施方案中,数字处理装置还包含操作系统,所述操作系统被配置成执行可执行指令。在一些实施方案中,数字处理装置任选地连接至计算机网络。在其它实施方案中,数字处理装置任选地连接至因特网,以便其进入万维网。在其它实施方案中,数字处理装置任选地连接至云计算基础设施。在其它实施方案中,数字处理装置任选地连接至内部网。在其它实施方案中,数字处理装置任选地连接至数据存储装置。

  根据本文中的描述,借助于非限制性实例,合适的数字处理装置包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、小笔记本计算机、上网本、笔记本(netpadcomputer)、机顶式计算机、便携计算机、因特网工具、智能手机、平板电脑、个人数字助理、视频游戏控制台和媒介。本领域的技术人员将认识到许多智能手机适用于本文所述的系统中。本领域的技术人员还认识到具有任选的计算机网络连接性的精选电视、视频播放器和数码音乐播放器适用于本文所述的系统中。合适的平板电脑包括本领域的技术人员已知的具有笔记本、平板触摸和可改变构型的电脑。

  在一些实施方案中,数字处理装置包括被配置成执行可执行指令的操作系统。操作系统为例如管理装置硬件并为执行应用程序提供服务的软件,包括程序和数据。本领域的技术人员将认识到借助于非限制性实例,合适的服务器操作系统包括FreeBSD、OpenBSD、Linux、Mac OSXWindows本领域的技术人员将认识到借助于非限制性实例,合适的个人电脑操作系统包括Mac OS和类似UNIX的操作系统,例如在一些实施方案中,操作系统通过云计算提供。本领域的技术人员还将认识到借助于非限制性实例,合适的智能手机操作系统包括OS、Research InBlackBerryWindowsOS、WindowsOS、

  在一些实施方案中,数字处理装置包括存储器和/或存储装置。存储器和/或存储装置是用于临时或永久存储数据或程序的一种或多种物理仪器。在一些实施方案中,装置为易失性存储器并需要电源来保存存储信息。在一些实施方案中,装置为非易失性存储器且在数字处理装置未通电时保留存储信息。在其它实施方案中,非易失性存储器包含快闪存储器。在一些实施方案中,非易失性存储器包含动态随机存取存储器(DRAM)。在一些实施方案中,非易失性存储器包含铁电随机存取存储器(FRAM)。在一些实施方案中,非易失性存储器包含相变随机存储器(PRAM)。在其它实施方案中,装置为包括(借助于非限制性实例)CD-ROM、DVD、快闪存储器装置、磁盘驱动器、磁带驱动器、光盘驱动器和云计算基本存储区的存储装置。在其它实施方案中,存储器和/或存储装置为例如本文公开的的装置等装置的组合。

  在一些实施方案中,数字处理装置包括传送视觉信息至使用者的显示器。在一些实施方案中,显示器是阴极射线管(cathode ray tube,CRT)。在一些实施方案中,显示器是液晶显示器(liquid crystal display,LCD)。在其它实施方案中,显示器是薄膜晶体管液晶显示器(thin filmtransistor liquid crystal display,TFT-LCD)。在一些实施方案中,显示器是有机发光二极管(organic light emitting diode,OLED)显示器。在多种其它实施方案中,OLED显示器是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实施方案中,显示器是等离子体显示器。在其它实施方案中,显示器是视频投影机。在其它实施方案中,显示器为例如本文公开的的装置等装置的组合。

  在一些实施方案中,数字处理装置包括接收来自使用者的信息的输入装置。在一些实施方案中,输入装置为键盘。在一些实施方案中,输入装置为瞄准装置,包括(借助于非限制性实例)鼠标、轨迹球、触控板、操纵杆、游戏控制器或输入笔。在一些实施方案中,输入装置为触摸屏或多点触摸屏。在其它实施方案中,输入装置为扩音器以捕捉语音或其它声音输入。在其它实施方案中,输入装置为摄像机以捕捉动作或视觉输入。在其它实施方案中,输入装置为例如本文公开的的装置等装置的组合。

  在一些实施方案中,数字处理装置包括数码相机。在一些实施方案中,数码相机捕捉数字影像。在一些实施方案中,数码相机是自动聚焦相机。在一些实施方案中,数码相机是电荷耦合器件(CCD)相机。在其它实施方案中,数码相机是CCD摄像机。在其它实施方案中,数码相机是互补金属氧化物半导体(CMOS)相机。在一些实施方案中,数码相机捕捉静像。在其它实施方案中,数码相机捕捉视频图像。在多个实施方案中,合适的数码相机包括1兆像素、2兆像素、3兆像素、4兆像素、5兆像素、6兆像素、7兆像素、8兆像素、9兆像素、10兆像素、11兆像素、12兆像素、13兆像素、14兆像素、15兆像素、16兆像素、17兆像素、18兆像素、19兆像素、20兆像素、21兆像素、22兆像素、23兆像素、24兆像素、25兆像素、26兆像素、27兆像素、28兆像素、29兆像素、30兆像素和更高兆像素相机,包括其中的增量。在一些实施方案中,数码相机是标准定义的相机。在其它实施方案中,数码相机是HD摄像机。在其它实施方案中,HD摄像机捕捉至少约1280×约720像素或至少约1920×约1080像素的影像。在一些实施方案中,数码相机捕捉彩色数字影像。在其它实施方案中,数码相机捕捉灰度级数字影像。在多个实施方案中,数字影像呈任何合适的数字影像格式存储。合适的数字影像格式包括(借助于非限制性实例)联合图像专家小组(JPEG)、JPEG 2000、可交换图像文件格式(Exif)、标记图像文件格式(TIFF)、RAW、便携式网络图形(PNG)、图像互换格式(GIF)、位图(BMP)、便携式像素图(PPM)、便携式灰度图(PGM)、便携式位图文件格式(PBM)和WebP。在多个实施方案中,数字影像呈任何合适的数字视频格式存储。合适的数字视频格式包括(借助于非限制性实例)AVI、MPEG、MP4、AWindowsDivXTM、Flash Video、Ogg Theora、WebM和RealMedia。

  非暂时性计算机可读存储介质

  在一些实施方案中,本文公开的系统、平台、软件、网络和方法包括用程序,包括通过任选地联网的数字处理装置的操作系统可执行的指令编码的一种或多种非暂时性计算机可读存储介质。在其它实施方案中,计算机可读存储介质是数字处理装置的有形组件。在其它实施方案中,计算机可读存储介质任选地可从数字处理装置移动。在一些实施方案中,计算机可读存储介质包括(借助于非限制性实例)CD-ROM、DVD、快闪存储器装置、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务器等等。在一些情况下,程序与指令永久地、基本上永久地、半永久地或非暂时地编码在介质上。

  计算机程序

  在一些实施方案中,本文公开的系统、平台、软件、网络和方法包括至少一种计算机程序。计算机程序包括可在数字处理装置的CPU中执行的指令序列,其写出来用于执行指定任务。根据本文中提供的公开内容,本领域的技术人员将认识到计算机程序可以呈多种语言的多个版本写出。在一些实施方案中,计算机程序包含一个指令序列。在一些实施方案中,计算机程序包含多个指令序列。在一些实施方案中,计算机程序从一个位置提供。在其它实施方案中,计算机程序从多个位置提供。在多个实施方案中,计算机程序包括一个或多个软件模块。在多个实施方案中,计算机程序包括一个或多个网络应用程序、一个或多个手机应用程序、一个或多个独立应用程序、一个或多个浏览器插件、扩展、内插式附件或附加软件或其组合。

  网络应用程序

  在一些实施方案中,计算机程序包括网络应用程序。根据本文中提供的公开内容,本领域的技术人员将认识到在多个实施方案中,网络应用程序利用一个或多个软件框架和一个或多个数据库系统。在一些实施方案中,网络应用程序在例如NET或Rubyon Rails(RoR)的软件框架上建立。在一些实施方案中,网络应用程序利用一个或多个数据库系统,包括(借助于非限制性实例)关系型、非关系型、面向对象、关联性和XML数据库系统。在其它实施方案中,合适的关系型数据库系统包括(借助于非限制性实例)SQL Server、mySQLTM和本领域的技术人员还认识到在多个实施方案中网络应用程序以一种或多种语言的一个或多个版本写出。网络应用程序可以呈一种或多种标记语言、呈现定义语言、客户端脚本语言、服务器端编码语言、数据库查询语言或其组合。在一些实施方案中,网络应用程序在一定程度上以例如超文本标记语言(HTML)、可扩展超文本标记语言(XHTML)或可扩展标记语言(XML)等标记语言写出。在一些实施方案中,网络应用程序在一定程度上以例如级联样式表(CSS)等呈现定义语言写出。在一些实施方案中,网络应用程序在一定程度上以例如异步Java脚本和XML(AJAX)、Actionscript、Javascript或等客户端脚本语言写出。在一些实施方案中,网络应用程序在一定程度上以例如Active Server Pages(ASP)、Peri、JavaTM、JavaServerPages(JSP)、Hypertext Preprocessor(PHP)、PythonTM、Ruby、Tcl、Smalltalk、或Groovy等服务器端编码语言写出。在一些实施方案中,网络应用程序在一定程度上以例如结构化查询语言(SQL)等数据库询问语言写出。在一些实施方案中,网络应用程序合并企业服务器产品,例如Lotus在一些实施方案中,用于为艺术家提供允许艺术家上传信息和媒体文件的职业发展网络的网络应用程序包括媒体播放机元件。在多个其它实施方案中,媒体播放机元件利用许多合适的多媒体技术中的一种或多种,包括(借助于非限制性实例)HTML 5、JavaTM知

  移动应用程序

  在一些实施方案中,计算机程序包括提供给手机数字处理装置的移动应用程序。在一些实施方案中,移动应用程序在制造其时提供给移动数字处理装置。在其它实施方案中,移动应用程序经由本文所述的计算机网络提供给移动数字处理装置。

  鉴于本文中提供的公开内容,通过本领域的技术人员已知的技术,使用本领域已知的硬件、语言和开发环境,建立移动应用程序。本领域的技术人员将认识到移动应用程序以若干语言写出。合适的编程语言包括(借助于非限制性实例)C、C++、C#、Objective-C、JavaTM、Javascript、Pascal、Object Pascal、PythonTM、Ruby、VB.NET、WML和XHTML/HTML,有或无CSS,或其组合。

  合适的移动应用程序开发环境可以从若干来源获得。市售开发环境包括(借助于非限制性实例)AirplaySDK、alcheMo、Celsius、Bedrock、Flash Lite、.NET Compact Framework、Rhomobile和WorkLight Mobile Platform。可无条件获得其它开发环境,包括(借助于非限制性实例)Lazarus、MobiFlex、MoSync和Phonegap。此外,移动装置制造商配置软件开发工具包,包括(借助于非限制性实例)iPhone and iPad(iOS)SDK、AndroidTM SDK、SDK、BREW SDK、OS SDK、Symbian SDK、webOS SDK和Mobile SDK。

  本领域的技术人员将认识到若干商业的论坛可用于配置移动应用程序,包括(借助于非限制性实例)App Store、AndroidTM Market、App World、AppStore for Palm deVices、App Catalog for webOS、Marketplace forMobile、Ovi Store fordevices、Apps和DSi Shop。

  独立应用程序

  在一些实施方案中,计算机程序包括独立应用程序,其为作为独立的计算机过程运行的程序,而不是已存过程的附加软件,例如不是插件。本领域的技术人员将认识到常常编译独立应用程序。编译器为将以编程语言写出的源代码变换成二进制目标代码,例如汇编语言或机器代码的计算机程序。合适的编程语言包括(借助于非限制性实例)C、C++、Objective-C、COBOL、Delphi、Eiffel、JavaTM、Lisp、PythonTM、Visual Basic和VB.NET或起组合。编译常常至少部分地执行,以建立可执行程序。在一些实施方案中,计算机程序包括一个或多个可执行编译应用程序。

  软件模块

  在多个实施方案中,本文公开的系统、平台、软件、网络和方法包括软件、服务器和数据库模块。鉴于本文中提供的公开内容,通过本领域的技术人员已知的技术,使用本领域已知的机械、软件和语言,建立软件模块。本文公开的软件模块以许多方式执行。在多个实施方案中,软件模块包含文件、一段代码、编程对象、编程结构或其组合。在多个实施方案中,软件模块包含多个文件、多段代码、多个编程对象、多个编程结构或其组合。在多个实施方案中,一个或多个软件模块包含(借助于非限制性实例)网络应用程序、移动应用程序和独立应用程序。在一些实施方案中,软件模块呈一种计算机程序或应用程序。在其它实施方案中,软件模块呈超过一种计算机程序或应用程序。在一些实施方案中,软件模块被掌管在单个机器上。在其它实施方案中,软件模块被掌管在超过一个机器上。在其它实施方案中,软件模块被掌管在云计算平台上。在一些实施方案中,软件模块被掌管在一个或多个机械上的一个位置。在其它实施方案中,软件模块掌管在一个或多个机械上的超过一个位置。

  本发明在以下实施例中进一步详细地描述,所述实施例不以任何方式意图限制所要求的本发明的范围。附图意指视为本发明的说明书和描述的组成部分。提供以下实施例以说明所要求的本发明而不是限制其。

  实施例

  实施例1-硬皮病和系统性硬化的诊断和预后测定

  背景:硬皮病和系统性硬化(SSc)是一种皮肤变粗的结缔组织病,其可能涉及结疤、血管问题和不同程度的炎症,不仅是皮肤上的,而且还有内脏中的。SSc的诊断是困难的,因为表现形式复杂,且与其它自身免疫性疾病重叠。图5中展示SSc的主要临床表现。诊断典型地需要病史回顾、身体检查、实验室测试和X射线的组合。虽然未获得单一生物标志物,但在60%-80%患者中,血清学测试鉴定出ANA和抗着丝点抗体(ACA),且在30%患者中鉴定出ScL 70抗体。然而,在一些健康个体或患有其它自身免疫性疾病,例如皮肌炎(DM)的患者中也可能发现这些抗体。除诊断更佳外,需要更佳的预后测试。雷诺综合征是约75%患者中SSc的第一表现形式,但不用作预后。具有弥漫性而非局限性皮肤受累的患者往往显现更严重的疾患,例如ILD、PAH、GAVE和肾脏并发症。然而,此观测结果也不足够可靠地进行预后。

  方法:评估719个血浆样品的研究群体;其由SSC(n=301)、DM(205)、包括MCTD、UCTD、狼疮、肌炎和多发性肌炎、硬斑病的一组其它自身免疫性疾病(95)和一组健康样品(118)构成。一组84个对照样品用于推动测定鉴定。

  所有患者在诊断时均符合ACR分类标准。IS测定用于检测与约126,000种独特肽的微阵列结合的血浆抗体。肽序列被设计成(使用20种氨基酸中的16种)广泛地对组合空间取样,因此提供了抗体选择性和竞争地结合的不同表位模拟物的文库。使用t检验鉴定最可识别SSc对比的特征。训练支持向量机(SVM)分类器,并通过5倍交叉验证分析的100次迭代来评定。评估在25种至10,000种肽输入范围内的模型。

  结果:在10,000种区别性地结合的肽上训练的分类器以稳固的性能特征区别SSc患者与健康供体。构造具有相似模型尺寸的其它算法,其区别SSc与例如DM等其它自身免疫性疾病。最终,曾经进展至ILD、肾危象和GAVE的若干更严重疾患之一的SSc患者能够与从未进展的那些SSc患者相区别。表1中提供了分类性能的这些交叉验证估计。

  图8展示了描绘当比较SSc患者与健康受试者时免疫标记中的最高识别肽的表。图8A描绘子基序。图8B描绘前1000种识别肽中的富集肽。图8C描绘前50种识别肽。图9为图8中的结果的图示。标题适用于本文中提供的识别肽的此表和所有表的基序清单(A)和氨基酸清单(B),其中“n”为最高识别肽的序列中基序出现的次数;“n.lib”为文库中基序出现的次数;“富集”为相对于文库中的所有序列中发现的所有基序,识别肽中基序的富集因子;“padj.holm”为针对多个测试误差,相对于对照的p调整值。

  图10A展示了描绘当比较经诊断患有SSc和其它自身免疫性病症的患者时发现在免疫标记中鉴定的识别肽中最富集的最高子基序(A)和氨基酸(B)的表。确定前1000种识别肽中的子基序和氨基酸。“其它自身免疫性病症”(其它AI)包括非典型肌炎、红斑痤疮、伴有ILD和肌炎的抗PL7、非典型肌炎、白塞氏病、伴有非典型的克罗恩病、皮疹、皮肤狼疮、盘状狼疮、DM、DM皮疹但阴性抗体、DM对比狼疮、DM对比UCTD、药疹、嗜酸性筋膜炎、移植物抗宿主疾病(GVHD)、何杰金氏病(Hodgkins disease)、扁平苔癣、lSSc、狼疮性脂膜炎、混合结缔组织病(MCTD)、硬斑病、可能药物诱发的肌炎、具有Jo-1抗体的肌炎、肾源性系统性纤维化、风湿性多肌痛、多发性肌炎、等候血清分型的可能DM、可能药疹、牛皮癣、肺纤维化、具有抗J0l的肺纤维化、仅仅雷诺、横纹肌溶解、Sle、SLE/混合、SSc、SSc/DM重叠、SSc/SLE、未分化结缔组织病(UCTD)、伴有皮疹的UCTD、未知型、具有荨麻疹特征的未知型以及虚弱,无诊断。在图11A中示出的火山图中将区别SSc与其它AI的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图11B)。

  图12展示了描绘当比较经诊断患有SSc的患者和处于肾危象中的患者时发现在免疫标记中鉴定的识别肽中最富集的最高子基序(A)和氨基酸(B)的表。图13为图12中所见的结果的图示。在图13A中示出的火山图中将区别处于肾危象中的SSc患者与其没有肾危象的SSc患者的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图13B)。

  图14展示了描绘当比较经诊断患有SSc和胃窦血管扩张症(GAVE)的患者和患有SSc而没有GAVE的患者时由免疫标记鉴定的最高识别肽中最富集的最高子基序(A)和氨基酸(B)的表。图15为图14中所见的结果的图示。在图15A中示出的火山图中将区别患有GAVE的SSc患者与没有GAVE的患者的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图15B)。

  图16展示了描绘当比较经诊断患有SSc的患者与患有DM的患者时在免疫标记中鉴定的识别肽中最富集的最高子基序(A)和氨基酸(B)的表。图17为图16中所见的结果的图示。在图17A中示出的火山图中将区别SSc患者与DM患者的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图17B)。

  图18展示了描绘当比较经诊断患有SSc与间质性肺病(ILD+)的患者与患有SSc但无间质性肺病(ILD-)的患者时在免疫标记中鉴定的识别肽中最富集的最高子基序(A)和氨基酸(B)的表。图19为图18中所见的结果的图示。在图19A中示出的火山图中将区别患有SSc和ILD的患者和患有SSc但无ILD的患者的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图19B)。

  结论:模拟肽微阵列上由外周血抗体谱系产生的可复现的结合模式可以区别SSc与健康供体和其它自身免疫性疾病。此外,确定曾经进展至更严重疾病表现形式的SSc患者的独特免疫标记。这表明了IS技术可以有助于发展SSc的新颖诊断与预后测试。

  表1.用于SSc诊断和预后的IS的分类性能估计

  

  

  实施例2:区别皮肌炎和系统性硬化与患有间质性肺病的患者

  背景:皮肌炎(DM)是一种具有影响皮肤、肌肉和肺的不均匀表现形式的炎性自身免疫性疾病。呈现的复杂性使得临床诊断和预后备受挑战。组织发现也在变化,混淆了其效用。已经鉴定出若干DM特异性抗原,此表明血清学诊断是可能的。然而,将需要替代抗原,因为许多DM患者不具有针对这些抗原的抗体。间质性肺病(ILD)在20%-40%患者中显现,展现在轻度至迅速进展和可能致命范围内的肺病。一些DM-血清型的ILD进展风险高于别人,但仅仅血清型不足够灵敏或特异地来引导临床护理。

  区别DM与其它炎性自身免疫性疾病并预测将进展至ILD者的简单测试将改善患者护理。此外,新DM-抗原的发现法将推动诊断和治疗尝试。研究免疫标记(IS)平台以确定其是否可以解决临床和发现目标。

  方法:评估719个血浆样品的研究群体;其由SSC(n=301)、DM(205)、包括MCTD、UCTD、狼疮、肌炎和多发性肌炎、硬斑病的一组其它自身免疫性疾病(95)和健康样品(118)构成。一组84个对照样品用于推动测定鉴定。所有患者在诊断时均符合ACR分类标准。IS测定用于检测与约126,000种独特肽的微阵列结合的血浆抗体。肽序列被设计成广泛地对组合空间取样,因此提供了抗体选择性地结合的不同表位模拟物的文库。使用t检验鉴定最可识别DM对比的特征。在支持向量机中使用5倍交叉验证的100次迭代来确定分类功效。

  结果:表2中提供了分类性能的交叉验证估计。在区别性地结合的肽上训练的算法区别DM与健康供体和其它AI,例如SSc。曾经进展至ILD的DM和SSc患者都可以与那些从未进展至ILD的患者相区别。鉴定出多达10,000种的抗体结合特征区别疾病群组的肽并用作这些分类器的输入。值得注意地,DM:ILD+/-和SSc:ILD+/-模型类似地具有预测性;然而,用于这两种分类器中的显著区别肽未显示重叠。

  表2.用于DM对比的IS的分类性能估计

  

  图20展示了描绘当比较经诊断患有DM的患者与健康患者时在免疫标记中鉴定的识别肽中最富集的最高子基序(A)和氨基酸(B)的表。图21为图20中所见的结果的图示。在图21A中示出的火山图中将区别DM患者与健康患者的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图21B)。

  图22展示了描绘当比较经诊断患有SSc和其它自身免疫性病症的患者时发现在免疫标记中鉴定的识别肽中最富集的最高子基序(A)和氨基酸(B)的表。确定前1000种识别肽中的子基序和氨基酸。“其它自身免疫性病症”(其它AI)包括非典型肌炎、红斑痤疮、伴有ILD和肌炎的抗PL7、非典型肌炎、白塞氏病、伴有非典型的克罗恩病、皮疹、皮肤狼疮、盘状狼疮、DM、DM皮疹但阴性抗体、DM对比狼疮、DM对比UCTD、药疹、嗜酸性筋膜炎、移植物抗宿主疾病(GVHD)、何杰金氏病、扁平苔癣、lSSc、狼疮性脂膜炎、混合结缔组织病(MCTD)、硬斑病、可能药物诱发的肌炎、具有Jo-1抗体的肌炎、肾源性系统性纤维化、风湿性多肌痛、多发性肌炎、等候血清分型的可能DM、可能药疹、牛皮癣、肺纤维化、具有抗J01的肺纤维化、仅仅雷诺、横纹肌溶解、Sle、SLE/混合、SSc、SSc/DM重叠、SSc/SLE、未分化结缔组织病(UCTD)、伴有皮疹的UCTD、未知型、具有荨麻疹特征的未知型以及虚弱,无诊断。在图23A中示出的火山图中将区别SSc与其它AI的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图23B)。

  图24展示了描绘当比较经诊断患有SSc与间质性肺病(ILD+)的患者与患有SSc但无间质性肺病(ILD-)的患者时在免疫标记中鉴定的识别肽中最富集的最高子基序(A)和氨基酸(B)的表。图25为图24中所见的结果的图示。在图25A中示出的火山图中将区别患有SSc和ILD的患者和患有SSc但无ILD的患者的结合信号的分析可视化。测定的性能通过接收器工作特性(ROC)曲线下面积(AUC)表征(图25B)。

  模拟表位结合模式鉴定DM患者与非DM患者。解密这些肽模拟的抗原可以揭露新的DM特异性抗原。还评估DM对比其它AI和进展至ILD的患者的分类器。DM对比SSc患者的预测ILD的肽之间缺乏任何重叠证实以下结论:这些是独特的疾病,尽管临床表现和治疗方案是常见的。

  实施例3-免疫原性自身抗原标靶的鉴定

  相对于人蛋白质组,分析区别健康受试者与患有SSc的受试者的识别肽,以指示最初免疫原性的自身抗原标靶。图8C中展示了在SSc与健康受试者之间比较的最高识别肽的一部分。

  蛋白质组比对:阵列肽与人蛋白质组RefSeq版本84比对,所述蛋白质组对应于人类基因组构造GrCh38(https://www.ncbi.nlm.nih.go v/refseq/),于2016年3月10日编辑,各独特基因ID使用最长转录产物变体。比对算法使用修改的BLAST策略(Altschul,S.F.和Gish,W.(1996)“Local alignment statistics.”Meth.Enzymol.266:460-480),需要3个氨基酸的种子,缺口罚分为4,评分矩阵为BLOSUM62(Henikoff,J.G.Amino acidsubstitution matrices from protein blo cks.Proc.Natl.Acad.Sci.USA 89:10915-10919[1992]),其进行修改以反映阵列的氨基组成(States,D.J.,Gish,W.,Altschul,S.F.(1991)“Improved sensitivity of nucleic acid database searches using application-specific scoring matrices.”Methods 3:66-70)。这些修改可以包括增加简并取代的分数、从阵列中去除缺乏的氨基酸的罚分和将所有精确匹配同等地评分。

  为了产生免疫标记肽集合与蛋白质比对的p值,将相对于蛋白质得到正BLAST分数的所有肽装配成矩阵,其中矩阵的每一行与比对的肽对应,且每一列与构成此蛋白质的连续氨基酸之一对应,其中肽行内允许的缺口和缺失允许与蛋白质比对。矩阵内的每个位置为在该位置处比对的肽和蛋白质氨基酸的分数,来自与蛋白质组比对相同的评分矩阵。然后针对蛋白质中的每个氨基酸,将对应列求和以产生“重叠分数”,其表示免疫标记识别肽对该氨基酸的覆盖范围。

  为了针对文库组成对此分数进行校正,使用同一的方法,针对所有阵列肽的清单,计算重叠分数。最终,使用费雪精确检验(Fischer Exact Test)计算免疫标记重叠分数对比全文库重叠分数的p值。为了将氨基酸层面的这些p值转变成全蛋白质统计资料,计算蛋白质内每个可能的20聚体表位的p值的负对数的总和,且最后分数是沿着每种蛋白质的20聚体的此滚动窗口的最大值。

  表3提供了根据所述方法鉴定的最高评分标靶蛋白质的清单。鉴定一百六十九种候选生物标志物。通过韦尔奇t检验,挑选p值小于p<2.53E-06的识别肽。

  RNA Pol II子单元L为通过所述方法,由区别健康受试者与患有SSc的受试者的识别肽鉴定的免疫原性自身抗原的一实例(图8A和图8B)。

  表3.通过比对区别来自患有SSc的受试者的样品与来自健康受试者的样品的识别肽所鉴定的候选标靶蛋白质

  

  图26A展示肽重叠差异分数s,其是针对沿着RNA Pol II子单元L aa位置绘制的IMS肽-基序比对所计算。来自SSc对比健康对比的肽展示与RNA pol II子单元L的显著比对,使其在蛋白质组中20,378种人类蛋白质中排在35。右侧的球棒模型展示RNA pol II子单元L的结构。球中显示的区域与图内用红框标记的aa位置对应。最高评分aa为天冬氨酸D,在RNA pol簇的中心;其在球状结构中显示为橙色。注意到靠近簇中心的苏氨酸(T)分数不佳;在IMS阵列序列中无T。图26B展示了显示人蛋白质组对比SSc对比健康分类肽中每种蛋白质的蛋白质表位分数S的分布的直方图。POL R2L的分数为583。

  RNA pol II为已经在硬皮病患者中表征的已知的自身抗原。

  图27展示了例示性自身抗原CCL22,且被确定为候选蛋白质生物标志物,其是通过识别肽,比较患有SSc的具有器官受累(GAVE+)的受试者与患有SSc的没有器官受累(GAVE-)的受试者所鉴定。已提出CCL2在硬皮病中起重要作用(Yamamoto T.Front Biosci.2008年1月1日;13:2686-95)。

  这些数据表明区别不同疾病病况的识别肽可以用于鉴定可以进行研究以用于研发治疗剂的候选抗原或自身抗原标靶。另外,特定抗原或自身抗原标靶的存在可以用于确定疾病的严重度,且可能预测疾病进展。

  包含具有图10中提供的子基序的肽的识别肽(SSc对比其它AI)可以与人蛋白质组比对,以鉴定相对于患有实施例1中所述的其它AI疾病的患者,鉴定出患有SSc的患者的候选生物标志物。

  包含具有图16中提供的子基序的肽的识别肽可以与人蛋白质组比对,以鉴定相对于患有DM的患者,鉴定出患有SSc的患者的候选生物标志物。

  包含具有图12中提供的子基序的肽的识别肽可以与人蛋白质组比对,以鉴定相对于患有SSc且具有肾危象的患者,鉴定出患有SSc的无肾危象的患者的候选生物标志物。候选生物标志物可以用于预测哪些SSc患者可能显现肾危象。

  包含具有图18中提供的子基序的肽的识别肽可以与人蛋白质组比对,以鉴定相对于患有SSc与ILD的患者,鉴定出患有SSc且无ILD危象的患者的候选生物标志物。候选生物标志物可以用于预测哪些SSc患者可能显现ILD。

  实施例4-结合信号的测量精确度

  使用8个血清样品集合,估计200个阵列特征(不同肽)的结合精确度,所述阵列特征用于区别测得对恰加斯氏病呈血清阳性的受试者与血清阴性的受试者。从整个供体队列选择四个恰加斯氏病阳性样品和3个恰加斯氏病阴性样品,并在两个研究设计中在来自多个晶片的每个载片上一式三份地测定。还在每个载片上一式两份地测定一种内部正常供体样品。

  在一批晶片内:从单个生产批次选择三个晶片,并使用单载片QC样品集鉴定。使用精确度研究样品集评估来自每个晶片的剩余12个载片。在3天内,载片每天穿越3个暗盒。在3天内来自每个晶片的载片均匀地分布,使得每个暗盒含有来自三个晶片之一的2个载片和每个来自剩余两个晶片的1个载片。

  晶片批次之间:从4个生产批次中的每一个选择一个晶片,并使用单载片QC样品集鉴定。使用精确度研究样品集评估来自每个晶片的剩余12个载片。在3天内,载片每天穿越4个暗盒。在3天内来自每个晶片的载片均匀地分布,使得每个暗盒含有来自四个晶片中的两个晶片的2个载片。

  数据分析:混合效应模型用于估计实验变异的来源。供体作为固定效应处理。嵌套因子‘晶片’、‘载片’和‘阵列’与‘天’相交,且作为随机效应处理。使用lme4程序包,在r中拟合模型。

  表4.信号结合测量的精确度

  数据说明在晶片批次内在阵列上进行的结合信号的测量可以在精确度变化小于15%下进行;且在晶片批次之间在阵列上进行的结合信号的测量可以在精确度变化小于25%下进行。

  实施例5-例如恰加斯氏病等感染性疾病的诊断和预后测定

  引言

  恰加斯氏病是拉丁美洲和加勒比海死亡的主要原因[Perez CJ等人,(2014)Trends Parasitol 30:176-182]。讽刺的是,它也被视为是相同区域中最被忽视的寄生虫病,且流行病学家正追踪其对包括美国和欧洲在内的非流行国家的进一步传播。

  病原体克氏锥虫是一种鞭毛原生动物,其主要经由吸血的锥蝽昆虫传播至哺乳动物宿主,在哺乳动物宿主中其可以在任何有核细胞中繁殖。其它传播模式包括输血或先天和口腔途径(Steverding D(2104)Parasit Vectors 7:317]。被感染的个体最初经历4-8周的急性期,其表现为眶周肿胀或进入部位处的溃疡病变,并引起高水平的寄生虫在血流中循环。此转变成无症状的不确定期,此阶段是特征在于丧失寄生虫血症且原生动物隐蔽至宿主器官的肌肉和脂肪细胞中的长期感染[Perez等人2014]。10至30年后,这些受感染个体中的三分之一或更多将进展至有症状的慢性期。其死于引起不可逆的肌肉病变的严重心脏、胃或其它器官的疾病表现形式,并常常在2年内死亡(Viotti R等人,(2006)Ann InternMed 144:724-734;Granjon E等人,(2016)PLoS Negl Trop Dis 10:e0004596;OliveiraGBF等人,(2015)Global Heart 10:189-192)。近十年来,有很多报告报道在免疫受损的患者,例如同时感染HIV的患者或在治疗癌症或自身免疫性病症的患者中有症状的疾病再度活化(Pinazo MJ等人(2013)PLoS Negl Trop Dis 7:e1965;Rassi Jr A等人(2010)TheLancet 375:1388-1402)。近来WHO估计大约200,000人将在未来5年内死于恰加斯性心肌病。这与在相同时间框内预测美国将死于乳腺癌的妇女的相同数目对应(Pecoul B等人(2016)PLoS Negl Trop Dis 10:e0004343.)。

  针对恰加斯氏病无疫苗,且唯一的预防模式是控制昆虫载体的传播。过去40年间,仅仅两种药物苄硝唑(benznidazole)和硝呋莫司(nifurtimox)可用于治疗(Rassi等人,2010;Clayton J(2010)Nature 465:S4-S5)。其展示针对急性期感染虽可变但显著的有效性,但已经证明其对经历慢性表现形式的患者几乎无治疗价值,或无法阻止从亚临床期转变成有症状期(Issa等人,(2010),The Lancet 376:768;Morillo CA,等人.(2015)NewEngland Journal ofMedicine 373:1295-1306)。药物功效的不可预测性和已知的副作用已经使其处方少于经诊断的恰加斯氏病患者的1%。已经治疗的患者可能经历使其中止的不利事件[5]。近来,对发现针对克氏锥虫感染的新药有一些日益增加的兴趣(De Rycker M等人,(2016)PLoS Negl Trop Dis 10:e0004584)。这是重要的;然而,迄今为止,新药研发难以逾越的碰撞是评定在亚临床和慢性期的功效缺乏任何可靠而实用的方法。测量感染状态和治疗剂影响的挑战有很多(Gomes YM等人(2009)Mem Inst Oswaldo Cruz 104增刊1:115-121)。举例来说,寄生虫血症在患者中无症状,且低水平的组织寄生虫在解剖学上分散,与例如利什曼原虫(Leischmania)之其它地方病的抗原类似,初期或活动性疾病无可靠的标志物,且在初始感染长达30年后才显现症状(Keating SM等人,(2015)Int J Cardiol199:451-459)。没有工具能够鉴定出哪些患者将最得益于治疗。换句话说,需要一种方法来预测那些感染将从临床静息进展至引起危急生命的并发症的无症状但血清阳性的个体。

  许多测试可用于诊断恰加斯氏病。可以通过血液显微术、血培养、异体接种诊断法或从外周血细胞提取的核酸的PCR,对寄生虫进行直接检测。虽然极具特异性,但这些测定不灵敏,且认为其在不确定期和慢性期无法提供信息。在诊所和血库,诊断取决于通过血清学间接检测。ELISA测试可用于检测针对粗寄生虫溶解产物(原克氏锥虫ELISA)、半纯化的体外培养的短膜型鞭毛虫部分或四种重组蛋白的混合物(Abbott PRISM和ESA Dot Blot)的克氏锥虫抗体。FDA已经批准Ortho和Abbott测试,所述测试报告信号与截止值(S/CO),其指示血清的抗原结合水平并反映抗体滴度。不幸地,这些测试平台之间和内部的不确定和不一致的结果是一个持久的问题;交叉反应性和假阳性是常见的。因此,确认性血清学测试有助于提高准确度,不过没有一个被FDA批准或考虑作为恰加斯氏病诊断的参考标准。放射免疫沉淀测定(克氏锥虫RIPA)是一种对针对短膜型鞭毛虫溶解产物的反应性抗体更具特异性的定性测试,且常被一些血库用作确认性测试(Tobler LH等人(2007)Transfusion47:90-96.)。更新一代测定正在研发中,其基于重组蛋白的多种混合物和抗体检测方法。举例来说,ESA(ELISA条带测定)是一种基于免疫印迹的测试,其检测对四种嵌合重组抗原的反应性(Cheng KY等人(2007)Clinical and Vaccine Immunology 14:355-361)。Architect恰加斯氏病试剂盒使用化学发光ELISA中ESA的相同重组抗原集合(Praast G等人,(2011)Diagnostic Microbiology and Infectious Disease 69:74-81)。近来描述的多路测定允许同时检测印刷在微量培养板中的12种克氏锥虫抗原(Granjon等人(2016))。移动至包括其它抗原是重要的,因为此真核病原体携带复杂的蛋白质组和生命周期。人类对其感染的免疫反应的多样性(Carmona等人(2015)Mol Cell Proteomics 14:1871-1884)证明了在任何测试平台中采用许多标靶的必要以捕捉在任何大型所欲使用群体内的阳性率,特别是患有不确定疾病的那些群体。证明需要新的标志物和新的方法来灵敏地测量克氏锥虫感染状态并监测不确定期内的疾病活动度(Pinazo等人,(2013))。建立此类测试的先决条件是研发单一稳固的平台,其可以准确而可再现地检测各种无症状群体中的恰加斯氏病阳性率。

  免疫标记技术(IS或IMS)已经展示适用于将许多免疫介导的感染性与非感染性疾病分类(Legutki JB等人,(2010)Vaccine 28:4529-4537;Restrepo L等人,(2011)Annalsof Neurology 70:286-295;Hughes AK等人(2012)PLoS One 7:e40201;Kukreja M等人(2012)Proteomics and Bioinformatics;Stafford P等人(2014)Proceedings of theNational Academy of Sciences 111:E3072-E30800;Sykes KF等人(2013)TrendsBiotechnol 31:45-51)。其是基于外周抗体与>100,000种由化学序列空间设计的组合肽的阵列的结合的不同但可复现的模式。测定用少量血液、血浆或血清样品进行(Stafford等人(2014))。由抗体结合的肽不是原始标靶序列,而是模拟真实表位的序列或结构。因为可能序列空间的多样性比蛋白质组的序列多样性大许多数量级,所以与任何蛋白质准确对应的任何模拟肽的概率极低。此外,组合肽可能不是模拟线性序列,而是结构、例如在肿瘤中发现的突变序列或例如碳水化合物等非肽生物分子。由抗体选择性地结合的每个IMS肽序列是抗体在体内识别的表位的功能替代品。当模拟表位是健康状态所独有时,结合的抗体变成生物标志物。这些共同表示用于检测和监测疾病的高信息量生物标志物。测量疾病活动度将能够确定治疗反应、消退或进展。

  这里演示了简单IMS测试的发展,其准确地检测无症状献血者群体内恰加斯氏病阳性个体,并同时区别所述个体与西尼罗河、B型肝炎和C型肝炎其它三种疾病的血清阳性但无症状的供体。IMS分类准确地反映阳性率的血库算法。在评估S/CO值增加的供体时,最高信息量的恰加斯氏病分类肽的信号强度显示增加。这证明IMS测试结果与疾病特异性免疫活动度之间的相关性,并表明研发监测克氏锥虫疾病状态的测试的潜能。接下来的步骤将包括测试从标注具有长期感染结果的恰加斯氏病阳性供体纵向收集的样品,换句话说,鉴定那些最终血清再次转变或进展至危急生命的疾病的患者。

  实施例6-用于诊断感染的免疫标记方法

  研发免疫标记测定以根据以下来检测和区别克氏锥虫、HBV、HCV和WNV感染。

  供体样品.从Creative Testing Solutions(Tempe,AZ)获得对恰加斯氏病抗体呈血清阳性的供体血浆样品以及年龄和性别匹配的健康供体血浆和测得对B型肝炎病毒(HBV)、C型肝炎病毒(HCV)或西尼罗河病毒(WNV)呈血清阳性的血浆样品。获得两队列样品,一个在2015年,第二集合在2016年。在收到后,使血浆解冻,与作为防冻剂的乙二醇1∶1混合,并等分成单次使用体积。单次使用等分试样存储在-20℃下,直至需要。剩余样品体积在无溶剂下存储在-80℃下。使用2D带条型码管(Micronic,Leystad,the Netherlands)追踪所有样品的身份。在准备测定中,样品等分试样在冰上升温至4℃并在初步孵育缓冲液(具有0.05%Tween 20(PBST)和1%甘露糖醇的磷酸盐缓冲生理盐水)中1∶100稀释。然后含有1∶100稀释液的微量滴定板稀释至1∶625以用于测定。对于选择用于跨越晶片批次评估平台性能的样品子集,将1∶100稀释液等分至单次使用微量滴定板并存储在-80℃下。所有等分和稀释步骤使用BRAVO机器人移液站(Agilent,Santa Clara,CA)进行。使用去鉴定的库存样品的所有程序都由西方制度审查委员会(Western Institutional Review Board)(方案号20152816)审查。

  阵列.具有9个残基的中值长度且在5至13个氨基酸范围内的126,009种肽的组合文库被设计成包括16种氨基酸的99.9%所有可能4聚体和48.3%所有可能5聚体(排除甲硫氨酸M;半胱氨酸C;异亮氨酸I;和苏氨酸T)。使用适合于叔丁氧羰基(BOC)保护基肽化学的标准半导体光刻工具,在200mm二氧化硅晶片上合成这些肽(Legutki JB等人,NatureCommunications.2014;5:4785)。简单地说,将氨基硅烷官能化的晶片用BOC-甘氨酸涂布。然后通过旋涂将含有由紫外光活化的光酸产生剂的光致抗蚀剂施加于晶片。通过光掩模使晶片暴露于紫外光(365nm)允许固定选择使用给定的掩模将暴露晶片上的哪些特征。在暴露于紫外光后,将晶片加热,允许脱除所暴露的特征的BOC保护基。随后洗涤,然后施加活化氨基酸,完成循环。在每次循环下,特定氨基酸添加至位于阵列上特定位置的肽的N端。变化掩模和偶合的氨基酸,重复这些循环,以实现组合的肽文库。从每个晶片切割十三个具有普通显微镜载片尺寸的矩形区域。每个完成的晶片被切割成小13个具有普通显微镜载片尺寸(25mm×75mm)的矩形区域。这些载片中的每一个含有24个阵列,八行×三列。最终,使用标准混合物去除一些氨基酸的侧链上的保护基。将完成的载片存储在干氮环境中,直至需要。进行许多质量测试,确保阵列在工艺说明书内制造,包括每个步骤使用3σ统计极限。通过MALDI-MS间歇地对晶片批料取样,以确定在正确的步骤偶合每个氨基酸,保证构成组合合成的个别步骤是正确的。自始至终经由电子定制关系型数据库追踪晶片制造,所述数据库以Visual Basic写出并具有访问前端与SQL后端。前端用户接口允许操作员容易地将生产信息输入数据库。SQL后端允许进行数据库备份的简单方法并与其它计算机系统整合以根据需要共享数据。典型追踪的数据包括化学品、配方、时间和执行任务的技术人员。在产生晶片后,审查数据并锁定记录并存储。最终,在结合测定中评估每个批次以证实性能,如下所述。

  血浆测定.获得生产质量制造的微阵列,并在使用前在和缓的搅拌下在蒸馏水中浸泡1小时,在PBS中浸泡30分钟并在初始孵育缓冲液(PBST、1%甘露糖醇)中浸泡1小时而再水合。将载片加载至ArrayIt微阵列暗盒(ArrayIt,Sunnyvale,CA)以使个别微阵列适应微量滴定板覆盖区。使用液体处理机,以在初始孵育缓冲液(PBST、1%甘露糖醇)中1∶625稀释来制备90μl每个样品,然后转移至暗盒。将此混合物在阵列上在37℃下孵育1小时,其中在TeleShake95(INHECO,Martinsried,Germany)上进行混合以驱动抗体-肽的结合。在孵育后,使用BioTek 405TS(BioTek,Winooski,VT),在PBST中洗涤暗盒3次。使用4.0nM与AlexaFluor 555结合的山羊抗人类IgG(H+L)(Thermo-Invitrogen,Carlsbad,CA)或4.0nM与DyLight 550结合的山羊抗人类IgA(NovuS Biologicals,Littleton,CO)在二次孵育缓冲液(含0.5%酪蛋白的PBST)中检测结合抗体1小时,其中在TeleShake95平台混合器上在37℃下混合。在二次孵育后,再次用PBST、接着蒸馏水洗涤载片,从暗盒去除,用异丙醇喷雾并离心干燥。通过确定每个可访问的肽特征的相对荧光值,获得定量信号测量。分开进行ELISA以评定抗IgG与抗IgA二次抗体产物之间的交叉反应性。注意到抗IgG产物针对IgA单克隆具有低水平的交叉反应性;未发现抗IgA产物针对IgG单克隆的反应性。

  单克隆测定.在用供体血浆进行IST测定前,评估商业鼠科单克隆抗体(mAb)与对照肽的结合活性,与每种mAb的确定的表位序列对应。在初始孵育缓冲液(1%甘露糖醇、PBST)中用各2.0nM的抗体克隆4C1(Genway)、p53Ab1(Mllipore)、p53Ab8(Millipore)和LnkB2(Absolute Antibody)一式三份地探测IST阵列。二次孵育和信号定量与上述相同。

  数据采集.使用装有532nm激光器和572nm BP 34滤光器的Innopsys 910AL微阵列扫描器(Innopsys,Carbonne,France)使测定的微阵列成像。Mapix软件应用程序(7.2.1版)使用自动化网格化算法,确定与每个肽特征相关的影像区域。每个肽特征的中值像素强度被保存为标签限定的文本文件并存储在数据库中进行分析。

  数据分析.在添加恒定值100以提高方差齐性之后中值特征强度进行log10变换。每个阵列上的强度通过减去该阵列的组合文库特征的中值强度来标准化。

  在单克隆测定中,使用如下计算的Z分数评定每个单克隆与其同源表位的选择性结合:

  

  其中ImAb和I2o分别为在仅仅单克隆或二次抗体存在下的经过变换的肽强度。在所有四个mAb上测量与含有mAb之一的表位的每种肽的结合。

  在IST测定中,通过定量荧光信号测量血浆抗体与每个特征的结合。通过平均肽强度的t检验,针对不等方差进行韦尔奇调整,确定在各组之间显示差别信号的肽特征。对于2105恰加斯氏病队列,恰加斯氏病血清阳性供体(n=146)与血清阴性供体(n=189)相比,且确定具有显著差别信号的肽。通过标准血液组测试算法,比较恰加斯氏病血清阳性供体(n=88)与对HCV(n=71)、HBV(n=88)或WNV(n=88)呈阳性的恰加斯氏病血清阴性供体的平均强度,鉴定可以区别恰加斯氏病与其它感染性疾病的第二组肽。在针对多样性应用邦弗朗尼校正之后,基于假阳性的5%阈值,确定显示显著差别的肽(即p<4e-7)。此外,计算恰加斯氏病阳性供体的进行变换的肽强度与来自三个克氏锥虫ELISA测定的中值信号比截止值(S/CO)的皮尔森相关性(Pearson correlation)。此外,通过本杰明-霍赫伯格法(Benjamini-Hochberg method)(Benjamini Y和Hochberg Y[1995]Journal of the RoyalStatistical Society,Series B 57:289-300),在2015队列内,使用10%伪发现率标准,确定与S/CO相关的肽。

  为了构建分类器,基于与韦尔奇t检验相关的p值,针对区别恰加斯氏病阳性与其它样品的能力将特征分级,所述韦尔奇t检验比较恰加斯氏病阳性供体与恰加斯氏病阴性供体或在多疾病模型中不同疾病类型之间比较。在步骤中所选的肽数目在5个与4000个特征之间变化,并将所选特征每一个输入支持向量机(Cortes C和Vapnik V.MachineLearning.1995;20(3):273-97),利用0.01的线性核心和成本参数来训练分类器。重复100次的四倍或五倍交叉验证用于定量模型性能,估计为接收器工作特性曲线下误差(AUC),且并入特征选择和分类器发展以避免偏倚。

  最终,使用基于交叉验证下的性能,通过t检验p值来选择的最佳数目的特征,在2015队列中拟合固定SVM分类器。此模型用于评定平台的精确度和可重现性,且还在2016队列中作为交叉验证分析的独立验证测试来评估。

  使用R版本3.2.5.(Team RC.R:A language and environment for statisticalcomputing.R Foundation for Statistical Computing Vienna2016.可以获自:https://www.R-project.org/.)进行所有分析。

  肽比对评分

  文库肽与克氏锥虫CL Bener蛋白质组[Sodre CL等人,(2009)Arch Microbiol191:177-184]比对。比对算法使用修改的BLAST策略[Altschul SF和Gish W(1996)MethodsEnzymol 266:460-480],需要3个氨基酸的种子、4个氨基酸的缺口罚分和BLOSUM62的评分矩阵[Henikoff和Henikoff JG(1992)Proc Natl Acad Sci U S A 89:10915-10919],其经过修改以反映阵列的氨基酸组成[States DJ等人,(1991)Methods 3:66-70]。这些修改增加类似取代的分数,从阵列中去除缺乏的氨基酸的罚分并将所有精确匹配同等地评分。在一种方法中,识别肽与蛋白质的序列比对。为了产生分类文库肽(即识别肽)集合与蛋白质的比对分数,将得到正BLAST分数的那些肽装配成矩阵,其中所述矩阵的每一行与比对的肽对应且每一列与蛋白质序列中的氨基酸之一对应。为与蛋白质进行比对,允许肽行内的缺口和缺失。以这种方法,矩阵中的每个位置收到与肽和蛋白质的比对的氨基酸相关的分数。然后将与蛋白质中的每个氨基酸对应的每一列求和以产生“重叠分数”;此表示分类肽对该氨基酸位置的覆盖范围。为了针对文库组成对此分数进行校正,使用同一的方法,针对所有阵列肽的清单,计算另一重叠分数。这允许经由如下方程式计算每个氨基酸处的肽重叠差异分数s:

  Sd=a-(b/d)×c

  在此方程式中,a是来自识别肽的重叠分数,b是识别肽的数目,c是肽整个文库的重叠分数,且d是文库中肽的数目。

  为了将这些s分数(其处于氨基酸水平下)转变成全蛋白质统计资料,计算蛋白质内每个可能的平铺20聚体表位的分数的总和。最终蛋白质分数又名蛋白质表位分数Sd,是沿着每个蛋白质的20聚体的此滚动窗口的最大值。针对从文库随机选择肽的100轮迭代,数目等于识别肽的数目,计算类似的分数集合。基于在随机选择的肽中满足或超过此分数的次数,控制迭代的数目,计算每个分数S的p值。

  精确度、可重现性和性能分析.通过测量恰加斯氏病固定分类器模型中所用的200种肽的信号,对八个血浆样品集合表征抗体与阵列特征结合的精确度。从供体的整个队列选择显示一系列S/CO值的四个恰加斯氏病血清阳性供体和三个恰加斯氏病血清阴性样品。这些一式三份地进行测定。在载片设计中还包括来自健康供体的良好表征的内部血浆样品,一式两份地进行测定。作为阴性对照,一个阵列在初始孵育步骤中在无血浆下孵育,但与二级检测抗体一起孵育。这24个样品跨越单一载片上的阵列位置均匀分布。然后跨越多个载片重复此载片布局。

  为了评估一批内的精确度,从单次制造批料选择三个晶片。使用上文所述的单载片精确度设计,评估来自每个晶片的十三个载片中的十二个。在不同的三天,每天跨越三个ArrayIt暗盒评估载片。在3天内来自每个晶片的载片均匀地分配,使得每个暗盒含有来自三个晶片之一的两个载片和每个来自剩余两个晶片的一个载片。

  为了测量批次之间的精确度,从四个不同生产批料中的每一个选择一个晶片。使用上文所述的精确度研究样品集,评估来自每个晶片的十三个载片中的十二个。三天内,每天跨越四个暗盒分布这些载片,以进行测试。在3天内来自每个晶片的载片均匀地分布,使得每个暗盒含有来自四个晶片中的两个晶片的两个载片。混合效应模型用于估计实验变异的来源。供体样品作为固定效应处理。嵌套因子‘晶片’、‘载片’和‘阵列’与‘天’相交,且这些作为随机效应处理。使用lme4程序包,在R中拟合模型,以获得变异系数(CV)。

  为了评定免疫标记分类器跨越许多晶片制造批次和测定的稳固性,选择能够在单一载片上测定的质量控制(QC)样品集。其由11个案例和11个对照的代表性小组构成,在来自22个跨越10个合成批次制造的不同晶片的单一载片上测定。对于22个所测试的晶片-载片的每一个,在恰加斯氏病试验中研发的固定模型分类器用于此样本集,以估计接收器工作特性(ROC)曲线下面积。这些晶片之一用于恰加斯氏病试验,且其它用于混合队列(恰加斯氏病、HBV、HCV和WNV)试验。

  实施例7-平台验证

  使用单克隆抗体进行实验,以评估最终原位合成的阵列肽产物在配体呈现和抗体识别方面的质量。

  所有的诊断测定都在经过验证的微阵列平台上进行。

  研发一种肽合成方案,其中直接在硅片上使用掩模和光刻技术进行平行偶合反应。利用在各14μm×14μm的特征上显示总共131,712种肽(中值长度为9个氨基酸)的阵列来查询抗体结合事件。所述阵列布局包括经由常见的连接子连接于表面的125,509个文库肽特征和6203个对照肽特征(参见实施例6)。文库肽被设计成对所有可能的氨基酸组合均匀地取样。对照肽包括与五种不同的良好表征的单克隆抗体(mAb)的确定表位对应的500个特征,每种抗体重复100次。另外935个特征与五个表位中的三个的四种不同序列变体对应,每一种重复100至280次。设计额外500个对照特征,氨基酸组成类似于文库肽的氨基酸组成,但一致为8聚体且一式三份存在。将这500个对照特征的中值信号定量,并在研发IST模型时作为文库的一部分处理。剩余3,268个对照包括帮助调整网格的基准标志物、分析控制序列和仅仅连接子的特征。除了基准以外,所有特征都均匀地分布在阵列上。

  使用mAb进行实验,评估最终的阵列合成的产物在配体呈现和抗体识别方面的质量。用识别序列选择四种鼠科抗体克隆小组:4C1、p53Ab1、p53Ab8和LnkB2,与在阵列布局内设计的五种对照表位中的四种对应。四种阵列表示的表位的序列内容总体包括所有16种用于构造文库的氨基酸。

  图28呈现了来自如所述进行的结合测定(参见实施例6)的结果,其中每种抗体与竞争剂个别地施加于阵列,一式三份。对于每一种mAb,对照特征强度用于计算与表位对应的肽序列和三个非同源序列的Z分数。同源序列中的每一个以高信号强度结合,而非同源序列几乎没有显示超过背景值的信号(只是辅助的)。

  这些数据验证合成文库产物的完整性。数据表明微阵列运载适合于特异性抗体识别和结合的肽。在原位工艺中使用光刻法和掩模为生产规模化和有效成本提供了机会。值得注意地,完全相同的文库阵列设计可以用于鉴定出如通过恰加斯氏病、HPV、HCV和WNV分类的准确度所例示(表8和9),区别多种不同疾患,例如感染的肽。

  实施例8-区别对克氏锥虫呈血清阳性的受试者与对克氏锥虫呈血清阴性的受试者的免疫标记测定

  从血库储存库(Creative Testing Solutions,Tempe,AZ)获得无症状供体的血浆样品的两个队列,并展示在表5中。2015队列具有335个供体,使用血库算法,在血清学上针对恰加斯氏病测试每个供体。所述测试意图防止来自任何指示有恰加斯氏病的供体的样品进入血液供应。首先,连续进行三个ELISA,其针对整个克氏锥虫溶解产物(Ortho)测定血浆。如果通过信号比截止值(S/CO>1.0),这些中的任一个评分为正的,那么进行确认性测试。这是一种免疫沉淀测定(克氏锥虫RIPA),其使用血浆使放射性标记的克氏锥虫溶解产物沉淀。通过这些标准,189个供体为血清阳性,且146个供体为血清阴性。S/CO分数>4.0视为稳固阳性率[Remesar M等人,(2015)Transfusion55:2499-2504],这将49个(26%)血清阳性供体放入此高S/CO亚群中。性别、年龄和种族性的分布为在美国献血群体中典型地观察到的性别、年龄和种族性的分布。2016队列具有116个供体,利用上文所述的连续ELISA和RIPA测试的相同方案,针对恰加斯氏病进行测试。结果鉴定出58个恰加斯氏病血清阳性参与者和58个血清阴性参与者。较高比例的恰加斯氏病阳性个体(58个中的31个(53%))被评分至高S/CO>4亚群。性别和年龄的分布相似,不过在此第二供体群体中种族性稍微偏斜。

  表5.恰加斯氏病研究中供体的描述

  

  这里呈现的研究试验通过使用2015队列作为算法训练集进行,以研发区别恰加斯氏病血清阳性个体与恰加斯氏病血清阴性个体的分类器。将此分类器固定,然后应用于预测2016队列供体的阳性率。因此,2016样品表示非训练依赖性验证集。

  评估免疫标记确定恰加斯氏病阳性率的性能

  如实施例6中所述进行免疫标记(IST)测定并进行扫描以获得每个特征的信号强度测量。应用韦尔奇t检验鉴定出356个在血库评分为对恰加斯氏病呈血清阳性的供体对比血清阴性的供体之间在平均信号上具有显著差异的个别肽。如在图29中通过白色点线划分,与恰加斯氏病阴性供体相比,大部分但不是所有的显著区别肽显示在恰加斯氏病阳性供体中较高的结合强度。这些肽中的多种具有还与所有恰加斯氏病阳性供体的中值克氏锥虫S/CO值正相关的信号。这与一些文库肽可能结合与ELISA筛选中由抗原结合的抗体相同或相关的血浆抗体的可能性一致。存在与S/CO显著相关但不满足恰加斯氏病阳性率的IST差别的邦弗朗尼阈值的14种肽(在白色虚线下的圆形)。值得注意地,通过IST,显示最稳固差别的356种肽中的多种不显著与S/CO值相关。这证明由IST(t检验)收集的结合数据与通过ELISA收集的数据(S/CO)有一些重叠,但表明还要测量独特的相互作用。

  在2015队列中研发恰加斯氏病血清阳性率的支持向量机(SVM)分类器。在交叉验证下,当如通过韦尔奇t检验分级的前500种肽输入模型时实现最佳性能。此数目超过满足邦弗朗尼显著性截止值的356,表明额外的信息内容存在于一些肽中,满足具有显著性的更不严格的伪发现率(FDR)截止值。图31A显示五倍交叉验证模型的100次迭代的平均灵敏度与特异度之间的关系,作为诊断阈值的函数,每个训练样品内使用前500种肽。曲线下面积(AUC)估计,对于从两组中的每一组随机挑选的供体,血清阳性供体将具有98%概率的被分类为比血清阴性供体有更高可能性的恰加斯氏病阳性率,其中95%置信区间(CI)为97%-99%。在灵敏度等于特异度的阈值下,准确度为93%(CI=91%-95%)。交叉验证估计通过将使用前500种肽的单一固定的SVM分类器应用于2016队列来确认,其中观察到的性能(AUC97%;准确度91%)在交叉验证估计的95%CI内(图31B)。

  此相同的固定分类器用于使用如下方案评定测定的结合精确度和可重现性,在所述方案中四个恰加斯氏病血清阳性供体和三个恰加斯氏病血清阴性样品如方法部分中所述重复地测定。重复计算分类准确度。这些精确度测量指示构成固定分类器的IST测定特征的以下结合信号CV:阵列间=11%,载片间=4%,晶片间=2.7%,日间=7.7%,且批料间=14.6%。如方法中所述,还确定分类的可重现性,指示AUC>0.98(中值AUC=1.0)。

  图30中的结果探索2015恰加斯氏病队列上抗体结合的不均一性。显示图29中所述的370(356+14)种肽的相对信号强度,通过t检验,通过与ELISA S/CO水平或通过两种依据,所述肽提供恰加斯氏病阳性率的显著差别。图48A-图48N中列出在比较克氏锥虫血清阳性结合信号与克氏锥虫血清阴性结合信号中所鉴定的每一种识别肽的序列。

  发现相对于整个肽文库中相同基序的发生率,区别恰加斯氏病血清阳性与恰加斯氏病血清阴性样品的肽超过100%地富集图36B-图36F中列出的一种或多种基序。另外,发现区别血清阳性样品与血清阴性样品的肽中的99%超过100%地富集一种或多种氨基酸精氨酸、天冬氨酸和赖氨酸(图36A)。

  表示每个供体(y轴)的每种肽(x轴),并相对于其强度与用作对照的所有血清阴性供体中相同肽的平均强度相比的差异渐变。通过特征信号相对于对照信号的标准偏差(sd),绘制热图配色方案。图例已经截短在7sd下,以允许看得见较小但显著的变化。供体按其中值报告ELISA S/CO测量值排序,且这些数据沿着热图绘制。如顶部的树状图所指示,肽已经群集。在热图可视化中ELISA阳性与阴性供体之间的区别是明显的,一些肽的IST信号与ELISA信号水平之间的相关性也一样。恰加斯氏病阳性样品显示肽子集的至少三个不同结合概况:i)信号一致比对照低;ii)信号比对照略高;以及iii)信号随着S/CO值增加而增加。恰加斯氏病阴性样品的肽信号不均一性相对较少。

  这些数据表明不同的簇可能与感染的状态相关,和/或指示疾病进展。

  除测量与IST肽阵列结合的IgG抗体外,通过用荧光标记的抗IgA特异性二级试剂简单地检测血浆抗体结合事件,来确定IgA结合活性。由于血清阳性供体与阴性供体之间显著不同的信号水平,较少的文库肽(224种)通过邦弗朗尼截止值,且这些与通过抗IgG二级试剂检测的肽中的50%重叠。另外,发现与S/CO值相关联的所有23种IgA分类肽在与S/CO相关的26种IgG分类肽的清单内(23/26=88%重叠)。IgA分类的性能(AUC=0.94)类似于IgG分类器。

  这些发现表明在IST测试结果与疾病特异性免疫活性之间存在着相关性。这些发现提出将免疫标记法用作监测克氏锥虫诱发的恰加斯氏病的状态的测试。纵向研究可以提供必要的信息来监测血清阳性受试者的血清再转变或感染的危急生命的并发症的长期发展。

  实施例9-映射恰加斯氏病分类肽的蛋白质组

  利用修改的BLAST算法和评分系统,使用与10聚体重叠的20聚体的滚动窗口(实施例6),将356种显著地区别恰加斯氏病阳性供体与阴性供体的IST文库肽加14种与S/CO值相关的肽与克氏锥虫蛋白质组比对。这得到表6中所示的候选蛋白质标靶区域的排序清单。肽与蛋白质组中蛋白质的不相重叠的20聚体的比对鉴定出表7中提供的候选生物标志物。这些分类肽显示高频率的比对分数大大地超过利用随机选自文库的十个同等尺寸(370)的肽集合,通过进行相同分析所获得的最大分数(图33)。举例来说,由随机选择的肽得到的最大分数在少于2000至2500范围内;而分类肽产生3500的比对分数。因此,在这一情况下,分类肽提供比最高评分随机肽大至少28%的蛋白质分数。可靠的结果还可以用更小的分离度实现。

  由恰加斯氏病分类肽映射的最高评分候选物是表面糖蛋白的黏蛋白II家族的C端。IST肽比对的区域包括糖基磷脂酰肌醇(GPI)附着位点并与恰加斯氏病患者中的高度免疫原性表位对应[Buscaglia CA等人,(2004)J Biol Chem 279:15860-15869]。在黏蛋白II比对的IST肽中最常鉴定出的氨基酸在图34中用修改的WebLogo概述[Crooks GE等人,(2004)Genome Res 14:1188-1190]。对应的克氏锥虫黏蛋白序列(UniProt ID=Q4DXM4)沿着x轴显示。任一位置处的氨基酸取代垂直显示,且映射的文库肽内成比例的覆盖范围由一字母代码的高度描绘。黏蛋白II蛋白质家族的另一个成员被确定为排名第六的标靶候选物,且其还映射C端(UniProt ID=Q4DN88)。通过比对算法(Q4DQ05),另一克氏锥虫表面糖蛋白家族的成员分散基因家族蛋白(DGF-1)[Lander N等人,(2010)Infection andImmunity 78:231-240]排名第八,映射其C端区且与家族一致序列对应。剩余10个最高评分比对区域映射与钙信号转导(调钙蛋白)、囊泡运输(膜泡蛋白分选关联蛋白,Vps26)相关的蛋白[Haft CR等人,(2000)Molecular Biology of the Cell 11:4105-4116]和未表征的蛋白质。总之,这10个候选蛋白质组标靶占比对的370种IST分类肽中的220种。主要候选生物标志物还可以通过多达识别肽的总数全部来鉴定。

  表6.通过分类文库肽与克氏锥虫蛋白质组的最高分级比对鉴定出的候选生物标志物

  可替代地,用韦尔奇T检验鉴定,并针对p值<4e-7(邦弗朗尼)而选择。可替代地,识别肽是与克氏锥虫S/CO显著相关(通过斯皮尔曼相关性(Spearman correlation))的肽,其中:(a)当对照被处理为S/CO=0时,p<4e-7;以及(b)当排除对照时FDR<10%。这些识别肽与克氏锥虫的蛋白质组(Sodré CL等人,Arch Microbiol.[2009年]2月;191(2):177-84.Epub 2008年11月11日。克氏锥虫CL Brener(基因组计划的参考品系)的蛋白质组图)比对,且鉴定候选生物标志物(表7)。

  表7-使用与重叠20聚体的比对鉴定出的额外候选生物标志物

  

  

  这些数据表明模拟寄生虫表位的阵列肽由恰加斯氏病血清阳性受试者中的外周血抗体区别性地结合。这些识别肽映射若干已知的免疫原性克氏锥虫蛋白质,以及若干先前未知的抗原。

  实施例10-恰加斯氏病阳性供体与测得对恰加斯氏病、B型肝炎、C型肝炎和西尼罗河病毒疾病的其它血液感染性疾病呈阳性的供体的IST共同分类

  除区别恰加斯氏病阳性样品与恰加斯氏病阴性样品外,测试免疫标记法以确定恰加斯氏病是否可以与其它感染性疾病相区别,以及其它感染性疾病是否可以彼此相区别。

  为了确定是否可以通过IST区别恰加斯氏病阳性样品与其它感染性疾病样品,对来自整个恰加斯氏病2015队列的88个样品子集以及88个HBV、88个WNV和71个HCV疾病阳性血浆样品再次测定。通过Creative Testing Solutions的间接血清学和直接核酸测试,分派病毒样品阳性率。所有研究样品报告仅仅针对四种疾病中的一种呈阳性。人口资料呈现于表8中,显示混合性别和种族性和一系列年龄。在拉丁裔供体中看到较高流行的恰加斯氏病阳性率,这与中美洲和南美洲中的疾病流行一致。还在整个恰加斯氏病队列内看到此较高流行(表5)。测得对HBV、HCV和WNV呈阳性的供体的种族性的分布类似于在全美人口中发现的分布。

  这项研究的所有IST测定在同一天上进行并立即扫描以获得每个特征的信号强度测量。将原始数据输入R中进行分析。

  表8-血液组-阳性疾病研究中的供体的描述

  

  在所有样品上进行免疫标记测定以鉴定与来自感染克氏锥虫(恰加斯氏病)、B型肝炎、C型肝炎和西方尼罗河的受试者的样品中的抗体区别性地结合的阵列肽。基于阵列的测定如实施例6中所述,在来自表8中所述的受试者的样品上进行,且如所述获得和分析每一个样品中阵列结合的抗体的信号强度。

  区别感染与另一感染

  有差别的抗体与阵列肽的结合鉴定出区别恰加斯氏病(克氏锥虫感染)与HBV、恰加斯氏病与HCV、恰加斯氏病与WNV、HBV与HCV、HCV与WNV以及WNV与HBV的肽。

  从来自恰加斯氏病受试者的样品获得的信号结合数据与来自一组具有HBV的受试者的结合数据的比较鉴定出区别恰加斯氏病样品与HBV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图41A中列出的一种或多种基序。另外,发现区别恰加斯氏病样品与HBV样品的肽超过100%地富集精氨酸、酪氨酸、丝氨酸、丙氨酸、缬氨酸、谷氨酰胺和甘氨酸中的一种或多种氨基酸(图41B)。用于此对比的方法性能通过0.98(0.98-0.99)来标准。在90%灵敏度下,测定的特异度为96%(94-97%),在90%特异度下测定的灵敏度为96%(94-97%),且在灵敏度=特异度下测定的准确度为94%(93-96%)。

  从来自恰加斯氏病受试者的样品获得的信号结合数据与来自一组具有HCV的受试者的结合数据的比较鉴定出区别恰加斯氏病样品与HCV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图42A中列出的一种或多种基序。另外,发现区别恰加斯氏病样品与HCV样品的肽超过100%地富集精氨酸、酪氨酸、丝氨酸、缬氨酸和甘氨酸中的一种或多种氨基酸(图42B)。用于此对比的方法性能通过0.99(0.98-0.99)来表征。在90%灵敏度下,测定的特异度为94%(92-98%),在90%特异度下测定的灵敏度为98%(95-99%),且在灵敏度=特异度下测定的准确度为93%(92-95%)。

  从来自恰加斯氏病受试者的样品获得的信号结合数据与来自一组具有WNV的受试者的结合数据的比较鉴定出区别恰加斯氏病样品与WVN组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图43A中列出的一种或多种基序。另外,发现区别恰加斯氏病样品与WVN样品的肽超过100%地富集赖氨酸、色氨酸、天冬氨酸、组氨酸、精氨酸、谷氨酸和甘氨酸中的一种或多种氨基酸(图43B)。用于此对比的方法性能通过0.95(0.94-0.97)来表征。在90%灵敏度下,测定的特异度为87%(76-94%),在90%特异度下测定的灵敏度为89%(85-92%),且在灵敏度=特异度下测定的准确度为90%(86-91%)。

  从来自HBV受试者的样品获得的信号结合数据与来自一组具有HCV的受试者的结合数据的比较鉴定出区别HBV样品与HCV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图44A中列出的一种或多种基序。另外,发现区别HBV样品与HCV样品的肽超过100%地富集苯丙氨酸、色氨酸、缬氨酸、亮氨酸、丙氨酸和组氨酸中的一种或多种氨基酸(图44B)。用于此对比的方法性能通过0.91(0.88-0.94)来表征。在90%灵敏度下,测定的特异度为79%(69-86%),在90%特异度下测定的灵敏度为71%(53-83%),且在灵敏度=特异度下测定的准确度为84%(78-87%)。

  从来自HBV受试者的样品获得的信号结合数据与来自一组具有WNV的受试者的结合数据的比较鉴定出区别HBV样品与WNV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图45A中列出的一种或多种基序。另外,发现区别HBV样品与WNV样品的肽超过100%地富集色氨酸、赖氨酸、苯丙氨酸、组氨酸和缬氨酸中的一种或多种氨基酸(图45B)。用于此对比的方法性能通过0.97(0.96-0.98)来表征。在90%灵敏度下,测定的特异度为96%(90-99%),在90%特异度下测定的灵敏度为94%(90-97%),且在灵敏度=特异度下测定的准确度为93%(90-96%)。

  从来自HCV受试者的样品获得的信号结合数据与来自一组具有WNV的受试者的结合数据的比较鉴定出区别HCV样品与WNV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图46A中列出的一种或多种基序。另外,发现区别HCV样品与WNV样品的肽超过100%地富集赖氨酸、色氨酸、精氨酸、酪氨酸和脯氨酸中的一种或多种氨基酸(图46B)。用于此对比的方法性能通过0.97(0.95-0.98)来表征。在90%灵敏度下,测定的特异度为92%(84-97%),在90%特异度下测定的灵敏度为93%(86-97%),且在灵敏度=特异度下测定的准确度为92%(87-94%)。

  这些数据表明可以使用本文所述的免疫标记测定比较个别感染,从而区别地诊断许多不同的感染性疾患。

  区别一种感染与一组包含两种或更多种不同类型感染的感染

  研发二元分类器,用于区别可患感染性疾病中的每一种与其它的疾病组合(表9)。通过四倍交叉验证分析确定每个疾病对比的性能量度和其对应95%CI。所述模型产生类似的稳固AUC,在0.94至0.97范围内,并与87%-92%准确度对应。名义上,恰加斯氏病对比剩余三种疾病(其它)的组合类别的对比最佳进行;然而,括号所示的CI重叠。名义上,肝炎对比是最弱的模型。最佳SVM输入肽的数目广泛地从50种肽变化至16,000种肽。

  有差别的抗体与阵列肽的结合鉴定出区别恰加斯氏病样品与来自具有HBV、HCV和WNV(其它)的受试者的一组混合样品的肽。发现相对于整个肽文库中相同基序的发生率,大部分识别肽超过100%地富集图37A中列出的一种或多种基序。另外,发现区别恰加斯氏病样品与HBV、HCV和WNV样品组的肽超过100%地富集精氨酸、天冬氨酸和赖氨酸中的一种或多种氨基酸(图37B)。

  研发基于识别肽的结合信号信息的二元分类器,并显示清楚地区别来自恰加斯氏病受试者的样品与来自其它感染性疾病HBV、HCV和WNV的样品,其中测定性能通过AUC=0.97来标准。在90%置信水平下,测定的特异度为94%,测定的灵敏度为92%,且测定的准确度为92%(表9)。

  从来自HBV受试者的样品获得的信号结合数据与来自一组具有恰加斯氏病、HCV和WNV的受试者的结合数据的比较鉴定出区别HBV样品与恰加斯氏病、HCV和WNV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图38A中列出的一种或多种基序。另外,发现区别HBV样品与HBV、HCV和WNV样品组的肽超过100%地富集色氨酸、苯丙氨酸、赖氨酸、缬氨酸、亮氨酸、丙氨酸和组氨酸中的一种或多种氨基酸(图38B)。此对比的方法性能通过AUC 94%来表征。在90%置信水平下,测定的特异度为85%,测定的灵敏度为85%,且测定的准确度为87%(表9)。

  在第三组对比中,从来自HCV受试者的样品获得的信号结合数据与来自一组具有恰加斯氏病、HBV和WNV的受试者的结合数据的比较鉴定出区别HCV样品与恰加斯氏病、HBV和WNV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图39A中列出的一种或多种基序。另外,发现区别HCV样品与HBV、HCV和WNV样品组的肽超过100%地富集精氨酸、酪氨酸、天冬氨酸和甘氨酸中的一种或多种氨基酸(图39B)。此对比的方法性能通过AUC=96%来表征。在90%置信水平下,测定的特异度为91%,测定的灵敏度为90%,且测定的准确度为90%(表9)。

  在第四组对比中,从来自WNV受试者的样品获得的信号结合数据与来自一组具有恰加斯氏病、HBV和HCV的受试者的结合数据的比较鉴定出区别WNV样品与恰加斯氏病、HBV和HCV组的肽,其相对于整个肽文库中相同基序的发生率,超过100%地富集图40A中列出的一种或多种基序。另外,发现区别WNV样品与HBV、HCV和恰加斯氏病样品组的肽超过100%地富集赖氨酸、色氨酸、组氨酸和脯氨酸中的一种或多种氨基酸(图40B)。此对比的方法性能通过AUC=0.96来表征。在90%置信水平下,测定的特异度为88%,测定的灵敏度为87%,且测定的准确度为89%(表9)。

  表9-四种疾病类别中的每一种对比剩余三种的组合类别的二元分类

  

  

  aspec,特异度:bsens,灵敏度

  这些数据表明基于所鉴定的识别肽的对多种不同感染的二元分类可以区别对恰加斯氏病呈血清阳性的受试者与对恰加斯氏病呈血清阴性的受试者以及无WNV、HPV和HCV症状的受试者。如所示,在每种情况下,方法性能都超过0.94。

  实施例11-四种不同感染的同时分类

  研发多重分类器模型,其利用一个所选肽集合和一种算法同时分类所有四种感染性疾病状态。此多类模型具有与表9中所示的二元分类器类似的性能。换句话说,四倍交叉验证分析得到恰加斯氏病0.98、HBV 0.96、HCV0.95和WNV 0.97的多类AUC。表10呈现了基于最高预测概率,将每个样品分派至一类别的性能量度。在此混淆矩阵中,呈现每个二元对比。估计的总多类分类准确度达到87%。

  前段和表10中描述的组对比的分类器进行组合以获得多重分类器,以确定恰加斯氏病、HBV、HCV和WNV四种感染是否可以同时彼此相区别。

  发现相对于整个肽文库中相同基序的发生率,在多重分类器分析中将恰加斯氏病、HBV、HCV和WNV样品彼此区别的肽超过100%地富集图47A中列出的一种或多种基序。另外,在多重分类器分析中将恰加斯氏病、HBV、HCV和WNV样品彼此区别的肽超过100%地富集精氨酸、酪氨酸、赖氨酸、色氨酸、缬氨酸和丙氨酸中的一种或多种氨基酸(图47B)。

  图35中所示的热图将335个测试队列样品中的每一个的袋外交叉验证模式预测(表10中所示)的类别成员的平均预测概率可视化,涵盖所有四种疾病。此图证明最高预测概率将样品正确地分派至感染性疾病类别。相对于病毒样品中的所有三个样品,在恰加斯氏病样品中分类肽的信号强度显著更不同。大部分但不是全部在恰加斯氏病中较高,值得注意的例外是相对于HBV和WNV较低的几个肽信号。相比之下,针对HBV和HCV样品测定的相同肽的信号强度的差异不太极端。

  针对在0(黑色)至100%(白色)范围内的每个结果,每个样品具有预测的类别成员。基于图35中呈现和表10中给出的混淆矩阵中所示的最高预测概率,每个样品被分派至疾病类别。分类是基于图35中所示的预测概率而分派,其中每个样品以最高概率分派至所述类别。四种对比的测定性能在0.95至0.98范围内。总准确度为87%。

  表10多类别预测的矩阵和性能估计

  

  总准确度=87%

  这些数据展示免疫标记测定可以以高准确度同时区别一种感染与两种或更多种其它感染。在一切情况下,如由AUC所定义的方法性能超过0.95。

  实施例12-鉴定与狼疮活动度相关的候选生物标志物

  背景

  虽然SLE患者的预后已经有所提高,但是该疾病仍然是发病和死亡的主要原因。爆发的迅速治疗不仅产生更好的即时结果,而且还防止累积的长期器官破坏。在SLE的管理中,控制和预防疾病活动度是中心目标。使用当前临床和血清学工具对疾病爆发的预测和/或迅速鉴定以及对进行中的活动度的准确评定可能具有挑战性,其常常达不到最佳。因此,对疾病活动度的灵敏而特异性的诊断仍然是未满足的重要临床需求。(Oglesby等人,Impact of early versus late systemic lupus erythematosus diagnosis onclinical and economic outcomes.Applied Health Economics&Health Policy.12(2):179-90,2014;Lisnevskaia等人,Systemic lupus erythematosus.Lancet.384(9957):1878-88,2014)。

  如本文中其它地方所描述,抗体与阵列肽的结合通过免疫系统快速反映出一个人的健康。例如血液的样品中的疾病特异性抗体与肽阵列结合,产生独特的可检测的免疫标记。为了确定患者抗体概况是否比例如抗ds-DNA、C3/C4和蛋白尿等当前用于确定SLEDAI分数的个别已知生物标志物更好地反映狼疮疾病活动度并测试抗体概况的变化是否可以用于监测疾病活动度的变化,进行一系列抗体结合测定,所述测定使用来自具有变化水平的狼疮活动度的患者或症状缓解的患者的血浆样品。约126,000种不同肽的阵列用于所述测定,其中阵列特征内存在相同肽的约107个拷贝,用于抗体结合测定。

  背景/方法:研究设计由从183个在诊断时满足美国风湿病学会(ACR)SLE标准的患者获得的356个样品组成。选择所述样品以覆盖与收集的样品相关的大范围的SLEDAI分数,其在症状缓解(SLEDAI分数=0)、轻度(SLEDAI分数=1-4)、中度(SLEDAI分数=5-10)和重度(SLEDAI分数超过11)范围内。

  患者满足美国风湿病学会(ACR)设定的标准,从而诊断和鉴定SLE患者。90%的受试者为女性,11-69岁(中值39),其中52%的受试者具有拉美血统,31%具有非裔美国人血统,12%具有非裔加勒比海血统,且5%具有其它或混合血统。

  患者血液样品抽取多达10次不同次数,其中每个患者抽取的血液的数目在1至10范围内。血液抽取之间的时间跨越1周至4年(中值6个月)。图50中通过类别(即症状缓解、轻度、中度和重度)和用于产生免疫标记的血液抽取数目图示SLEDAI分数的分布。

  如上所述,使用血浆进行结合测定。将样品在含有126,000种独特肽的肽阵列上孵育,洗涤,与二级抗体一起孵育以荧光标记与肽结合的样品抗体,再次洗涤并成像。将信号结合强度进行对数变换,并通过减去中值强度将每个样品标准化。通过t检验和通过相关性鉴定出区别具有低疾病活动度的供体的样品与具有高疾病活动度的供体的样品的识别肽,并鉴定出具有与SLEDAI相关的强度的肽。训练支持向量机(SVM)分类器(Cortes,C.;Vapnik,V.(1995).″Support-vector networks″.Machine Learning.20(3):273-297.doi:10.1007/BF00994018)以区别症状缓解(SLEDAI分数=0)与增加的SLE活动度水平。SVM发现在当前情况下基于免疫标记肽信号区分肽类别的最佳超平面。在“特征空间”中,每种肽的信号为表征每个样品的尺寸。“支持向量”为界定类别之间的界限的训练样品,即最难以分类的那些数据点。

  还采用SLEDAI的回归模式并使用弹性网特征选择(参见例如Zou,Hui;Hastie,Trevor(2005).″Regularization and Variable Selection via the Elastic Net″.Journal of the Royal Statistical Society,Series B:301-320;Hastie,Tibshiraniand Friedman,The Elements of Statistical Learning,第2版(2008))程序限制模型复杂度来训练。弹性网方法应用岭回归和LASSO罚分来缩小模型系数并减少模型中肽特征的数目;相关特征往往成组去除。简单地说,岭回归限制系数总和,从而减少过度拟合,同时减小系数量值,但不消除特征。LASSO方法添加引起特征选择的二次项,但当特征相关时特征选择是不稳定的。五倍交叉验证用于校正潜在过度拟合的可能估计。参见图4;亦参见Frank.E Harrell,Jr.,Regression Modelling Strategies,Springer Science+BusinessMedia Inc.(2001)。

  结果:

  图51中展示了显示区别活动性对比非活动性(症状缓解)SLE的肽的火山图。通过p值<4e-7的进行邦弗朗尼调整的截止值,鉴定出在活动性与非活动性疾病之间显示平均强度显著差异的识别肽。x轴为针对平均活动性疾病(平均(活动性))对比平均非活动性疾病(平均(非活动性))的比率所获得的p值(韦尔奇t检验)。通过针对模型预测的所有可能的诊断阈值将灵敏度对比特异度的接收器工作特性(ROC)曲线绘图并计算ROC曲线下面积(AUC),来评估并入了用免疫标记肽阵列(IMS)获得的识别肽的SVM模型区别患有活动性SLE疾病的供体与症状缓解的供体的能力。为了与已知的生物标志物比较,还针对抗ds DNA、UPCR(尿蛋白/肌酐比率)和C3蛋白质生物标志物测量绘制ROC曲线。图52展示了与生物标志物ds-DNA、C3和蛋白尿相比疾病活动度的免疫标记(IS)模型的接收器工作特性曲线,以鉴定具有活动性疾病的患者(SLEDAI>0)。灰色区域指示IS模型的95%置信区间,使用5倍交叉验证评定。通过在极端分数上训练(SLEDAI>8对比0),改良差别,且当应用于极端对比时性能更大。举例来说,SLEDAI>15对比0的分类器具有0.90的AUC(95%CI0.88-0.92)。初步分析表明样品可以通过IS分箱成低、中等和高的疾病活动度。还确定线性IS模型(r2=0.23)、C3(r2=0.17)和抗dsDNA(r2=0.13)与SLEDAI的相关性。

  图53展示了群集热图,其将相对的抗体与702种阵列肽的结合显示为每个供体样品中的每种肽相对于来自症状缓解的供体的样品上相同肽的平均强度,即SLEDAI分数=0的强度。热图展示了与SLEDAI相关的前702种肽。这些是与SLEDAI显著相关的肽,和/或其变化与问诊之间SLEDAI的变化显著相关。在两种情况下,应用邦弗朗尼校正(p<4e-7)。首先将患者通过SLEDAI检验分数分组,然后根据所鉴定的肽群集。热图显示当SLEDAI分数从0增加至21时,这些肽的相对强度往往也增加(高信号强度为黄色)。这些是与SLEDAI显著相关的肽,和/或其变化与问诊之间SLEDAI的变化显著相关。在两种情况下,应用邦弗朗尼校正(p<4e-7)。热图显示与SLEDAI相关的前702种肽。还鉴定每个最高相关肽的氨基酸组成。最高肽用于搜索人蛋白质组数据库以确定与已知人类蛋白质比对的肽。参见图54。

  图61中提供了与SLEDAI活动度相关的702种肽中的前50种肽的肽序列。

  图54A展示了阵列上如通过BLAST与人蛋白质组比对的所有肽的分布。计算与来自所述清单的与SLEDAI分数相关的肽比对的每个蛋白质位置处的氨基酸的加权总和(重叠分数)。针对阵列上所有肽的比对将重叠分数标准化,以鉴定出富集超过在SLEDAI相关肽中的机会的推定抗原区域。图54B展示了蛋白质NRGN的重叠分数。图的左侧显示存在很少的来自清单的进行比对的肽;在右侧,存在一些比对,但至多是预期偶然,因为蛋白质组中存在具有类似序列的许多蛋白质。中间是推定抗原区域,其中比预期偶然更多的来自清单的肽进行比对。显示实际比对,其中x指示肽中的氨基酸错配。蛋白质组中的所有蛋白质是通过每种蛋白质的任20个氨基酸子序列内正(富集)重叠分数的最高总和来分级。这些总分数的分布显示在左上方。图54C中显示具有稳固映射的20种蛋白质,即最高20个重叠分数,且发现其包括已知与炎症有关的蛋白质,包括HTN(1、3)、PROK2和CCL28以及钙信号传导(例如NRGN和S100Z)、核糖体蛋白(RPL39(L))和与DNA和染色质调控相关的蛋白质,包括组蛋白2B(FM、FWT)、VCX(1、2、3A)、TNP1、PRR13和TP53TC3。不知与SLE相关的蛋白质以蓝色显示:RPL39(L)、组蛋白2B(FM,FWT)、TNP1、NRGN、PROK2、CCL28。此外,还发现与包括CCER1、LCE1A和C1orf1 15的未表征蛋白质比对。实施例13中提供了用于鉴定候选生物标志物的方法的详细描述。

  使用通过活动性SLE样品与非活动性SLE样品对比而鉴定出的识别肽的测定的性能展示较高SLEDAI活动度容易与症状缓解区别(图55)。每个条柱表示不同支持向量机分类器的性能,为五倍交叉验证的ROC曲线下面积(AUC)。在每种情况下,训练分类器以区别患有活动性疾病的患者与症状缓解的患者;在连续的条柱中,患有活动性疾病的患者的纳入标准限于具有较高疾病活动度的患者。肽选择包括在交叉验证环内(即不作为交叉验证前的独立步骤进行)。

  还显示免疫标记模型的识别肽与标准SLEDAI生物标志物一样或比其更佳地估计SLEDAI分数(图56)。使用弹性网技术训练SLEDAI值的线性回归模型的预测。选择切割点以在测量的SLEDAI分数与模型预测之间匹配症状缓解、轻度、中度和重度类别的患者的数目。准确度计算为在正确活动度类别内的预测部分。在测量与预测的SLEDAI值之间共同的总变异部分计算为皮尔森相关系数,平方,又称为“判定系数”。确定免疫标记分类、补体和抗dsDNA、C3、C4和UPCR生物标志物与SLEDAI分数的相关性。数据证明免疫标记模型(IMS模型)针对包括抗DNA、C3、C4和UPCR生物标志物在内的若干生物标志物的准确度。图57中的纵向结果证明免疫标记模型(ISM模型)中的抗体结合与SLEDAI的变化比包括C3、抗DNA和UPCR在内的其它当前使用的生物标志物的变化更紧密相关。

  图58进一步证明免疫标记带给生物标志物预测能力的改善,反之亦然。在医师问诊之间生物标志物的变化常常用于监测患者的疾病活动度。使用在连续抽血(n=167)之间肽强度的变化和/或抗dsDNA、UPCR和C3生物标志物的变化拟合SLEDAI分数变化的弹性网模型。虽然如上所述,如在免疫标记中所见的抗体结合的变化(参见图58,中间图)提供了比个别或组合的生物标志物的变化(即抗dsDNA+UPCR+C3(图58,左图)更佳的SLEDAI状态的变化的替代物,但免疫标记测定在与生物标志物变化组合时也有益于提高可预测性。参见图58,右图。

  图59进一步证明与症状缓解相比,免疫反应的差异随着SLEDAI分数增加而增加。在此研究中,经过训练的支持向量机(SVM)分类器用以区别活动性疾病与非活动性疾病。将一系列模型用由SLEDAI阈值定义的“活动性”训练。这与仅仅在从每个患者进行第一次抽血时的训练比较。五倍交叉验证用于控制训练集中的过度拟合。使用在训练中未使用的其它抽血来验证模型。

  结论:使用外周血抗体在肽阵列上的特异性结合模式的简单测试可以得到SLE疾病活动度的单一分子确定。数据表明肽阵列可以通过SLE活动度区别患者。具有较高活动度的患者更容易与症状缓解区别,且免疫标记模型揭露了显示与SLEDAI分数相关的已知和可能新颖的狼疮抗原。在来自患者的纵向样品中测量的免疫标记信号的变化显示与SLEDAI分数的变化的相关性比当前用于SLEDAI评定中的生物标志物的变化更强。因此,与传统的单一生物标志物方法相比,高通量的高度多重的测定可以改善患者活动度分类。

  实施例13-与SLEDAI相关的生物标志物的鉴定

  在两次问诊时从相同患者获取的成对抽血中,肽的信号强度与SLEDAI相关且显示肽强度的变化与SLEDAI的变化之间的相关性(p<4e-7,所有情况)。对于所有供体,针对每种肽,计算在供体第一次抽血时测量的SLEDAI与在来自第一次抽血的血清样品中测量的每种肽的进行log10变换的强度之间的皮尔森相关系数,并假定所述相关系数,根据具有n-2个自由度的学生t-分布,计算p值,其中n为供体数目。

  对于所有供体,针对每种肽,计算在观察到最高SLEDAI分数的情况下对供体抽血时测量的SLEDAI与在来自相同抽血的血清样品中测量的每种肽的进行log10变换的强度之间的皮尔森相关系数,并假定所述相关系数,根据具有n-2个自由度的学生t-分布,计算p值,其中n为供体数目。在多次抽血时观察到供体的最高SLEDAI的情况下,使用这些抽血的最后一次。跨越所有的成对抽血,针对每种肽,计算SLEDAI的变化与进行log10变换的强度的差异之间的斯皮尔曼秩相关系数。

  对于多次抽血的所有供体,计算每对连续抽血自前一次抽血以后的SLEDAI分数的变化。同样地,针对来自每个患者的每对抽血,在来自对应的抽血对的血清样品进行测量之间计算进行log10变换的肽强度的差异。跨越所有的成对抽血,针对每种肽,计算SLEDAI的变化与进行log10变换的强度的差异之间的斯皮尔曼秩相关系数。假定所述相关系数,根据具有n-2个自由度的学生t-分布,计算p值,其中n为抽血对的数目。

  鉴定出在针对测试的126,009种肽应用邦弗朗尼调整之后这些相关性方法的所有三种方法的p值小于0.05,也就是说,p<4e-7的肽集合。通过跨越所述三种方法降低平均绝对相关系数,将这些肽分级。

  在相关性肽的组合清单内,针对1至7的子序列长度k,鉴定富集的子基序、k聚体和有缺口的k聚体。仅仅考虑在清单中出现至少两次的子基序。对子基序的清单进行修整,只包括在针对多样性应用霍尔姆校正(Holm correction)之后p值<0.05的肽。这比本杰明-霍赫伯格的FDR法更严格。

  图60A-图60G显示使SLE与SLEDAI分数相关的肽中富集的肽子基序和氨基酸。在图60A-图60G的每一个表中:

  “n”=最高识别肽中基序出现的次数;

  n.lib=阵列文库中基序出现的次数;

  “富集”=相对于阵列文库中基序出现的次数,最高识别肽中基序的富集倍数。

  P为通过费雪精确检验,与文库总体上随机相比,观察到在最高识别肽中基序更大富集的可能性。

  富集倍数=(基序(例如ABCD)在清单中出现的次数除以基序(ABCD)在文库中出现的次数)/(子序列,即所述基序类型(例如四聚体)在清单中出现的总数/相同类型子序列,即所述基序类型(例如四聚体)在文库中的总数)。富集百分比为“富集”×100。

  图61展示了列出与SLEDAI分数相关的702种显著肽的前50种肽的表格。显著肽与如所述的人蛋白质组比对。图61中:r.Ein.1st=SLEDAI分数与经过标准化并进行对数变换的肽强度之间的皮尔森相关系数(r),SLEDAI分数与肽强度都是在每个供体的第一次抽血时测量。

  p.Ein.1st=r.Ein.1st的p值;更大或同等相关性可能偶然出现的概率;

  r.Ein.max=SLEDAI分数与经过标准化并进行对数变换的肽强度之间的皮尔森相关系数(r),SLEDAI分数与肽强度都是在最大SLEDAI分数的每个供体抽血时测量。

  p.Ein.max=r.Ein.max的p值;更大或同等相关性可能偶然出现的概率;

  r.Ein.chng=来自相同患者的所有成对抽血的SLEDAI分数的差异与经过标准化并进行对数变换的强度的差异之间的皮尔森相关性;

  p.Ein.chng=r.Ein.chng的p值;更大或同等相关性可能偶然出现的概率;

  平均.r=r.Ein.1st、r.Ein.max和r.Ein.chng的平均值;

  min.r2=r.Ein.1st平方、r.Ein.max平方和r.Ein.chng平方的最小值。

  如果p.Ein.1st、p.Ein.max和p.Ein.chng都<4e-7(在邦弗朗尼校正后5%机会为假阳性),那么选择肽包括在此清单中。肽通过降低min.r2的值排序。

  显著肽与人蛋白质组比对。肽与蛋白质组的20聚体区段比对,并计算重叠分数。如实施例6中所述,通过比对鉴定出的蛋白质相对于通过比对阵列中存在的随机挑选的肽鉴定出的蛋白质分级。表11中提供了显示根据所述方法鉴定的候选生物标志物的前50种的部分清单。

  表11

  实施例14-用于鉴定自身免疫性疾病的生物标志物的免疫标记法

  免疫标记测定用于区别自身免疫性疾病(AI)全身性红斑狼疮(SLE)和类风湿性关节炎(RA)与其它自身免疫性和模拟疾病,包括骨关节炎(OA)、舍格伦病(SS)、纤维肌痛(FM)。

  供体样品.从Albert Einstein College of Medicine(Bronx,NY)获得供体血浆样品。按预期收集400个血清样品的充分标注的队列用于此项研究,并包括SLE(n=75)、RA(n=95)、舍格伦病(SS)(n=20)、骨关节炎(OA)(n=24)、纤维肌痛(n=22)、其它疾病(OD)(n=76)、“所有疾病”(AD)(n=237);“其它风湿性疾病”(ORD)(n=144)和健康对照(HC)(n=59)。

  其它自身免疫性疾病和非自身免疫性模拟疾病(OD或其它AI)(n=76):ANCA血管炎(2)、CIA(4)、CNS血管炎、皮肌炎(6)、盘状狼疮、DMPM(3)、DMPM/MCTD、GCA(2)、痛风(9)、狼疮(4)、MCTD(9)、肌炎(5)、重叠、多关节性痛风、多软骨炎、多发性肌炎、假性痛风、牛皮癣性关节炎(11)、硬皮病(7)、血清阴性脊柱关节病(2)和血管炎(4)。对于SLE来说,其它AI+非AI模拟疾病还包括纤维肌痛/RA、狼疮/RA、OA/RA/血清阴性脊柱关节病、RA/血清阴性脊柱关节病、RA和RAVASC。对于RA来说,其它AI+非AI模拟疾病还包括纤维肌痛/SLE、MCTD/SLE、SLE/MCTD、SLE/硬皮病和SLE/SS。

  “其它风湿性疾病”(ORD)(n=144):SLE、SS、OA、牛皮癣性关节炎(11)、痛风(9)、血清阴性脊柱关节病(2)、假性痛风(1)。基于ACR标准,诊断患有风湿病的受试者。

  “非”SLE组为其它AI+非AI模拟疾病+HC,即除SLE以外的AI疾病加HC的样品。

  “非”RA组为其它AI+非AI模拟疾病+HC,即除RA以外的AI疾病加HC的样品。

  图72和图85中指示的“混合SLE和其它AI”和“混合RA和其它AI”组分别表示来自具有混合诊断的受试者的样品与来自患有其它AI和/或模拟疾病的受试者的样品的组合:CIA/OA、痛风/OA、OA/RA、OA/RA、OA/RA/血清阴性脊柱关节病/DMPM/FM/SLE/硬皮病/DMPM/SLE、狼疮/RA/MCTD/SLE、FM/狼疮、FM/OA、FM/RA、FM/SLE、RA/血清阴性脊柱关节病、RA/SLE、RA/SS、RA/血管炎、SLE/MCTD、SLE/RA、SLE/硬皮病、SLE/SS、ANCA血管炎、CIA、CNS血管炎、皮肌炎、盘状狼疮、DMPM、DMPM/MCTD、GCA、痛风、狼疮、MCTD、肌炎、重叠、多关节性痛风、多软骨炎、多发性肌炎、假性痛风、牛皮癣性关节炎、硬皮病、血清阴性脊柱关节病和血管炎。

  样品与作为防冻剂的乙二醇1∶1混合,并等分成单次使用体积。单次使用等分试样存储在-20℃下,直至需要。在每种情况下,剩余样品体积在无溶剂下存储在-80℃下。使用2D带条型码管(Micronic,Leystad,the Netherlands)追踪所有样品的身份。在准备测定中,样品等分试样在冰上升温至4℃并在初步孵育缓冲液(具有0.05%Tween20(PBST)和1%甘露糖醇的磷酸盐缓冲生理盐水)中1∶100稀释。然后含有1∶100稀释液的微量滴定板稀释至1∶625以用于测定。

  阵列.具有9个残基的中值长度且在5至13个氨基酸范围内的126,009种肽的组合文库被设计成包括16种氨基酸的99.9%所有可能4聚体和48.3%所有可能5聚体(排除甲硫氨酸M;半胱氨酸C;异亮氨酸I;和苏氨酸T)。使用适合于叔丁氧羰基(BOC)保护基肽化学的标准半导体光刻工具,在200mm二氧化硅晶片上合成这些肽(Legutki JB等人,NatureCommunications.2014;5:4785)。简单地说,将氨基硅烷官能化的晶片用BOC-甘氨酸涂布。然后通过旋涂将含有由紫外光活化的光酸产生剂的光致抗蚀剂施加于晶片。通过光掩模使晶片暴露于紫外光(365nm)允许固定选择将使用给定的掩模暴露晶片上的哪些特征。在暴露于紫外光后,将晶片加热,允许脱除所暴露的特征的BOC保护基。随后洗涤,然后施加活化氨基酸,完成循环。在每次循环下,特定氨基酸添加至位于阵列上特定位置的肽的N端。变化掩模和偶合的氨基酸,重复这些循环,以实现组合的肽文库。从每个晶片切割十三个具有普通显微镜载片尺寸的矩形区域。每个完成的晶片被切割成小13个具有普通显微镜载片尺寸(25mm×75mm)的矩形区域。这些载片中的每一个含有24个阵列,八行×三列。最终,使用标准混合物去除一些氨基酸的侧链上的保护基。将完成的载片存储在干氮环境中,直至需要。进行许多质量测试,确保阵列在工艺说明书内制造,包括每个步骤使用3σ统计极限。通过MALDI-MS间歇地对晶片批料取样,以确定在正确的步骤偶合每个氨基酸,保证构成组合合成的个别步骤是正确的。自始至终经由电子定制关系型数据库追踪晶片制造,所述数据库以Visual Basic写出并具有访问前端与SQL后端。前端用户接口允许操作员容易地将生产信息输入数据库。SQL后端允许进行数据库备份的简单方法并与其它计算机系统整合以根据需要共享数据。典型追踪的数据包括化学品、配方、时间和执行任务的技术人员。在产生晶片后,审查数据并锁定记录并存储。最终,在结合测定中评估每个批次以证实性能,如下所述。

  测定.获得生产质量制造的微阵列,并在使用前在和缓的搅拌下在蒸馏水中浸泡1小时,在PBS中浸泡30分钟并在初始孵育缓冲液(PBST、1%甘露糖醇)中浸泡1小时而再水合。将载片加载至ArrayIt微阵列暗盒(ArrayIt,Sunnyvale,CA)以使个别微阵列适应微量滴定板覆盖区。使用液体处理机,以在初始孵育缓冲液(PBST、1%甘露糖醇)中1∶625稀释来制备90μl每个样品,然后转移至暗盒。将此混合物在阵列上在37℃下孵育1小时,其中在TeleShake95(INHECO,Martinsried,Germany)上进行混合以驱动抗体-肽的结合。在孵育后,使用BioTek 405TS(BioTek,Winooski,VT),在PBST中洗涤暗盒3次。使用4.0nM与AlexaFluor 555结合的山羊抗人类IgG(H+L)(Thermo-Invitrogen,Carlsbad,CA)或4.0nM与DyLight 550结合的山羊抗人类IgA(Novus Biologicals,Littleton,CO)在二次孵育缓冲液(含0.5%酪蛋白的PBST)中检测结合抗体1小时,其中在TeleShake95平台混合器上在37℃下混合。在与二次抗体一起孵育后,再次用PBST、接着蒸馏水洗涤载片,从暗盒去除,用异丙醇喷雾并离心干燥。通过如下所述,确定每个可访问的肽特征的相对荧光值,获得定量信号测量。

  数据采集.使用装有532nm激光器和572nm BP 34滤光器的Innopsys 910AL微阵列扫描器(Innopsys,Carbonne,France)使测定的微阵列成像。Mapix软件应用程序(7.2.1版)使用自动化网格化算法,确定与每个肽特征相关的影像区域。每个肽特征的中值像素强度被保存为标签限定的文本文件并存储在数据库中进行分析。

  数据分析.在添加恒定值100以提高方差齐性之后中值特征强度进行log10变换。每个阵列上的强度通过减去该阵列的组合文库特征的中值强度并加回跨越所有样品的总中值来标准化。

  通过定量荧光信号来测量血浆抗体与每个特征的结合。通过平均肽强度的t检验,针对不等方差进行韦尔奇调整,确定在各组之间显示差别信号的肽特征。来自患有第一疾患的受试者的样品中的抗体结合与来自患有不同第二疾患的受试者的参考样品中的抗体结合相比较,并鉴定出显示显著差别信号的肽。通过将患有第一疾患的患者当中的平均强度与患有第二、第三、第四等等疾患的受试者当中的平均强度相比较,鉴定出区别第一疾患与其它疾患的肽集合。在针对多样性应用邦弗朗尼校正之后,基于假阳性的5%阈值,确定显示显著差别的肽,即识别肽(即p<4e-7)。

  为了构建分类器,基于与韦尔奇t检验相关的p值,针对区别第一疾患与第二疾患的能力将识别肽的特征分级,韦尔奇t检验比较第一疾患与第二疾患或在多疾病模型中不同疾患之间比较。被选用于分析的肽的数目可以在小于10至超过数百或数千之间变化,并将所选特征每一个输入支持向量机(Cortes C和Vapnik V.Machine Learning.1995;20(3):273-97),利用0.01的线性核心和成本参数训练分类器。四倍或五倍交叉验证重复100次并用于定量模型性能,性能被估计为接收器工作特性曲线下误差(AUC)(图3)。

  最终,使用基于交叉验证下的性能,通过t检验p值来选择的最佳数目的特征,在队列中装配固定SVM分类器。SVM分类器用于评定平台的可重现性。

  所有分析均使用R 3.2.5版进行。(Team RC.R:A language and environment forstatistical computing.R Foundation for Statistical Computing Vienna 2016.可得自https://www.R-project.org/.)

  肽比对评分.文库肽与人蛋白质组RefSeq版本84比对,所述蛋白质组对应于人类基因组构造GrCh38(https://www.ncbi.nlm.nih.gov/refseq/),于2016年3月10日编辑,各独特基因ID使用最长转录产物变体。肽与蛋白质组序列的重叠20聚体部分比对;重叠为10聚体。

  比对算法使用修改的BLAST策略[Altschu1 SF和Gish W(1996)Methods Enzymol266:460-480],需要3个氨基酸的种子、4个氨基酸的缺口罚分和BLOSUM62的评分矩阵[Henikoff和Henikoff JG(1992)Proc Natl Acad Sci US A 89:10915-10919],其经过修改以反映阵列的氨基酸组成[States DJ等人,(1991)Methods 3:66-70]。这些修改增加类似取代的分数,从阵列中去除缺乏的氨基酸的罚分并将所有精确匹配同等地评分。

  为了产生识别文库肽集合的比对分数,将得到正BLAST分数的肽装配成矩阵,其中所述矩阵的每一行与比对的肽对应且每一列与蛋白质序列中的氨基酸之一对应。为与蛋白质进行比对,允许肽行内的缺口和缺失。以这种方法,矩阵中的每个位置收到与肽和蛋白质的比对的氨基酸相关的分数。然后将与蛋白质中的氨基酸对应的每一列求和以产生重叠分数;此表示分类肽对该氨基酸位置的覆盖范围。为了针对文库组成对此分数进行校正,使用同一的方法,针对所有阵列肽的清单,计算另一重叠分数。这允许根据以下方程式计算每个氨基酸处的肽重叠差异分数s:

  s=a-(b/d)×c

  在此方程式中,a是来自识别肽的重叠分数,b是识别肽的数目,c是肽整个文库的重叠分数,且d是文库中肽的数目。

  为了将这些s分数(其处于氨基酸水平下)转变成全蛋白质统计资料,计算蛋白质内每个可能的平铺20聚体表位的分数的总和。最终蛋白质分数又名蛋白质表位分数S,是沿着每个蛋白质的20聚体的此滚动重叠窗口的最大值。针对从文库随机选择肽的100轮迭代,数目等于识别肽的数目,计算类似的分数集合。基于在基于随机选择的肽的比对鉴定出的蛋白质中满足或超过此分数的次数,控制迭代的数目,计算每个分数S的p值。

  分别地,在图75A-图75C中展示了通过识别肽的比对鉴定出的前25种候选生物标志物,确定所述识别肽区别来自患有SLE的受试者的样品与来自健康受试者(HC)、其它AI+非AI模拟疾病和非SLE受试者的样品,且在图87A-图87C中展示了通过识别肽的比对鉴定出的前25种候选生物标志物,确定所述识别肽区别来自患有RA的受试者的样品与来自健康受试者(HC)、其它AI+非AI模拟疾病和非RA受试者的样品。根据比对分数列出候选生物标志物。

  实施例15-SLE的鉴定诊断

  免疫标记用于区别一组受试者中仅仅患有SLE和具有混合诊断的患者中的SLE的受试者与包括健康对照者(HC)、“所有疾病”(AD)、患有RA的受试者、患有OA的受试者、患有纤维肌痛(FM)的受试者和患有舍格伦病的受试者的不同组受试者。“所有疾病”包含非SLEAI疾病和非AI模拟疾病。

  如实施例14中所述进行免疫标记测定并进行扫描以获得每个特征的信号强度测量。通过平均肽强度的t检验,针对不等方差进行韦尔奇调整,确定在各组之间显示差别信号的肽特征。研发二元分类器,用于所述对比中的每一个。

  表12展示呈AUC值的每个对比的测定性能的结果。

  表12-用于区别SLE的测定性能

  发现区别SLE与每一组的显著肽富集一些氨基酸和肽基序。图62-图68展示了在每个对比中显著识别肽的一部分中富集的基序(A)和氨基酸(B)。在对比中鉴定出的显著肽,即识别肽的总数在每个图中指示。在图62-图68的每个表中:

  “n”=最高识别肽中基序出现的次数;

  n.lib=阵列文库中基序出现的次数;

  “富集”=相对于阵列文库中基序出现的次数,最高识别肽中基序的富集倍数。

  P=最高识别肽中基序出现的统计显著性;

  富集倍数=(基序(例如ABCD)在清单中出现的次数/基序(ABCD)在文库中出现的次数)/(基序类型(例如四聚体)在清单中的总数/基序类型(例如四聚体)在文库中的总数)。富集百分比为“富集”×100

  图62展示区别SLE样品与健康供体(HC)样品的肽中富集的肽基序(A)和氨基酸(B)。从来自SLE受试者的样品获得的信号结合数据与来自HC组的结合数据的比较鉴定出区别SLE样品与HC组的肽,其相对于整个肽文库中相同基序的发生率,富集图62A中列出的一种或多种基序超过4.2倍(420%)。另外,发现区别SLE样品与HC样品的肽富集个别氨基酸超过1(100%)倍(图62B)。

  图63展示区别SLE样品与其它AI+非AI模拟疾病的肽中富集的肽基序(A)和氨基酸(B)。相对于整个肽文库中相同基序的发生率,疾病组富集图63A中列出的一种或多种基序超过4.9倍(490%)。另外,发现区别SLE样品与HC样品的肽富集个别氨基酸超过1.1(110%)倍(图63B)。

  图64展示区别SLE样品与“非SLE”组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自SLE受试者的样品获得的信号结合数据与来自“非SLE”组的结合数据的比较鉴定出区别SLE样品与“非SLE”组的肽,其相对于整个肽文库中相同基序的发生率,富集图64A中列出的一种或多种基序超过5倍(富集500%)。另外,发现区别SLE样品与“非SLE”样品的肽富集个别氨基酸超过1.00倍(富集100%)(图64B)。

  图65展示区别SLE样品与RA组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自SLE受试者的样品获得的信号结合数据与来自HC组的结合数据的比较鉴定出区别SLE样品与RA组的肽,其相对于整个肽文库中相同基序的发生率,富集图65A中列出的一种或多种基序超过3.5倍(360%)。另外,发现区别SLE样品与RA样品的肽富集个别氨基酸超过1.2(120%)倍(图65B)。

  图66展示区别SLE样品与OA组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自SLE受试者的样品获得的信号结合数据与来自OA组的结合数据的比较鉴定出区别SLE样品与OA组的肽,其相对于整个肽文库中相同基序的发生率,富集图66A中列出的一种或多种基序超过3.8倍(380%)。另外,发现区别SLE样品与OA样品的肽富集个别氨基酸超过1.2(120%)倍(图66B)。

  图67展示区别SLE样品与FM组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自SLE受试者的样品获得的信号结合数据与来自FM组的结合数据的比较鉴定出区别SLE样品与FM组的肽,其相对于整个肽文库中相同基序的发生率,富集图67A中列出的一种或多种基序超过5倍(500%)。另外,发现区别SLE样品与FM样品的肽富集个别氨基酸超过1.1(110%)倍(图67B)。

  图68展示区别SLE样品与SS组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自SLE受试者的样品获得的信号结合数据与来自SS组的结合数据的比较鉴定出区别SLE样品与SS组的肽,其相对于整个肽文库中相同基序的发生率,富集图68A中列出的一种或多种基序超过4.2倍(420%)。另外,发现区别SLE样品与SS样品的肽富集个别氨基酸超过1.3(130%)倍(图68B)。

  作为t检验p值对比信号强度平均值的对数差(变化倍数)的联合分布,火山图用于评定样品之间的区别。在每个标定位置处肽的密度通过热标度指示。通过免疫标记,在针对多样性应用邦弗朗尼调整(图69A-图69C中显示为绿线)之后,在95%置信度下,挑选在绿色虚线上方的肽作为区别每个比较的两个组的识别肽。火山图说明大部分识别肽在所有SLE组中显示较低的结合强度。图69A、图69B和图69C分别展示经中值标准化的阵列肽强度的火山图。

  韦尔奇t检验鉴定出显著肽,所述肽是在来自SLE组受试者的样品与来自对比组的每个组的样品之间平均信号具有显著差异的个别肽。如图69中所示,韦尔奇t检验鉴定出5121种在来自SLE组受试者的样品与来自健康供体组的样品之间平均信号具有显著差异的个别肽(A);684个在SLE受试者组与患有其它AI+非AI模拟疾病的受试者组之间显示差异的显著特征(B);和2042个在SLE受试者组与未患SLE,即“非SLE”受试者组之间显示差异的显著特征。图70中展示了在每个对比中通过邦弗朗尼截止值的肽。所有对比有478种肽是共同的。这478种肽包含SLE对其它AI+非AI模拟疾病(指示为“其它AI”)的对比的三分之二,这表明这些肽可以独特地鉴定SLE与类似病症。

  研发支持向量机(SVM)分类器,用于所述对比中的每一个。在交叉验证下,确定当如通过韦尔奇t检验分级的前k种肽输入模型时实现的最佳性能(AUC),其中允许k在25种与10,000种特征之间变化。图71展示在五倍交叉验证模型迭代100次后,每个对比内使用前k种肽的测定性能。虽然AUC本身在很宽的样品尺寸范围内非常一致,但最佳k被选为具有最高AUC的k。研发二元分类器,用于所述对比中的每一个。图71中所示的图展示了每个对比模型的输入肽的最佳尺寸可以较大的实例。举例来说,SLE对(HC)的对比的输入肽的尺寸为10000。所述图还说明AUC不随着输入肽的数目增加而显著地变化。

  支持向量机(SVM)模型用于鉴定可以预测SLE对比健康个体或其它类似疾病的可能性的肽组合。如通过p值分级的多达4000种肽用作SVM输入。5倍交叉验证的100次迭代使过度拟合的可能性降到最低。图72中的直方图指示用于区别SLE与以下所列出的亚群的接收器工作特性曲线下面积(AUC):健康供体(HC)、其它AI和非AI模拟疾病(“其它AI”)和非SLE组(其它AI+非AI模拟+HC)。SLE对比健康的AUC为0.9表明在诊断背景下稳固的区别。区别SLE与类似疾病可能更困难,这可能是因为病因学和表现形式重叠。

  图73展示了表示区别SLE与RA、舍格伦病、OA和FM的测定性能的直方图。

  图74中展示了多类别模型,即同时区别一种疾病与一组剩余相关疾病,得到这些鉴定诊断的AUC和预测。

  这些数据表明在AUC 0.9下SLE样品可以与健康样品相区别。这些数据还表明SLE容易与非自身免疫性疾病(OA和纤维肌痛)和舍格伦病相区别。另外,数据还表明SLE可以与患有其它AI+非AI模拟疾病的患者的样品相区别。

  因此,免疫标记(IS)技术可以用于将患有SLE的受试者从健康对照者或患有具有共同症状或潜在免疫失调的疾病的受试者分类。

  实施例16-映射SLE分类肽的蛋白质组鉴定SLE的候选生物标志物

  通过实施例2中所述的对比鉴定的显著识别肽用于鉴定候选生物标志物。

  与SLE相关的显著肽映射包括SSB的已知免疫原性表位的推定抗原。

  将显著地区别SLE与健康受试者、其它AI+非AI模拟疾病和“非SLE”受试者的文库肽与人蛋白质组RefSeq 84版本比对,所述蛋白质组对应于人类基因组构造GrCh38(https://www.ncbi.nlm.nih.gov/refse q/),于2016年3月10日编辑,各独特基因ID使用最长转录产物变体,利用修改的BLAST算法和评分系统,使用重叠20聚体的滚动窗口(实施例14)。图90中展示了区别SLE样品与健康(HC)组样品的前50种显著肽;图91中展示了区别SLE样品与其它自身免疫性和非自身免疫性模拟疾病(其它AI+非AI)组样品的前50种显著肽;且图92中展示了区别SLE样品与非SLE(非SLE-其它AI+非AI+HC)组样品的最高显著肽;

  如实施例14中所述,将肽与重叠10聚体的蛋白质的20聚体区段比对。图75A-图75C中提供了前25个候选生物标志物蛋白质标靶区的所得分级表。提供基因名称|表位开始~~比对分数。这些分类肽显示高频率的比对分数大大地超过利用随机选自文库的十个同等尺寸的肽集合,通过进行相同分析所获得的最大分数。

  在由SLE分类肽映射的最高评分候选对象中的是表面膜移位的La/SSB抗原。值得注意地,已知的和临床使用的SLE自身抗原SSB在每个清单上都级别较高。具体地说,鉴定出在位置340-360处的氨基酸中所含的三个免疫显性表位之一。SSB自身抗原映射细胞内人La蛋白的免疫显性表位的氨基酸340-360,所述蛋白质在细胞凋亡期间在核定位信号丧失后从核重新分布至细胞表面[Neufing等人(2005),Exposure and binding of selectedimmunodominant La/SSB epitopes on human apoptotic cells.Arthritis&Rheumatism.52:3934-3942.doi:10.1002/art.21486](图75)。

  由SLE识别肽映射的其它最高评分候选生物标志物包括组蛋白。组蛋白是核抗体和抗核抗体(ANA)的重要标靶抗原,且抗组蛋白抗体测试典型地在检测与SLE诊断有关的自身抗体时进行[Manson和Rahman(2006),Systemic Lupus Erythematosus.OrphanetJournal of Rare Diseases 1:6.doi 10.1186/1750-1172-1-6](图75)。

  鉴定出由SLE识别肽映射的另一个最高评分候选生物标志物为HMGN https://www.ncbi.nlm.nih.gov/pubmed/8318042?dopt=Abstract。

  总之,每个对比中的25个候选蛋白质组标靶说明所比对的识别肽。主要候选生物标志物还可以通过多达识别肽的总数全部来鉴定。

  这些数据表明模拟SLE自身抗原表位的阵列肽由SLE受试者中的外周血抗体区别性地结合。这些识别肽映射若干已知的SLE标志物。其它列出的候选标靶可以为新颖的SLE标志物。

  实施例17-RA的鉴定诊断

  获得用于区别一组RA受试者中患有RA的受试者与包括健康对照者(HC)、患有其它风湿性疾病(ORD)、SLE、OA、纤维肌痛(FM)、舍格伦病(SS)的受试者、患有其它AI/非AI模拟疾病的受试者和非RA受试者的受试者组的免疫标记(IS)。另一风湿性疾病组(ORD)(239)由RA、SS、OA、牛皮癣性关节炎、痛风、血清阴性脊柱关节病和假性痛风组成。基于ACR标准,诊断患有风湿病的受试者。

  如实施例14中所述进行所述测定并进行扫描以获得每个特征的信号强度测量。如先前所述,通过平均肽强度的t检验,针对不等方差进行韦尔奇调整,确定在各组之间显示差别信号的肽特征。

  表13展示呈AUC值的每个对比的测定性能的结果。

  表13-用于区别R的测定性能

  ^其它风湿性疾病=SLE、SS、OA、牛皮癣性关节炎、痛风、假性痛风、血清阴性脊柱关节病

  发现区别RA与每一组的显著肽富集一些氨基酸和肽基序。图76-图82展示在每个对比中显著识别肽的一部分中富集的基序(A)和氨基酸(B)。每一个图中指示显著肽的总数。

  图76展示了区别RA样品与健康供体(HC)样品的肽中富集的肽基序(A)和氨基酸(B)。从来自SLE受试者的样品获得的信号结合数据与来自HC组的结合数据的比较鉴定出区别SLE样品与HC组的肽,其相对于整个肽文库中相同基序的发生率,富集图76A中列出的一种或多种基序超过4.6倍(460%)。另外,发现区别SLE样品与HC样品的肽富集个别氨基酸超过1(100%)倍(图76B)。

  图77展示了区别RA样品与“其它风湿性疾病”(ORD)组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自RA受试者的样品获得的信号结合数据与来自ORD组的结合数据的比较鉴定出区别RA样品与ORD组的肽,其相对于整个肽文库中相同基序的发生率,富集图77A中列出的一种或多种基序超过4.8倍(480%)。另外,发现区别RA样品与ORD样品的肽富集个别氨基酸超过1.1(110%)倍(图77B)。

  图78展示了区别RA样品与“非RA”组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自RA受试者的样品获得的信号结合数据与来自“非RA”组的结合数据的比较鉴定出区别RA样品与“非RA”组的肽,其相对于整个肽文库中相同基序的发生率,富集图78A中列出的一种或多种基序超过4.9倍(492%)。另外,发现区别RA样品与“非RA”样品的肽富集个别氨基酸超过1.1(110%)倍(图78B)。

  图79展示了区别RA样品与“其它AI+非AI模拟疾病”组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自RA受试者的样品获得的信号结合数据与来自其它AI组的结合数据的比较鉴定出区别RA样品与其它AI+非AI模拟疾病组的肽,其相对于整个肽文库中相同基序的发生率,富集图79A中列出的一种或多种基序超过4.8倍(480%)。另外,发现区别RA样品与其它AI+非AI模拟疾病样品的肽富集个别氨基酸超过1(100%)倍(图79B)。

  图80展示了区别RA样品与OA组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自RA受试者的样品获得的信号结合数据与来自OA组的结合数据的比较鉴定出区别RA样品与OA组的肽,其相对于整个肽文库中相同基序的发生率,富集图80A中列出的一种或多种基序超过3.3倍(330%)。另外,发现区别RA样品与OA样品的肽富集个别氨基酸超过1.6(156%)倍(图80B)。

  图81展示了区别RA样品与FM组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自RA受试者的样品获得的信号结合数据与来自FM组的结合数据的比较鉴定出区别RA样品与FM组的肽,其相对于整个肽文库中相同基序的发生率,富集图81A中列出的一种或多种基序超过3.9倍(390%)。另外,发现区别RA样品与FM样品的肽富集个别氨基酸超过1.1(110%)倍(图81B)。

  图82展示了区别RA样品与SS组样品的肽中富集的肽基序(A)和氨基酸(B)。从来自RA受试者的样品获得的信号结合数据与来自SS组的结合数据的比较鉴定出区别RA样品与SS组的肽,其相对于整个肽文库中相同基序的发生率,富集图82A中列出的一种或多种基序超过4.2倍(420%)。另外,发现区别RA样品与SS样品的肽富集个别氨基酸超过1.3(130%)倍(图82B)。

  如针对SLE对比所述,作为t检验p值对比信号强度平均值的对数差(变化倍数)的联合分布,火山图用于评定样品之间的区别。在每个标定位置处肽的密度通过热标度指示。通过免疫标记,在针对多样性应用邦弗朗尼调整(图83A-图83C中显示为绿线)之后,在95%置信度下,挑选在绿色虚线上方的肽作为区别每个比较的两组的识别肽。图83A、图83B和图83C分别展示经中值标准化的阵列肽强度的火山图。

  韦尔奇t检验鉴定出显著肽,所述肽是在来自RA组受试者的样品与来自对比组的每个组的样品之间平均信号具有显著差异的个别肽。例如图83中所示,韦尔奇t检验鉴定出3062种在来自RA受试者组的样品与来自健康供体组的样品之间平均信号具有显著差异的个别肽(A);742个在RA受试者组与患有“所有疾病”,即其它AI+非AI模拟疾病的受试者组之间显示差异的显著特征(B);和1564个在RA受试者组与未患RA,即“非RA”受试者组之间显示差异的显著特征。图84中展示在每个对比中通过邦弗朗尼截止值的肽。所有对比有491种肽是共同的。这491种肽包含被指示为“其它AI”对比的RA对比其它AI+非AI模拟疾病的三分之二,这表明这些肽可以独特地鉴定RA与类似病症。

  如实施例15中所述,显著肽通过韦尔奇t检验来鉴定,且研发支持向量机(SVM)分类器,用于所述对比中的每一个。支持向量机(SVM)模型用于鉴定可以预测RA对比健康个体或其它类似疾病的可能性的肽组合。如通过p值分级的多达4000种肽用作SVM输入。5倍交叉验证的100次迭代将过度拟合的可能性降至最低。

  图85中的直方图指示用于区别RA与以下所列出的亚群的接收器工作特性曲线下面积(AUC):健康供体(HC)、其它AI和非AI模拟疾病(“其它AI”)和非SLE组(其它AI+非AI模拟+HC)。SLE对比健康的AUC为0.9表明在诊断背景下稳固的区别。RA对比健康的AUC为0.8表明在诊断背景下区别。

  来自患有RA的受试者的样品的阵列结合抗体的信号强度的比较说明了RA可以与其它AI和非AI模拟疾病相区别(表2)。

  图86中提供了描绘区别RA样品与SLE、舍格伦病、OA和纤维肌痛的测定性能的直方图。

  使用IS技术,RA良好地与包括狼疮患者和健康对照者的不同疾患相区别。然而,在适度cvAUC下RA还可以与例如SS等密切相关的疾患相区别。结果表明IS技术可以提供使用少量血清样品的单一测试,其能够对一系列症状相关的疾病或在与风湿病评估相关的疾患的患者中进行多重分类。

  实施例18-映射RA分类肽的蛋白质组鉴定RA的候选生物标志物

  如实施例4中所述,将如通过p值分级的将显著地区别RA与健康受试者、其它AI+非AI模拟疾病和“非RA”受试者的前1000种文库肽与人蛋白质组RefSeq 84版本比对,所述蛋白质组对应于人类基因组构造GrCh38(https://www.ncbi.nlm.nih.gov/refseq/),于2016年3月10日编辑,各独特基因ID使用最长转录产物变体,利用修改的BLAST算法和基于BLOSUM62的评分系统,使用重叠20聚体的滚动窗口(实施例14)。图93中展示了区别RA样品与健康(HC)样品组的前50种显著肽;图94中展示了区别RA样品与其它自身免疫性和非自身免疫性模拟疾病(其它AI+非AI)样品组的前50种显著肽;且图95中展示了区别RA样品与非RA(非RA-其它AI+非AI+HC)样品组的最高显著肽;

  将肽与重叠10聚体的蛋白质的20聚体区段比对。提供基因名称|表位开始~~比对分数。

  这些分类肽显示高频率的比对分数大大地超过利用随机选自文库的十个同等尺寸的肽集合,通过进行相同分析所获得的最大分数。

  图87A-图87C中提供了前25个候选蛋白质标靶区,即候选生物标志物的所得分级表。在由RA分类肽映射的最高评分候选对象中的是与BrCA癌症相关的MN1自身抗体[Wang等人,“Plasma autoantibodies associated with basal-like breast cancers”,CancerEpidemiol Biomarkers Prev.2015年9月;24(9):1332-1340。

  总之,每个对比中的25个候选蛋白质组标靶说明所比对的识别肽。主要候选生物标志物还可以通过多达识别肽的总数全部来鉴定。

  这些数据表明模拟RA自身抗原表位的阵列肽由RA受试者中的外周血抗体区别性地结合。这些识别肽映射可以作为新颖的RA标志物的若干标志物。

  实施例19-不同健康状况的同时分类

  相对于整个肽文库中相同基序的发生率,同时将SLE、RA、FM、OA、SS和HC彼此相区别的肽超过100%地富集图88A中列出的一种或多种基序。另外,在多重分类器分析中将SLE、RA、FM、OA、SS和HC样品彼此相区别的肽超过100%地富集图29B中列出的一个或多个氨基酸。

  图89中所示的热图将测试队列样品中的每一个样品的袋外交叉验证模式预测的类别成员的平均预测概率可视化,涵盖所有六种疾患。针对在0(黑色)至100%(白色)范围内的每个结果,每个样品具有预测的类别成员。

  这些数据表明了免疫标记测定可以同时区别一种健康状况与两种或更多种其它疾患。

  虽然本文中已经展示和描述了本发明的优选实施方案,但本领域的技术人员显而易见此类实施方案仅仅是作为实例提供而已。在不脱离本发明下本领域的技术人员现在想到许多变化、改变和取代。应了解本文所述的本发明的实施方案的多个替代物可以用于实施本发明。意图以下权利要求书界定本发明的范围,从而涵盖在这些权利要求书和其同等物范围内的方法和结构。

  实施方案

  本文中提供了用于鉴定受试者的疾病的至少一种候选生物标志物的方法和装置,所述方法包括:(a)提供肽阵列并将来自所述受试者的生物样品与肽阵列一起孵育;(b)鉴定与来自所述受试者的生物样品中的抗体结合的识别肽集合,所述肽集合能够区别所述疾病与至少一种不同疾患;(c)用所述肽集合中的每种肽查询蛋白质组数据库;(d)将所述肽集合中的每种肽与蛋白质组数据库中的一种或多种蛋白质比对;以及(e)针对来自所述蛋白质组数据库的所鉴定的蛋白质中的每一种,获得关联性分数并分级;其中所鉴定的蛋白质中的每一种为受试者的疾病的候选生物标志物。

  在一些方面,所述方法和装置还包括获得重叠分数,其中所述分数对肽文库的肽组成进行校正。

  在一些方面,本文中的方法和装置的识别肽根据具有小于10-5、小于10-6、小于10-7、小于10-8、小于10-9、小于10-10、小于10-11、小于10-12、小于10-13、小于10-14或小于10-15的p值而鉴定。在一些方面,鉴定所述识别肽集合的步骤包括:(i)检测来自患有所述疾病的多个受试者的样品中存在的抗体与不同肽的阵列的结合以获得第一结合信号组合;(ii)检测抗体与相同肽阵列的结合,所述抗体存在于来自一个或多个参考受试者群组的样品中,每个群组具有不同健康状况;(iii)将所述结合信号第一组合与所述结合信号第二组合比较;以及(iv)鉴定所述阵列上与来自患有所述疾病的受试者的样品中的抗体和来自一个或多个参考受试者群组的所述样品中的抗体区别性地结合的所述肽,从而鉴定所述识别肽。

  在一些方面,本文公开的方法和装置的识别肽的数目与所述阵列上肽总数的至少一部分对应。在其它方面,所述疾病为自身免疫性疾病。在一些方面,所述自身免疫性疾病为硬皮病。在一些方面,所述识别肽区别所述硬皮病与健康状况。在其它方面,所述至少一种候选蛋白质生物标志物是选自表3中提供的清单。在其它方面,所述自身免疫性疾病为狼疮。在其它方面,所述识别肽区别狼疮疾病活动度水平和/或如由SLEDAI分数所定义的狼疮疾病活动度的变化。在其它方面,所述至少一种候选蛋白质生物标志物是选自表11中提供的清单。

  在本文公开的方法和装置的一些方面,所述疾病为感染性疾病。在一些情况下,感染性疾病为恰加斯氏病。在其它情况下,所述识别肽区别所述恰加斯氏病与健康状况。在其它方面,所述至少一种候选蛋白质生物标志物是选自表6和表7中提供的清单。在一些方面,受试者为人。在其它方面,样品为血液样品。在其它方面,血液样品是选自全血、血浆或血清。在其它情况下,样品为血清样品。在其它方面,样品为血浆样品。在其它方面,样品为干血液样品。

  在一些情况下,肽阵列上的不同肽为至少5个氨基酸长。在其它情况下,阵列上的不同肽长度介于5个与15个氨基酸之间。在其它方面,肽阵列包含至少10,000种不同肽。在其它方面,肽阵列包含至少50,000种不同肽。在其它情况下,肽阵列包含至少100,000种不同肽。在一些情况下,肽阵列包含至少300,000种不同肽。在其它情况下,肽阵列包含至少500,000种不同肽。在其它方面,肽阵列包含至少1,000,000种不同肽。在其它情况下,肽阵列包含至少2,000,000种不同肽。在其它情况下,肽阵列包含至少3,000,000种不同肽。在一些情况下,阵列上的不同肽是保藏的。在一些情况下,阵列上的不同肽是原位合成的。在其它情况下,阵列上的不同肽由少于20个氨基酸合成。

《用于鉴定候选生物标志物的方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)