欢迎光临小豌豆知识网!
当前位置:首页 > 物理技术 > 测量测试> 免疫实体有效的聚类独创技术243319字

免疫实体有效的聚类

2021-03-05 11:21:56

免疫实体有效的聚类

  技术领域

  本发明涉及基于表位对抗体等免疫实体进行分类的方法、表位簇的制作以及其应用。

  背景技术

  抗体是与抗原特异且高亲和性结合的蛋白质。人抗体由被称为重链、轻链的2种高分子序列构成。重链、轻链分别进一步被分为可变区和恒定区这两种区域。并且已知,该可变区会给抗体的生理活性带来重要的多样性。该可变区可进一步被分为框架区和互补决定区(CDR)。将抗体靶向结合的分子称为抗原。抗体通常通过CDR与抗原物理地相互作用,从而特异地且高亲和性地结合抗原。将抗原中与抗体物理地相互作用的区域称为“表位”。

  抗体非常富含多样性。每个人可以产生多达1011的氨基酸序列不同的抗体。通过该多样性,B细胞免疫组库可以与多样的抗原、进而与相同抗原的不同表位以不同亲和性结合。CDR区的氨基酸序列是多样性的源泉。CDR中,重链的第3位的环(CDR-H3)最富于多样性。有时多个氨基酸序列非常不同的抗体会与同一或者非常相似的表位结合。由于该“序列的简并”,将抗体、特别是由各个个体产生的抗体通过抗原、表位进行比较是非常难的。

  抗体是非常具有商业价值的分子,现在商业上最成功的大部分药物是抗体药物。进而,抗体药物是制药行业成长最快的领域。抗体发挥高亲和性和特异性这样的特征,不仅用于医疗,在基础研究、制药以外的产业也被广泛利用。

  T细胞也表达与B细胞结构极其相似的受体(TCR)。重要的差别在于,TCR并非是可溶性的、总是与T细胞结合这一点(B细胞产生作为可溶性受体的抗体、和结合于细胞膜的BCR)。尽管没有BCR程度的多样性,但对于T细胞到目前为止也进行了非常多的研究。特别是,针对恶性肿瘤的作用中,细胞杀伤性T细胞引起的细胞破裂是重要的。

  近年,利用新一代测序技术大规模地对抗体、TCR的氨基酸序列进行鉴定变得可能。另一方面,对于与这些抗体、TCR结合的抗原、表位的鉴定成为课题,商业上也有大量需要而备受期待。

  现有的抗原鉴定方法是使抗体、TCR与1个或者多个候选抗原相互作用,实验上鉴定相互作用的方法(例如,表面等离子体共振)。作为由此演变的技术,有蛋白芯片、各种文库法。这些方法比较廉价且高速,但是对于类风湿性关节炎等几种疾病中重要的受到翻译后修饰的蛋白质、肽则不适用。另外,结构表位的鉴定是困难的。

  这些实验的筛选技术需要已得到鉴定的抗原。换言之,必须在抗体、TCR的发现之前鉴定出抗原。

  非专利文献1公开了:利用残基配对优先程度以及跨域资源共享法来预测抗体特异性B细胞表位的计算法。

  现有技术文献

  非专利文献

  非专利文献1:Sela-Culang I.et al.,Structure 22,646-657,2014

  发明内容

  用于解决问题的方案

  本发明人等发现,通过不预先规定功能、并且假设通常将免疫实体结合物(抗原、表位)分别作为独立的“功能(=例如是否具有对于抗原A的特异性)”来处理的抗原特异性或结合模式具有一般性,对于其类似度进行评价,从而能够对免疫实体进行分类。由此,对于一直以来未知的功能(例如、抗原特异性或者结合模式)也能够适用。因此,通过在通常抗体抗原反应等免疫实体的反应中不预先指定所述的功能(例如,特定的抗原特异性或者结合模式),能够概括出本发明。在优选的实施方式中,“功能”是特定的抗原特异性或者结合模式(抗原控制能力)。本发明中,不预先指定功能这一点能够使学习组含有针对各种各样抗原的功能,能够使之反映于对于各功能中的每一种推测类似度中。

  本发明提供以下。

  (1)一种对免疫实体的集合进行解析的方法,其包含:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  (2)一种对免疫实体的集合进行解析的方法,该方法包含:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;和

  (d)根据需要基于利用该聚类的分类进行解析的步骤。

  (3)一种对免疫实体的集合进行解析的方法,该方法包含:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;和

  (dd)根据需要基于利用该聚类的分类进行解析的步骤。

  (4)根据上述项目的任一项所述的方法,其中,所述特征量包含选自由序列信息、CDR1-3序列的长度、序列一致度、框架区的序列一致度、分子的总电荷/亲水性/疏水性/芳香族氨基酸的个数、各CDR、框架区的电荷/亲水性/疏水性/芳香族氨基酸的个数、各氨基酸的个数、重链-轻链的组合、体细胞突变数、突变的位置、氨基酸基序的存在/一致度、相对于参比序列套组的稀有程度、以及基于参比序列的结合HLA的优势比组成的组的至少一个。

  (5)根据上述项目的任一项所述的方法,其中,所述免疫实体为抗体、抗体的抗原结合片段、B细胞受体、B细胞受体的片段、T细胞受体、T细胞受体的片段、嵌合抗原受体(CAR)、或者包含它们中任一个或者多个的细胞。

  (6)根据上述项目的任一项所述的方法,其中,利用所述机器学习的计算是以所述特征量作为输入,用随机森林(Random Forest)或者Boosting算法进行的;所述聚类是基于结合距离的聚类并且是单纯的基于阈值的聚类,用层次聚类(Hierarchical Clustering)、或者非层次聚类法来进行。

  (7)根据上述项目的任一项所述的方法,其中,所述解析包含生物标记物的鉴定、或者成为治疗靶的免疫实体或包含该免疫实体的细胞的鉴定的任一个或者多个。

  (8)根据上述项目的任一项所述的方法,其如下进行:所述高维向量空间计算(bb)用监督学习、半监督学习(Siamese network,孪生神经网络)、或者无监督学习(Auto-encoder,自编码)的任意的方法进行,

  所述聚类(cc)是基于高维空间上的距离的聚类并且是单纯的基于阈值的聚类,用层次聚类或者非层次聚类法来进行。

  (9)根据上述项目的任一项所述的方法,其中,所述解析(dd)包含生物标记物的鉴定、或者成为治疗靶的免疫实体或包含该免疫实体的细胞的鉴定的任一个或者多个。

  (10)根据上述项目的任一项所述的方法,其中,所述机器学习选自由回归方法、神经网络法、支持向量机、以及随机森林等机器学习算法组成的组。

  (11)一种程序,其用于使计算机实施所述项目的任一项所述的方法。

  (12)一种存储介质,其存储有用于使计算机实施上述项目的任一项所述的方法的程序。

  (13)一种系统,其包含用于使计算机实施上述项目的任一项所述的方法的程序。

  (14)根据上述项目的任一项所述的方法,其中,包含含有针对所述抗原特异性或者结合模式关联生物信息的工序的步骤。

  (15)一种生成抗原特异性或者结合模式的簇的方法,其包含如下工序:使用上述项目的任一项所述的方法,将抗原特异性或者结合模式相同的免疫实体分类为同一簇。

  (16)一种鉴定疾病或障碍或者生物体状态的方法,其包含如下工序:基于通过上述项目的任一项所述的方法生成的簇,使所述免疫实体的保有者与已知的疾病或障碍或者生物体状态相关联。

  (17)一种用于鉴定所述生物信息的组合物,其包含具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体。

  (18)一种用于诊断疾病或障碍或者生物体状态的组合物,其包含具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式的免疫实体。

  (19)一种用于治疗或者预防疾病或障碍或者生物体状态的组合物,其包含对于基于上述项目的任一项所述的方法鉴定的表位的免疫实体。

  (20)根据上述项目的任一项所述的组合物,其中,所述组合物包含疫苗。

  (21)一种免疫实体(例如、抗体)、表位或者免疫实体结合物(例如、抗原),其具有如下结构:具有用上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式。

  (22)根据上述项目的任一项所述的方法,其中,包含含有针对所述免疫实体、表位或者免疫实体结合物关联生物信息的工序的步骤。

  (23)根据上述项目的任一项所述的方法,其还包含如下工序:对于进行了所述聚类、分类或者解析的免疫实体、表位或者免疫实体结合物进行鉴定。

  (24)根据上述项目的任一项所述的方法,其中,所述鉴定包含选自由氨基酸序列的确定、三维结构的鉴定、三维结构以外的结构上的鉴定、以及生物学功能的鉴定组成的组中的至少一个。

  (25)根据上述项目的任一项所述的方法,其中,所述鉴定包括确定所述免疫实体、表位或者免疫实体结合物的结构。

  (26)一种生成免疫实体、表位或者免疫实体结合物的簇的方法,其包含如下工序:使用上述项目的任一项所述的分类方法,将抗原特异性或者结合模式相同的免疫实体、表位或者免疫实体结合物分类为同一簇。

  (27)根据上述项目的任一项所述的方法,其特征在于,对于所述免疫实体、表位或者免疫实体结合物,评价选自其特性以及与已知的免疫实体、表位或者免疫实体结合物的类似性组成的组的至少一个评价项目,将满足规定基准的免疫实体作为对象进行所述簇分类。

  (28)一种疾病或障碍或者生物体状态的鉴定法,其包含如下工序:将具有抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物的保有者与已知的疾病或障碍或者生物体状态相关联,所述抗原特异性或者结合模式是用上述项目的任一项所述的方法基于生成簇而鉴定的。

  (29)一种疾病或障碍或者生物体状态的鉴定法,其包含如下工序:使用一个或多个用上述项目的任一项所述的方法生成的簇,对于该簇的保有者的疾病或障碍或者生物体状态进行评价。

  (30)根据上述项目的任一项所述的方法,其中,所述评价使用至少一个指标来进行,所述指标是选自由基于所述多个簇的存在量的排序和/或存在比进行的分析、或者通过调查一定数的B细胞而确定其中是否存在与感兴趣的BCR类似的细胞/簇这样的定量进行的分析组成的组。

  (31)根据上述项目的任一项所述的方法,其中,所述评价还可以使用所述簇以外的指标来进行。

  (32)根据上述项目的任一项所述的方法,其中,所述簇以外的指标包含选自疾病相关基因、疾病相关基因的多态性、疾病相关基因的表达谱、表观遗传学解析、TCR以及BCR的簇的组合中的至少一个。

  (33)根据上述项目的任一项所述的方法,其中,所述疾病或障碍或者生物体状态的鉴定包含选自所述疾病或障碍或者生物体状态的诊断、预后、药代动力学、预测、代替法的确定、患者群的指定、安全性的评价、毒性的评价、以及它们的监测组成的组中的至少一个。

  (34)一种用于评价生物标记物的方法,其包含如下工序:使用一个或多个具有用上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物、和/或用上述项目的任一项所述的方法生成的簇,从而对成为疾病或障碍或者生物体状态的指标的该生物标记物进行评价。

  (35)一种用于鉴定生物标记物的方法,其包含如下工序:使用一个或多个具有用上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物、和/或用上述项目的任一项所述的方法生成的簇,从而与疾病或障碍或者生物体状态相关联、确定该生物标记物。

  (36)一种用于鉴定生物信息的组合物,其包含对于具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物的免疫实体。

  (37)一种用于鉴定生物信息的组合物,其包含:具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或免疫实体结合物或者包含它们的免疫实体结合物(例如、抗原)。

  (38)一种用于诊断上述项目的任一项所述的疾病或障碍或者生物体状态的组合物,其包含:具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物。

  (39)一种用于诊断上述项目的任一项所述的疾病或障碍或者生物体状态的组合物,其包含:以具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物作为靶标的物质。

  (40)一种用于诊断上述项目的任一项所述的疾病或障碍或者生物体状态的组合物,其包含:具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物。

  (41)一种用于治疗或者预防上述项目的任一项所述的疾病或障碍或者生物体状态的组合物,其包含:具有基于上述项目的任一项的任意者所述的方法鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物。

  (42)根据上述项目的任一项所述的组合物,其中,所述免疫实体选自由抗体、抗体的抗原结合片段、T细胞受体、T细胞受体的片段、B细胞受体、B细胞受体的片段、嵌合抗原受体(CAR)、包含它们中任一个或者多个的细胞(例如包含嵌合抗原受体(CAR)的T细胞)组成的组。

  (43)一种用于预防或者治疗上述项目的任一项所述的疾病或障碍或者生物体状态的组合物,其包含:以具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物作为靶标的物质。

  (44)一种用于治疗或者预防上述项目的任一项所述的疾病或障碍或者生物体状态的组合物,其包含:具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物。

  (45)根据上述项目的任一项所述的组合物,其中,所述组合物包含疫苗。

  (46)一种用于评价疫苗的组合物,所述疫苗用于预防或者治疗疾病或障碍或者生物体状态,所述组合物包含:具有基于上述项目的任一项鉴定的抗原特异性或者结合模式的免疫实体、表位或者免疫实体结合物。

  (47)一种使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  (48)一种使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;和

  (d)根据需要基于利用该聚类的分类进行解析的步骤。

  (49)一种使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;和

  (dd)根据需要基于利用该聚类的分类进行解析的步骤。

  (50)根据上述项目的任一项所述的程序,其还包含:上述项目中记载的1个或者多个特征。

  (51)一种存储介质,其存储有用于使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  (52)一种存储介质,其存储有用于使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;和

  (d)根据需要基于利用该聚类的分类进行解析的步骤。

  (53)一种存储介质,其存储有用于使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;和

  (dd)根据需要基于利用该聚类的分类进行解析的步骤。

  (54)根据上述项目的任一项所述的存储介质,其还包含:上述项目中记载的1个或者多个特征。

  (55)一种对免疫实体的集合进行解析的系统,该系统包含:

  (I)特征量提供部,其提供至少2个免疫实体(immunological entity)的特征量;

  (II)机器学习部,其对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习;和

  (III)分类部,其进行该抗原特异性或者结合模式的分类或者确定异同。

  (56)一种对免疫实体的集合进行解析的系统,该系统包含:

  (A)特征量提供部,其针对该免疫实体集合的成员的至少一对提取特征量;

  (B)判定部,其通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;和

  (D)解析部,其根据需要基于利用该聚类的分类进行解析。

  (57)一种对免疫实体的集合进行解析的系统,该系统包含:

  (A)特征量提供部,其分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量;

  (B’)投影部,其将该特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;和

  (D)解析部,其根据需要基于利用该聚类的分类进行解析。

  (58)根据上述项目的任一项所述的系统,其还包含:上述项目中记载的1个或者多个特征。

  (59)根据项1~58的任一者所述的方法、程序、存储介质或者系统,其特征在于,

  所述步骤(i)或者(I)不包括由该至少2个免疫实体的三维结构模型计算特征量;

  所述步骤(ii)或者(A)不包括由该至少一对的三维结构模型计算特征量;或者

  所述步骤(iii)或者(A)不包括由该至少一对成对的序列的免疫实体的三维结构模型计算特征量。

  (A1)一种对免疫实体的集合进行解析的方法,其包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量,并且不包括由该至少2个免疫实体的三维结构模型计算特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  (A2)一种对免疫实体的集合进行解析的方法,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量,并且不包括由该至少一对的三维结构模型计算特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;和

  (d)根据需要基于利用该聚类的分类进行解析的步骤。

  (A3)一种对免疫实体的集合进行解析的方法,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量、并且不包括由该至少一对成对的序列的免疫实体的三维结构模型计算特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;和

  (dd)根据需要基于利用该聚类的分类进行解析的步骤。

  (A4)根据项A1~A3的任一项所述的方法,其还包含项1~58所述的1个或者多个特征。

  (A5)一种存储介质,其存储有用于使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量,并且不包括由该至少2个免疫实体的三维结构模型计算特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  (A6)一种存储介质,其存储有用于使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量,并且不包括由该至少一对的三维结构模型计算特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;和

  (d)根据需要基于利用该聚类的分类进行解析的步骤。

  (A7)一种存储介质,其存储有用于使计算机实施对免疫实体的集合进行解析的方法的计算机程序,其中,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量、并且不包括由该至少一对成对的序列的免疫实体的三维结构模型计算特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;和

  (dd)根据需要基于利用该聚类的分类进行解析的步骤。

  (A8)根据项A5~A7的任一项所述的存储介质,其还包含项1~58所述的1个或者多个特征。

  (A9)一种对免疫实体的集合进行解析的系统,该系统包含:

  (I)特征量提供部,其提供至少2个免疫实体(immunological entity)的特征量、并且不包括由该至少2个免疫实体的三维结构模型计算特征量;

  (II)机器学习部,其对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习;和

  (III)分类部,其进行该抗原特异性或者结合模式的分类或者确定异同。

  (A10)一种对免疫实体的集合进行解析的系统,该系统包含:

  (A)特征量提供部,其针对该免疫实体集合的成员的至少一对提取特征量、并且不包括由该至少一对的三维结构模型计算特征量;

  (B)判定部,其通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;和

  (D)解析部,其根据需要基于利用该聚类的分类进行解析。

  (A11)一种对免疫实体的集合进行解析的系统,该系统包含:

  (A)特征量提供部,其分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量、并且不包括由该至少一对成对的序列的免疫实体的三维结构模型计算特征量;

  (B’)投影部,其将该特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;和

  (D)解析部,其根据需要基于利用该聚类的分类进行解析。

  (A12)根据项A9~A11的任一项所述的系统,其还包含项1~58所述的1个或者多个特征。

  (项B1)一种对免疫实体的集合进行解析的方法,该方法包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  (项B2)一种对免疫实体的集合进行解析的方法,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;和

  (d)根据需要基于利用该聚类的分类进行解析的步骤。

  (项B3)一种对免疫实体的集合进行解析的方法,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;和

  (dd)根据需要基于利用该聚类的分类进行解析的步骤。

  (项B4)根据上述项目的任一项所述的方法,其中,所述特征量包含选自由序列信息、CDR1-3序列的长度、序列一致度、框架区的序列一致度、分子的总电荷/亲水性/疏水性/芳香族氨基酸的个数、各CDR、框架区的电荷/亲水性/疏水性/芳香族氨基酸的个数、各氨基酸的个数、重链-轻链的组合、体细胞突变数、突变的位置、氨基酸基序的存在/一致度、相对于参比序列套组的稀有程度、以及基于参比序列的结合HLA的优势比组成的组中的至少一个。

  (项B5)根据上述项目的任一项所述的方法,其中,所述免疫实体为抗体、抗体的抗原结合片段、B细胞受体、B细胞受体的片段、T细胞受体、T细胞受体的片段、嵌合抗原受体(CAR)、或者包含它们中任一个或者多个的细胞。

  (项B6)根据上述项目的任一项所述的方法,其中,利用所述机器学习的计算以所述特征量作为输入,用随机森林或者Boosting算法来进行,

  所述聚类是基于结合距离的聚类并且是单纯的基于阈值的聚类,用层次聚类或者非层次聚类法来进行。

  (项B7)根据上述项目的任一项所述的方法,其中,所述解析包含生物标记物的鉴定、或者成为治疗靶的免疫实体或包含该免疫实体的细胞的鉴定的任一个或者多个。

  (项B8)根据上述项目的任一项所述的方法,其中,所述机器学习选自由回归方法、神经网络法、支持向量机、以及随机森林等机器学习算法组成的组。

  (项B9)根据上述项目的任一项所述的方法,其中,所述特征量包含选自由序列信息、CDR1-3序列的长度、序列一致度、框架区的序列一致度、分子的总电荷/亲水性/疏水性/芳香族氨基酸的个数、各CDR、框架区的电荷/亲水性/疏水性/芳香族氨基酸的个数、各氨基酸的个数、重链-轻链的组合、体细胞突变数、突变的位置、氨基酸基序的存在/一致度、相对于参比序列套组的稀有程度、以及基于参比序列的结合HLA的优势比组成的组中的至少一个。

  (项B10)根据上述项目的任一项所述的方法,其中,所述免疫实体为抗体、抗体的抗原结合片段、B细胞受体、B细胞受体的片段、T细胞受体、T细胞受体的片段、嵌合抗原受体(CAR)、或者包含它们的任一者或者多个的细胞。

  (项B11)根据上述项目的任一项所述的方法,其如下进行:向所述高维向量空间计算投影的步骤(bb)用监督学习、半监督学习(Siamese network)、或者无监督学习(Auto-encoder)的任意的方法进行,

  所述聚类的步骤(cc)是基于高维空间上的距离的聚类并且是单纯的基于阈值的聚类,用层次聚类或者非层次聚类法来进行。

  (项B12)根据上述项目的任一项所述的方法,其中,所述解析包含生物标记物的鉴定、或者成为治疗靶的免疫实体或包含该免疫实体的细胞的鉴定的任一个或者多个。

  (项B13)一种程序,其用于使计算机实施上述项目中的任一项所述的方法。

  (项B14)一种存储介质,其存储有用于使计算机实施施上述项目中的任一项所述的方法的程序。

  (项B15)一种系统,其包含用于使计算机实施上述项目中的任一项所述的方法的程序。

  (项B16)根据上述项目的任一项所述的方法,包含含有针对所述抗原特异性或者结合模式关联生物信息的工序的步骤。

  (项B17)一种生成抗原特异性或者结合模式的簇的方法,其包括如下工序:使用上述项目的任一项所述的方法,将抗原特异性或者结合模式相同的免疫实体分类为同一簇。

  (项B18)一种鉴定疾病或障碍或者生物体状态的方法,其包括如下工序:基于通过上述项目的任一项所述的方法生成的簇,使所述免疫实体的保有者与已知的疾病或障碍或者生物体状态相关联。

  (项B19)一种用于鉴定所述生物信息的组合物,其包含具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式的免疫实体。

  (项B20)一种用于诊断疾病或障碍或者生物体状态的组合物,其包含具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式的免疫实体。

  (项B21)一种用于治疗或者预防疾病或障碍或者生物体状态的组合物,其包含具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式的免疫实体。

  (项B22)一种用于诊断疾病或障碍或者生物体状态的组合物,其包含免疫实体结合物,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位。

  (项B23)一种用于治疗或者预防疾病或障碍或者生物体状态的组合物,其包含免疫实体结合物,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位。

  (项B24)根据上述项目的任一项所述的组合物,其中,所述组合物包含疫苗。

  (项B25)一种用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体进行诊断的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式。

  (项B26)一种用于针对疾病或障碍或者生物体状态判定不良事件的方法,其包括基于免疫实体判断不良事件的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式。

  (项B27)一种用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体进行诊断的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式,此处,所述至少2个免疫实体或者所述免疫实体的集合包含至少一个来源于健康人的免疫实体。

  (项B28)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式。

  (项B29)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其是对被检者给予有效量的免疫实体的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式;该被检者不包括基于上述项目的任一项所述的方法被判断为可能产生不良事件的被检者。

  (项B30)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式,此处,所述至少2个免疫实体或者所述免疫实体的集合包含至少一个来源于健康人的免疫实体。

  (项B31)一种用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体结合物进行诊断的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位。

  (项B32)一种用于针对疾病或障碍或者生物体状态判定不良事件的方法,其包括基于免疫实体结合物判断不良事件的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位。

  (项B33)一种用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体结合物进行诊断的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位,此处,所述至少2个免疫实体或者所述免疫实体的集合包含至少一个来源于健康人的免疫实体。

  (项B34)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体结合物的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位。

  (项B35)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体结合物的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位,该被检者不包括基于上述项目的任一项所述的方法被判断为可能产生不良事件的被检者。

  (项B36)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体结合物的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位,此处,所述至少2个免疫实体或者所述免疫实体的集合包含至少一个来源于健康人的免疫实体。

  (项B37)根据上述项目的任一项所述的方法,其中,所述免疫实体结合物包含疫苗。

  (项B38)一种用于诊断疾病或障碍或者生物体状态的方法,其包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)基于(iii)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项B38A)根据项B38所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B39)一种用于诊断疾病或障碍或者生物体状态的方法,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)基于利用该聚类的分类进行解析的步骤;和

  (e)基于(d)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项B39A)根据项B39所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B40)一种用于诊断疾病或障碍或者生物体状态的方法,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)基于利用该聚类的分类进行解析的步骤;和

  (ee)基于(dd)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项B40A)根据项B40所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B41)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)给予(iii)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项B41A)根据项B41所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B42)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)根据需要基于利用该聚类的分类进行解析的步骤;和

  (e)给予(d)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项B42A)根据项B42所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B43)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)根据需要基于利用该聚类的分类进行解析的步骤;和

  (ee)给予(dd)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项B43A)根据项B43所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B44)一种用于诊断疾病或障碍或者生物体状态的方法,该方法包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)基于(iii)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项B44A)根据项B44所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B45)根据项B44或44A所述的方法,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项B46)一种用于诊断疾病或障碍或者生物体状态的方法,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)基于利用该聚类的分类进行解析的步骤;和

  (e)基于(d)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项B46A)根据项B46所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B47)根据项B46或46A所述的方法,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项B48)一种用于诊断疾病或障碍或者生物体状态的方法,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)基于利用该聚类的分类进行解析的步骤;和

  (ee)基于(dd)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项B48A)根据项B48所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B49)根据项B48或48A所述的方法,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项B50)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)给予(iii)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项B50A)根据项B50所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B51)根据项B50或者50A所述的方法,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项B52)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)根据需要基于利用该聚类的分类进行解析的步骤;和

  (e)给予(d)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项B52A)根据项B52所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B53)根据项B52或者52A所述的方法,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项B54)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)根据需要基于利用该聚类的分类进行解析的步骤;和

  (ee)给予(dd)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项B54A)根据项B54所述的方法,其还包含上述项所述的1个或者多个特征。

  (项B55)根据项B54或者54A所述的方法,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项C19)一种用于鉴定所述生物信息的组合物,其包括使用具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式的免疫实体的工序。

  (项C20)一种用于诊断疾病或障碍或者生物体状态的方法,其包括使用免疫实体进行诊断的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式。

  (项C21)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括向有需要的被检者给予免疫实体的工序,所述免疫实体具有基于上述项目的任一项所述的方法鉴定的抗原特异性或者结合模式。

  (项C22)一种用于诊断疾病或障碍或者生物体状态的方法,其包括使用免疫实体结合物进行诊断的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位。

  (项C23)一种用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括向有需要的被检者给予免疫实体结合物的工序,所述免疫实体结合物对应于基于上述项目的任一项所述的方法鉴定的表位。

  (项C24)根据上述项目的任一项所述的组合物,其中,所述组合物包含疫苗。

  (项D38)一种使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)基于(iii)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项D38A)根据项D38所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D39)一种使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)基于利用该聚类的分类进行解析的步骤;和

  (e)基于(d)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项D39A)根据项D39所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D40)一种使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)基于利用该聚类的分类进行解析的步骤;和

  (ee)基于(dd)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项D40A)根据项D40所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D41)一种使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:(i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)给予(iii)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项D41A)根据项D41所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D42)一种使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)根据需要基于利用该聚类的分类进行解析的步骤;和

  (e)给予(d)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项D42A)根据项D42所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D43)一种使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)根据需要基于利用该聚类的分类进行解析的步骤;和

  (ee)给予(dd)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项D43A)根据项D43所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D44)一种使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:(i)提供至少2个免疫实体(immunological entity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)基于(iii)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项D44A)根据项D44所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D45)根据项D44或44A所述的程序,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项D46)一种使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)基于利用该聚类的分类进行解析的步骤;和

  (e)基于(d)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项D46A)根据项D46所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D47)根据项D46或46A所述的程序,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项D48)一种使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)基于利用该聚类的分类进行解析的步骤;和

  (ee)基于(dd)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项D48A)根据项D48所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D49)根据项D48或48A所述的程序,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项D50)一种使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:(i)提供至少2个免疫实体(immunological entity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)给予(iii)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项D50A)根据项D50所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D51)根据项D50或者50A所述的程序,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项D52)一种使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)根据需要基于利用该聚类的分类进行解析的步骤;和

  (e)给予(d)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项D52A)根据项D52所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D53)根据项D52或者52A所述的程序,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项D54)一种使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)根据需要基于利用该聚类的分类进行解析的步骤;和

  (ee)给予(dd)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项D54A)根据项D54所述的程序,其还包含上述项所述的1个或者多个特征。

  (项D55)根据项D54或者54A所述的程序,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项E38)一种存储介质,其存储有使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)基于(iii)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项E38A)根据项E38所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E39)一种存储介质,其存储有使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)基于利用该聚类的分类进行解析的步骤;和

  (e)基于(d)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项E39A)根据项E39所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E40)一种使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)基于利用该聚类的分类进行解析的步骤;和

  (ee)基于(dd)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项E40A)根据项E40所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E41)一种使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:(i)提供至少2个免疫实体(immunological entity)的特征量的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)给予(iii)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项E41A)根据项E41所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E42)一种存储介质,其存储有使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)对于该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)根据需要基于利用该聚类的分类进行解析的步骤;和

  (e)给予(d)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项E42A)根据项E42所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E43)一种存储介质,其存储有使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)根据需要基于利用该聚类的分类进行解析的步骤;和

  (ee)给予(dd)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项E43A)根据项E43所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E44)一种存储介质,其存储有使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:(i)提供至少2个免疫实体(immunologicalentity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)基于(iii)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项E44A)根据项E44所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E45)根据项E44或E44A所述的存储介质,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项E46)一种存储介质,其存储有使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)基于利用该聚类的分类进行解析的步骤;和

  (e)基于(d)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项E46A)根据项E46所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E47)根据项E46或46A所述的存储介质,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项E48)一种存储介质,其存储有使计算机实施用于诊断疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)基于利用该聚类的分类进行解析的步骤;和

  (ee)基于(dd)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  (项E48A)根据项E48所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E49)根据项E48或48A所述的存储介质,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项E50)一种存储介质,其存储有使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:(i)提供至少2个免疫实体(immunological entity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;

  (ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;

  (iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和

  (iv)给予(iii)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项E50A)根据项E50所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E51)根据项E50或者50A所述的存储介质,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项E52)一种存储介质,其存储有使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;

  (d)根据需要基于利用该聚类的分类进行解析的步骤;和

  (e)给予(d)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  (项E52A)根据项E52所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E53)根据项E52或者52A所述的存储介质,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项E54)一种存储介质,其存储有使计算机实施用于治疗或者预防疾病或障碍或者生物体状态的方法的计算机程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;

  (dd)根据需要基于利用该聚类的分类进行解析的步骤;和

  (ee)给予(dd)中解析出的该免疫实体或者与该免疫实体对应的免疫实体结合物的步骤。

  (项E54A)根据项E54所述的存储介质,其还包含上述项所述的1个或者多个特征。

  (项E55)根据项E54或者54A所述的存储介质,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项F38)一种用于诊断疾病或障碍或者生物体状态的系统,其包含:

  (I)特征量提供部,其提供至少2个免疫实体(immunological entity)的特征量;

  (II)机器学习部,其对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习;

  (III)分类部,其进行该抗原特异性或者结合模式的分类或者确定异同;和

  (IV)判定部,其基于(III)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态。

  (项F38A)根据项F38所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F39)一种用于诊断疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其针对该免疫实体集合的成员的至少一对提取特征量;

  (B)判定部,其通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)生物体状态判定部,其基于(D)中解析出的该免疫实体判定疾病或障碍或者生物体状态。

  (项F39A)根据项F39所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F40)一种用于诊断疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量;

  (B’)投影部,其将该特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)生物体状态判定部,其基于(D)中解析出的该免疫实体判定疾病或障碍或者生物体状态。

  (项F40A)根据项F40所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F41)一种用于治疗或者预防疾病或障碍或者生物体状态的系统,该系统包含:

  (I)特征量提供部,其提供至少2个免疫实体(immunological entity)的特征量;

  (II)机器学习部,其对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习;

  (III)分类部,其进行该抗原特异性或者结合模式的分类或者确定异同;和

  (IV)给予部,其给予(III)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物。

  (项F41A)根据项F41所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F42)一种用于治疗或者预防疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其针对该免疫实体集合的成员的至少一对提取特征量;

  (B)判定部,其通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)给予部,其给予(D)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物。

  (项F42A)根据项F42所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F43)一种用于治疗或者预防疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量;

  (B’)投影部,其将该特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)给予部,其给予(D)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物。

  (项F43A)根据项F43所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F44)一种用于诊断疾病或障碍或者生物体状态的系统,该系统包含:

  (I)特征量提供部,其提供至少2个免疫实体(immunological entity)的特征量,且该至少2个免疫实体包含至少一个来源于健康人的免疫实体;

  (II)机器学习部,其对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习;

  (III)分类部,其进行该抗原特异性或者结合模式的分类或者确定异同;和

  (IV)给予部,其给予(III)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物。

  (项F44A)根据项F44所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F45)根据项F44或44A所述的系统,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项F46)一种用于诊断疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体;

  (B)判定部,其通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)生物体状态判定部,其基于(D)中解析出的该免疫实体判定疾病或障碍或者生物体状态。

  (项F46A)根据项F46所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F47)根据项F46或46A所述的系统,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项F48)一种用于诊断疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体;

  (B’)投影部,其将该特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)生物体状态判定部,其基于(D)中解析出的该免疫实体判定疾病或障碍或者生物体状态。

  (项F48A)根据项F48所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F49)根据项F48或48A所述的系统,其中,所述疾病或障碍或者生物体状态包含不良事件。

  (项F50)一种用于治疗或者预防疾病或障碍或者生物体状态的系统,该系统包含:

  (I)特征量提供部,其提供至少2个免疫实体(immunological entity)的特征量,且该至少2个免疫实体包含至少一个来源于健康人的免疫实体;

  (II)机器学习部,其对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习;

  (III)分类部,其进行该抗原特异性或者结合模式的分类或者确定异同;和

  (IV)给予部,其给予(III)中分类或者确定的该免疫实体或者对应于该免疫实体的免疫实体结合物。

  (项F50A)根据项F50所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F51)根据项F50或者50A所述的系统,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项F52)一种用于治疗或者预防疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体;

  (B)判定部,其通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)给予部,其给予(D)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物。

  (项F52A)根据项F52所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F53)根据项F52或者52A所述的系统,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  (项F54)一种用于治疗或者预防疾病或障碍或者生物体状态的系统,该系统包含:

  (A)特征量提供部,其分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体;

  (B’)投影部,其将该特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性;

  (C)聚类部,其基于该距离将该免疫实体的集合聚类;

  (D)解析部,其根据需要基于利用该聚类的分类进行解析;和

  (E)给予部,其给予(D)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物。

  (项F54A)根据项F54所述的系统,其还包含上述项所述的1个或者多个特征。

  (项F55)根据项F54或者54A所述的系统,其中,所述疾病或障碍或者生物体状态包含不良事件;或者,所述治疗或者预防包含避免不良事件来进行治疗或者预防。

  本发明的聚类算法的重要的优势在于,不需要在抗体、TCR的发现之前鉴定抗原等免疫实体结合物。本发明的技术不需要事先知道有关抗原等免疫实体结合物的知识。本发明技术的引人注目的应用之一,是将抗体、TCR簇用于鉴定疾病的生物标记物、用于鉴定药物开发靶的候补、用于抗体药物、以嵌合抗原受体的形式用于基因修饰T细胞治疗。例如,已知某种白血病、淋巴肿瘤中BCR和TCR表现出典型的序列图案的情况下,即便不了解抗原等免疫实体结合物,也能对其进行鉴定来用于疾病的诊断。

  本发明的意图在于,上述的1个或者多个特征可以在明示的组合之外、进一步组合而提供。本发明的进一步的实施方式和优点,本领域技术人员只要根据需要阅读以下的详细说明就能够理解、认知。

  发明的效果

  将抗体、TCR按照表位进行聚类的方案实际上会产生大的效果。特别是,按照免疫实体结合物(例如、抗原)、抗原特异性、结合模式或者表位进行分类而得到的簇本身,即便未鉴定免疫实体结合物(例如、抗原)也是有价值的。这样的聚类有几个直接的利益。例如,能够比较来自各个个体的抗体、TCR库(例:供体X与供体Y进行比较,簇Z的表达较多。)。还有可能会发现疾病特异性的、新的免疫实体结合物(例如、抗原)、表位。新的免疫实体结合物(例如、抗原)的发现对于药物开发是极有价值的。在此基础上,可以对有兴趣的表位进行抗体的定量评价。通过与现有的蛋白质芯片组合,能够得到进一步定量且高分辨率/高精度的信息。进一步换言之,能够使下游的解析容易化、低成本化。例如,如果不筛选N个BCR或者TCR、而是使N个包含于M个(N>M)簇中,则用M个筛选就可以。另外,还可以利用免疫实体结合物(例如、抗原)或者抗原特异性、结合模式或表位已知的BCR、TCR进行虚拟筛选(利用类似性探索来推定免疫实体结合物(例如、抗原)、表位)。可以说,其特征还有成为与实验筛选互补的技术。

  具有不同氨基酸序列的抗体能够识别同一表位、或者能够具有同一抗原特异性或结合模式,因此,现有的生物信息学工具例如序列比对对于按照各表位聚类抗体而言还不是妥当的方法。另外,虽然结构生物信息学中已有所谓的预测蛋白质复合体结构的对接(docking)、基于与已知的蛋白质复合体的界面的类似性预测复合体结构的方法,然而这些对于按照表位聚类抗体而言不能说是妥当的方法。TCR也有同样的问题,进而免疫实体结合物(例如、抗原)是一维的肽与提呈其的分子即MHC的复合体并且MHC其自身也是多样的,这一点也使问题变得复杂。因此,能够用稳定的方法将抗体、TCR按照表位、抗原特异性或结合模式聚类的方法是到目前为止的方法所不能实现的重要的发明。

  附图说明

  图1A是例示本发明实施方式的流程图。左面表示对每对进行评价的情况;右面表示从整体进行评价的情况。关于根据数据套组种类的投影,在预先已知各序列间的距离的情况下、预先(学习)(例如)用左面的方法获知各序列间的(抗原特异性意义上的)距离的情况下,以(例如,使用神经网)再现该序列间的距离这样的多维空间上的向量的形式投影序列。关于特征量,由各序列提取任意的特征并输入神经网。(预测)对于上述学习的模型输入由序列提取的特征量时,得到了预测结果。另外,预先已知各序列的抗原特异性的正误的情况下,(例如,使用神经网)以接近抗原特异性正确的序列对、接近错误的序列对的方式对高维空间进行投影。此时,神经网的输入是由各序列提取的任意的特征量向量,根据各序列间在高维空间中的距离进行学习而构成最合适的模型。(预测)对于上述学习的模型输入由序列提取的特征量时,得到了预测结果。

  图1B表示对于测试套组的BCR聚类的结果。节点表示各PDB结构,预测的结果是,判定边缘具有相同抗原特异性。

  图2表示识别20个表位的TCR的聚类结果。

  图3表示来源于EBV的表位(FLRGRAYGL(序列号1))特异性TCR的聚类结果(右)和对应的晶体结构(左:叠加了由PDB得到的结构)。

  图4表示2种HIV来源的肽特异性TCR与数据库上的TCR的聚类结果。

  图5是本发明系统的示意图。

  图6是实施本发明的流程例子的示意图。左面表示对每对进行评价的情况;右面表示从整体进行评价的情况。

  图7是使用通过本发明的TCR进行聚类的乳癌诊断的示意图。

  图8是使用了本发明的无监督学习(autoencoder)的TCR聚类的示意图。Autoencoder的示意图(左)以及聚类(DBSCAN)参数最优化的结果(右)。

  图9是组合了本发明的TCR/BCR意义的生物信息的诊断的示意图。比较的群组(左)以及表示其结果的维恩图(Venn diagram)(右)。

  图10是表示实施例7的流程图。

  图11表示使用了利用TCR的聚类进行乳癌诊断的结果,所述TCR是仅使用由多个供体构成的簇而构建的。

  图12表示本发明的免疫检测点抑制剂副作用预测的例示的图。

  具体实施方式

  以下,对于本发明最优选的实施方式进行展示并且说明。本说明书整体来看,单数形式的表达只要没有特别说明,则应该理解为也包含其复数形式的概念。因此,单数形式的冠词(例如,是英语的情况下,“a”、“an”、“the”等)只要没有特别说明则应该理解为也包含其复数形式的概念。另外,本说明书中所使用的术语只要没有特别说明,应该理解为用该领域通常使用的意味使用。因此,只要没有被其他定义,本说明书中所使用的全部专门术语和科学技术术语具有与本发明所属领域的本领域技术人员通常理解相同的意味。矛盾的情况下,本说明书(包含定义)是优先的。

  (定义)

  以下对于本说明书中特别使用的术语的定义和/或基本的技术内容适宜地进行说明。

  本说明书中,“免疫实体(immunological entity)”是指承担着免疫反应的任意的物质。免疫实体中包含抗体、抗体的抗原结合片段、T细胞受体、T细胞受体的片段、B细胞受体、B细胞受体的片段、嵌合抗原受体(CAR)、包含它们中任一个或多个细胞(例如,包含嵌合抗原受体(CAR)的T细胞(CAR-T))等。免疫实体可以认为是广义的,羊驼等动物生产的纳米抗体(nanobody)、人工保持多样性(diversity)的噬菌体展示等(它们中包含scFv、纳米抗体)的解析中所使用的与免疫学相关的实体(entity)也同样包含。本说明书中只要没有特别的说明,“第一”和“第二”等(“第三”…等)的记载表示相互不同的实体。

  本说明书中,“抗体”是指:与该领域中通常使用的同样的意义使用的、抗原与生物体的免疫系统接触(抗原刺激)时由免疫系统制造的、与抗原高度特异反应的蛋白质。针对本发明所使用的表位的抗体分别与特定表位结合即可,而不论其来源、种类、形状等。本说明书中记载的抗体可以分为框架区和抗原结合区(CDR)。

  本说明书中,“T细胞受体(TCR)”也称为T细胞受体、T细胞抗原受体、T细胞抗原受体,是指在支配免疫系统的T细胞的细胞膜表达的受体(受体),识别抗原。存在α链、β链、γ链和δ链而构成αβ或γδ的二聚体。将由前者的组合形成的TCR称为αβTCR、将由后者的组合形成的TCR称为γδTCR,具有各TCR的T细胞被称为αβT细胞、γδT细胞。结构上与B细胞所产生的抗体的Fab片段非常类似,识别结合于MHC分子的抗原分子。具有成熟T细胞的TCR基因经过了基因重排(Genetic rearrangements),因此一个个体具备富含多样性的TCR,且能够识别各种各样的抗原。TCR能进一步与细胞膜上存在的不可变的CD3分子结合而形成复合物。CD3在细胞内区具有被称为免疫受体酪氨酸活化基序(ITAM,immunoreceptortyrosine-based activation motif)的氨基酸序列,其基序被视为参与了细胞内的信号传导。各TCR链由可变部(V)和恒定部(C)构成,恒定部具有贯通细胞膜且短的细胞质部分。可变部存在于细胞外,与抗原-MHC复合物结合。可变部存在有3个被称为超可变部或互补决定区(CDR)的区域,该区与抗原-MHC复合物结合。3个CDR分别被称为CDR1、CDR2、CDR3。TCR的基因重组与作为免疫球蛋白已知的B细胞受体的过程是相同的。αβTCR的基因重排中,首先进行β链的VDJ重排,接着进行α链的VJ重排。进行α链的重排时,δ链的基因由染色体上缺失,因此具有αβTCR的T细胞不会同时具有γδTCR。相反地,具有γδTCR的T细胞中,介导该TCR的信号抑制β链的表达,因此具有γδTCR的T细胞不会同时具有αβTCR。

  本说明书中,“B细胞受体(BCR)”也被称为B细胞受体、B细胞抗原受体、B细胞抗原受体,是由与膜结合型免疫球蛋白(mIg)分子会合而得到的Igα/Igβ(CD79a/CD79b)杂二聚体(α/β)构成的。mIg亚基与抗原结合而引起受体的凝集,而另一方面,α/β亚基向细胞内传导信号。BCR凝集时,被认为与酪氨酸激酶的Syk和Btk同样地,将Src家族激酶的Lyn、Blk和Fyn迅速地活性化。根据BCR信号传导的复杂程度不同而产生很多不同结果,其中包含生存、耐性(无变应性;针对抗原的过敏反应的缺失)或细胞凋亡、细胞分裂、向抗体产生细胞或记忆B细胞的分化等。生成了上亿种TCR的可变区序列不同的T细胞,还生成了BCR(或抗体)的可变区的序列不同的B细胞。TCR与BCR的各序列由于基因组序列的重组、突变导入而不同,所以针对T细胞、B细胞的抗原特异性,确定TCR·BCR的基因组序列或mRNA(cDNA)的序列而变得麻烦。

  本说明书中,“嵌合抗原受体(CAR)”是指将单链抗体(scFv)作为N末端侧、且C末端侧具有T细胞受体(TCR)ζ链的嵌合蛋白的总称,基因·细胞治疗法中所使用的人工T细胞受体;所述单链抗体是使对于肿瘤抗原特异的单克隆抗体可变区的轻链(VL)与重链(VH)串联地结合而成的;所述基因·细胞治疗法是在将加入了用于克服肿瘤免疫逃避机制的基因操作的人工T细胞受体基因导入至患者T细胞、将该T细胞在体外扩增培养之后对患者进行输注这样的方法(Dott iG,etal..Hum Gene Ther20:1229-1239,2009)。使用通过本发明鉴定或聚类化得到的表位,能够生产这样的CAR,使用所生产的CAR或包含其的基因修饰T细胞实现基因细胞治疗法(参照Credit:Brentjens R,etal.“Driving CAR T cells forward.”Nat Rev Clin Oncol.201613,370-383等)。

  本说明书中“V区”是指抗体、TCR或BCR等免疫实体的可变区的可变部(V)区域。

  本说明书中,“D区”是指抗体、TCR或BCR等免疫实体的可变区的D区。

  本说明书中,“J区”是指抗体、TCR或BCR等免疫实体的可变区的J区。

  本说明书中,“C区”是指抗体、TCR或BCR等免疫实体的恒定部(C)区。

  本说明书中,“可变区的免疫组库(repertoire)”是指TCR或BCR中通过基因重组任意作出的V(D)J区的集合。TCR免疫组库、BCR免疫组库等用术语使用,它们也可以被称为例如T细胞免疫组库、B细胞免疫组库等。例如,“T细胞免疫组库”是指通过T细胞受体(TCR)的表达而被赋予特征的淋巴细胞的集合,所述T细胞受体(TCR)在抗原识别或免疫实体结合物的识别中起到重要的作用。T细胞免疫组库的变化带来了生理的状态和疾病状态中的免疫状态的显著的指标,T细胞免疫组库解析是用于与疾病的发病相关的抗原特异性T细胞的鉴定和T淋巴细胞的异常的诊断而进行的。TCR、BCR通过基因组上存在的多个V区、D区、J区、C区的基因片段的基因重组而产生出多样的基因序列。

  本说明书中,“同种型”是指在IgM、IgA、IgG、IgE和IgD等中属于相同类型但序列相互不同的类型。同种型使用各种基因的简称、符号来表示。

  本说明书中,“亚型”是指:在BCR的情况下存在于IgA和IgG中的类型内的类型;针对IgG,存在有IgG1、IgG2、IgG3或IgG4;针对IgA存在有IgA1或IgA2。对于TCR也是,已知在β链和γ链中存在;分别存在有TRBC1、TRBC2或者TRGC1、TRGC2。

  本说明书中,“免疫实体结合体”是指能通过抗体、TCR或BCR等免疫实体特异地结合的任意的底物。本说明书中称为“抗原”的情况下,广义上是指“免疫实体结合物”;在该领域中,“抗原”狭义上是指与抗体成对地使用;狭义上“抗原”是指能与“抗体”特异地结合的任意底物。

  本说明书中,“表位”是指抗体或淋巴细胞受体(TCR、BCR等)等免疫实体所结合的免疫实体结合物(例如,抗原)分子中的部位。氨基酸的直链也构成表位(直链状表位)、蛋白质的被分离的部分构成立体结构而作为表位起作用(构象表位)。本发明作为对象的表位无论这样的表位的详细的分类。可以认为,关于某抗体等免疫实体,只要表位相同,具有其他序列的抗体等的免疫实体也可以同样地利用。

  本说明书中“抗原特异性”在针对免疫实体时,是指与其结合伙伴(例如,抗原)的结合特异性,是指与某特定的结合伙伴结合但与其他的结合伙伴不结合、低亲和性结合的性质。

  本说明书中,“结合模式”是指免疫实体与其结合伙伴之间的3维的结合模式(mode),表示物理的概念。尽管不希望理论上受到约束,但大概可以认为是,结合模式为多个集合时会形成抗原特异性,但不限定于此。

  本说明书中,免疫实体、表位、免疫实体结合物、抗原特异性或结合模式“同一”或“不同”,可以基于本发明进行分类,可以通过类似度(氨基酸序列、三维结构、抗原特异性或结合模式等)进行判断。“同一”并非限定于化学式、氨基酸序列等完全同一而是指功能或立体结构实质上同质;本发明中,代表地可以由抗原特异性或结合模式而决定,属于同一免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式的簇的免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式在本发明中可以判断为“同一”。因此,“不同的”免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式是指并非属于“同一”簇的免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式。一个实施方式中,免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式根据“同一”或“不同”来决定是否属于同一簇。进行簇分析的情况下,某免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式与其他的免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式相比较属于相同簇的情况下,判断为同一;属于其他簇的情况下判断为不同。因此,将所结合的免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式同一的免疫实体、表位、免疫实体结合物分类为同一簇,也可以生成簇。另外,对于免疫实体、表位或免疫实体结合物评价选自由其特性和与已知的免疫实体的类似性组成的组的至少一个评价项目,可以将满足规定的基准的免疫实体、表位或免疫实体结合物作为对象进行前述簇分类。因此,一个实施方式中,免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式同一的情况下,该免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式的三维结构有时至少一部分重复或者全部重复;或者、该免疫实体或表位或免疫实体结合物(或承担着抗原特异性或结合模式)的氨基酸序列或其他化学物质的部分结构有时至少一部分或者全部重复。作为重要的指标,与能够切实确认的结构数据等完全吻合地确定阈值是合适的,但重视统计学的显著性的情况下,可以采用其他的阈值,本领域技术人员可以根据状况参考本说明书的记载而适宜设定阈值。例如,将使用梯度的聚类手法(例如,群平均法(average linkage clustering)、最短距离法(NN法)、K-NN法、Ward法、最长距离法、重心法)进行聚类分析的情况下所求的最大距离小于特定的值的视为同一簇。作为这样的值,可列举出小于1、小于0.95、小于0.9、小于0.85、小于0.8、小于0.75、小于0.7、小于0.65、小于0.6、小于0.55、小于0.5、小于0.45、小于0.4、小于0.35、小于0.3、小于0.25、小于0.2、小于0.15、小于0.1、小于0.05等,但不限定于此。作为聚类手法,不限定于梯度的手法,也可以使用非梯度的手法。

  本说明书中,免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式的“簇”通常是指,对于某集团的要素(该情况下免疫实体或表位、免疫实体结合物、或者抗原特异性、或结合模式),不指定外部标准、群的个数,由多维空间中的要素的分布,将类似的集合而成的物质;本说明书中是指将多数的免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式中的至少一个类似的集合而成的物质。属于同一簇的免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式中,结合有同样的抗体。可以通过多变量分析进行分类,可以使用各种簇分析手法构成簇。本发明所提供的免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式的簇表现为属于该簇,由此表示反映生物体内的状态(例如,疾病、障碍或药效、特别是免疫状态等)。

  本发明中,作为基于利用聚类进行分类的解析,可以假设例如,由聚类结果将各个簇看作基因,如基因表达解析那样使用。具体而言,例如,1.追逐连续变化的情况下,可见特定的、或者属于多个簇的序列的增减。观察增减的簇的个数。发现各个簇的特征的量(V/D/J基因、CDR的长度、亲水性、疏水性、所保存的残基等)。2.对于多个待检体的特定群有兴趣的情况下,对于在特定群中优先存在、增减的簇进行鉴定。观察增减的簇的个数。对于各个簇发现特征的量。3.对于功能有兴趣的情况(功能=抗原特异性或结合模式)、有兴趣的抗原中包含特异的序列(利用ELISPOT分析、pMHC四聚体进行的sorting等、通过其他的实验得到)的簇进行关注,观察其增减。将由(功能=细胞的功能)分别进行分选而决定序列的不同亚型的细胞得到的聚类结果进行比较。4.与其他实验源进行比较的情况下,假设可以适宜使用基因表达解析、组学解析、与细菌群、细胞因子、细胞种类的个数的大小等的相关、或者与它们组合的1-3为止的解析等。

  本说明书中,“机器学习”是指该领域中所使用的最广义的意味,是指机械(计算机)进行学习,是用计算机实现与人类自然进行的学习能力同样的功能的技术/手法。为了机械进行学习,使用作为学习基础的数据作为输入值。将输入值通过被称为“机器学习算法”的处理,发现对数据进行分类或识别的处理。并且,通过使用进行了该学习的处理,即便对于学习后才被输入的尚未学习的数据,也变得能够进行分类或识别。通过机器学习,能够进行分类、认识、识别、或者回归(预测)。机器学习中有监督学习和无监督学习的学习,也有强化学习这样的方法。可以说,深度学习是机器学习的一部分、机器学习是人工智能(AI)的一部分。机器学习并非是开发者对全部的操作进行编程,而是AI自身解析数据、发现法则性、规则,即是指变得能够通过培训来实行特定聚类的人工智能;而深度学习是机器学习中的一个方法,是神经网络与其相关技术的发展形式,与现有的机器学习不同,是指通过参考了人类的神经的神经网络重叠多层,由此强化了数据的分析和学习的人工智能。通过深度学习所使用的无监督学习(auto-encoder)进行整体评价的情况下,变得将免疫实体的序列自身以输入的形式向高维向量空间投影。即,无监督学习自身提取特征量向高维向量空间进行投影。特征量直接成为高维向量空间要素。投影可解释为包含恒等映射。

  本说明书中,“分类”是指:在言及抗原特异性或结合模式时,基于某一定的基准分类为具有其抗原特异性或结合模式相同性质的组。本发明中可以通过聚类而进行分类。

  本说明书中,“异同”在言及抗原特异性或结合模式时,是指其抗原特异性或结合模式是否具有同样的性质、结构。

  本说明书中,“对于抗原特异性或结合模式进行指定”是指:仅关注特定的感兴趣的抗原、或者属于抗原的结合模式。这被认为是指对于解析的对象进行指定。

  本说明书中,“不对抗原特异性或结合模式进行指定”并非是指特定的感兴趣的抗原、或者属于抗原的结合模式,而是指对于多样的抗原的抗原特异性、结合模式(优选同等地)进行通常的处理。

  本说明书中,“类似度”是指:针对免疫实体结合物(例如,抗原)、免疫实体、表位、抗原特异性、或结合模式等分子或其一部分或者形成有它们的空间的配置等,分子类似的程度。类似度可以基于长度的差异、序列类似度等来确定。不希望被理论约束,但通常可以认为,本发明的一部分实施方式中,基于该类似度对免疫实体、表位、免疫实体结合物、抗原特异性、或结合模式进行分类时,属于同一簇的表位所结合的抗体、TCR、BCR等可被归因为属于同一类别的疾病、障碍、症状、生理现象等。因此,使用本发明的方法,通过调查是否具有与相同免疫实体、表位、抗原特异性或结合模式的簇反应的抗体、TCR、BCR等,能够进行各种诊断(罹患癌症、给药的适应性等)。本发明的解析中可以使用类似度。

  本说明书中,“类似性评分”是指表示类似性的具体的数值,也称为“类似度”。根据计算结构类似度时所使用的技法,可以适宜采用合适的评分。类似性评分可以使用例如回归方法、神经网络法、支持向量机、以及随机森林等机器学习算法进行计算。本发明的解析中可以使用类似性评分。

  本说明书中“特征量”是指:进行机器学习等的解析、计算时,被认为对结果产生影响的要素。作为免疫实体的解析中有用的特征量,例如可列举出序列信息、CDR1-3序列的长度、序列一致度、框架区的序列一致度、分子的总电荷/亲水性/疏水性/芳香族氨基酸的个数、各CDR、框架区的电荷/亲水性/疏水性/芳香族氨基酸的个数、各氨基酸的个数、重链-轻链的组合、体细胞突变数、突变的位置、氨基酸基序的存在/一致度、相对于参比序列套组的稀有程度、以及基于参比序列的结合HLA的优势比,这些可以使用一种或多种,但不限定于此。特征量以特征向量的形式、作为机器学习算法的输入而使用。

  本说明书中,“距离”是指抗原特异性的距离,意味着抗原特异性是否一致的判定。“距离”可以设定任意的数值,具体而言,在将“距离”设定为用是0还是1进行预测的情况下,聚类成为简单的总结为1的操作。另一方面,将距离表达为[0-1]的情况下,聚类的优点并非简单的距离(成对的关系),还可以考虑处于周边的对的密度等其他的参数。本发明中任意者均是可能的。涉及距离的信息在本发明中是可用于提供特征量的信息。

  本说明书中,“互补决定区(CDR)”是指在抗体等的免疫实体中、实际上与免疫实体结合物(例如,抗原)接触而形成结合部位的区域。涉及CDR的信息在本发明中是可用于提供特征量的信息。通常,CDR位于抗体和与抗体相当的分子(免疫实体)的Fv(包含重链可变区(VH)和轻链可变区(VL))上。另外,通常CDR存在有由5~30氨基酸残基左右构成的CDR1、CDR2、CDR3。另外已知,抗原抗体反应中,特别是重链的CDR对于抗体与抗原的结合有帮助。另外已知,CDR中,CDR3、特别是CDR-H3对于抗体与抗原的结合帮助最多。例如,“Willy etal.,Biochemical and Biophysical Research Communications Volume 356,Issue 1,27April 2007,Pages 124-128”中记载了,通过修饰重链CDR3而使抗体的结合能上升。确定CDR的定义和其位置的方法已经报告了多个。也可以采用例如,Kabat的定义(Sequences ofProteins of Immunological Interest,5th ed.,Public Health Service,NationalInstitutes of Health,Bethesda,MD.(1991))、或Chothia的定义(Chothia et al.,J.Mol.Biol.,1987;196:901-917)。本发明的一实施方式中,采用Kabat的定义作为优选的例子但不一定限定于此。另外,根据情况不同,也可以考虑Kabat的定义与Chothia的定义两者来确定(修饰Chothia法),例如,也可以将利用各个定义的CDR的重复部分、或者利用各个定义的包含CDR两者的部分设为CDR,或者也可以根据IMGT或Honegger来决定。作为这样的方法的具体例,有作为Kabat的定义与Chothia的定义的折衷案的、使用了OxfordMolecular’s AbM antibody modeling software的Martin等的方法(Proc.Natl.Acad.Sci.USA,1989;86:9268-9272)。可以使用这样的CDR的信息来实施本发明。本说明书中,“CDR3”是指3个互补决定区(complementarity-determining region:CDR),此处,CDR是指可变区中的、直接与免疫实体结合物(例如,抗原)接触的区域,特别是指变化大的其超可变区。在轻链和重链的可变区中分别存在有3个CDR(CDR1~CDR3)、和包围3个CDR的4个FR(FR1~FR4)。CDR3区被认为跨越V区、D区、J区而存在,因此CDR3区被认为是可变区的关键,可以作为分析对象而使用。

  本说明书中,“框架区”是指CDR以外的Fv区的区域,通常由FR1、FR2、FR3和FR4构成,被认为在抗体间比较良好地保存(Kabat et al.,“Sequence of Proteins ofImmunological Interest”US Dept.Health and Human Services,1983.)。因此,本发明中,在进行各序列的比较时,可以采用将框架区固定的手法。涉及框架区的信息在本发明中是可用于提供特征量的信息。

  本说明书中,“基因区”是指框架区和抗原结合区(CDR)、V区、D区、J区和C区等各区。这样的基因区在该领域是公知的,可以参照数据库等适宜决定。本说明书中,基因的“同源性”是指2以上的基因序列的、相互的同一性的程度;一般具有“同源性”是指同一性或类似性的程度高。因此,某2个基因的同源性越高,这些序列的同一性或类似性越高。2种基因是否具有同源性,可通过序列的直接的比较、或者核酸情况下的严谨的条件下的杂交法来调查。本说明书中,“同源性检索”是指同源性的检索。优选使用计算机用电脑模拟(insilico)来进行。涉及基因区的信息在本发明中是可用于提供特征量的信息。

  本说明书中,氨基酸序列等区的“鉴定”是指对氨基酸序列按照某观点赋予特征,确定用具有一个性质的特征指定的区域。鉴定中具体包含:对包含氨基酸号的区进行指定;使涉及这些区域的特征连锁(linking),但不限定于此。本说明书中,氨基酸序列等区的“分割”是指,对氨基酸序列赋予特征之后,对于具有一个性质的特征确定的每个区域加以区别而分为各个区。这样的鉴定和分割可以使用生物信息学领域中所使用的任意的技术例如Kabat、Chotia、修饰Chotia、IMGT、Honegger等来实施。本说明书中,在进行氨基酸序列等区域的处理时,对框架区等所例示的保守区域进行鉴定是一个重要的特征;鉴定的结果,可以假设被分割为保守区域和非保守区域(例如,CDR等)。对2个以上免疫实体的保守区域或非保守区域的一部分进行鉴定而进行重合时,各个免疫实体的一部分优选实质上处于对应关系。本说明书中,处于“对应关系”是指对于保守区域而言时,是处于如下关系:第一免疫实体的一部分与第二免疫实体的一部分,在考虑三维结构的位置时能够相互重合。非保守区域的情况下,通过进行本说明书中说明的同一残基的定义,在考虑三维结构的位置时存在相互对应的氨基酸残基。因此,“对应关系”可以通过进行序列等的比对或同一残基的鉴定等来进行确认。

  本说明书中,“比对”(英文中,alignment(名词)或align(动词))也称为校准、整列;在生物信息学中,是指以能够指定DNA、RNA、蛋白质的初级结构类似区域的方式排列的物质。大多会给予用于知晓功能的、结构的、或者进化的序列的相关性的提示。所比对的氨基酸残基等的序列典型地作为行列的行而表现,同一或者类似性质的序列以相同序列并列的方式被插入了缺口。对2个序列进行比较时,被称为成对序列比对(pairwise sequencealignment),在2序列之间的比对中,在详细调查部分的或者整体的类似性时使用。比对中,代表地可以使用动态设计法(dynamic programming);作为代表的手法,针对全局比对(global alignment)可以利用Needleman-Wunsch算法;针对局部比对(local alignment),可以利用Smith-Waterman算法。此处,全局比对是指对序列中的全部残基进行的比对,对于长度几乎相同的序列间的比较是有效的。局部比对在序列作为整体并不相似而想要发现部分类似的情况下是有效的。本说明书中,“错配”是指对核酸序列、氨基酸序列等进行比对时,存在有相互间并不同一的碱基或氨基酸。“缺口”是指在比对中,存在有一者存在而另一者不存在的碱基或氨基酸。涉及比对的信息在本发明中是可用于提供特征量的信息。

  本说明书中,“分配”(assign)是指对于某序列(例如,核酸序列、蛋白质序列等)分配特定的基因名、功能、特征区(例如,V区、J区等)等信息。具体而言,可以通过对某序列输入或连锁(link)特定的信息来实现。

  本说明书中,“特异的”是指与成为对象的序列结合,在至少成为对象的抗体、TCR或BCR的集合体(pool)中,在优选存在的所有抗体、TCR或BCR的序列中,与其他序列结合性低、优选不结合。特异的序列与优选成为对象的序列完全互补是有利的,但未必限定于此。

  本说明书中,“蛋白质”、“多肽”、“寡肽”和“肽”在本说明书中以相同的意味使用,是指任意长度的氨基酸的聚合物。该聚合物任选直链或支链,也可以为环状。氨基酸任选为天然氨基酸或非天然的氨基酸,还可以是经修饰的氨基酸。该术语还可以包含多个多肽链被装配在复合物而成的氨基酸聚合物。该术语还可以包含经天然或人工修饰的氨基酸聚合物。作为这样的修饰,可以包含例如二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任意其他操作或修饰(例如,与标识成分的结合体化)。该定义中还包含例如,包含氨基酸的1或2个以上的类似物的多肽(例如,包含非天然氨基酸等)、肽样化合物(例如,拟肽)和该领域中公知的其他修饰。

  本说明书中,“氨基酸”只要能满足本发明的目的,可以是天然氨基酸或非天然氨基酸。

  本说明书中,“多核苷酸”、“寡核苷酸”和“核酸”是指在本说明书中以相同意味使用且是任意长度的核苷酸的聚合物。该术语还包含“寡核苷酸衍生物”或“多核苷酸衍生物”。“寡核苷酸衍生物”或“多核苷酸衍生物”是指包含核苷酸的衍生物、或者核苷酸之间的键与通常不同的寡核苷酸或多核苷酸,可以互换地使用。作为这样的寡核苷酸具体而言可例示出例如,2’-O-甲基-核糖核苷酸、寡核苷酸中的磷酸二酯键被转换为硫代磷酸酯键而得到的寡核苷酸衍生物、寡核苷酸中的磷酸二酯键被转换为N3’-P5’亚磷酰胺键而得到的寡核苷酸衍生物、寡核苷酸中的核糖与磷酸二酯键被转换为肽核酸键而得到的寡核苷酸衍生物、寡核苷酸中的尿嘧啶被C-5丙炔基尿嘧啶取代而得到的寡核苷酸衍生物、寡核苷酸中的尿嘧啶被C-5噻唑尿嘧啶取代而得到的寡核苷酸衍生物、寡核苷酸中的胞嘧啶被C-5丙炔基胞嘧啶取代而得到的寡核苷酸衍生物、寡核苷酸中的胞嘧啶被吩恶嗪修饰胞嘧啶(phenoxazine-modified cytosine)取代而得到的寡核苷酸衍生物、DNA中的核糖被2’-O-丙基核糖取代而得到的寡核苷酸衍生物和寡核苷酸中的核糖被2’-甲氧基乙氧基核糖取代而得到的寡核苷酸衍生物等。除此之外,除非必须出示,则特定的核酸序列还可以与明示的所表示序列同样地包含被保守地修饰的修饰体(例如,简并密码子置换体)和互补序列。具体而言,简并密码子置换体可以通过制作1个或其以上被选择的(或所有的)密码子的第3位的位点被混合碱基和/或脱氧肌苷残基取代而得到的序列来得到(Batzer et al.,NucleicAcid Res.19:5081(1991);Ohtsuka et al.,J.Biol.Chem.260:2605-2608(1985);Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。本说明书中,“核酸”还可以与基因、cDNA、mRNA、寡核苷酸、和多核苷酸互换来使用。本说明书中,“核苷酸”任选为天然核苷酸或非天然核苷酸。

  本说明书中,“基因”是指规定了遗传性状的因子。通常在染色体上以一定的顺序排列。将规定蛋白质的初级结构的基因称为结构基因,将左右其表达的基因称为调节基因。本说明书中,“基因”有时是指“多核苷酸”、“寡核苷酸”和“核酸”。“基因产物”是基于基因而产生的物质,是指蛋白质、mRNA等。

  氨基酸可以通过其通常公知的3字母符号或者由IUPAC-IUB BiochemicalNomenclature Commission推荐的1字母符号的任一者而在本说明书中言及。核苷酸也同样地可以由通常所认知单字母密码子来言及。本说明书中,氨基酸序列和碱基序列的类似性、同一性和同源性的比较可以使用序列分析用工具BLAST并使用默认参数来计算。同一性的检索可以使用例如NCBI的BLAST 2.2.28(2013.4.2发行)来进行。本说明书中的同一性的值通常是使用上述BLAST,在默认的条件下进行了比对时的值。其中通过参数的变更得出更高值的情况下,将最高值作为同一性的值。多个区中进行同一性评价的情况下,将其中的最高值作为同一性的值。类似性是在同一性的基础上,针对类似的氨基酸加入至计算所得到的数值。

  本说明书中,基因的“同源性”是指2以上的基因序列的、相互的同一性的程度;一般具有“同源性”是指同一性或类似性的程度高。因此,某2个基因的同源性越高,这些序列的同一性或类似性越高。2种基因是否具有同源性,可通过序列的直接的比较、或者核酸情况下的严谨的条件下的杂交法来调查。对于2个基因序列进行直接比较的情况下,在其基因序列之间,DNA序列代表地至少50%同一的情况下、优选至少70%同一的情况下,更优选至少80%、90%、95%、96%、97%、98%或99%同一的情况下,这些基因具有同源性。因此,本说明书中“同源体”或“同源基因产物”是指能发挥与本说明书中进一步记载的复合物的蛋白质构成要素相同的生物学功能的、其他种类的、优选为哺乳动物的蛋白质。

  本说明书中,“被纯化的”物质或生物学的因子(例如,核酸或蛋白质等)是指其生物学的因子中去除了天然随伴的因子的至少一部分而得到的因子。因此,通常、被纯化的生物学的因子中的该生物学的因子的纯度比该生物学的因子通常存在的状态高(即,被浓缩)。本说明书中所使用的术语“被纯化”是指存在有优选至少75重量%、更优选至少85重量%、更进一步优选至少95重量%、并且最优选至少98重量%的、同型的生物学的因子。本发明所使用的物质优选为“被纯化的”物质。本说明书中,“被分离”是指将天然存在状态下随附的任意物质的至少一个去除而得到的物质,例如,由基因组序列将该特定的基因序列取出的情况也可称为分离。

  本说明书中,“标记物(物质、蛋白质或基因(核酸))”是指能成为追踪处于某状态(例如,正常细胞状态、转化状态、疾病状态、障碍状态、或者增殖能、分化状态的水平、有无等)或者是否具有其危险性的指示标记的物质。作为这样的标记物,可列举出基因(核酸=DNA水平)、基因产物(mRNA、蛋白质等)、代谢物质、酶等。本发明中,对于某状态(例如,分化障碍等的疾病)的检测、诊断、预检测、预测或事前诊断可以使用对于与该状态相关的标记物特异的试剂、剂、因子或手段、或者包含它们的组合物、试剂盒或系统等来实现。本说明书中,“基因产物”是指通过基因编码的蛋白质或mRNA。

  本说明书中,“被检体”是指成为本发明的诊断或检测等的对象的对象(例如,人等生物或由生物取出的器官或者细胞等)。

  本说明书中,“试样”是指由被检体等得到的任意的物质,例如,包含细胞等。本领域技术人员可以以本说明书的记载为基础选择适宜优选的试样。

  本说明书中,“试剂”、“剂”或“因子”(均相当于英语中的agent)广义上可以是指能交换而使用、能实现意图的目的那样的物质或他要素(例如,光、辐射能、热、电等能量)。作为这样的物质,可列举出例如蛋白质、多肽、寡肽、肽、多核苷酸、寡核苷酸、核苷酸、核酸(例如,包含cDNA、基因组DNA这样的DNA、mRNA这样的RNA)、多糖、低聚糖、脂质、有机低分子(例如,激素、配体、信息传导物质、有机低分子、组合化学合成的分子、可作为药品利用的低分子(例如,低分子配体等)等)、它们的复合分子,但不限定于这些。作为对多核苷酸特异的因子,代表地可列举出对于该多核苷酸的序列具有一定的序列同源性(例如,70%以上的序列同一性)且具有互补性的多核苷酸、与杂合启动子区结合的转录因子这样的多肽等,但不限定于这些。作为对多肽特异的因子,代表地可列举出对于该多肽特异指向的抗体或其衍生物或者其类似物(例如,单链抗体)、该多肽为受体或配体情况下的特异的配体或受体、该多肽为酶的情况下的、其底物等,但不限定于这些。

  本说明书中,“检测剂”广义地是指能够检测目的对象的所有试剂。

  本说明书中,“诊断剂”广义地是指能够诊断目标状态(例如,疾病等)的所有的试剂。

  本发明的检测剂可以使能够检测的部分(例如,抗体等)与其他物质(例如,标识等)结合而得到的复合物或复合分子。本说明书中使用的情况下,“复合物”或“复合分子”是指包含2个以上部分的任意的构成体。例如,一者的部分为多肽的情况下;另一者的部分可以为多肽,也可以为其以外的物质(例如糖、脂质、核酸、其他烃等)。本说明书中,构成复合物的2个以上的部分可以以共价键结合,也可以以除此以外的键(例如,氢键、离子键、疏水性相互作用、范德华力等)结合。2个以上部分为多肽的情况下,也可以称为嵌合体多肽。因此,本说明书中,“复合物”包含多肽、多核苷酸、脂质、糖、低分子等分子多种连结而成的分子。

  本说明书中,“相互作用”对于2个物质而言时,是指一个物质与另一个物质之间的力(例如,分子间力(范德华力)、氢键、疏水性相互作用等)。通常相互作用的2个物质处于缔合或结合的状态。

  本说明书中所使用的术语“结合”是指2个物质之间、或者它们的组合之间的、物理的相互作用或化学的相互作用。结合包括离子键、非离子键、氢键、范德华键、疏水性相互作用等。物理的相互作用(结合)可以是直接的或间接的,间接的相互作用借由或起因于其他的蛋白质或化合物得效果。直接的结合不是借由其他的蛋白质或化合物得效果或者起因于它们,是指不伴随着其他实质的化学中间体的、相互作用。可以通过测定结合或相互作用来测定本发明标记物的表达程度等。

  因此,本说明书中,对于多核苷酸或多肽等生物学的因子“特异的”相互作用(或结合)“因子”(或、试剂、检测剂等)是指对于该多核苷酸或该多肽等的生物学的因子的亲和性相比于其他无相关的(特别是同一性小于30%的)多核苷酸或多肽亲和性,代表地为同等或更高,优选包含显著地(例如,统计学显著地)高。这样的亲和性可以通过例如杂交分析、结合分析等进行测定。

  本说明书中,第一物质或因子与第二物质或因子“特异地”相互作用(或结合)是指,相对于第二物质或因子以外的物质或因子(特别是包含第二物质或因子的试样中存在的其他物质或因子),第一物质或因子与第二物质或因子以更高亲和性相互作用(或进行结合)。作为对于物质或因子特异的相互作用(或结合),可列举出例如,配体-受体反应、核酸的杂交、蛋白质的抗原抗体反应、酶-底物反应等、核酸和蛋白质两者相关的情况下的、转录因子与该转录因子的结合部位之间的反应等、蛋白质-脂质相互作用、核酸-脂质相互作用等,但不限定于这些。因此,物质或因子均为核酸的情况下,第一物质或因子与第二物质或因子“特异地相互作用”包括:第一物质或因子与第二物质或因子至少一部分具有互补性。另外,例如,物质或因子均为蛋白质的情况下,第一物质或因子与第二物质或因子“特异地”相互作用(或进行结合),可列举出例如,利用抗原抗体反应的相互作用、利用受体-配体反应的相互作用、酶-底物相互作用等,但不限定于这些。2种物质或因子包含蛋白质和核酸的情况下,第一物质或因子与第二物质或因子“特异地”相互作用(或进行结合)包含:转录因子与以该转录因子作为对象的核酸分子的结合区之间的相互作用(或结合)。

  本说明书中,多核苷酸或多肽表达的“检测”或“定量”可以通过例如,使用包含与标记物检测剂的结合或相互作用的、包含mRNA的测定和免疫学的测定方法的合适的方法来实现;本发明中,可以以PCR产物的量进行测定。作为分子生物学的测定方法,可例示出例如,RNA印迹杂交法、斑点印迹杂交法或PCR法等。作为免疫学的测定方法,例如,作为方法可例示出:使用了微量滴定板的ELISA法、RIA法、荧光抗体法、发光免疫分析(LIA)、免疫沉淀法(IP)、免疫扩散法(SRID)、免疫比浊法(TIA)、蛋白质印迹法、免疫组织染色法等。另外,作为定量方法,可例示出ELISA法或RIA法等。也可以通过使用了阵列(例如,DNA阵列、蛋白质阵列)的基因解析方法来进行。对于DNA阵列,在(秀潤社編、细胞工学别冊“DNAマイクロ阵列と最新PCR法”)中有详细的解说。对于蛋白质阵列,在Nat Genet.2002Dec;32Suppl:526-32中有详细描述。作为基因表达的分析法,在上述的基础上,可列举出RT-PCR、RACE法、SSCP法、免疫沉淀法、two-hybrid系统、体外翻译等,但不限定于这些。这样的进一步的分析方法记载于例如基因组解析实验法·中村祐輔ラボ·マニュアル、編集·中村祐輔羊土社(2002)等,本说明书中,将这些全部作为参考而引用。

  本说明书中,“手段”是指为了达到某目的(例如,检测、诊断、治疗)的任意的道具,特别是,本说明书中“选择性地识别(检测)的手段”是指能够将某对象与其他物质区分而识别(检测)的手段。

  由本发明检测到的结果作为免疫系统状态的指标是有用的。因此,通过本发明可以用于识别免疫系统状态的指标而知晓疾病状态。

  本说明书中,“诊断”是指对于与被检体的疾病、障碍、状态等相关的各种参数进行鉴定,从而判定这样的疾病、障碍、状态的现状或未来。可以通过使用本发明的方法、装置、系统来调查体内的状态,使用这样的信息可以选定用于对被检体的疾病、障碍、状态进行应该给予的处置或预防的处方物或方法等的各种参数。本说明书中,狭义上“诊断”是指诊断现状,但广义上包含“早期诊断”、“预测诊断”、“事前诊断”等。本发明的诊断方法作为原则可以利用从身体出来的物质,可以离开医师等医疗从业者的手来实施,因此在产业上是有用的。本说明书中,为了明确可以离开医师等医疗从业者的手来实施,有时特别地将“预测诊断、事前诊断或诊断”称为“支援”。

  作为本发明的诊断药等药物等的处方顺序,该领域中是公知的,可以记载于例如日本药典、美国药典、其他国家的药典等。因此,本领域技术人员只要根据本说明书的记载,无需进行过度的实验而能够确定应该使用的量。

  (优选的实施方式的说明)

  以下,对本发明优选的实施方式进行说明。以下提供的实施方式是为了更好地理解本发明而提供的,应该理解为本发明的范围不限定于以下的记载。因此,明显的是,本领域技术人员可以参照本说明书中的记载而在本发明的范围内进行适宜的改变。对于这些实施方式,本领域技术人员可以适宜地组合任意的实施方式。

  (结合模式聚类化技术)

  一个局面中,本发明提供对免疫实体的抗原特异性或结合模式进行分析的方法,其包括:(i)提供至少2个免疫实体(immunological entity)的特征量(例如序列信息)的步骤;(ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和(iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  一个实施方式中,本发明提供对免疫实体的抗原特异性或结合模式进行分析的方法,其包括:(i)提供至少2个免疫实体(immunological entity)的特征量(例如序列信息)的步骤;(ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式(例如“表位”)进行机器学习的步骤;和(iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  一个实施方式中,本发明涉及成对地对免疫实体进行评价的方法。该实施方式中,本发明为对免疫实体的集合进行解析的方法,该方法包括:(a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;(b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;(c)基于该距离将该免疫实体的集合聚类的步骤;和(d)根据需要基于利用该聚类的分类进行解析的步骤。针对特征量的计算,也可以不包括由三维结构模型计算特征量。

  本发明中,“距离”的计算方法代表地如以下。首先,由已知的实验数据构建学习数据。学习数据中,代表地包含:免疫实体对的氨基酸序列信息与标签信息(该对是否具有同一表位/结合模式;或者是否与同一抗原分子结合的信息)。通过得到学习数据的实验手法而得到的标签信息可以不同。例如,X射线晶体结构解析中,分子的结合信息是以原子水平得到的,所以能够得到结合模式的信息。接着,使用该实验数据,代表地,将通过机器学习针对同一表位/结合模式/抗原的数据设为1、将不同的数据设为0的形式使之学习。学习的结果是,机器学习反馈被给与的免疫实体对与同一结合模式/表位/抗原结合的概率。该概率成为距离。本发明中,也可以使用与例示的手法同样的其他手法进行计算。

  此处,该实施方式中,对于利用机器学习进行预测时的“特征量”的处理进行考虑时,特征量以特征向量的形式作为机器学习算法的输入而使用。本发明可以对抗原特异性和结合模式的任一者进行分析。抗原特异性是生物学的定义,结合模式是物理学的定义,可以说实质上是指同一对象。本发明的预测方法中,以组的形式进行总结的是物理学的结合模式;结合模式可以概括地进行解析,可包含多个结合模式的抗原特异性也可结果地进行解析。

  本发明的实施方式中,聚类可以基于距离而计算出。例如,对于每对的评价中,与整体评价不同、步骤b)计算出距离。另一方面,在抗原特异性或结合模式是否一致的判定中,抗原特异性或结合模式的距离是指抗原特异性或结合模式是否一致的判定。具体而言,一个实施方式中,将“距离”用是0还是1进行预测时,聚类会是简单的归类为1的操作。另一方面,在另外的实施方式中,通过将距离用[0-1]来表达,聚类的优点并非仅仅是距离(成对的关系),也可以考虑处于周边的对的密度等其他参数。

  作为本发明的实施方式中可利用的解析手法,可列举出由聚类结果将各个簇看作是基因并且用于基因表达解析。具体而言,例如,1.追逐连续变化的情况下,可见特定的、或者属于多个簇的序列的增减。观察增减的簇的个数。发现各个簇的特征的量(V/D/J基因、CDR的长度、亲水性、疏水性、所保存的残基等)。2.对于多个待检体的特定群有兴趣的情况下,对于在特定群中优先存在、增减的簇进行鉴定。观察增减的簇的个数。对于各个簇发现特征量。3.对于功能有兴趣的情况(功能=抗原特异性或结合模式)、有兴趣的抗原中包含特异的序列(利用ELISPOT分析、pMHC四聚体进行的sorting等、通过其他的实验得到)的簇进行关注,观察其增减。将由(功能=细胞的功能)分别进行分选而决定序列的不同亚型的细胞得到的聚类结果进行比较。4.与其他实验源进行比较的情况下,可列举出基因表达解析、组学解析、细菌群、细胞因子、与细胞种类的个数的大小等的相关、或者与它们组合的1-3为止的解析等。

  “成对”的实施方式中,对于每对计算出一个特征量向量,在本说明书其他部分中说明的“整体”的实施方式中,针对每1个序列计算出一个特征量向量。

  因此,在成对进行的方式的一个实施方式中,“针对免疫实体集合的成员的至少一对提取特征量得步骤”代表地如以下进行。即,首先,得到各序列的基因信息、区的信息;接着,将序列区分为CDR、框架区等区;得到整体或者每个区的各序列的特征量;以成对的特征量的形式求出各序列的特征量的一致、一致度、差;最后,通过将用一连串操作得到的特征量以一个特征量向量的形式进行总结而提取特征量,在成对的情况下,可以以每对计算出一个特征量向量。

  因此,以整体进行的方式的一个实施方式中,“分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤”代表地如以下进行。首先,得到各序列的基因信息、区的信息;接着,将序列区分为CDR、框架区等区;得到整体或者每个区的各序列的特征量;最后,通过将用一连串操作得到的特征量以一个特征量向量的形式进行总结而提取特征量,在整体的情况下,可以针对每1个序列计算出1个特征量向量,以总和的形式提取整体的特征量向量。

  在另一实施方式中,本发明在成对进行解析的方法中,提供利用前述机器学习进行的计算。

  在成对进行的方式的一个实施方式中,“通过使用了特征量的机器学习针对该对计算抗原特异性或结合模式之间的距离”的步骤代表地如下。例如,使用随机森林、Boosting算法等手法由特征量(例如,(a)中所提取的数值)计算对的距离。

  以成对进行的方式的一个实施方式中,“抗原特异性或结合模式是否一致”的“判定”可以以基于某阈值(例如,0.5、0.6等合适的数值)的判定等任意的手法来进行。

  与成对进行的方式不同,以整体进行的方式所进行的实施方式中,“将该特征量向高维向量空间投影的步骤”代表地如下进行。即,可以使用嵌入(embedding)这样的技术。嵌入中,代表地如下进行学习:由各序列构成的高维向量中,通过机器学习从学习数据识别同一结合模式/表位/抗原的向量就近配置、而将不是这样的向量远远地配置。高维向量空间被选来使通过机器学习进行该配置变得可能。

  与成对进行的方式不同,以整体进行的方式所进行的实施方式中,“该成员的空间上的距离反映该成员的功能类似性”是指以下的意思。即,将通过机器学习由学习数据识别同一结合模式/表位/抗原的成员就近配置、将不是这样的成员远远地配置。因此,反映功能类似性是指处于更近距离的序列被期待具有类似功能。该步骤可以通过基于结合距离的单纯阈值、梯度的聚类、非梯度的聚类、或者以它们的组合来进行。

  聚类无论是成对进行的方式还是以整体进行的方式均可以使用相同的聚类,在“基于距离对该免疫实体的集合进行聚类的步骤”中,代表地可以使用例如根据基于距离的单纯阈值的方法、梯度的聚类、非梯度的聚类法、或者它们的组合。可以使用最合适的聚类参数来得到与目标和学习组的正解标签的种类(结合模式/表位/抗原)相应的结果,所述目标是,聚类结果将学习组的伪阳性最小化、将兰德系数(Rand Index)/马修斯相关系数(Matthews correlation coefficient:MCC)最大化、使伪阳性小于一定的比例但使兰德系数/MCC最大化等。

  可以整体或成对的任意方式实施的一个实施方式中,具体而言,基于利用聚类的分类进行解析的步骤可列举出例如,由聚类结果将各个簇看作基因,如基因表达解析那样使用。具体而言,1.追逐连续变化的情况下,可见特定的、或者属于多个簇的序列的增减。观察增减的簇的个数。发现各个簇的特征的量(V/D/J基因、CDR的长度、亲水性、疏水性、所保存的残基等)。2.对于多个待检体的特定群有兴趣的情况下,对于在特定群中优先存在、增减的簇进行鉴定。观察增减的簇的个数。对于各个簇发现特征量。3.对于功能有兴趣的情况(功能=抗原特异性或结合模式)、有兴趣的抗原中包含特异的序列(利用ELISPOT分析、pMHC四聚体进行的sorting等、通过其他的实验得到)的簇进行关注,观察其增减。将由(功能=细胞的功能)分别进行分选而决定序列的不同亚型的细胞得到的聚类结果进行比较。4.与其他实验源进行比较的情况下,用基因表达解析、组学解析、细菌群、细胞因子、与细胞种类的个数的大小等的相关、或者与它们组合的1-3为止的解析来进行。然后,在具体的实施方式中,“基于利用该聚类的分类”所进行的“解析”中,代表地可列举出:包含生物标记物的鉴定、或者成为治疗靶点的免疫实体或含有该免疫实体的细胞的鉴定的任意1个或多个的解析,但是不限定于此。例如,通过使用单一或者多个簇,对于来自患者等具有兴趣的待检体、对待检体组特异的簇、或者属于一组簇的免疫实体表达的有无、表达量、或者表达模式的差异统计地进行评价,由此能够进行免疫实体的鉴定,所述免疫实体应该作为预测疾病的有无、诊断、预后、复发可能性、重症度、疫苗的有效性等的生物标记物,或者成为自体免疫疾病等治疗靶点的病原性免疫实体以及表达其的细胞的探索、细胞疗法、疫苗的开发靶点。

  本发明的实施方式中,通过例如深度学习(Deep Learning)所使用的无监督学习(auto-encoder)进行整体评价的情况下,将免疫实体的序列自身以输入的形式向高维向量空间投影。无监督学习自身提取特征量向高维向量空间进行投影。该情况下,所提取的特征量直接成为高维向量空间要素。

  一个实施方式中,前述免疫实体是抗体、抗体的抗原结合片段、B细胞受体、B细胞受体的片段、T细胞受体、T细胞受体的片段、嵌合抗原受体(CAR)、或者包含它们中任一个或多个细胞。

  一个实施方式中,本发明提供用整体评价的免疫实体集合的解析。该实施方式中,本发明为对免疫实体的集合进行解析的方法,该方法包括:(aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;(bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;(cc)基于该距离将该免疫实体的集合聚类的步骤;和(dd)根据需要基于利用该聚类的分类进行解析的步骤。针对特征量的计算,也可以不包括由三维结构模型计算特征量。

  以整体进行的方式的一个实施方式中,分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤可以与成对进行的方式同样地实施,也可以例示例如通过无监督学习提供等。

  以整体进行的方式的一个实施方式中,将特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性的步骤也可以与成对进行的方式同样地实施。这样,得到空间上的距离后的聚类以后同样地,无论是成对还是整体均可以同样地实施。

  例如,一个实施方式中,以整体进行的、所述高维向量空间计算(b)可以以例如监督学习、半监督学习(Siamese network)、无监督学习(Auto-encoder)的任意的方法进行,但不限定于此。

  一个实施方式中,基于该距离将该免疫实体的集合聚类的步骤具体而言可以如下进行。可以使用例如,基于高维空间上的距离的单纯阈值、梯度的聚类、或者非梯度的聚类法、或者其组合。此时,可以通过使用最合适的聚类参数等各种步骤进行处理来实施,从而得到与目标和学习组的正解标签的种类(结合模式/表位/抗原)相应的结果,所述目标是,聚类结果将学习组的伪阳性最小化、将兰德系数(Rand Index)/马修斯相关系数(Matthewscorrelation coefficient:MCC)最大化、使伪阳性小于一定的比例但使兰德系数/MCC最大化等。

  一个实施方式中,基于利用聚类的分类进行解析的步骤可列举出例如,由聚类结果将各个簇看作基因,如基因表达解析那样使用。具体而言,1.追逐连续变化的情况下,可见特定的、或者属于多个簇的序列的增减。观察增减的簇的个数。发现各个簇的特征的量(V/D/J基因、CDR的长度、亲水性、疏水性、所保存的残基等)。2.对于多个待检体的特定群有兴趣的情况下,对于在特定群中优先存在、增减的簇进行鉴定。观察增减的簇的个数。对于各个簇发现特征的量。3.对于功能有兴趣的情况(功能=抗原特异性或结合模式)、有兴趣的抗原中包含特异的序列(利用ELISPOT分析、pMHC四聚体进行的sorting等、通过其他的实验得到)的簇进行关注,观察其增减。将由(功能=细胞的功能)分别进行分选而决定序列的不同亚型的细胞得到的聚类结果进行比较。4.与其他实验源进行比较的情况下,用基因表达解析、组学解析、细菌群、细胞因子、与细胞种类的个数的大小等的相关、或者与它们组合的1-3为止的解析来进行。

  上述不过是一例,为了实施本发明,也可以使用包含更多项目的、更复杂的函数类型。

  一个实施方式中,所述机器学习可以选自由回归方法、神经网络法、支持向量机、以及随机森林等机器学习算法组成的组。

  免疫实体结合物(例如,抗原)已知这样的特别的案例、已知一部分抗体靶点的情况下,本发明的评价步骤在聚类中可以包含这些已知的案例作为应用。即,通过使用免疫实体结合物(例如,抗原)/表位(抗原特异性、结合模式)已知的免疫实体(例如,抗体),从而能够预测免疫实体(例如,抗体)的免疫实体结合物(例如,抗原)/表位(抗原特异性、结合模式)。

  本说明书中所记载的进行了簇分类的表位可以与生物体信息相关联。例如,基于根据本发明的分类方法鉴定的表位的一个或多个簇,从而能够使所述抗体的保有者与已知的疾病或障碍或者生物体的状态相关联。

  本发明可参与的疾病或障碍或者生物体的状态中存在有例如:除了异物(例如,细菌、病毒等)的感染状态之外,还有被识别为非自体的自体来源的实体(例如,新生成物(癌、肿瘤)、与自体免疫疾病相关的实体)。免疫系统起到将对于生物而言内源性的分子(“自体”分子)与相对于生物的外源性或外来性的物质(“非自体分子”)相区分而起作用。免疫系统基于以应答为介导的构成成分对于异物具有2种类型的适应应答(体液性应答和细胞性应答)。体液性应答通过抗体被介导,另一方面,细胞性免疫涉及被分类为淋巴细胞的细胞。最近的抗癌和抗病毒战略中,作为抗癌或抗病毒治疗或疗法的手段,利用宿主免疫系统成为一项重要的战略。本发明的分类和聚类化技术可以应用于体液性应答和细胞性应答的任一者的战略。

  免疫系统在由宿主对于异物的防御中,经过3个阶段(识别、活性化、和效应)起作用。在识别阶段中,免疫系统识别身体中的外来抗原或侵入物的存在并认识其存在。外来抗原例如除了异物(病毒蛋白质来源的细胞表面标记物等)之外,可以是能被识别为非自体的细胞(癌细胞)的细胞表面标记物等。免疫系统识别侵入物时,免疫系统的抗原特异的细胞对于侵入物诱导性信号进行应答,进行增殖和分化(活性化阶段)。最后是,对于免疫系统的效应细胞所检测到的侵入物进行应答,将其中和的效应阶段。效应细胞担负着实施免疫应答的作用。作为效应细胞,可列举出B细胞、T细胞、自然杀伤(NK)细胞等。B细胞生成针对侵入物的抗体,抗体与补体系统组合,诱导包含作为特定靶标的免疫实体、表位、抗原特异性或结合模式(也包含抗原等免疫实体结合物等)或者与之相关的细胞乃至生物凋亡。T细胞具有辅助T细胞、调节性T细胞、细胞毒性T细胞(CTL细胞)等种类;辅助T细胞分泌细胞因子、刺激其他细胞的增殖等,增强免疫应答的有效性。调节性T细胞对免疫应答进行负调节。CTL细胞通过将在表面上提呈外来抗原的细胞直接溶解/融解来进行破坏。NK细胞被认为识别病毒感染细胞、恶性肿瘤细胞等进行破坏。因此可以说,将这些效应细胞所针对的或者相关性高的免疫实体、表位、抗原特异性或结合模式进行分类,将它们与疾病或障碍或者生物体的状态相关联,对于治疗、诊断的有效性起到非常重要的作用。

  这样,T细胞是对于特定抗原信号进行应答并起作用的抗原特异的免疫细胞。B淋巴细胞和它们所产生的抗体还有抗原特异的物体。本发明能够对于这些特定的免疫实体结合物(例如,抗原),使用免疫实体、表位、抗原特异性或结合模式的簇进行分类,按照各自的最终的功能(与特定的疾病或障碍或者生物体的状态的相关)进行分类、聚类化来提供。

  如上所述,B细胞对于游离型或可溶型的抗原进行应答,但是T细胞对于它们则不应答。为了使T细胞对抗原进行应答,抗原需要被肽加工而与肿瘤组织相容性复合物(MHC)所编码的提呈结构结合(被称为“MHC限制”)。T细胞通过该机理识别自体细胞和非自体细胞。抗原不被可能识别的MHC分子提呈的情况下,T细胞不识别抗原信号。针对与可能识别的MHC分子结合的肽特异的T细胞与MHC肽复合物结合,从而免疫应答进行。MHC中有2类(I类MHC、II类MHC)、CD4+T细胞优先与II类MHC蛋白质相互作用;另一方面,细胞毒性T细胞(CD8+)优先与I类MHC相互作用。这些MHC蛋白质均是在细胞的外部表面上包含有其大部分结构的膜贯通蛋白质,其外部有肽结合间隙。在该间隙,内源性、外源性的蛋白质的片段均与细胞外环境结合并提呈。此时,被称为专门的抗原提呈细胞(pAPC)的细胞使用MHC蛋白质对于T细胞提呈抗原,使用各种特定的共刺激分子来诱导T细胞采取的分化、活性化的途径,实现免疫系统的效果。本发明的免疫实体、表位、抗原特异性或结合模式的分类和聚类化技术提供现有技术不能提供的、涉及这些MHC所参与的治疗、诊断的应用方法。

  针对非自体实体,通过充分活化现有的免疫系统,能够提供关于治疗、诊断的应用方法,关于自体需要进一步的创造力。这是因为,癌细胞等的来源与正常细胞相同,在基因水平上与正常细胞实质上相同。其中,已知癌细胞提呈肿瘤相关抗原(TuAA),通过活用该抗原或其他的免疫实体结合物,从而能够活用被检者的免疫系统来攻击癌细胞。这样的肿瘤相关抗原还可以通过本发明的技术将免疫实体、表位、抗原特异性或结合模式作为指标进行分类、聚类化。例如,可以应用肿瘤相关抗原来用于抗癌疫苗等。现有的例如使用活性化肿瘤细胞整体的技术被美国专利第5993828号公开。或者,也可以尝试应用含有被分离的肿瘤抗原的组合物的技术(例如,Krishnadas DK et al.,Cancer ImmunolImmunother.2015Oct;64(10):1251-60)。还可以使用应用了识别被鉴定的表位的嵌合抗原受体(CAR)的基因修饰T细胞(也称为CAR-T)。另外,免疫疗法最近也备受注目,其利用了基于涉及PD-1、PD-L1等免疫节点的作用的免疫节点抑制剂等。PD-1与抗原提呈细胞中表达的PD-1配体(PD-L1和PD-L2)结合,向淋巴细胞传导抑制性信号,从而将淋巴细胞的活性化状态调节为负。PD-1配体在抗原提呈细胞以外的、人的各种肿瘤组织中表达,一向认为恶性黑色素瘤中切除的肿瘤组织中的PD-L1的表达与术后存活期间之间存在负的相关关系。一直认为,用PD-1抗体、PD-L1抗体来抑制PD-1与PD-L1的结合时,该细胞损伤活性会恢复;通过抗原特异的T细胞活性化和增强对癌细胞的细胞损伤活性,能够表现出持续的抗肿瘤效果(例如,纳武单抗等)。关于恢复这样的免疫活性的负的调节机制的机理,可以应用本发明的表位的分类、聚类化法。

  本发明的一个实施方式中,关于疫苗,针对病毒疾病也可以应用本发明的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的分类、聚类化法。针对病毒的疫苗除了弱毒化活病毒之外、不活化疫苗之外,还可以利用亚单位疫苗等。亚单位疫苗的成功率并不高,但报告了使用基于包膜蛋白质的重组乙型肝炎疫苗等的成功例。可以认为,使用本发明的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的分类、聚类化法时,可以切实地与生物体的状态相关联,因此用亚单位疫苗等的有效性也上升。另外,可以认为,通过合适的簇的定量的评价,与疫苗的有效性评价也相关。另外,通过与某疫苗有效的症例的比较,也可能实现分层化。也可以认为,作为结果有效性提高了,或者上市的可能性提高了。实际上示出了,使用本发明的手法对于与疫苗反应的簇用电脑模拟进行了鉴定的结果。

  一个实施方式中,作为本发明的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的分类、聚类化法中可以使用的免疫实体,可列举出抗体、抗体的抗原结合片段、B细胞受体、B细胞受体的片段、T细胞受体、T细胞受体的片段、嵌合抗原受体(CAR)、包含它们的任一者或多个的细胞(例如,包含嵌合抗原受体(CAR)的T细胞(CAR-T))等。

  此处,本发明提供能生成基于本发明的手法分类的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的簇的方法;此处,该方法包含将结合的表位相同的免疫实体分类为同一簇的工序。另外,一个实施方式中,对于免疫实体、表位或免疫实体结合物,评价选自由其特性和与已知的免疫实体、表位或免疫实体结合物的类似性组成的组的至少一个评价项目,可以将满足规定的基准的免疫实体、表位或免疫实体结合物作为对象进行前述簇分类。多个前述免疫实体、表位或免疫实体结合物相同的情况下,有时该免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的三维结构的至少一部分或全部重复;多个前述表位相同的情况下,有时与该免疫实体、表位、免疫实体结合物、抗原特异性或结合模式相关的氨基酸序列的至少一部分或全部重复。

  <抗原特异性·结合模式和抗原分类>

  进而另一局面中,本发明提供:具有用本发明的方法鉴定的抗原特异性或结合模式或者具有基于此的结构的免疫实体、表位、免疫实体结合物、抗原特异性、结合模式、抗原(或与它们对应的免疫实体结合物)、或者它们的簇。此处定义的免疫实体、表位、免疫实体结合物、抗原特异性、结合模式、抗原等可以具有本说明书的<(结合模式聚类化技术)>中记载的任意的特征,或者可以是用这些技术鉴定、分类或聚类化的免疫实体、表位、免疫实体结合物、抗原特异性、结合模式、抗原等。此处,作为生成簇的方法,可列举出:包含将结合的表位、免疫实体结合物、抗原特异性或结合模式相同的免疫实体分类为同一簇的工序;或者包含将结合的免疫实体、抗原特异性或结合模式相同的表位或免疫实体结合物分类为同一簇的工序。优选的实施方式中,对于免疫实体、表位或免疫实体结合物,评价选自由其特性和与已知的免疫实体、表位或免疫实体结合物的类似性组成的组的至少一个评价项目,可以将满足规定的基准的免疫实体作为对象进行簇分类。此处,作为可采用的基准,例如,多个前述免疫实体、表位、免疫实体结合物抗原特异性或结合模式相同的情况下,可以是该免疫实体、表位、免疫实体结合物抗原特异性或结合模式的三维结构的至少一部分重复;或者多个前述免疫实体、表位、或免疫实体结合物的抗原特异性或结合模式相同的情况下,也可以是该表位或免疫实体结合物的氨基酸序列或化学结构的至少一部分重复。

  本说明书中,与(表位等)“对应”(免疫实体结合物等)在选择了特定的表位的情况下,是指充分地反映了该表位的结构或特征的免疫实体结合物;代表地,该表位为氨基酸序列的情况下,可例示出包含该序列的抗原肽、蛋白质等,也是指意图包含它们的疫苗作为代表例。

  本发明的一个实施方式涉及被分类的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式;或者被聚类化的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式;以及包含上述免疫实体、表位、抗原特异性或结合模式或相关的免疫实体结合物(例如,抗原)或多肽。

  此处,作为被分类的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式或者被聚类化的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的记述(鉴定)方法,可列举出以下。即,用本发明的手法鉴定的免疫实体(例如,抗体)、表位或免疫实体结合物的簇被认为以高的精度识别相同的免疫实体、表位、免疫实体结合物等伙伴,或者具有抗原特异性或结合模式;因此,簇所识别的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的鉴定中,可以通过针对表位或免疫实体结合物(例如,抗原)已知的免疫实体(例如,抗原已知抗体)的类似性评价、实验的抗原筛选(或、其他免疫实体结合物的筛选)、进而优选抗原-抗体对(或者、其他免疫实体-免疫实体结合物)的突变体实验、NMR化学位移、晶体结构解析、相互作用所涉及的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式的鉴定、或者体内或体外实验来进行功能评价,从而进行鉴定。因此,即便提供现有的免疫实体、表位、免疫实体结合物、抗原特异性或结合模式以及基于它们的免疫实体等,如本发明那样聚类化或分类的可以说具有特定的信息、可应用于特定的用途、具有特定的效果和功能;从这一点来看,可以说被赋予了现有的表位或免疫实体结合物(例如,抗原)以及基于其的免疫实体中没有的、新的特征,提供具有新颖且显著的特征的某技术的事项。

  <程序、介质、系统构成>

  1个局面中,本发明提供用于实施本发明的方法的程序。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合。

  一个局面中,提供例如用于实施对免疫实体的集合进行解析的方法的程序,所述方法包括:(i)提供至少2个免疫实体(immunological entity)的特征量的步骤;(ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;和(iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤。

  或者,一个局面中,提供例如用于实施对免疫实体的集合进行解析的方法的程序,该方法包括:

  (a)针对该免疫实体集合的成员的至少一对提取特征量的步骤;

  (b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;

  (c)基于该距离将该免疫实体的集合聚类的步骤;和

  (d)根据需要基于利用该聚类的分类进行解析的步骤。

  针对特征量的计算,也可以不包括由三维结构模型计算特征量。

  或者,一个局面中,提供例如用于实施对免疫实体的集合进行解析的方法的程序,该方法包括:

  (aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量的步骤;

  (bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;

  (cc)基于该距离将该免疫实体的集合聚类的步骤;和

  (dd)根据需要基于利用该聚类的分类进行解析的步骤。

  针对特征量的计算,也可以不包括由三维结构模型计算特征量。

  上述的程序中,此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合。

  另一个局面中,本发明提供存储有用于实施本发明方法的程序的记录介质。一个实施方式中,记录介质可以是能够存储于内部的ROM、HDD、磁盘、USB存储器等的闪存等外部存储装置。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合。本发明的记录介质可用于存储上述本发明的上述程序。

  另一个局面中,本发明提供包含用于实施本发明方法的程序的系统。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合。一个实施方式中,本发明的系统提供用于对免疫实体的集合进行解析的系统,所述系统具备:(I)特征量提供部,其提供至少2个免疫实体(immunological entity)的特征量;(II)机器学习部,其对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习;和(III)分类部,其进行该抗原特异性或者结合模式的分类或者确定异同。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合。这些各部也可以用各个构成要素来实现,它们的2个以上也可以通过1个构成要素来实现。针对特征量的计算,也可以不包括由三维结构模型计算特征量。

  另一实施方式中,本发明提供用于对免疫实体的集合进行解析的系统,所述系统具备:(A)特征量提取部或特征量提供部,其针对该免疫实体集合的成员的至少一对提取特征量;(B)判定部,其通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定;(C)聚类部,其基于该距离将该免疫实体的集合聚类;和(D)解析部,其根据需要基于利用该聚类的分类进行解析。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合。这些各部也可以用各个构成要素来实现,它们的2个以上也可以通过1个构成要素来实现。针对特征量的计算,也可以不包括由三维结构模型计算特征量。

  另一局面中,本发明用于对免疫实体的集合进行解析的系统,所述系统具备:(A)特征量提取部或特征量提供部,其分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量;(B’)投影部,其将该特征量向高维向量空间投影,此处,该成员的空间上的距离反映该成员的功能类似性;(C)聚类部,其基于该距离将该免疫实体的集合聚类;和(D)解析部,其根据需要基于利用该聚类的分类进行解析。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合。这些各部也可以用各个构成要素来实现,它们的2个以上也可以通过1个构成要素来实现。针对特征量的计算,也可以不包括由三维结构模型计算特征量。

  接着,参照图5的功能框图,对于本发明的系统1000的构成进行说明。需要说明的是,本图中表示用单一的系统实现的情况,但也可以理解本发明的范围也包含用多个系统实现的情况。

  本发明的系统1000如下构成:内置于计算机系统的CPU1001通过系统总线1020与RAM1003、ROM或HDD、磁盘、USB存储器等闪存存储器等的外部存储装置1005以及输入/输出接口(I/F)1025相连接。输入/输出I/F1025分别与键盘、鼠标等输入装置1009、显示器等输出装置1007、以及调制解调器等通信设备1011相连接。外部存储装置1005具备信息数据库存储部1030和程序存储部1040。两者均是固定在外部存储装置1005内的特定存储区域。

  在这样的硬件构成中,通过输入装置1009输入各种指令(命令),或者通过通信I/F、通信设备1011等接收命令,从而被安装在该存储装置1005的软件程序通过CPU1001在RAM1003上被调出而展开、实施,由此与OS(操作系统)协同作用而起到本发明的功能。当然,也可以用这样的协作情况以外的机制来实现本发明。

  实现本发明时,免疫实体(它们可以是抗体、B细胞受体或T细胞受体等)的氨基酸序列或与其同等的信息(例如编码其的核酸序列等)、其他的特征量可以通过输入装置1009而被输入、或者通过通信I/F、通信设备1011等而被输入,或者被存储在数据库存储部1030。基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;进行该抗原特异性或者结合模式的分类或者确定异同的步骤;通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;基于该距离将该免疫实体的集合聚类的步骤;根据需要基于利用该聚类的分类进行解析的步骤;将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;基于该距离将该免疫实体的集合聚类的步骤;根据需要基于利用该聚类的分类进行解析的步骤;等能够通过被存储于程序存储部1040的程序或者输入装置1009而被输入各种指令(命令),或者通过通信I/F、通信设备1011等接收命令,由此通过被安装于该外部存储装置1005的软件程序进行实施。所取得的数据、被分割的数据可以通过输出装置1007而被输出或者被存储于信息数据库存储部1030等外部存储装置1005。数据可以通过输出装置1007而被输出或者被存储于信息数据库存储部1030等外部存储装置1005。

  数据库存储部1030随时写入、更新通过这些数据、计算结果或通信设备1011等取得的信息。将各输入序列组中的各个序列、参照数据库的各基因信息ID等信息用各主数据表(master table)进行管理,由此能够对归属于成为蓄积对象的样品的信息用各主数据表所定义的ID进行管理。

  数据库存储部1030中,上述计算结果也可以与疾病、障碍、生物体信息等已知的信息相关联而存储。这样的关联也可以通过网络(互联网、内部网等)将能够获得的数据直接实现或者以网络的链接形式实现。

  另外,存储于程序存储部1040的计算机程序是将计算机设置成上述的处理系统、即设置成用于实施进行机器学习、解析、投影、距离计算、分类、分割等计算或处理等的处理的系统而构成的。这些的各功能是各自独立的计算机程序、其模块、例程等,通过利用上述CPU1001进行实施,将计算机以各系统、装置的形式构成。需要说明的是,以下各个系统中的各功能协作,从而构成各个系统。

  一个局面中,本发明提供使用数据库对被检体的表位或其簇进行解析、和/或诊断或者基于诊断结果进行治疗的方法。将包含该方法和本说明书中所说明的一个或多个更进一步的特征的方法,在本说明书中也称为“本发明的免疫实体的有效的聚类”。并且,将实现本发明的免疫组库解析法的系统也称为“本发明的免疫实体的有效的聚类解析系统”。

  将本发明的免疫实体的有效的聚类系统示于图5,作为其具体的算法的、本发明的免疫实体的有效的聚类解析系统可例示于图6中。

  图6中,S100(步骤(1))中可以实施特征量的提供或者提取。成对进行的情况下,针对数据组上的所有对提取特征量。全体的情况下,将数据组上的全部序列向高维向量空间(空间上的距离反映序列间的功能类似性)投影。

  S150(步骤(1A))中,成对进行实施的情况下,通过机器学习进行预测。此处,针对数据组上的全部对,判定抗原特异性(结合模式)是否一致。

  S200(步骤(2))中进行聚类。成对进行评价的情况下,针对数据组上的全部对,根据所预测的序列对之间的距离来制成簇。全体的情况下,聚类针对数据组上的全部对,判定抗原特异性(结合模式)是否一致。

  S300(步骤(3))中进行解析。

  所提供的数据也可以保存于外部存储装置1005,可以通常通过通信设备1011、以公共提供的数据库的形式取得。或者,也可以使用输入装置1009进行输入,根据需要记录于RAM1003或外部存储装置1005。此处,可以提供包含免疫实体的序列信息、其他特征量的数据库。序列信息、其他特征量还可以通过确定实际得到的试样的序列来获得。将RNA或DNA由肿瘤和健康组织分离,由各组织将PolyA+RNA分离而制备cDNA,使用标准引物进行cDNA的序列确定,由此可以得到被分离的序列信息。所述技术在本领域中是周知的。另外,患者的基因组的全部或一部分序列确定在该领域中是周知的。高产量DNA序列确定法在该领域中是公知的,包含通过例如Illumina(注册商标)序列确定技术的MiSeq(商标)系列的系统。这是使用大规模平行SBS手法,每1次处理生成数十亿碱基的高品质的DNA序列。或者也可以通过质谱分析确定抗体的氨基酸序列。本发明的系统中实现S100的部分也被称为特征量提供部。

  <组合物、治疗、诊断、药物等>

  本发明作为实施方式还包含:上述的被分类或聚类化的免疫实体、表位、多肽、免疫实体结合物(例如抗原;作为抗原除包含表位的肽等之外也包含含有糖链等翻译后修饰的物质、DNA/RNA这样的核酸、低分子);对于免疫实体或免疫实体结合物或簇具有实质的类似性、或者与属于同一簇的抗原特异性或者结合模式相关联的多肽。作为其他优选的实施方式,包含对于上述的任意者具有功能类似性的多肽。进一步的实施方式是,本发明包含编码上述的被分类或聚类化的表位、多肽、免疫实体结合物(例如抗原)或簇、以及与它们具有实质的类似性的多肽、与属于同一簇的抗原特异性或结合模式相关联的多肽的核酸。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合,或者是用这些技术鉴定、分类或聚类化的特征或其组合。

  一个实施方式中,本发明的免疫实体、表位或者作为免疫实体结合体的多肽、或者包含抗原特异性或结合模式的免疫实体、表位或免疫实体结合体、簇或者包含它们的多肽可以对于HLA-A2分子具有亲和性。亲和性可以通过结合测定、表位识别的极限测定、预测算法等来确定。表位、簇或包含它们的多肽可以对HLA-B7、HLA-B51分子等具有亲和性。

  本发明的另一实施方式中,本发明提供药学组合物,其包含多肽、以及药学上允许的佐剂、载体、稀释剂、赋形剂等;所述多肽包含:本发明中被分类或聚类化的免疫实体、表位或免疫实体结合体;或者具有抗原特异性或结合模式的免疫实体、表位、或免疫实体结合体;包含它们或相关的簇或多肽。佐剂可以是多聚核苷酸。多聚核苷酸可以包含二核苷酸。佐剂可以由多聚核苷酸编码。佐剂可以是细胞因子。

  进一步的实施方式中,本发明涉及药学组合物,其包含本说明书中所记载的核酸的任一者,所述核酸包含编码本发明中被分类或聚类化的免疫实体、表位、抗原特异性、结合模式、或免疫实体结合物(例如抗原)的多肽的核酸。所述组合物可以包含药学上允许的佐剂、载体、稀释剂、赋形剂等。

  进一步的实施方式中,本发明涉及与本发明中被分类或聚类化的免疫实体、表位、或免疫实体结合体的至少一个特异地结合的、或者具有属于同一簇的抗原特异性、结合模式的、被分离和/或纯化的抗体、抗原结合片段或其他免疫实体(例如B细胞受体、B细胞受体的片段、T细胞受体、T细胞受体的片段、嵌合抗原受体(CAR)、或者包含它们任一个或多个的细胞)。另一实施方式中,本发明涉及与肽-MHC蛋白质复合体特异地结合的被分离和/或纯化的抗体或其他的免疫实体,所述肽-MHC蛋白质复合体与本发明中被分类或聚类化的免疫实体、表位的至少一个特异地结合,或者具有属于同一簇的抗原特异性、结合模式,或者包含任意的其他的合适的表位。来自任意实施方式的抗体可以是单克隆抗体或多克隆抗体。这些组合物可以包含药学上允许的佐剂、载体、稀释剂、赋形剂等。

  进一步的实施方式中,本发明涉及:与本发明中被分类或聚类化的免疫实体、表位、或免疫实体结合体的至少一个特异地相互作用、或者具有属于同一簇的抗原特异性、结合模式的T细胞受体(TCR)和/或B细胞受体(BCR);它们的片段、或者包含其结合结构域的被分离的蛋白质分子;或者TCR和/或BCR的免疫组库;嵌合抗原受体(CAR);或者包含它们的任一个或多个的细胞(例如,包含嵌合抗原受体(CAR)的基因修饰T细胞(也称为CAR-T细胞)等)或者其他的免疫实体。另一实施方式中,本发明涉及与肽-MHC蛋白质复合体特异地结合的被分离和/或纯化的抗体或其他免疫实体,所述肽-MHC蛋白质复合体包含本发明中被分类或聚类化的表位或任意的其他的合适的表位。这些组合物可以包含药学上允许的佐剂、载体、稀释剂、赋形剂等。

  进一步的局面中,本发明提供疾病或障碍或者生物体的状态的鉴定法,其包括:基于用本发明的方法生成的簇,将所述免疫实体的保有者与已知的疾病或障碍或者生物体的状态相关联的工序。或者另一局面中,本发明提供疾病或障碍或者生物体状态的鉴定法,其包括使用一个或多个用本发明的方法生成的簇,对该簇的保有者的疾病或障碍或者生物体的状态进行评价的工序。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合,或者是用这些技术鉴定、分类或聚类化的特征或其组合。此处,上述评价使用至少一个指标来进行评价,但不限定于此,所述指标选自基于所述多个簇的存在量的顺序、多个簇的存在比进行的分析;通过调查一定数量的B细胞、是否具有与其中有兴趣的BCR类似的物质/簇这样的定量进行的分析等。进而另一实施方式中,上述评价也可以使用前述簇以外的指标(可列举出例如:疾病相关基因、疾病相关基因的多型、疾病相关基因的表达曲线、表观遗传学解析、TCR和BCR的簇的组合等)来进行。通过使用本发明,例如,具体而言,可以与免疫系统中重要的疾病特异的基因(HLA allele等)、疾病相关基因多型、基因表达曲线(RNA-seq等)、表观遗传学解析(甲基化解析等)组合。

  一个实施方式中,本发明能够鉴定的疾病或障碍或者生物体状态的鉴定可以是前述疾病或障碍或者生物体状态的诊断、预后、药物动力学、预测、代替法的确定、患者组的特定、安全性的评价、毒性的评价、以及它们的监测等。

  另一局面中,本发明提供用于评价生物标记物的方法,其包括:使用一个或多个本发明中被鉴定或分类的表位、免疫实体结合体或者纯化的簇,从而对成为疾病或障碍或者生物体状态的指标的该生物标记物进行评价的工序。或者,本发明提供用于鉴定生物标记物的方法,其包括:使用一个或多个本发明中被鉴定或分类的表位、或者纯化的簇,从而与疾病或障碍或者生物体的状态相关联、确定生物标记物的工序。此处,针对生物标记物的鉴定法,可以使用以下那样的方法。例如,可以将用测序仪读取的B细胞免疫组库的具有兴趣的簇的存在、大小、占有率等作为标记物进行鉴定,还可利用它们。

  进一步的实施方式中,本发明涉及表达本说明书中记载的重组构筑物的宿主细胞,所述重组构筑物包含编码如下多肽的构筑物,所述多肽与本发明中被分类或聚类化的免疫实体、表位、或者免疫实体结合体的至少一个特异地相互作用、或者具有属于同一簇的抗原特异性、结合模式。宿主细胞可以是树突状细胞、巨噬细胞、肿瘤细胞、肿瘤来源的细胞、细菌、真菌、原生动物等。该实施方式还可提供包含这样的宿主细胞、以及药学上允许的佐剂、载体、稀释剂、赋形剂等的药学组合物。

  另一局面中,本发明提供用于鉴定前述生物体信息的组合物,其包含基于本发明鉴定的免疫实体、表位、免疫实体结合体或者包含它们的、或具有属于同一簇的抗原特异性或结合模式的抗原或免疫实体结合物。或者,本发明提供用于诊断疾病或障碍或者生物体状态的组合物,其包含:基于本发明鉴定的免疫实体、表位、免疫实体结合体或者包含它们的、或具有属于同一簇的抗原特异性或结合模式的免疫实体、表位、抗原等免疫实体结合物等。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合,或者是用这些技术鉴定、分类或聚类化的特征或其组合。

  另一局面中,本发明提供用于诊断疾病或障碍或者生物体状态的组合物,其包含以免疫实体作为靶标的物质,所述免疫实体针对基于本发明鉴定的表位或免疫实体结合体。或者,本发明提供用于诊断疾病或障碍或者生物体状态的组合物,其包含:基于本发明鉴定的免疫实体、表位、免疫实体结合体或者包含它们的、或具有属于同一簇的抗原特异性或结合模式的免疫实体、表位、抗原等免疫实体结合物。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合,或者是用这些技术鉴定、分类或聚类化的特征或其组合。因此,作为免疫实体,可列举出例如抗体、抗体的抗原结合片段、T细胞受体、T细胞受体的片段、B细胞受体、B细胞受体的片段、嵌合抗原受体(CAR)、包含它们的任一个或多个的细胞(例如,包含嵌合抗原受体(CAR)的T细胞)等。

  进而另一局面中,本发明提供用于治疗或预防疾病或障碍或者生物体状态的组合物,其包含:基于本发明鉴定的免疫实体、表位、免疫实体结合体或者包含它们的、或具有属于同一簇的抗原特异性或结合模式的免疫实体。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合,或者是用这些技术鉴定、分类或聚类化的特征或其组合。另外,可使用的免疫实体可列举出抗体、抗原结合片段、嵌合抗原受体(CAR)、包含嵌合抗原受体(CAR)的T细胞等,但不限定于此。

  另一局面中,本发明提供用于预防或治疗疾病或障碍或者生物体状态的组合物,其包含以如下作为靶标的物质,所述靶标是:基于本发明鉴定的免疫实体、表位、免疫实体结合体、或者包含它们的、或具有属于同一簇的抗原特异性或结合模式的免疫实体。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合,或者是用这些技术鉴定、分类或聚类化的特征或其组合。作为可使用的物质,可列举出:肽、多肽、蛋白质、核酸、糖、低分子、高分子、金属离子及它们的复合体,对其没有限定。

  另一局面中,本发明提供用于治疗或预防疾病或障碍或者生物体状态的组合物,其包含:基于本发明鉴定的免疫实体、表位、免疫实体结合体或者包含它们的、或具有属于同一簇的抗原特异性或结合模式的免疫实体结合物(例如抗原)。此处可采用的任意的特征可以是本说明书的<结合模式聚类化技术>中记载的任意的特征或其组合,或者是用这些技术鉴定、分类或聚类化的特征或其组合。

  进一步的实施方式中,本发明涉及疫苗或免疫治疗用组合物,其包含:基于本发明鉴定的免疫实体、表位、免疫实体结合体或者包含它们的、或具有属于同一簇的抗原特异性或结合模式的免疫实体结合物(例如抗原)或多肽、上述及本说明书中所记载的组合物、上述及本说明书中所记载的T细胞或宿主细胞这样的至少一个构成成分。

  本发明还涉及诊断方法或治疗方法。该方法可以包括如下步骤:对动物(本说明书中包含人)给予包含本说明书中公开的物质的免疫实体结合物(例如疫苗)或免疫治疗用组合物这样的药学组合物。这些方法可以是用于治疗或预防疾病或障碍或者生物体状态的方法。给予可以包含例如经皮、结节内、结节周围、经口、静脉内、皮内、肌肉内、腹腔内、粘膜、气溶胶吸入、点滴等这样的送达方式。该方法可以进一步包括为了确定用于显示靶细胞状态的特征而进行测定的工序。上述方法可以进一步包括第一测定工序、及第二测定工序,此处,第一测定工序在治疗药等的给予工序前进行,该第二测定工序在上述治疗药等的给予工序后进行。该情况下还可以包括进行比较的工序,即,将第一测定工序中所确定的特征与第二测定工序中所确定的特征进行比较,由此得到结果。结果可以通过例如免疫应答的征候、靶细胞数的减少、包含靶细胞的肿瘤的质量或尺寸的降低、细胞内寄生生物感染靶细胞的个数或浓度的降低等,基于本发明所鉴定的免疫实体、表位或者包含它们,或者基于抗原特异性或结合模式,从而进行判定。

  <抗体/细胞疗法×诊断>

  一个局面中,本发明提供用于诊断疾病或障碍或者生物体状态的组合物,其包含基于本发明的解析方法鉴定的具有抗原特异性或结合模式的免疫实体。本发明还提供用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体进行诊断的工序,所述免疫实体具有基于本发明的解析方法鉴定的抗原特异性或结合模式。这样的方法可以应用于实施例如抗体药物、细胞疗法等时的诊断等。

  在另一局面中,本发明提供用于诊断疾病或障碍或者生物体的状态的方法,其包括基于免疫实体进行诊断的工序,所述免疫实体具有基于本发明的方法鉴定的抗原特异性或结合模式。或者,本发明是用于针对疾病或障碍或者生物体的状态判定不良事件的方法,其包括基于免疫实体判断不良事件的工序,所述免疫实体具有基于本发明的方法鉴定的抗原特异性或结合模式。本发明还提供用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体进行诊断的工序,所述免疫实体具有基于本发明的方法鉴定的抗原特异性或结合模式,此处,前述至少2个免疫实体或前述免疫实体的集合包含至少一个来源于健康人的免疫实体。此处,可以说令人惊奇地发现,本发明的作为解析对象的至少2个免疫实体或免疫实体的集合包含健康人的基础之上,变得能够有效地特定不良事件。

  可以认为,本发明的作为对象的诊断事项作为例如治疗的有效性、预后、副作用(不良事件、重度不良事件等)风险、病态、复发等的指标使用免疫实体的簇。作为它们的候补选择,可以认为以簇或其组合的形式而得到,所述簇为:1.具有兴趣的群间的比较、例如特定疾病患者/健康人或其他疾病患者、药剂应答者/非应答者、副作用有/无中显著地在一群中出现的;或者2.包含通过体外(In vitro)/离体(ex vivo)/体内(in vivo)试验等显示出与上述指标(治疗有效性等)的相关的免疫实体的序列。另外,这些指标可以与其他的指标例如末梢的细胞因子量、癌细胞数、循环DNA、HLA型、SNPs(基因突变)、基因表达、表观基因组、宏基因组这样的免疫细胞不同的指标、或者特定细胞类型的细胞数、还有免疫细胞的表面标记物、基因表达这样的指标组合。此处,组合包括对适应患者选择的指标、单纯地与免疫实体簇并列地进行研究、以及限定进行聚类的对象的细胞类型的目的。例如,被判断为癌特异性的免疫实体的量/数在治疗前或者治疗一定期间之后为一定数以上的、或者与治疗前相比增加了这样的情况,成为治疗有效性的判断指标。另外,副作用中,具有被判断具备特定的HLA型和/或与特定的副作用风险相关的T细胞受体/B细胞受体的序列数为一定数量的情况下,可以考虑判断为风险高并且采取避免该治疗的、减少给予量等的措置。进而,在反映病态的簇中,作为判定治疗有效性的指标,可以考虑研究治疗中该簇的动态。例如,该簇反映自体免疫性疾病的活动性的情况下,可以考虑判断为该簇通过治疗而消失、从而疾病得到缓解。

  另外,本发明的一个实施方式中,以本发明作为对象的疾病或障碍或者生物体的状态也可以包含不良事件。由于能够判断不良事件,由此可以在事前进行避免副作用(不良事件、重度不良事件等)的治疗。

  另外,本发明的一个实施方式中,解析对象可以包含健康人的样品。通过包含健康人,能够意料之外地对疾病罹患者(例如乳癌患者)的特性详细地进行分析,其分析结果正确或者能够得到非常准确的结果。

  该情况下,提供用于诊断疾病或障碍或者生物体状态的方法,其包括:(i)提供至少2个免疫实体(immunological entity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;(ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;(iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和(iv)基于(iii)中分类或者确定的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  一个实施方式中,成为对象的疾病或障碍或者生物体的状态包含不良事件。通过利用能够判断不良事件并且能够提供其概率也意外地显著地高的结果的本发明,本发明能够以高品质的状态处置或预防疾病、障碍、各种症状。

  或者另一实施方式中,本发明提供用于诊断疾病或障碍或者生物体状态的方法。此处,该方法包括:(a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;(b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;(c)基于该距离将该免疫实体的集合聚类的步骤;(d)基于利用该聚类的分类进行解析的步骤;和(e)基于(d)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  一个具体的实施方式中,作为本发明对象的疾病或障碍或者生物体的状态包含不良事件。

  另一实施方式中,提供用于诊断疾病或障碍或者生物体状态的方法。此处,该方法包括:(aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;(bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;(cc)基于该距离将该免疫实体的集合聚类的步骤;(dd)基于利用该聚类的分类进行解析的步骤;和(ee)基于(dd)中解析出的该免疫实体判定疾病或障碍或者生物体状态的步骤。

  一个具体的实施方式中,作为本发明对象的疾病或障碍或者生物体的状态包含不良事件。

  <抗体/细胞疗法×治疗/预防>

  另一局面中,本发明提供用于治疗或预防疾病或障碍或者生物体状态的组合物,其包含:具有基于本发明的解析方法鉴定的抗原特异性或结合模式的免疫实体。本发明还提供用于治疗或预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体的工序,所述免疫实体具有基于本发明的解析方法鉴定的抗原特异性或结合模式。这样的方法可以应用于抗体药物、细胞疗法等。

  另一局面中,本发明提供用于治疗或预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体的工序,所述免疫实体具有基于本发明的方法鉴定的抗原特异性或结合模式。或者,本发明提供用于治疗或预防疾病或障碍或者生物体状态的方法,其包括对被检者给予有效量的免疫实体的工序,所述免疫实体具有基于本发明的方法鉴定的抗原特异性或结合模式;该被检者不包括基于本发明的方法被判断为可能产生不良事件的被检者。本发明提供用于治疗或预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体的工序,所述免疫实体具有基于本发明鉴定的抗原特异性或结合模式,此处,前述至少2个免疫实体或前述免疫实体的集合包含至少一个来源于健康人的免疫实体。此处,可以说令人惊奇地发现,进一步,本发明的作为解析对象的至少2个免疫实体或免疫实体的集合包含健康人的基础之上,变得能够有效地特定不良事件、以及能够进行有效的治疗或预防。

  可用于治疗/预防的免疫实体(例如抗体药物、细胞药物)的候补选择中,假设给予聚类结果得到的免疫实体,追加地,可以考虑在该选择中还使用别的指标。

  (1)特定簇选择在疾病反应者、药剂应答患者(包含所谓的例外的应答者:https://peoplepoweredmedicine.org/neer)可见的、或者与任意的比较组相比较以显著高的概率/比例可见的簇。

  (2)在表达别的指标例如被视为癌特异性的表面标记物/基因表达(CD103、CD39等)、免疫节点分子(PD-1、LAG3、CTLA-4、TIM-3等)这样的特定的表面标记物(或其组合)的细胞群中发现的情况下、或者相反地在同簇所包含的细胞群中显著高地表达这些标记物的情况下,选择这样的结果作为指标。

  (3)选择确认到:由簇中选择的序列在体外(In vitro)/离体(ex vivo)/体内(invivo)实验等中与抗原结合的、表现出细胞障碍性的、表现出炎症抑制等的簇。

  (4)选择(1)~(3)中的任意两个((1)及(2)、(2)及(3)以及(3)及(1))或(1)~(3)的3个组合等。

  另外,本发明的一个实施方式中,以本发明作为对象的疾病或障碍或者生物体的状态也可以包含不良事件。由于能够判断不良事件,由此可以在事前进行避免副作用(不良事件、重度不良事件等)的治疗。

  另外,本发明的一个实施方式中,解析对象可以包含健康人的样品。通过包含健康人,能够意料之外地对疾病罹患者(例如乳癌患者)的特性详细地进行分析,其分析结果正确或者能够得到非常准确的结果。

  此处,一个实施方式中,本发明提供用于治疗或预防疾病或障碍或者生物体状态的方法,其包括:(i)提供至少2个免疫实体(immunological entity)的特征量且该至少2个免疫实体包含至少一个来源于健康人的免疫实体的步骤;(ii)对于基于该特征量、在不指定抗原特异性或者结合模式的情况下分析该免疫实体的抗原特异性或者结合模式进行机器学习的步骤;(iii)进行该抗原特异性或者结合模式的分类或者确定异同的步骤;和(iv)给予(iii)中分类或确定的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  在具体的实施方式中,本发明的作为对象的疾病或障碍或者生物体的状态包含不良事件、或者前述治疗或预防包括避免不良事件进行治疗或预防。

  另一实施方式中,本发明提供用于治疗或者预防疾病或障碍或者生物体状态的方法。该方法包括:(a)针对该免疫实体集合的成员的至少一对提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;(b)通过使用了该特征量的机器学习,从而针对该对计算抗原特异性或者结合模式之间的距离、或者对于该抗原特异性或者结合模式是否一致进行判定的步骤;(c)基于该距离将该免疫实体的集合聚类的步骤;(d)根据需要基于利用该聚类的分类进行解析的步骤;和(e)给予(d)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  在具体的实施方式中,本发明的作为对象的疾病或障碍或者生物体的状态包含不良事件、或者前述治疗或预防包括避免不良事件进行治疗或预防。

  进而,另一实施方式中,本发明提供用于治疗或者预防疾病或障碍或者生物体状态的方法。该方法包括如下步骤。(aa)分别针对该免疫实体集合的成员的至少一对成对的序列提取特征量且该免疫实体的集合包含至少一个来源于健康人的免疫实体的步骤;(bb)将该特征量向高维向量空间投影的步骤,此处,该成员的空间上的距离反映该成员的功能类似性;(cc)基于该距离将该免疫实体的集合聚类的步骤;(dd)根据需要基于利用该聚类的分类进行解析的步骤;和(ee)给予(dd)中解析出的该免疫实体或者对应于该免疫实体的免疫实体结合物的步骤。

  在具体的实施方式中,本发明的作为对象的疾病或障碍或者生物体的状态包含不良事件、或者前述治疗或预防包括避免不良事件进行治疗或预防。

  <疫苗×诊断>

  另一局面中,本发明提供用于诊断疾病或障碍或者生物体状态的组合物,其包含对应于基于本发明的解析方法鉴定的表位的免疫实体结合物。本发明还提供用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体结合物进行诊断的工序,所述免疫实体结合物对应于基于本发明的解析方法鉴定的表位。这样的方法可以应用于例如实施疫苗治疗时的诊断等。或者本发明提供用于针对疾病或障碍或者生物体的状态判定不良事件的方法,其包括基于免疫实体结合物判断不良事件的工序,所述免疫实体结合物对应于基于本发明的方法鉴定的表位。或者,本发明还提供用于诊断疾病或障碍或者生物体状态的方法,其包括基于免疫实体结合物进行诊断的工序,所述免疫实体结合物对应于基于本发明的方法鉴定的表位,此处,前述至少2个免疫实体或前述免疫实体的集合包含至少一个来源于健康人的免疫实体。此处,可以说令人惊奇地发现,本发明的作为解析对象的至少2个免疫实体或免疫实体的集合包含健康人的基础之上,变得能够有效地特定不良事件。

  作为疫苗接种前、摄取后的有效性预测的指标,可以考虑使用免疫实体的簇。可以考虑使用如下指标,例如,在摄取前疫苗能否诱导目标的免疫;在摄取后疫苗能否诱导目标的免疫。

  作为候补簇选择,可以认为以簇或其组合的形式而得到,所述簇为:1.具有兴趣的群间的比较、例如对于疫苗应答/非应答在摄取疫苗前后进行比较,在疫苗应答群显著显现;或者2.包含通过体外(In vitro)/离体(ex vivo)/体内(in vivo)试验鉴定的疫苗作为目的的有用的免疫实体的序列。

  另外,这些指标可以与其他的指标例如末梢的细胞因子量、癌细胞数、循环DNA、HLA型、SNPs(基因突变)、基因表达、表观基因组、宏基因组这样的免疫细胞不同的指标、或者特定细胞类型的细胞数、还有免疫细胞的表面标记物、基因表达这样的指标组合。此处,组合包括对适应患者选择的指标、单纯地与免疫实体簇并列地进行研究、以及限定进行聚类的对象的细胞类型的目的。

  例如,与疫苗有效性相关的免疫实体的量/数在疫苗摄取前或者摄取一定期间后为一定数以上、或者与摄取前相比增加了的情况下,成为疫苗有效性的判断指标。

  疫苗的实施中,在解析中可以使用来自于健康人的样品,或者预想或诊断不良事件,可以以预先避免其的方式进行预防或治疗。

  <疫苗×治疗/预防>

  另一局面中,本发明提供用于治疗或者预防疾病或障碍或者生物体状态的组合物,其包含对应于基于本发明的解析方法鉴定的表位的免疫实体结合物。本发明还提供用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体结合物的工序,所述免疫实体结合物对应于基于本发明的解析方法鉴定的表位。作为免疫实体结合物可列举出例如疫苗,但不限定于此。

  一个实施方式中,本发明提供用于治疗或预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体结合物的工序,所述免疫实体结合物对应于基于本发明的方法鉴定的表位;该被检者不包括基于本发明的方法被判断为可能产生不良事件的被检者。本发明还提供用于治疗或者预防疾病或障碍或者生物体状态的方法,其包括给予有效量的免疫实体结合物的工序,所述免疫实体结合物对应于基于本发明的方法鉴定的表位,此处,前述至少2个免疫实体或前述免疫实体的集合包含至少一个来源于健康人的免疫实体。此处,可以说令人惊奇地发现,进一步,本发明的作为解析对象的至少2个免疫实体或免疫实体的集合包含健康人的基础之上,变得能够有效地特定不良事件,其结果能够实现有効性高的治疗或预防效果。

  这样的方法可以应用于例如实施疫苗治疗时。在疫苗等免疫实体结合物的候补选择中,可以考虑给予对应于由聚类结果得到的表位的免疫实体结合物自身,追加地,在其选择中还可以考虑别的指标。

  (1)特定簇选择在疾病反应者、药剂应答患者(包含所谓的例外的应答者:https://peoplepoweredmedicine.org/neer)可见的、或者与任意的比较组相比较以显著高的概率/比例可见的簇。

  (2)在表达别的指标例如癌特异性T细胞标记物(CD103、CD39)、免疫节点分子这样的特定的表面标记物(或其组合)细胞群中发现的情况下,或者相反地在同簇所包含的细胞群中,这些标记物的表达显著高的情况下,选择这样的结果作为指标。

  (3)选择确认到:由簇中选择的序列在体外(in vitro)/离体(ex vivo)/体内(invivo)实验等中与抗原结合的、表现出细胞障碍性的、表现出炎症抑制的、容易诱导(表位的免疫原性高)等的簇。

  (4)选择(1)~(3)中的任意两个((1)及(2)、(2)及(3)以及(3)及(1))或(1)~(3)的3个组合等。

  疫苗的实施中,在解析中可以使用来自于健康人的样品,或者预想或诊断不良事件,可以以预先避免的方式进行预防或治疗。

  本发明涉及用基于本发明鉴定的免疫实体、表位、免疫实体结合体或包含其的、或者具有属于同一簇的抗原特异性或结合模式的簇、包含其表位的免疫实体结合物(例如抗原)或多肽来制作被动/过继免疫治疗药的方法。该方法还可以包括将本说明书中的其他部位中记载那样的T细胞或宿主细胞与药学上允许的佐剂、载体、稀释剂、赋形剂等组合。作为赋形剂,可以包含缓冲剂、结合剂、爆破剂、稀释剂、香料、润滑剂等。

  一个局面中,本发明涉及诊断障碍、疾病或生物体状态的方法,其中,使用基于本发明鉴定的免疫实体、表位、免疫实体结合体或者包含其的、或具有属于同一簇的抗原特异性或结合模式的免疫实体结合物(例如抗原)或多肽等。上述方法包括:使被检体组织与包含上述及本说明书中其他部分记载的物质的任一者的、例如包含T细胞、宿主细胞、抗体、蛋白质的至少一个构成成分接触;以及、基于上述组织或该构成成分的特征来诊断疾病。接触工序可以通过例如体内(in vivo)或体外(in vitro)来进行。本发明包括对经分类的表位进行鉴定的工序。这样的进行鉴定的工序中,包括其结构的确定,除此之外还包括例如氨基酸序列的确定、三维结构的鉴定、其他的结构上的鉴定、生物学的功能的鉴定等,但不限定于这些。

  进一步的实施方式中,本发明涉及制作疫苗的方法。该方法可以包括使下述至少一个构成成分与药学上允许的佐剂、载体、稀释剂、赋形剂等组合,所述至少一个构成成分包含含有本说明书中的其他部分记载的物质的任一者的表位、免疫实体结合体、组合物、构筑物、T细胞、宿主细胞。另一实施方式中,本发明可以使用本发明的聚类及分类法以及由此鉴定的表位、免疫实体或免疫实体结合物、或者具有所鉴定的抗原特异性、结合模式的表位、免疫实体或免疫实体结合物,进行疫苗的评价或改善;可以使用所鉴定的表位或免疫实体结合物、所鉴定的结合模式或抗原特异性或包含它们的免疫实体、表位或免疫实体结合物、或者使用簇自体进行生物标记物的评价和/或制作或者改善。此处,“改善”是指能够通过聚类鉴定想要提高抗体效价的簇等,更适当地评价疫苗接种时的中和抗体产生,与通常的实验并列地进行,由此提供用于疫苗性能改善的手法。作为生物标记物的“评价”,作为例子可列举出例如以下的方法:首先,鉴定出其自身可以成为生物标记物那样的簇(例如与疾病的状态相关的簇),调查是否有更简单的实验(例如,可以使用ELISA结合测定等来实施)适合于跟随所期待的簇的变化。该情况下的前提是,簇其自身起到作为标记物的功能,也可以同样地进行(反映簇的信息)制作。

  本发明还提供用于评价疫苗的组合物,所述疫苗用于治疗或预防疾病或障碍或者生物体状态,所述组合物包含:基于本发明鉴定的免疫实体、表位、免疫实体结合物或者包含它们的、或者具有属于同一簇的抗原特异性或结合模式、或反抗属于同一簇的抗原特异性或结合模式的免疫实体。这些评价有例如流行性感冒病毒的例子,可以应用它们。另一个局面中,本发明涉及治疗或预防疾病的方法,其中,使用基于本发明鉴定的免疫实体、表位、免疫实体结合物或者包含其的、或具有属于同一簇的抗原特异性或结合模式的免疫实体结合物(例如抗原)或多肽等。该方法可以包括将动物的治疗方法与包括例如辐射线疗法、化学疗法、生化学疗法、手术的至少一个治疗方式组合,所述动物的治疗方法包括对动物给予本说明书中的其他部分所记载那样的疫苗或免疫治疗用组合物。

  本发明还涉及疫苗或免疫治疗用生成物,其包含:基于本发明鉴定的免疫实体、表位、免疫实体结合物或包含其的、或者具有属于同一簇的抗原特异性或结合模式的、本发明中被分类或聚类化的表位;包含该表位的簇;包含该表位的、具有属于同一簇的抗原特异性或结合模式的免疫实体结合物(例如抗原)或多肽等。进而另一实施方式涉及被分离的多聚核苷酸,其编码本说明书中的其他部分所记载的多肽。另一实施方式涉及包含该多聚核苷酸的疫苗或免疫治疗用生成物。多聚核苷酸可以是DNA、RNA等。

  一个实施方式中,本发明还涉及包含送达(Delivery)设备、及本说明书中的其他部分所记载的实施方式的任一者的试剂盒。送达设备可以是导管、注射器、内部或外部泵、储液槽、吸入器、微注射器、垫片、及适合于送达的任意路径的任意其他同样的设备。如上所述,除了送达设备之外,试剂盒还可以包含本说明书中公开的实施方式的任一者。例如试剂盒可以包含:被分离的表位、多肽、簇、核酸、免疫实体结合物(例如抗原)、包含上述任一者的药学组合物、抗体、T细胞、T细胞受体、表位-MHC复合体、疫苗、免疫治疗药等,但不限定于这些。试剂盒还可以包含:用于使用的详细的说明书及任意的其他同样品目的构成物。

  用于使疫苗或药学组合物含有结合模式、抗原特异性相同的免疫实体、表位、免疫实体结合物和/或它们的簇的特别优选的战略被2000年4月28日申请的“EPITOPESYNCHRONIZATION IN ANTIGEN PRESENTING CELLS”这样的标题的美国专利申请第09/560465号所公开。

  本发明中所使用的疫苗以有效浓度含有表位或免疫实体结合物(例如抗原),所述有效的浓度足以提呈本发明中分类、鉴定或聚类化的表位、免疫实体结合物、或者所鉴定的具有抗原特异性或结合模式的表位或免疫实体结合物。优选本发明的疫苗可以与任意一个或多个免疫性表位组合,包含多个本发明的表位或者其簇。本发明的疫苗制剂以足以提呈针对靶的表位的浓度含有肽和/或核酸。本发明的制剂优选以约1μg~1mg/(疫苗制备物100μl)的总浓度含有表位或包含其的肽。肽疫苗和/或核酸疫苗所涉及的现有的给予量及给药可以与本发明一起使用,所述给药方案在该领域中可被充分地理解。一实施方式中,涉及成人的一次给予量优选为所述组合物的约1~约5000μl,以分为一次或多次例如1周、2周、1个月、或其以上的2次、3次、4次或其以上的给予量进行给予。本发明的疫苗可以包含:基因地操作成为宿主中表达表位的病毒、细菌或原生动物那样的重组生物。

  本发明的疫苗、组合物、方法为了增强疫苗的性能,可以在制剂中配混佐剂。具体而言,可以以增强表位的送达及摄取的方式进行设计。本发明想要的佐剂是本领域技术人员已知的,可列举出例如:GM-CSF、GCSF、IL-2、IL-12、BCG、破伤风类毒素、骨桥蛋白、及ETA-1。

  本发明的疫苗等可以用任意合适的手法进行给予。本发明的疫苗以与该技术领域公知标准的疫苗送达手册一致的方式给予患者。作为表位送达方法,可列举出包含利用注射、点滴、或吸入的送达的、经皮、结节内、结节周边、经口、静脉内、皮内、肌肉内、腹腔内、及粘膜给予,但不限定于此。用于诱导CTL应答的疫苗送达的特别有用的方法被2002年1月17日所发行的澳大利亚专利第739189号、1999年9月1日申请的美国专利申请第09/380534号、及2001年2月2日申请的其一部分同时申请的美国专利申请第09/776232号公开,这些在本说明书中作为参考而援用。

  一个实施方式中,本发明还可以包含以有效的浓度与免疫实体、表位或包含其的免疫实体结合物(例如抗原)特异地结合的蛋白质、抗体、可表达它们的细胞、特异的B细胞及T细胞等;所述有效的浓度用于提呈本发明中分类、鉴定或聚类化的免疫实体、表位或免疫实体结合物、或者所鉴定的具有抗原特异性或结合模式的免疫实体、表位或免疫实体结合物。这些试剂采取免疫球蛋白、即其生成方法是该领域中公知的多克隆血清或单克隆抗体的形式。具有肽-MHC分子复合体所涉及的特异性的mAb的生成在该技术领域是公知的(Aharoni et al.Nature 351:147-150,1991等)。通常的构筑及使用采用“T CELLRECEPTORS AND THEIR USE IN THE RAPEUTIC AND DIAGNOSTIC METHODS”这样的标题的美国专利第5830755号所研究的。

  一个实施方式中,可以使以用于提呈本发明中被分类、鉴定或聚类化的结合模式、抗原特异性、免疫实体、表位或免疫实体结合物有效的浓度具有结合模式或抗原特异性的免疫实体、表位或免疫实体结合物(例如抗原)的任一者与酶、辐射化学物质、荧光标签、及毒素结合,以用于与结合模式、抗原特异性、免疫实体表位或免疫实体结合物相关的病原状态的诊断(成像、或其他检测)、监测、及治疗。因此,毒素结合体可以给予以杀死肿瘤细胞;辐射标记能够使与结合模式、抗原特异性、免疫实体、表位或免疫实体结合物相关的阳性肿瘤的成像变得容易;为了诊断癌并确定生物组织中的表位表达,在ELISA样测定中使用酶结合体。进一步的实施方式中,如上述记载那样的T细胞在通过结合模式、抗原特异性或表位和/或利用细胞因子的刺激来实现的増殖后,作为过继免疫疗法向患者进行给予。

  另一实施方式中,本发明提供本发明中被分类、鉴定或聚类化的具有结合模式或抗原特异性的表位或免疫实体结合物与MHC的复合体或者、作为具有结合模式或抗原特异性的表位或免疫实体结合物的肽-MHC复合体。在优选的实施方式中,复合体可以是美国专利第5635363号(四聚体)、或美国专利第6015884号(Ig-二聚体)所记载的物质那样的可溶性的多聚体蛋白质。所述试剂在对特定的T细胞应答进行检测及监测时、以及在对所述T细胞进行纯化时是有用的。

  另一实施方式中,可以使用本发明中分类、鉴定或聚类化的具有结合模式或抗原特异性的免疫实体、表位或免疫实体结合物,进行功能测定,对于免疫性的内源性水平、针对免疫学的刺激(例如疫苗)的应答进行评价,从而监测由于疾病和治疗途径的免疫状态。除去了对免疫性的内源性水平进行测定的情况,在这些测定的任一者中,根据所处理的问题的性质,无论体内(in vivo)还是体外(in vitro),都可以以免疫的预备工序作为前提。所述免疫可以使用本发明的各种各样实施方式,或者使用能够诱导同样的免疫性的其他形式的免疫原进行实施。除了能够检测同族TCR的表达的PCR及四聚体/Ig-二聚体型解析,这些测定通常可以从体外(in vitro)抗原性刺激的工序中得到利益,为了检测特定功能活性,所述抗原性刺激的工序能够适用于如上述那样的本发明的各种实施方式(高细胞溶解性应答时可以进行直接检测)。最终,细胞溶解活性的检测将具有属于同一簇的结合模式或抗原特异性的物质或表位提示靶细胞作为必需,这可以使用本发明的各种实施方式生成。关于任意特定的工序所选择的特定实施方式依赖于所应处理的问题、使用的容易性、成本等,超过有关任意特定组状况的另一实施方式的一实施方式的优点对于本领域技术人员而言是明显的。

  这样的功能测定中,可以与本发明的结合模式或抗原特异性相关、或者以与免疫实体、表位、免疫实体结合物、或MHC分子及其复合体的形式,使用活性化工序或读取工序、或其两者。该领域中公知的T细胞功能的很多测定(详细的步骤可以参见CurrentProtocols in Immunology 1999 John Wiley&SonsInc.,N.Y这样的标准的免疫学的参照文献)中,可以实施如下两个类别的测定:用于测定细胞池应答的测定;和、用于测定各个细胞应答的测定。前者能够进行应答强度整体的测定,与此相对,后者可以决定应答细胞的相对的频率。用于测定整体的应答的测定的例为细胞损伤性测定、ELISA、及用于检测细胞因子分泌的增殖测定。作为用于测定各个细胞(或来源于它们的小克隆)的应答的测定,可例举出:极限稀释解析(LDA)、ELISPOT、未分泌细胞因子的流式细胞术检测(记载于美国专利第5445939号、美国专利第5656446号及美国专利第5843689号中的、用于它们的试剂以商品名“FASTIMMUNE”被Becton,Dickinson&Company贩卖)、及如上述那样并且上述所引用的、利用四聚体或Ig-二聚体进行的特异的TCR检测(也可以参照Yee,C.et al.Current Opinionin Immunology,13:141-146,2001)。

  本发明可以以试剂盒的形式提供。本说明书中,“试剂盒”是指通常分为2个以上的分区、提供所应提供的部分(例如检查试剂、诊断试剂、治疗药、抗体、标记、说明书等)的单元。为了稳定性等,不应该混合而提供、优选提供以在即将使用之前混合而使用那样的组合物为目的时,该试剂盒的形式是优选的。这样的试剂盒优选具备:记载有如何使用所提供的部分(例如检查试剂、诊断试剂、治疗药)、或者应该怎样处理试剂的指示书或说明书是有利的。本说明书中,试剂盒以药品试剂盒的形式使用时,试剂盒通常包含记载有检查试剂、诊断试剂、治疗药、抗体等的使用方法等的指示书等。

  这样,本发明的进一步的局面中,本发明涉及试剂盒,该试剂盒具有:(a)以溶液形状或冷冻干燥形状包含本发明的药物组合物的容器;(b)可选的包含该冷冻干燥制剂用的稀释剂或重构液的第二容器;(c)可选的与(i)该溶液的使用或(ii)该冷冻干燥制剂的重构和/或使用相关的说明书。该试剂盒还具有:1个或其以上的(iii)缓冲剂、(iv)稀释剂、(v)过滤器、(vi)针、或(v)注射器。该容器优选为瓶、小瓶、注射器、或试管,可以是多用途容器。该药物组合物优选被干燥冷冻。

  本发明的试剂盒优选在合适的容器内具有:本发明的干燥冷冻制剂及与其重构和/或使用相关的说明书。作为合适的容器而可以包含:例如瓶、小瓶(例如双腔小瓶)、注射器(双腔注射器等)、及试管。该容器可以由玻璃或塑料这样的各种各样的材料形成。优选的是,该试剂盒和/或容器包含:处于该容器上的或者伴随该容器的、用于示出重构和/或使用的方法的说明书。例如,该标签可以示出重构该干燥冷冻制剂并且设定为上述的肽浓度这样的说明。该标签进而示出:该制剂对于皮下注射是有用的或用于皮下注射这样的说明。

  该制剂的容器可以是能够用于重复给予(例如2~6次给予)的多用途小瓶。该试剂盒还可以具有具备合适的稀释剂(例如碳酸氢钠溶液)的第二容器。

  将该稀释剂与该冷冻干燥制剂混合而制作的所重构的制剂的最终肽浓度优选至少为0.15mg/mL/肽(=75μg、0.5ml的情况),优选为3mg/mL/肽(=1500μg、0.5ml的情况)以下,但不限定于此。该试剂盒还可以包含从商业的观点和用户的观点出发而优选的其他材料(包括其他的缓冲剂、稀释剂、过滤器、针、注射器、及被插入至包装的使用说明书)。

  本发明的试剂盒可以与其他的构成要素(例如其他的化合物或这些其他化合物的药物组合物)一起或者没有这些地、具有包含本发明的药物组合物的制剂的单一的容器;或者根据各构成要素而具有别的容器。

  优选的是,本发明的试剂盒包含用于以如下组合的形式使用而被包装的本发明的配方,所述组合是第二化合物(佐剂(例如GM-CSF)、化学疗法药剂、天然生成物、激素或拮抗药、其他药物等)或其药物组合物的伴随给药。该试剂盒的构成要素可以预先以复合体的形式做成,或者直到对患者进行给予为止、各构成要素能够装入不同的各个容器中。该试剂盒的构成要素可以以1个或其以上的液体溶液的形式提供,优选为水溶液,更优选为灭菌水溶液。该试剂盒的构成要素可以以固体的形式提供,优选能够将其加入至用别的不同的容器提供的合适的溶剂而转化成液体。

  作为疗法试剂盒的容器,可以是小瓶、试管、烧瓶、瓶、注射器、或用于密封固体或液体的其他任意的设备。通常,有多个构成要素的情况下,该试剂盒以能够分别给药的方式包含第二小瓶或其他的容器。该试剂盒也可以包含药学上允许的液体用的其他的容器。优选的是,治疗试剂盒包含:能够给予作为该试剂盒的构成要素的本发明的药剂的器具(例如1个或其以上的针、注射器、滴眼器、移液管等)。

  本发明的药物组合物适合于以经口(经肠)、经鼻腔、经眼、皮下、皮内、肌肉内、静脉内、或经皮这样的任意允许的途径给予该肽。该给予优选为皮下给予,最优选为皮内给予。给予可以通过注入泵来进行。

  本说明书中,“指示书”是记载对于医师或其他使用者使用本发明的方法的说明。该指示书记载了指示本发明的检测方法、诊断试剂的使用方法、或者给予药物等的文字。另外,指示书中也可以记载指示经口、经食道的给予(例如利用注射等)作为给予部位的文字。该指示书明确记载了,按照本发明所实施的国家的监督官厅(例如如果是日本则是厚生劳动省、如果是美国则是食品药品局(FDA)等)所规定的样式制作、受到该监督官厅承认的主旨。指示书是所谓的随附文书(package insert),通常以纸介质来提供,但不限定于此,还可以以例如电子介质(例如互联网所提供的主页、电子邮件)这样的形式提供。

  本说明书中,“或者”在可以采用文章中所列举的事项的“至少一个以上”时使用。“或”也是同样的。本说明书中,在记载“2个值”的“范围内”的情况下,该范围也包含2个值自身。

  (一般技术)

  本说明书中所使用的分子生物学的手法、生化学的手法、微生物学的手法、生物信息学在该领域中是公知的,可以使用公知或惯用的任意的技术。

  本说明书中所引用的科学文献、专利、专利申请等参考文献可以以其整体、与各个具体记载的内容相同的程度,在本说明书中作为参考而引用。

  以上,示出用于容易理解而优选的实施方式来对本发明进行说明。以下,可以基于实施例来对本发明进行说明、上述的说明及以下的实施例仅以例示的目的而提供,并非以限定本发明的目的而提供。因此,本发明的范围并非限定于本说明书中具体记载的实施方式、实施例,而仅限定于权利要求书的范围。

  实施例

  以下记载了实施例。必要的情况下,以下的实施例中,全部的实验按照大阪大学伦理委员会所承认的指导方案来实施。试剂类具体而言,使用了实施例中记载的产品,但是也可以代用其他制造商(Sigma-Aldrich、和光纯药、Nacalai Tesque、R&D Systems、USCNLife Science INC等)的同等产品。

  (实施例1:抗体的抗原特异的聚类)

  由抗体-抗原复合物的晶体结构,基于抗原表位特异性对抗体序列进行聚类。

  (数据组)

  由Sab Dab(http://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/Welcome.php,2017年3月16日版)下载抗原抗体复合物晶体结构列表。将阈值设为寻找与抗体接触的抗原的重原子。残留抗原的残基长度为3以上的抗原,进而将抗原抗体的序列的重叠部分用CD-HIT去除。使用FASTA(使用默认设定)进行抗原序列的局部比对,提取一致部分,将与各抗原序列上的抗体序列的接触残基保留了65%以上、并且与5残基以上相同的抗原残基接触、且接触残基的RMSD小于5.0A的序列,视为识别同一表位。最后,将抗体的重链与轻链序列连接而使用CD-HIT、将具有90%以上的序列同源性的削除。以整体的形式得到23220对、其中465为正、剩下的为误的数据组。由此,随机地80%在学习组中使用、剩下的20%在测试组中使用。(表1、表2)。

  [表1-1]

  

  [表1-2]

  

  表1.学习组

  [表2]

  

  表2.测试组

  (特征量提取)

  分别针对抗体的对,对于重链和轻链各自的3个CDR和4个FR(framework)区域进行鉴定。各区域的每一个得到上述特征量。

  ·基于BLOSUM62的序列同源性评分

  ·氨基酸序列的长度的差

  ·所比对的残基的个数。

  (机器学习和超参数最优化)

  使用作为python的机器学习用库的、sklearn的Grid Search CV,对于随机森林的tree数与各tree的leaf数进行网格搜索(Grid search),进行5次交叉验证的结果平均MCC(Matthews correlation coefficient)成为最高。赋予最高的MCC的超参数是(tree数、tree的leaf数)=(9,60)。

  使用最佳的超参数,再度使用学习组整体进行学习,将其结果应用于测试组。其结果,MCC为0.85。

  (结论)

  可以判断,能够由抗体-抗原复合物的晶体结构,基于抗原表位特异性对抗体序列进行聚类。

  (实施例2:TCR的抗原特异的聚类)

  本实施例中显示了,仅由TCR-pMHC结合信息进行TCR的聚类,反映了簇不同的结合特异性(mode)。

  (数据组)

  由下述的3个数据库取得TCR序列数据(2017年10月2日取得数据)。

  ·ATLAS:https://zlab.umassmed.edu/atlas/web/help.php

  ·VDJdb:https://vdjdb.cdr3.net/

  ·McPAS-TCR:http://friedmanlab.weizmann.ac.il/McPAS-TCR/

  其中,仅提取来源于人和小鼠的TCR,将重复的条目(V基因、J基因、CDR3序列相同)削除,结果制成了10727的特有的TCRβ链的数据组(分别具有pMHC的信息)。

  (特征量提取)

  机器学习中所使用的特征量可以使用以下的特征量。

  (1)基于V-、J-基因的特征量

  通过IMGT(http://www.imgt.org/vquest/refseqh.html)取得人和小鼠的TRAV、TRBV、TRAJ、TRBJ基因的氨基酸序列信息,进行各基因家族的全局比对,得到多重序列比对。提取基于IMGT的定义的CDR1、CDR2、FR1、FR2、FR3、FR4。还提取了由81位至86位(基于IMGT的定义)的氨基酸所定义的、CDR2.5区域(Dash,P.,Fiore-Gartland,A.J.,Hertz,T.,Wang,G.C.,Sharma,S.,Souquette,A.,…Thomas,P.G.(2017).Quantifiable predictivefeatures define epitope-specific T cell receptor repertoires.Nature.https://doi.org/10.1038/nature22383)。

  (2)基于CDR3的特征量

  提取CDR3区域(基于IMGT的定义,由105位至117位的氨基酸)的序列。数据库中记载的序列直接使用而不是由全长序列提取。进而得到削减的CDR3(削减了CDR3的最初的3个氨基酸与最后的2个氨基酸)。

  (3)物理量的特征量/总电荷

  对于各个区域(CDR1,CDR2,CDR2.5,CDR3,FR1,FR2,FR3,FR4),将各区域所包含的侧链的ph7.5处的电荷相加。

  ·计算CDR3区域的疏水性Kyte&Doolittle的疏水性指数(index ofhydrophobicity)。

  (4)基于对的比较的特征量

  除了上述的每个TCR的特征量之外,对于全部的每对TCR的特征量也进行计算。

  序列间距离:对于TCR-A和TCR-B,以上述生成的多重序列比对为基础,基于BLOSUM62代入行列(Henikoff,S.,&Henikoff,J.G.(1992).Amino acid substitutionmatrices from protein blocks.Proceedings of the National Academy of Sciences,89(22),10915-10919.https://doi.org/10.1073/pnas.89.22.10915),计算各个区域(CDR1,CDR2,CDR2.5,CDR3,FR1,FR2,FR3,FR4)的每个序列间距离。

  非序列特征量:作为布尔(Boolean)型特征量,各区域(CDR1,CDR2,CDR2.5,CDR3,FR1,FR2,FR3,FR4)的电荷是否具有相同的符号(+或者-)。以及、考虑CDR3区域的疏水性的差的绝对值。

  (机器学习算法和超参数最优化)

  (1)机器学习预测模型

  使用作为开放资源的Light GBM gradient boosting框架(https://github.com/Microsoft/LightGBM),使之学习TCR对是否与相同表位结合。此时,将以下的超参数进行了最优化:tree数、每个tree的leaf数、学习速率、正误的相对的权重。

  (2)聚类算法

  基于预测结果,根据梯度的聚类法进行聚类。此时,设定固定的预测値的阈值,但阈值也会在超参数的最优化时被最优化。

  (3)学习/测试组划分和评价

  由数据组生成的成对序列基于所结合的表位,80%的表位被分配至学习组、20%被分配至测试组。将该分配重复进行10次。

  评分:将通过基于各个超参数组的学习而制成的预测模型应用于测试组,进行评价。使用MCC评分、修正的兰德系数、同质性评分(homogeneity score)进行评价。重复进行10次学习/预测/聚类/评价。选择同质性评分大于0.9的模型中的、平均MCC评分最高的模型。

  (结果)

  超参数最优的是(tree数、每个tree的leaf数、学习速率、正误的相对的权重)=(50,30,0.1,1.6)。另外,梯度的聚类的阈值被设定为0.6。(图2)将被最优化的模型应用于识别来源于TCR-pMHC晶体结构已知的EBV(Epstein-Barr Virus,埃巴病毒)的表位的TCR。其结果可知,即便是相同pMHC,识别不同位置的TCR被分为不同的簇,聚类结果反映了结合模式(图3)。

  (实施例3:来源于HIV的抗原特异的TCR的抗原肽和提呈MHC的预测)

  本实施例表示,进行抗原未知TCR与抗原已知TCR序列的聚类,由抗原已知TCR序列的信息,能够预测抗原未知TCR序列的抗原。

  (数据组)

  使用:由国立感染症研究所得到的14例人待检体来源的HIV来源肽A特异的TCR序列115份;7例人待检体来源的HIV来源肽B特异的TCR序列82份;实施例2所使用的数据组所包含的236份不重复的HIV抗原(7种)特异的TCR。

  (预测)

  数据组中应用使用实施例2的最优的超参数得到的机器学习模型。梯度的聚类的阈值也同样为(0.6)。将聚类结果示于图4。可知肽A特异的序列与B特异的序列分离。另外,实施例2中所使用的数据组所包含的簇可由簇内的TCR序列所识别的pMHC信息预测识别的抗原。

  (实施例4:使用了利用TCR进行聚类的乳癌诊断)

  本实施例中,从由乳癌患者和健康人得到的外周CD8+T细胞TCR-β链的信息,提取乳癌患者特征的TCR,发现与乳癌相关联的免疫应答。

  (数据组)

  利用D.J.Munson,etal.,PNAS 113(29)8272-8277,2016中所报告的、GeneExpression Omnibus(GEO)database中所上传且公开的乳癌患者20名、健康人6名的外周血CD8+T细胞受体β链序列信息。

  (结果)

  数据组中应用实施例2中最优化的机器学习模型。由于各样品(供体)的序列数不同,结合最小样品的序列数进行100次采样,计数属于各簇的序列的表达次数。表达次数少的簇(0-1/26人)排除到研究之外。使用得到的簇构筑向量。

  其结果,使用外周血CD8+T细胞受体β链序列信息划分乳癌患者和健康人。(图7)

  (实施例5:使用了无监督学习的TCR聚类)

  本实施例中,使用无监督学习提取特征量、进行聚类。

  (数据组)

  无监督学习(autoencoder)的实现使用R.O.Emerson,et al.,Nature Genetics,49(5),659-665,2017,使用Adaptive Biotechnologies,Inc的immuno SEQ所公开的外周血T细胞受体β链序列信息。所使用的序列数整体是1000万序列左右。

  使用M.Shugay,et al.,Nucleic Acids Research,46(D1),D419-D427,2018.所公开的数据库VDJdb所包含的T细胞受体(TCR)β链序列信息对于聚类结果进行评价。

  (实现)

  使用Tensor Flow进行实现。输入是V基因序列或CDR3区域的氨基酸序列(基于IMGT的定义)。无监督学习(Autoencoder)是由对称的3层全连接层(fully-connected)构成的。隐藏层分别由100,200,500的隐藏单元构成。对于各隐藏层,使用批标准化(batchnormalization)、和ReLU型的活性化函数。嵌入层(Embedding)由50线性单元构成,使用tanh函数作为活性化函数。输出层由线性单元构成,使用softmax函数作为活性化函数,输出了各单元中的20种氨基酸的概率分布。

  使用得到的嵌入层(Embedding)作为表达TCR序列的高维向量,使用聚类算法DBSCAN对TCR序列进行聚类,由此进行TCR的抗原特异的聚类。

  使用VDJdb所包含的条目进行评价。条目包含TCRβ链的序列及其所识别的肽-MHC复合物的信息。VDJdb中还有包含有α链的条目,但仅使用了β链的信息。

  (结果)

  DBSCAN的最优的参数通过网格搜索(grid search)而得到。聚类的评价将同质性评分设为>0.9并且依据修正的RAND评分。此处,同质性评分表示簇中包含的TCR所识别的肽和MHC的最大者的比例。得到的RAND评分为0.022。(图8)

  (实施例6:将TCR/BCR以外的生物体信息组合而进行诊断)

  本实施例中,在乳癌治疗时,将治疗选择中所使用的基因的表达或突变与免疫应答相关联。

  (数据组)

  使用与实施例4相同的数据组。适宜使用实施例5中被最优化的机器学习模型。其中,聚类如下进行。首先,使用Scipy模块通过不加权算术平均组对法(UPGMA),由50维的数据制成连接阵列(linkage matrix)。此处,Metric选择Euclidian。接着,由连接阵列进行梯度的聚类(将固定长度:t=0.97作为阈值)。仅将由4样品以上形成的簇应用于后面的计算中。与基因相关的信息利用D.J.Munson,et al.,PNAS 113(29)8272-8277,2016的Table.1中记载的HER2+、ER+、PR+的列。

  (结果)

  将患者组划分为包含重复的癌症(全部患者)、HER2+(HER2+患者)、ER+(ER+患者)、PR+(PR+患者),寻找与Healthy(健康人)的表达差有显著的统计学意义的簇。应用实施例2中被最优化的机器学习模型,用Fisher's的正确概率推定推定(p<0.05)表达差。其结果,癌症患者的免疫应答分为对各癌症患者组特异的免疫应答、和共通的免疫应答。(图9)

  (实施例7:基于序列类似性的TCR聚类)

  本实施例中,使用实施例4的修饰手法,使用CDR3的序列类似性提取特征量,进行聚类。

  (数据组)

  与实施例4同样地,利用D.J.Munson,et al.,PNAS 113(29)8272-8277,2016中所报告的、Gene Expression Omnibus(GEO)database中所上传且公开的乳癌患者20名、健康人6名的外周血CD8+T细胞受体β链序列信息。

  (实现)

  对数据组的外周血CD8+T细胞受体β链序列信息用V基因和CDR3的长度进行划分。此处,V基因序列和CDR3区域的氨基酸序列基于IMGT的定义。分别对于所划分的数据组,基于利用CD-HIT的序列同源性进行聚类。此处,CD-HIT应用于CDR3序列,将序列同源性的阈值设定为80%。簇中,仅对4人以上的供体所表达的簇进行了解析。对各供体以簇作为基准进行进化树解析(图10)。此处,进化树解析使用UPGMA法。(图11)

  使用外周血CD8+T细胞受体β链序列信息划分乳癌患者和健康人。

  (诊断中的应用)

  与实施例6同样的诊断中,应用本实施例的结果,与实施例6同样地,癌患者的免疫应答可以确认被分为对各癌患者组特异的免疫应答、和共通的免疫应答,证实了本发明的通用性高。

  (实施例8:免疫节点抑制剂副作用预测)

  本实施例中,通过与健康人样品的比较,鉴定出特定的副作用中特有的TCR簇,从而进行副作用预测、诊断。

  (数据组)

  对于肺癌患者中适用免疫节点抑制剂的患者,给予免疫节点抑制剂。在给予2周后,另外作为追踪在1个月或3个月后,由外周血得到单核细胞(PBMC)。之后,2例患者出现了特定的副作用,因此使用由该2名患者得到的待检体。另外,作为比较,使用实施例4中利用的T细胞受体β链序列。

  (结果)

  由2例肺癌患者待检体进行患者HLA的分型。进而,参照针对同样副作用患者的公知的文献,特定与该副作用的关联被质疑的HLA的超级类型。接着,由实施例4参照的数据组提取具有相同HLA超级类型的供体的数据,作为比较组。该供体有65例。

  对于比较组和肺癌患者待检体(给予2周后和追踪)进行聚类。对于各个簇所包含的副作用组、和健康人组的序列数进行比较,鉴定肺癌患者待检体的序列显著高的簇。此处,显著性差异的评价使用Fischer的正确概率检测。作为结果可见18副作用组特有的簇(图12)。

  (实施例9:由感染症嫌疑的病理待检体或者外周血待检体得到的免疫细胞受体簇中鉴定病原体)

  (数据组)

  感染症嫌疑的病理或外周血待检体、以及与特定的感染症的相关(与感染症病毒抗原的结合)利用已知的B细胞/T细胞受体序列数据(参照数据)。

  (结果)

  通过对参照数据和该待检体来源的序列同时进行聚类,在被怀疑有感染症但利用PCR等现有的手法不能鉴定出病原体的例中,确定存在有病原体特异的免疫细胞的感染源,从而能够进行确定诊断。

  (实施例10:从癌浸润T细胞中鉴定癌特异的T细胞)

  癌浸润了的T细胞被分为对癌特异的和对癌非特异的。通过T细胞受体聚类可以将它们分离。

  (数据组)

  对来源于1例黑色素瘤患者的癌浸润T细胞(TIL)进行单细胞测序,各个细胞得到T细胞受体序列。作为参照用数据组利用实施例4中所使用的。

  (结果)

  进行癌患者的HLA分型,从参照用数据组中选择至少一个HLA超级类型(supertype)一致的供体的数据。其结果,得到523例数据作为比较数据组。对比较数据组和来源于癌患者的T细胞受体β链序列进行聚类解析。聚类可以应用与实施例5中所使用的相同的聚类。在很多簇可见与来源于健康人的比较数据组的重叠。其中,这些TIL中的细胞数少。另一方面,与比较数据组的重叠小的簇在TIL中的细胞数也多,表明其癌特异。进一步,通过调查来源于同一患者外周血的TCR簇,排除外周血中相对增加的簇,从而能够进一步将癌特异的簇缩小。由此,能够通过使用比较数据组来鉴定癌特异的T细胞。

  (实施例11:使用了癌特异的T细胞的、药剂有效性的评价)

  使用上述实施例、或者用别的方法(例如实验地或者通过与健康人的比较而得到的癌患者特有的序列)特定的癌特异的T细胞,对于免疫节点或者其他的抗癌剂的有效性进行评价。

  (数据组)

  使用来源于被给予了特定药剂的患者得到的癌组织或者来源于外周血的T细胞受体序列,对于给予药剂后的癌特异的T细胞簇的个数或者序列数进行测定。通过将药剂有效性与特定簇存在的关联、癌特异的T细胞簇的个数、或序列数相关联,从而能够构筑药剂的有效性评价指标。

  (备注)

  简称(Abbreviations)

  TCR:T细胞受体

  ML:机器学习

  CDR:互补决定区

  MCC:马修斯相关系数

  BLOSUM:BLOcks SUbstitution Matrix a.a.氨基酸

  (注解)

  如以上,可以通过使用本发明优选的实施方式例示本发明,但可以理解为本发明的范围应解释为仅权利要求书的范围。本说明书中所引用的专利、专利申请和文献其内容自身与具体地记载于本说明书的同样地,应该理解为该内容作为参考援引至本说明书中。本申请要求在日本国特许厅于2018年3月16日申请的日本国专利申请特愿2018-49440的优先权,该申请的全部内容可作为参考援引至本申请中。

  产业上的可利用性

  对于免疫相关疾病精确度高,并且能应用于临床。

  序列表的自由文本

  序列号1:来源于EBV的表位(FLRGRAYGL)

  序列表

  <110> 弘泰生物科技股份有限公司(KOTAI Biotechnologies, Inc.)

  <120> 免疫实体有效的聚类

  <130> F519PCT018

  <160> 1

  <170> PatentIn version 3.5

  <210> 1

  <211> 9

  <212> PRT

  <213> 人工序列(artificial sequence)

  <220>

  <223> 源自 EBV的表位

  <400> 1

  Phe Leu Arg Gly Arg Ala Tyr Gly Leu

  1 5

《免疫实体有效的聚类.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)