从掩蔽蛋白表示预测完整蛋白表示的制作方法

未命名 10-28 阅读:96 评论:0

从掩蔽蛋白表示预测完整蛋白表示


背景技术:

1.本说明书涉及从掩蔽(masked)蛋白表示预测完整蛋白表示。
2.蛋白由一个或多个氨基酸序列指定。氨基酸是有机化合物,其包括氨基官能团(functional group)和羧基官能团,以及氨基酸特异性(specific)的侧链(即原子团)。
3.蛋白折叠(folding)是指氨基酸序列折叠成三维构型的物理过程。蛋白的结构定义了蛋白经历蛋白折叠后蛋白氨基酸序列中原子的三维构型。当在通过肽键连接的序列中时,氨基酸可以被称为氨基酸残基。
4.可以使用机器学习模型进行预测。机器学习模型接收输入并基于所接收的输入生成输出,例如预测的输出。一些机器学习模型是参数模型,并且基于所接收的输入和模型的参数值来生成输出。一些机器学习模型是深度模型,其采用多层模型来为接收到的输入生成输出。例如,深度神经网络是深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收到的输入以生成输出。


技术实现要素:

5.本说明书描述了在一个或多个位置中的一个或多个计算机上实施为计算机程序的蛋白重建系统,其可以使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽。蛋白重建神经网络不限于具有特定的架构,并且如稍后所述,该系统可以通过联合处理蛋白的氨基酸序列和结构的表示来提高蛋白表示的准确性。
6.如本说明书通篇所用,术语“蛋白”可以理解为是指由一个或多个氨基酸序列指定的任何生物分子。例如,术语蛋白可以理解为是指蛋白结构域(即,可以几乎独立于氨基酸序列的其余部分进行蛋白折叠的氨基酸序列的一部分)或蛋白复合物(即,由多个相关的氨基酸序列指定)。
7.在整个说明书中,嵌入是指数值的有序集合,例如,数值的向量或矩阵。
8.根据第一方面,提供了一种由一个或多个数据处理装置执行的用于使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽的方法,该方法包括:接收蛋白的掩蔽表示,其中蛋白的掩蔽表示包括:(i)蛋白的氨基酸序列的表示,其包括多个嵌入,每个嵌入对应于蛋白的氨基酸序列中的相应位置,以及(ii)蛋白的结构的表示,其包括多个嵌入,每个嵌入对应于蛋白的相应结构特征,其中包括在蛋白的掩蔽表示中的嵌入中的至少一个被掩蔽;以及使用蛋白重建神经网络处理蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的相应预测嵌入,其中与蛋白的氨基酸序列的表示中的掩蔽嵌入相对应的预测嵌入定义了对氨基酸序列中对应位置处的氨基酸的同一性的预测。其中与蛋白的结构的表示中的掩蔽嵌入相对应的预测嵌入定义了对蛋白的相应结构特征的预测。
9.在一些实施方式中,该方法还包括:通过用相应的预测嵌入替换蛋白的掩蔽表示中的掩蔽嵌入的适当子集来更新蛋白的掩蔽表示;以及使用蛋白重建神经网络处理更新的蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个剩余掩蔽嵌入相对应的相应预测嵌入。
10.在一些实施方式中,蛋白的氨基酸序列的表示包括一个或多个掩蔽嵌入,并且该方法还包括:使用蛋白折叠神经网络处理蛋白的预测氨基酸序列,以生成定义了预测氨基酸序列的预测蛋白结构的数据,蛋白的预测氨基酸序列通过用相应的预测嵌入替换氨基酸序列的表示中的每个掩蔽嵌入来定义;以及使用蛋白重建神经网络处理以下两者:(i)蛋白的掩蔽表示,以及(ii)预测氨基酸序列的预测蛋白结构,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的新的预测嵌入。
11.在一些实施方式中,包括在蛋白的掩蔽表示中的每个掩蔽嵌入是默认嵌入。
12.在一些实施方式中,默认嵌入包括零向量。
13.在一些实施方式中,与蛋白结构的表示中的掩蔽嵌入相对应的每个预测嵌入定义了对蛋白的结构中的相应氨基酸对之间的空间距离的预测。
14.在一些实施方式中,蛋白的氨基酸序列的表示的嵌入中的至少一个被掩蔽。
15.在一些实施方式中,蛋白结构的表示的嵌入中的至少一个被掩蔽。
16.在一些实现方式中,蛋白的氨基酸序列的表示包括多个单一嵌入,每个嵌入对应于蛋白的氨基酸序列中的相应位置;蛋白的结构的表示包括多个成对嵌入,每个成对嵌入对应于蛋白的氨基酸序列中的相应位置对;蛋白重建神经网络包括更新块序列;每个更新块具有一组相应的更新块参数,并且执行以下操作,所述操作包括:接收当前成对嵌入和当前单一嵌入;基于当前成对嵌入,根据更新块的更新块参数的值,更新当前单一嵌入;以及基于更新的单一嵌入,根据更新块的更新块参数的值,更新当前成对嵌入;并且更新块序列中的最终更新块生成最终成对嵌入和最终单一嵌入。
17.在一些实施方式中,蛋白重建神经网络执行进一步操作,所述进一步操作包括,对蛋白的氨基酸序列的表示中的一个或多个掩蔽单一嵌入中的每一个:基于由最终更新块生成的相应的最终单一嵌入,生成针对掩蔽单一嵌入的预测嵌入。
18.在一些实施方式中,蛋白重建神经网络执行进一步操作,所述进一步操作包括,对蛋白的氨基酸序列的表示中的一个或多个掩蔽成对嵌入中的每一个:基于由最终更新块生成的相应的最终成对嵌入,生成针对掩蔽成对嵌入的预测嵌入。
19.在一些实施方式中,基于当前成对嵌入更新当前单一嵌入包括:使用对当前单一嵌入的注意力来更新当前单一嵌入,其中注意力以当前成对嵌入为条件。
20.在一些实施方式中,使用对当前单一嵌入的注意力来更新当前单一嵌入包括:基于当前单一嵌入来生成多个注意力权重;基于当前成对嵌入来生成与注意力权重中的每个注意力权重相对应的相应注意力偏置;基于注意力权重和注意力偏置生成多个偏置的注意力权重;以及基于偏置的注意力权重,使用对当前单一嵌入的注意力来更新当前单一嵌入。
21.在一些实施方式中,基于更新的单一嵌入来更新当前成对嵌入包括:将变换操作应用于更新的单一嵌入;以及通过将变换操作的结果添加到当前成对嵌入来更新当前成对嵌入。
22.在一些实施方式中,变换操作包括外积运算。
23.在一些实施方式中,基于更新的单一嵌入来更新当前成对嵌入还包括:在将变换操作的结果添加到当前成对嵌入之后:使用对当前成对嵌入的注意力来更新当前成对嵌入,其中注意力以当前成对嵌入为条件。
24.根据另一方面,提供了一种获得配体的方法,其中配体是药物或工业酶的配体,该
方法包括:通过生成定义了靶蛋白的完整蛋白结构表示的预测嵌入来确定靶蛋白的预测结构,其中蛋白的掩蔽表示包括靶蛋白的氨基酸序列的完整表示,并且其中蛋白的结构的表示包括靶蛋白的结构的完全掩蔽表示;评估一个或多个候选配体与靶蛋白的预测结构的相互作用;以及根据评估结果选择一个或多个候选配体作为配体。
25.根据另一方面,提供了一种获得配体的方法,其中配体是药物或工业酶的配体,所述方法包括:通过生成定义了每个靶蛋白的完整蛋白结构表示的预测嵌入来确定多个靶蛋白中的每一个的预测结构,其中对于每个靶蛋白,蛋白的掩蔽表示包括靶蛋白的氨基酸序列的完整表示,并且其中蛋白的结构的表示包括靶蛋白的结构的完全掩蔽表示;评估一个或多个候选配体与每个靶蛋白的预测结构的相互作用;以及选择一个或多个候选配体作为配体以i)获得与每个靶蛋白相互作用的配体,或ii)获得仅与一个靶蛋白相互作用的配体。
26.在一些实施方式中,靶蛋白包括受体或酶,并且配体是受体或酶的激动剂或拮抗剂。
27.根据另一个方面,提供了一种获得多肽配体的方法,其中配体是药物或工业酶的配体,所述方法包括:对于一个或多个候选多肽配体中的每一个,通过生成定义了候选多肽配体的完整蛋白结构表示的预测嵌入来确定候选多肽配体的预测结构,其中对于一个或多个候选多肽配体中的每一个,蛋白的掩蔽表示包含候选多肽配体的氨基酸序列的完整表示,并且其中蛋白的结构的表示包含候选多肽配体的结构的完全掩蔽表示;获得靶蛋白的靶蛋白结构;评估一个或多个候选多肽配体中的每一个的预测结构与靶蛋白结构之间的相互作用;以及根据评估结果选择一个或多个候选多肽配体中的一个作为多肽配体。
28.在一些实施方式中,靶蛋白包括受体或酶,并且配体是受体或酶的激动剂或拮抗剂,或者多肽配体包括抗体,并且靶蛋白包括抗原,并且抗体与抗原结合以提供治疗效果。
29.根据另一方面,提供了一种获得抗原的抗体的方法,所述方法包括:通过生成预测嵌入来确定抗体的预测结构和氨基酸序列,预测嵌入定义了i)抗体的完整氨基酸序列表示,和ii)抗体的完整蛋白结构表示,其中蛋白的掩蔽表示包括与抗原结合的抗体的补位的表示,并且包括i)抗体的氨基酸序列的部分掩蔽表示,和ii)抗体结构的部分掩蔽表示。
30.在一些实施方式中,抗原包括病毒蛋白或癌细胞蛋白。
31.根据另一方面,提供了一种获得疾病的诊断抗体标记的方法,所述方法包括:对于一个或多个候选抗体中的每一个,通过生成定义了候选抗体的完整蛋白结构表示的预测嵌入来确定候选抗体的预测结构,其中对于一个或多个候选抗体中的每一个,蛋白的掩蔽表示包括候选抗体的氨基酸序列的完整表示,并且其中蛋白的结构的表示包括候选抗体的结构的完全掩蔽表示;获得靶蛋白的靶蛋白结构;评估一个或多个候选抗体中的每一个的预测结构与靶蛋白结构之间的相互作用;以及根据评估结果选择一个或多个候选抗体中的一个作为诊断抗体标记。
32.根据另一方面,提供了一种设计具有优化特性的突变蛋白的方法,包括:获得i)已知蛋白的氨基酸序列的完整表示,和ii)已知蛋白的完整蛋白结构表示;并且对于一个或多个候选突变蛋白中的每一个,通过生成定义候选突变蛋白的完整氨基酸序列的预测嵌入来确定候选突变蛋白的预测氨基酸序列,其中生成预测嵌入包括:通过掩蔽候选突变蛋白的氨基酸序列的表示中的一个或多个嵌入来生成候选突变蛋白的部分掩蔽表示;对于每个掩蔽氨基酸嵌入,生成定义了一组可能的氨基酸类型中的每个氨基酸类型的得分的相应的得
分分布;通过根据氨基酸的得分分布对每个掩蔽氨基酸的相应类型进行采样来生成预测嵌入;以及通过从候选突变蛋白中识别预测候选突变蛋白的最优特性的预测氨基酸序列,选择候选突变蛋白之一作为突变蛋白。
33.在一些实施方式中,所述方法还包括合成突变蛋白。
34.根据另一方面,提供了一种识别蛋白错误折叠疾病的存在的方法,包括:通过生成定义了蛋白的完整蛋白结构表示的预测嵌入来确定蛋白的预测结构,其中蛋白的掩蔽表示包括蛋白氨基酸序列的完整表示,并且其中蛋白结构的表示包括蛋白结构的完全掩蔽表示;获得从人体或动物体获得的蛋白的版本的结构;将蛋白的预测结构与从人体或动物体获得的蛋白的版本的结构进行比较;以及根据比较结果识别蛋白错误折叠疾病的存在。
35.根据另一方面,提供了一种获得蛋白的氨基酸序列的方法,包括:接收蛋白的结构,其中蛋白的结构已经通过实验获得;从结构确定蛋白的完整蛋白结构表示;以及通过生成定义了蛋白的完整氨基酸序列表示的预测嵌入来确定蛋白的预测氨基酸序列,其中蛋白的掩蔽表示包括蛋白的结构的完整表示,其中蛋白的氨基酸序列的表示包括蛋白的氨基酸序列的完全掩蔽表示,并且其中蛋白的预测氨基酸序列是获得的蛋白的氨基酸序列。
36.根据另一方面,提供了一种系统,包括:一个或多个计算机;以及通信地耦合到一个或多个计算机的一个或多个存储设备,其中一个或多个存储设备存储指令,所述指令在由一个或多个计算机执行时,使得一个或多个计算机执行本文描述的方法的操作。
37.根据另一方面,提供了存储指令的一个或多个非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使得得一个或多个计算机执行本文描述的方法的操作。
38.可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
39.通常,蛋白折叠(即,从氨基酸序列预测蛋白结构)和蛋白设计(即,从蛋白结构预测氨基酸序列)是密切相关的任务。可以训练本说明书中描述的系统以并行执行这两个任务。特别地,可以向系统提供蛋白的掩蔽表示,其包括蛋白的氨基酸序列的表示和蛋白的结构的表示,其中这些表示中的一个或全部两个至少部分地被掩蔽。然后,该系统处理掩蔽蛋白表示以生成蛋白的“完整的”(即,非掩蔽的)表示,即,其包括对氨基酸序列表示和蛋白结构表示的掩蔽部分的预测。作为被训练以并行地执行蛋白折叠和蛋白设计两者的结果,该系统可以在这些任务中的每一个上实现比如果系统已经被训练以独立于另一个执行这些任务中的任一个更高的预测准确度。在一些情况下,该系统可以在蛋白折叠任务、蛋白设计任务或两者上实现可接受的预测准确度,同时比独立于另一个执行这些任务中的任一个的其他系统消耗更少的计算资源(例如,存储器和计算能力)。
40.本说明书中描述的系统可以通过在一系列迭代(a sequence of iterations)中用相应的预测嵌入递增地(incrementally)替换掩蔽蛋白表示中的掩蔽嵌入来对掩蔽蛋白表示进行去掩蔽。在一系列迭代中用相应的预测嵌入替换掩蔽蛋白表示中的掩蔽嵌入,而不是例如在单次迭代中一次全部替换,使得系统能够递增地累积上下文信息,从而以更高的准确度对掩蔽蛋白表示进行去掩蔽。
41.本说明书中描述的系统可以在一次或多次迭代中的每次迭代中预测当前氨基酸序列的蛋白结构,该蛋白结构是通过用在当前迭代中生成的相应的预测嵌入替换氨基酸序列表示中的每个掩蔽嵌入来定义的。然后,该系统可以在下一次迭代中处理全部预测蛋白
结构和掩蔽蛋白表示,这使得系统能够自适应地校正预测嵌入中导致相应的预测蛋白结构偏离靶蛋白结构表示的错误。特别地,在第一次迭代之后的每次迭代中,该系统可以至少部分地基于在先前迭代中生成的预测蛋白结构,在迭代中生成新的(并且可能校正的)预测嵌入。
42.在附图和下面的描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,主题的其他特征、方面和优点将变得更加清楚。
附图说明
43.图1示出了示例性蛋白重建系统。
44.图2示出了蛋白重建神经网络的示例架构。
45.图3示出了蛋白重建神经网络的更新块的示例架构。
46.图4示出了单一嵌入更新块的示例架构。
47.图5示出了成对嵌入更新块的示例架构。
48.图6是使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽的示例过程的流程图。
49.各个附图中相同的附图标号和名称指示相同的元素。
具体实施方式
50.图1示出了示例性蛋白重建系统100。蛋白重建系统100是在实现了下面描述的系统、组件和技术一个或多个位置中的一个或多个计算机上作为计算机程序实现的系统的示例。
51.系统100被配置为接收蛋白102的掩蔽表示,其包括:(i)蛋白的氨基酸序列的表示(即,氨基酸序列表示104),以及(ii)蛋白的结构的表示(即,蛋白结构表示106)。氨基酸序列表示104和蛋白结构表示106中的每一个通过嵌入的相应集合来表示,并且氨基酸序列表示104、蛋白结构表示106或两者的嵌入中的至少一个被掩蔽。嵌入可以被称为被“掩蔽”,例如,如果嵌入是默认(例如,预定义的)嵌入,例如,表示为零的向量(a vector of zeros)的嵌入。
52.氨基酸序列表示104可以包括对应于蛋白的氨基酸序列中的每个位置的相应嵌入。不是掩蔽嵌入的氨基酸序列表示104的每个嵌入能够表示氨基酸序列中相应位置处的氨基酸,例如,通过从一组可能的氨基酸中识别氨基酸的独热(one-hot)嵌入。所述一组可能的氨基酸可以包括例如丙氨酸、精氨酸、天冬酰胺等,并且一组可能的氨基酸中的氨基酸总数可以是例如20。
53.蛋白结构表示106可以包括与表征蛋白结构的一组“结构特征”中的每个结构特征相对应的相应嵌入。
54.例如,表征蛋白结构的一组结构特征中的每个结构特征可以定义分开蛋白结构中相应氨基酸对中的指定原子(例如,α碳原子)的空间距离(例如,以埃(angstrom)为单位测量)。在该示例中,表示蛋白结构中的一对氨基酸之间的空间距离的嵌入可以是独热嵌入,其将所述一对氨基酸之间的空间距离识别为包括在来自一组可能的距离间隔的一个距离间隔中。所述一组可能的距离间隔可以是例如0-2埃、2-4埃、4-6埃等。
55.作为另一个示例,表征蛋白结构的一组结构特征中的每个结构特征可以定义蛋白结构中相应氨基酸中的原子(例如,α碳原子)的空间位置。不是掩蔽嵌入的蛋白结构表示的每个嵌入能够表示蛋白结构中相应氨基酸中的原子的空间位置,例如,作为预定义笛卡尔(cartesian)坐标系中的x-y-z坐标。作为另一个示例,结构特征能够定义蛋白中氨基酸残基(residue)的主链原子扭转角(backbone atom torsion angle)。
56.氨基酸序列表示104和蛋白结构表示106中的某些嵌入可以被掩蔽,例如,因为它们表示未知的关于蛋白的信息。例如,如果蛋白的氨基酸序列是已知的但蛋白的结构是未知的,则氨基酸序列表示可以是“完整的”(即,没有嵌入被掩蔽),而蛋白结构表示的所有嵌入都可以被掩蔽。作为另一个示例,如果蛋白的结构是已知的但蛋白的氨基酸序列是未知的,则蛋白结构表示可以是完整的,而氨基酸序列表示的所有嵌入可以被掩蔽。作为另一个示例,如果蛋白的氨基酸序列和蛋白的结构都仅是部分已知,则氨基酸序列表示和蛋白结构表示都可以包括被掩蔽的一些嵌入和未被掩蔽的其他嵌入。
57.系统100使用蛋白重建神经网络200处理氨基酸序列表示104和蛋白结构表示106,以生成与掩蔽蛋白表示102中的每个掩蔽嵌入相对应的相应预测嵌入。对应于氨基酸序列表示104中的掩蔽嵌入的预测嵌入108能够定义蛋白的氨基酸序列中的对应位置处的氨基酸的同一性(identity)的预测。对应于蛋白结构表示106中的掩蔽嵌入的预测嵌入108能够定义对蛋白的相应结构特征的预测,例如,蛋白中相应氨基酸对中的相应原子之间的空间距离。生成预测嵌入108可以被理解为使用可以从掩蔽蛋白表示102中的非掩蔽嵌入获得的上下文信息来重建掩蔽蛋白表示102中的掩蔽嵌入。
58.蛋白重建神经网络200可以具有使其能够执行其所描述的功能的任何适当的神经网络架构,包括以任何适当的配置(例如,作为层的顺序序列)配置的任何适当的神经网络层(例如,完全连接层、卷积层、注意力层等)。参考图2-图5更详细地描述蛋白重建神经网络200的示例架构。然而,现有的蛋白重建神经网络也可以适于使用所描述的技术,即联合处理氨基酸序列和蛋白结构的表示,例如迭代地。
59.用相应的预测嵌入108替换掩蔽蛋白表示102中的掩蔽嵌入产生了完整蛋白表示110,即,使得完整蛋白表示110中的嵌入都不被掩蔽。也就是说,完整蛋白表示能够定义蛋白的氨基酸序列的完整重建(即,氨基酸序列中每个位置处的氨基酸的同一性都被指定且不被掩蔽),以及蛋白结构的完整重建(即,表征蛋白结构的一组结构特征中的每个结构特征被指定且不被掩蔽)。然后,该系统100可以提供完整蛋白表示110或其一部分(例如,仅提供完整氨基酸序列表示,或仅提供完整蛋白结构表示)作为输出。
60.在一些实施方式中,该系统100在一系列迭代中用相应的预测嵌入108递增地替换掩蔽蛋白表示102中的掩蔽嵌入。更具体地,在每次迭代中,该系统100使用蛋白重建神经网络200处理当前掩蔽蛋白表示102以生成预测嵌入108,并通过用相应的预测嵌入108替换一个或多个剩余的掩蔽嵌入来更新当前掩蔽蛋白表示102。掩蔽蛋白表示102中的剩余掩蔽嵌入的数量在每次迭代中减少,并且在最后一次迭代中,该系统100用在最后一次迭代中生成的相应的预测嵌入108替换掩蔽蛋白表示102中的所有剩余掩蔽嵌入。
61.系统100可以以各种方式中的任何一种确定掩蔽蛋白表示102中的哪些掩蔽嵌入将在每次迭代中被相应的预测嵌入108替换;下面是几个例子。
62.在一个示例中,在每次迭代中,该系统100可以随机选择掩蔽蛋白表示102中剩余
掩蔽嵌入的预定义部分(例如,15%)以由相应的预测嵌入108替换。当系统100确定在掩蔽蛋白表示102中剩余少于预定义阈值数量的掩蔽嵌入时,该系统100可以用相应的预测嵌入108替换所有剩余的掩蔽嵌入并终止迭代过程。
63.在另一示例中,在每次迭代中,该系统100可以基于氨基酸序列表示104到阵列中的嵌入的布置(arrangement)来确定氨基酸序列表示104中的哪些掩蔽嵌入要由相应的预测嵌入108替换。更具体地,氨基酸序列表示104的嵌入可以与一维(1d)阵列中的布置相关联,其中阵列中的位置i处的嵌入对应于蛋白的氨基酸i序列中的位置处的氨基酸。在每次迭代中,如果掩蔽嵌入与氨基酸序列表示的嵌入的1d阵列中的非掩蔽嵌入相邻,则系统100可以确定氨基酸序列表示104的掩蔽嵌入应该由相应的预测嵌入108替换。
64.在另一示例中,在每次迭代中,该系统100可以基于蛋白结构表示到阵列中的嵌入的布置来确定蛋白结构表示106中的哪些掩蔽嵌入要由相应的预测嵌入108替换。更具体地,蛋白结构表示106的嵌入可以与二维(2d)阵列中的布置相关联,其中阵列中的位置(i,j)处的嵌入对应于蛋白的氨基酸序列中的位置i和j处的氨基酸对。在每次迭代中,如果掩蔽嵌入与蛋白结构表示106的嵌入的2d阵列中的非掩蔽嵌入相邻,则系统100可以确定蛋白结构表示106的掩蔽嵌入应该由相应的预测嵌入108替换。一个嵌入可以被理解为与嵌入的2-d阵列中的另一嵌入“相邻”,例如,如果它们在2-d阵列的同一行中相邻,或者在2-d阵列的同一列中相邻。
65.在一系列迭代中(而不是例如一次全部)用相应的预测嵌入108替换掩蔽蛋白表示102中的掩蔽嵌入可以使系统100能够递增地累积上下文信息,从而生成更准确的预测嵌入108。
66.在一些实施方式中,氨基酸序列表示104包括至少一个掩蔽嵌入,并且在一次或多次迭代中的每次迭代中,该系统100生成与氨基酸序列表示104中的每个掩蔽嵌入相对应的相应的预测嵌入108。为了方便起见,通过用在当前迭代中生成的相应预测嵌入108替换氨基酸序列表示104中的每个掩蔽嵌入而定义的氨基酸序列将被称为“当前氨基酸序列”。在每次迭代中,该系统100可以使用蛋白折叠神经网络处理当前氨基酸序列,以生成具有当前氨基酸序列的蛋白的预测结构。然后,该系统可以在下一次迭代中将预测蛋白结构作为附加输入提供给蛋白重建神经网络200。
67.为了在下一次迭代中将预测蛋白结构作为附加输入提供给蛋白重建神经网络200,该系统100可以生成预测蛋白结构的表示。预测蛋白结构的表示可以包括与表征预测蛋白结构的一组结构特征中的每个结构特征相对应的相应嵌入。例如,如上所述,预测蛋白结构的表示可以包括表示预测蛋白结构中的氨基酸对之间的空间距离的相应嵌入。蛋白重建神经网络200可以以任何适当的方式处理由预测蛋白结构的表示定义的附加输入。例如,蛋白重建神经网络200可以对预测蛋白结构的表示与蛋白结构表示106进行求和、平均或以其他方式组合。然后,蛋白重建神经网络200可以根据蛋白重建神经网络200的参数值处理所得到的组合的蛋白结构表示和氨基酸序列表示104,以生成用于下一次迭代的预测嵌入108,如上所述。
68.蛋白折叠神经网络可以具有使其能够执行其所描述的功能(即,处理包括氨基酸序列的表示的输入以生成具有氨基酸序列的蛋白的预测结构)的任何适当的神经网络架构。特别地,蛋白折叠神经网络可以包括以任何适当的配置(例如,作为层序列)布置的任何
适当的神经网络层(例如,完全连接层、卷积层、注意力层等)。
69.将对应于当前氨基酸序列的预测蛋白结构提供给蛋白重建神经网络200可以使系统100能够隐式地比较预测蛋白结构和蛋白结构表示106。该比较可以使蛋白重建神经网络200能够校正当前氨基酸序列中的潜在错误,该潜在错误导致相应的预测蛋白结构偏离(deviate)蛋白结构表示106,从而提高系统100的性能(例如,预测准确度)。
70.系统100可以在每次迭代中生成对应于当前氨基酸序列的预测蛋白结构,并在下一次迭代中将其提供给重建神经网络,作为在每次迭代中递增地替换掩蔽蛋白表示中的掩蔽嵌入的替代方案或与之组合。也就是说,在每次迭代中,该系统可以进行以下中的一个或两个:(i)处理通过用在迭代中生成的相应的预测嵌入108替换氨基酸序列表示104中的每个掩蔽嵌入来定义的(临时)氨基酸序列,以生成在下一次迭代中提供给重建神经网络的相应的预测蛋白结构,以及(ii)使用在迭代中生成的一个或多个预测嵌入来替换掩蔽蛋白表示中的相应的掩蔽嵌入(例如,氨基酸序列表示104、蛋白结构表示106中的掩蔽嵌入,或两者)。
71.接下来更详细地描述系统100的可能应用的几个示例。
72.在一个示例中,该系统100可用于通过处理完整氨基酸序列表示和完全掩蔽蛋白结构表示以“去掩蔽”蛋白结构表示来预测对应于已知氨基酸序列的蛋白结构。去掩蔽蛋白结构表示是指生成定义了完整蛋白结构表示的预测嵌入。
73.在另一个示例中,该系统100可以用于通过处理完整蛋白结构表示和完全掩蔽氨基酸序列表示以“去掩蔽”氨基酸序列表示来预测对应于已知蛋白结构的氨基酸序列。去掩蔽氨基酸序列表示是指生成定义了完整氨基酸序列表示的预测嵌入。已知的蛋白结构可以通过使用常规物理技术的实验获得,例如x射线晶体学、磁共振技术或低温电子显微镜(cryo-em)。
74.在另一个示例中,该系统100可以用于生成具有部分已知的氨基酸序列和部分已知的蛋白结构的蛋白的完整蛋白表示。特别地,该系统可以处理表示部分已知的氨基酸序列的部分掩蔽氨基酸序列表示和表示部分已知的蛋白结构的部分掩蔽蛋白结构表示,以去掩蔽氨基酸序列表示和蛋白结构表示。可以进行从部分掩蔽氨基酸序列和部分掩蔽蛋白结构生成完整蛋白表示,例如,以设计从已知补位开始的完全抗体,例如,其选择性地结合特定抗原,特别是提供治疗效果。例如,抗原可以包含病毒蛋白或癌细胞蛋白。然后可以合成设计的抗体。
75.为了从已知补位开始设计完全抗体,该系统100可用于处理抗体氨基酸序列的部分掩蔽表示和抗体结构的部分掩蔽表示以生成抗体的完整表示。抗体的氨基酸序列的表示可以包括表示补位的已知氨基酸的独热嵌入,以及抗体中每个其他氨基酸的掩蔽氨基酸嵌入。抗体的蛋白结构的表示可以包括表示补位结构的嵌入,以及表示抗体其余部分(即,在补位之外)的结构的掩蔽嵌入。抗体的完整表示可以定义抗体中每个氨基酸的相应类型,以及抗体的结构。
76.在另一个示例中,该系统100可以用于生成具有以下各项的蛋白的完整蛋白表示:(i)部分已知的氨基酸序列和完全已知的蛋白结构,或(ii)完全已知的氨基酸序列和部分已知的蛋白结构。例如,该系统可以处理部分掩蔽氨基酸序列表示和完整蛋白结构表示以去掩蔽氨基酸序列表示。
is all you need”,21st conference on neural informational processing systems(nips2017)所述。
83.蛋白结构表示106包括对应于蛋白中的每对氨基酸的相应“对”嵌入(例如,nxn对)。不是掩蔽嵌入的每成对嵌入可以表示相应的氨基酸对之间的空间距离,例如通过独热嵌入,其将氨基酸对之间的空间距离识别为包括在来自一组可能的距离间隔的一个距离间隔中。
84.蛋白重建神经网络200包括更新块的序列206-a-n。在整个说明书中,“块”是指神经网络的一部分,例如,包括一个或多个神经网络层的神经网络的子网络。
85.蛋白重建神经网络中的每个更新块被配置为接收包括一组单一嵌入和一组成对嵌入的块输入,并处理块输入以生成包括更新的单一嵌入和更新的成对嵌入的块输出。
86.蛋白重建神经网络200将包括在蛋白重建神经网络200的网络输入中的单一嵌入202和成对嵌入204提供给第一更新块(即,在更新块序列中)。第一更新块处理单一嵌入202和成对嵌入204以生成更新的单一嵌入和更新的成对嵌入。
87.对于第一更新块之后的每个更新块,蛋白重建神经网络200向更新块提供由前一更新块生成的单一嵌入和成对嵌入,并将由更新块生成的更新的单一嵌入和更新的成对嵌入提供给下一更新块。
88.蛋白重建神经网络200通过使用更新块的序列206-a-n重复更新单一嵌入202和成对嵌入204来逐渐丰富(enrich)单一嵌入202和成对嵌入204的信息内容。
89.更新块序列中的最后一个更新块输出一组更新的单一嵌入208和一组更新的成对嵌入210。每个更新的单一嵌入208可以包括可能氨基酸集合中的每个氨基酸的相应“软”得分,并且每个更新的成对嵌入可以包括可能距离间隔集合中的每个距离间隔的相应“软”得分。
90.蛋白重建神经网络200可以将来自氨基酸序列表示104的掩蔽的单一嵌入的预测嵌入108识别为通过相应的更新的单一嵌入208表示与最高软得分相关联的氨基酸的独热嵌入。类似地,蛋白重建神经网络200可以将来自蛋白结构表示106的掩蔽成对嵌入的预测嵌入108识别为独热嵌入,该独热嵌入表示与相应的更新的成对嵌入210的最高软得分相关联的距离间隔。
91.图3示出了蛋白重建神经网络200的更新块300的示例架构,即,如参考图2所描述的。
92.更新块300接收包括当前单一嵌入302和当前成对嵌入304的块输入,并处理块输入以生成更新的单一嵌入306和更新的成对嵌入308。
93.更新块300包括单一嵌入更新块400和成对嵌入更新块500。
94.单一嵌入更新块400使用当前成对嵌入304来更新当前单一嵌入,并且成对嵌入更新块500使用更新的单一嵌入(即,由单一嵌入更新块400生成的单一嵌入)来更新当前成对嵌入304。
95.通常,单一嵌入和成对嵌入可以对互补信息进行编码。单一嵌入更新块400使用在成对嵌入中编码的互补信息来丰富单一嵌入的信息内容,并且成对嵌入更新块500使用在单一嵌入中编码的互补信息来丰富成对嵌入的信息内容。作为这种丰富的结果,更新的单一嵌入和更新的成对嵌入编码与对掩蔽蛋白表示的掩蔽嵌入进行准确地去掩蔽更相关的
信息。
96.更新块300在本文中被描述为首先使用当前成对嵌入304来更新当前单一嵌入302,然后使用更新的单一嵌入306来更新当前成对嵌入304。该描述不应被理解为将更新块限制为以此顺序执行操作,例如,更新块可首先使用当前单一嵌入来更新当前成对嵌入,且接着使用经更新成对嵌入来更新当前单一嵌入。
97.更新块300在本文中描述为包含单一嵌入更新块400(即,其更新当前单一嵌入)和成对嵌入更新块500(即,其更新当前成对嵌入)。所述描述不应理解为将更新块300限制为仅包含一个单一嵌入更新块或仅包含成对嵌入更新块。例如,更新块300可以包括多个单一嵌入更新块,其在将单一嵌入提供给成对更新块以用于更新当前成对嵌入之前多次更新单一嵌入。作为另一示例,更新块300可以包括使用单一嵌入多次更新成对嵌入的多个成对更新块。
98.单一嵌入更新块400和成对嵌入更新块500可以具有使其能够执行其所描述功能的任何适当架构。
99.在一些实施方式中,单一嵌入更新块400、成对嵌入更新块500或两者包括一个或多个“自注意力”块。如贯穿本文所使用的,自注意力块通常是指更新嵌入的集合(即,接收嵌入的集合并输出更新的嵌入)的神经网络块。为了更新给定嵌入,自注意力块可以确定给定嵌入与一个或多个所选择的嵌入(例如,所接收的嵌入集合)中的每一个之间的相应“注意力权重”,例如相似性度量,然后使用(i)注意力权重和(ii)所选择的嵌入来更新给定嵌入。例如,更新的嵌入可以包括值的总和,每个值从所选择的嵌入之一导出并且每个值由相应的注意力权重加权。为了方便起见,可以说自注意力块使用所选择的嵌入“上(over)”的注意力来更新给定的嵌入。
100.例如,自注意力块可以接收输入嵌入的集合其中是n蛋白中氨基酸的数量,并且为了更新嵌入xi,自注意力块可以确定注意力权重其中a
i,j
表示xi和xj之间的注意力权重,如下:
[0101][0102][0103]
其wq中wk和是学习的参数矩阵,softmax(
·
)表示软最大归一化运算,并且c是常数。使用注意力权重,自注意力层可以将嵌入xi更新为:
[0104][0105]
其中wv是学习的参数矩阵。(wqxi可以被称为用于输入嵌入xi的“查询嵌入”,wkxj可以被称为用于输入嵌入xi的“键嵌入”,并且wvxj可以被称为用于输入嵌入xi的“值嵌入”)。
[0106]
参数矩阵wq(“查询嵌入矩阵”)、wk(“关键嵌入矩阵”)和wv(“值嵌入矩阵”)是自注意力块的可训练参数。包括在单一嵌入更新块400和成对嵌入更新块500中的任何自注意力块的参数可以被理解为更新块300的参数,其可以被训练为参考图1描述的蛋白重建系统
100的端到端训练的一部分。通常,查询、键(key)和值嵌入矩阵的(训练的)参数对于不同的自注意力块是不同的,例如,使得包括在单一嵌入更新块400中的自注意力块可以具有不同的查询、键和值嵌入矩阵,该查询、键和值嵌入矩阵具有与包括在成对嵌入更新块500中的自注意力块不同的参数。
[0107]
在一些实施方式中,单一嵌入更新块400、成对嵌入更新块500或两者包括以成对嵌入为条件(取决于成对嵌入)的一个或多个自注意力块,即,实现以成对嵌入为条件的自注意力操作的一个或多个自注意力块。为了调节(condition)成对嵌入上的自注意力操作,自注意力块可以处理成对嵌入以生成与每个注意力权重相对应的相应的“注意力偏置(attention bias)”;然后,每个注意力权重可以被相应的注意力偏置所偏置。例如,除了根据等式(1)-(2)确定注意力权重之外,自注意力块还可以生成相应的一组注意力偏置其中b
i,j
表示xi和xj之间的注意力偏置。自注意力块可以通过将学习的参数矩阵应用于成对嵌入h
i,j
,(即,用于由(i,j)索引的蛋白中的氨基酸对)来生成注意力偏置b
i,j

[0108]
自注意力块可以确定一组“偏置注意力权重”其中c
i,j
表示在xi和xj之间的偏置注意力权重,例如,通过对注意力权重和注意力偏置求和(或以其他方式组合)。例如,自注意力块可以确定嵌入xi和xj之间的偏置注意力权重c
i,j
为:
[0109]ci,k
=a
i,j
+b
i,j
[0110]
其中a
i,j
是xi与xj之间的注意力权重,而b
i,j
是xi与xj之间的注意力偏置。自注意力块可以使用偏置的注意力权重来更新每个输入嵌入xi,例如:
[0111][0112]
其中wv是学习的参数矩阵。
[0113]
通常,成对嵌入编码表征蛋白结构和蛋白结构中氨基酸对之间的关系的信息。将以成对嵌入为条件的自注意力操作应用于一组输入嵌入允许以由在成对嵌入中编码的蛋白结构信息通知的方式更新输入嵌入。蛋白重建神经网络的更新块可以使用以成对嵌入为条件的自注意力块来更新和丰富单一嵌入和成对嵌入本身。
[0114]
可选地,自注意力块可以具有多个“头(head)”,每个头生成与每个输入嵌入相对应的相应的更新的嵌入,即,使得每个输入嵌入与多个更新的嵌入相关联。例如,每个头可以根据参考等式(1)-(4)描述的参数矩阵wq、wk和wv的不同值生成更新的嵌入。具有多个头的自注意力块可以实现“选通(gating)”操作,以组合由头对输入嵌入生成的更新的嵌入,即,生成与每个输入嵌入相对应的单一更新的嵌入。例如,自注意力块可以使用一个或多个神经网络层(例如,完全连接的神经网络层)来处理输入嵌入,以生成每个头的相应的选通值。然后,自注意力块可以根据选通值组合与输入嵌入相对应的更新的嵌入。例如,自注意力块可以生成输入嵌入xi的更新的嵌入:
[0115][0116]
其中k是头的索引,αk是头k的选通值,而是由头k对输入嵌入xi生成的更新的嵌入。
[0117]
参考图4描述使用以成对嵌入为条件的自注意力块的单一嵌入更新块400的示例架构。
[0118]
参考图5描述使用以成对嵌入为条件的自注意力块的成对嵌入更新块500的示例架构。参考图5描述的示例成对嵌入更新块通过计算更新的单一嵌入的外积(在下文中称为外积均值(outer product mean)),将外积均值的结果添加到当前成对嵌入(如果需要,投射到成对嵌入维度),并使用以当前成对嵌入为条件的自注意力块来处理当前成对嵌入,基于更新的单一嵌入来更新当前成对嵌入。
[0119]
图4示出了单一嵌入更新块400的示例架构。单一嵌入更新块400被配置为接收当前单一嵌入302,并且(至少部分地)基于当前成对嵌入来更新当前单一嵌入302。
[0120]
为了更新当前单一嵌入302,单一嵌入更新块400使用以当前成对嵌入为条件的自注意力操作来更新单一嵌入。更具体地,单一嵌入更新块400将单一嵌入提供给以当前嵌入对为条件的自注意力块402,例如,如参考图3所述,以生成更新的单一嵌入。可选地,单一嵌入更新块可以将自注意力块402的输入添加到自注意力块402的输出。对于当前成对嵌入调节自注意力块402使得单一嵌入更新块400能够使用来自当前成对嵌入的信息来丰富当前单一嵌入302。
[0121]
然后,单一嵌入更新块使用例如将一个或多个完全连接的神经网络层应用于当前单一嵌入的过渡块(transition block)来处理当前单一嵌入302。可选地,单一嵌入更新块400可以将过渡块404的输入添加到过渡块404的输出。
[0122]
单一嵌入更新块可以输出由自注意力块402和过渡块404执行的操作得到的更新的单一嵌入306。
[0123]
图5示出了成对嵌入更新块500的示例架构。成对嵌入更新块500被配置为接收当前成对嵌入304,并且(至少部分地)基于更新的单一嵌入306来更新当前成对嵌入304。
[0124]
在下面的描述中,成对嵌入可以理解为布置成n
×
n阵列,即,使得阵列中(i,j)位置处的嵌入是对应于氨基酸序列中的i和j位置处的氨基酸的成对嵌入。
[0125]
为了更新当前成对嵌入304,成对嵌入更新块500将外积均值运算502应用于更新的单一嵌入306,并将外积均值运算502的结果添加到当前成对嵌入304。
[0126]
外积均值运算定义了一系列运算,当应用于表示为1
×
n阵列的嵌入的一组单一嵌入时,生成n
×
n阵列的嵌入,即,其中n是蛋白中氨基酸的数量。当前成对嵌入304也可以表示为n
×
n阵列的成对嵌入,并且将外积均值502的结果与当前成对嵌入304相加是指对两个n
×
n阵列的嵌入求和。
[0127]
为了计算外积平均值,成对嵌入更新块生成张量(tensor)a(
·
),例如,由下式给出:
[0128]
a(res1,res2,ch1,ch2)
[0129]
=leftact(res1,ch1)
·
rightact(res2,ch2)
ꢀꢀꢀꢀꢀ
(6)
[0130]
其中res1res2∈{1,

,n}ch1ch2∈{1,

,c},其中c是每个单一嵌入中的通道的数量,leftact(res1,ch1)是应用于由res1索引的单一嵌入的通道ch1的线性运算(例如,由矩阵乘法定义的投射),并且rightact(res2,ch2)是应用于由res2索引的单一嵌入的通道ch2的线性运算(例如,由矩阵乘法定义的投射)。外积均值的结果通过对张量a的维度(ch1,ch2)进行平坦化(flattening)和线性投射来生成。可选地,成对嵌入更新块可以执行一个或多个层归一化运算(例如,如参考jimmy lei ba等人的“layer normalization”,arxiv:1607.06450所描述的)作为计算外积平均值的一部分。
[0131]
通常,更新的单一嵌入306编码关于蛋白的氨基酸序列中的氨基酸的信息。通过将在更新的单一嵌入中编码的信息合并到当前成对嵌入中(即,通过外积均值502),成对嵌入更新块500可以增强当前成对嵌入的信息内容。
[0132]
在使用更新的单一嵌入(即,通过外积均值502)更新当前成对嵌入304之后,成对嵌入更新块308使用以当前成对嵌入为条件的自注意力操作(即,“逐行”自注意力操作)将当前成对嵌入的布置的每一行中的当前成对嵌入更新为n
×
n阵列。更具体地,成对嵌入更新块500将当前成对嵌入的每一行提供给也以当前成对嵌入为条件的“逐行”自注意力块504,例如,如参考图3所述,以便为每一行生成更新的成对嵌入。可选地,成对嵌入更新块可以将对逐行自注意力块504的输入添加到逐行自注意力块504的输出。
[0133]
然后,成对嵌入更新块500使用也以当前成对嵌入为条件的自注意力操作(即,“逐列”自注意力操作)来更新n
×
n阵列的当前成对嵌入的每一列中的当前成对嵌入。更具体地,成对嵌入更新块500将每一列当前成对嵌入提供给也以当前成对嵌入为条件的“逐列”自注意力块506,以便为每一列生成更新的成对嵌入。可选地,成对嵌入更新块可以将逐列自注意力块506的输入添加到逐列自注意力块506的输出。
[0134]
然后,成对嵌入更新块500使用过渡块508处理当前成对嵌入,例如,过渡块508将一个或多个完全连接的神经网络层应用于当前成对嵌入。可选地,成对嵌入更新块500可以将过渡块508的输入添加到过渡块508的输出。
[0135]
成对嵌入更新块可以输出由逐行自注意力块504、逐列自注意力块506和转换块508执行的操作得到的更新的成对嵌入308。
[0136]
图6是用于使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽的示例过程600的流程图。为了方便起见,过程600将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,根据本说明书适当编程的蛋白重建系统,例如图1的蛋白重建系统100,可以执行过程600。
[0137]
系统接收蛋白的掩蔽表示(602)。蛋白的掩蔽表示包括:(i)蛋白的氨基酸序列的表示,其包括各自对应于蛋白的氨基序列中的相应位置的一组嵌入,以及(ii)蛋白的结构的表示,其包括各自对应于蛋白的相应结构特征的一组嵌入。包含在蛋白的掩蔽表示中的嵌入中的至少一个被掩蔽。
[0138]
接下来描述的步骤604-610可以在一次或多次迭代中的每次迭代中被执行。
[0139]
系统使用蛋白重建神经网络处理蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的相应的预测嵌入(604)。对应于蛋白的氨基酸序列的表示中的掩蔽嵌入的预测嵌入定义了对氨基酸序列中相应位置处的氨基酸的同一性的预
测。与蛋白的结构的表示中的掩蔽嵌入相对应的预测嵌入定义了对蛋白的相应结构特征的预测。
[0140]
可选地,如果当前迭代在第一次迭代之后,则系统可以提供在先前迭代中生成的预测蛋白结构(如将在步骤608-610中更详细描述的)作为蛋白重建神经网络的附加输入,即,除了蛋白的掩蔽表示之外。
[0141]
在一些实施方式中,该系统可以通过用相应的预测嵌入替换蛋白的掩蔽表示中的掩蔽嵌入的所谓的真(proper)子集(即,不包括所有掩蔽嵌入的子集)来更新蛋白的掩蔽表示(606)。然后,该系统可以进行下一次迭代(例如,通过返回到步骤604),并且在下一次迭代中,该系统可以使用蛋白重建神经网络处理更新的蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个剩余掩蔽嵌入相对应的相应预测嵌入。
[0142]
在一些实施方式中,蛋白的氨基酸序列的表示包括一个或多个掩蔽嵌入,该系统识别蛋白的预测氨基酸序列,其中氨基酸序列的表示中的每个掩蔽嵌入被相应的预测嵌入替换。系统可以使用蛋白折叠神经网络处理预测氨基酸序列,以生成定义预测氨基酸序列的预测蛋白结构的数据(608)。可以使用任何蛋白折叠神经网络,例如,基于公开的方法或基于诸如alphafold2(可获得的开源)的软件。然后,该系统可以进行下一次迭代(即,通过返回到步骤604),并且在下一次迭代中,该系统可以提供预测蛋白结构作为蛋白重建神经网络的附加输入(即,除了掩蔽蛋白表示之外)(610)。然后,蛋白重建神经网络可以处理预测蛋白结构和掩蔽蛋白表示,以便在下一次迭代中生成新的预测嵌入。
[0143]
在一些实施方式中,该系统可以在一次或多次迭代中执行全部步骤606(即,使用预测嵌入更新蛋白的掩蔽表示)和步骤608-610(即,处理预测氨基酸序列以生成预测蛋白结构并将预测蛋白结构作为附加输入提供给蛋白重建神经网络,如前所述)。
[0144]
该系统可以确定迭代过程完成,例如,在掩蔽蛋白表示中的每个掩蔽嵌入已经被相应的预测嵌入替换之后。然后,该系统可以提供完整蛋白表示作为输出,即,其中掩蔽蛋白表示的所有掩蔽嵌入已经被在一系列迭代的过程中生成的相应的预测嵌入替换。
[0145]
通常,该系统可用于通过生成定义了(靶)蛋白、多肽配体或抗体的完整蛋白结构表示的预测嵌入来确定(靶)蛋白、多肽配体或抗体的预测结构。这可以例如当蛋白的掩蔽表示包括(靶)蛋白、多肽配体或抗体的氨基酸序列的完整表示,并且蛋白的结构的表示包括(靶)蛋白、多肽配体或抗体的结构的完全掩蔽表示时实现。
[0146]
下面描述该系统的一些另外的应用。
[0147]
该系统可用于获得配体,例如药物或工业酶的配体。例如,获得配体的方法可以包括获得靶蛋白的靶氨基酸序列,并使用靶氨基酸序列来确定靶蛋白的(三级)结构。该方法可以包括评估一个或多个候选配体与靶蛋白的结构的相互作用,并根据结果选择一个或多个候选配体作为配体。评估相互作用可以包括评估候选配体与靶蛋白结构的结合(binding),例如以识别以生物效应的足够亲和力(affinity)结合的配体。候选配体可以是酶。评估可以包括评估候选配体和靶蛋白之间的亲和力,或评估相互作用的选择性。候选配体可以从候选配体的数据库得出,或通过修改(modify)候选配体数据库中的配体,或通过逐步或迭代组装或优化候选配体。评估可以例如使用计算机辅助方法来执行,其中候选配体和靶蛋白结构的图形模型被显示用于用户操作,或者评估可以部分自动或全自动地执行,例如使用标准蛋白-配体对接(docking)软件。评估可以包括确定候选配体的相互作用
得分,例如取决于相互作用的强度或特异性,例如取决于结合自由能的得分。可以根据得分来选择候选配体。
[0148]
在一些实施方式中,靶蛋白包括受体或酶,并且配体是受体或酶的激动剂或拮抗剂。在一些实施方式中,该方法可用于识别细胞表面标记(marker)的结构。然后,这可以用来识别与细胞表面标记结合的配体,例如抗体或标记(label),如荧光标记。这可以用来识别和/或治疗癌细胞。在一些实施方式中,候选配体可以包括小分子配体,例如分子量《900道尔顿的有机化合物。在一些其他实施方式中,候选配体可以包括多肽配体,即由氨基酸序列定义的多肽配体。
[0149]
该系统的一些实施方式可用于确定候选多肽配体(例如药物或工业酶的配体)的结构。然后可以评估其与靶蛋白结构的相互作用;可以使用如本文所述的计算机实施的方法或使用常规物理研究技术(诸如x射线晶体学和/或磁共振技术)确定靶蛋白结构。
[0150]
因此,该系统可用于获得多肽配体,例如分子或其序列。这可以包括获得一个或多个候选多肽配体的氨基酸序列,并使用候选多肽配体的氨基酸序列作为氨基酸序列执行如上所述的方法,以确定候选多肽配体的(三级)结构。靶蛋白的结构可以例如以电子(silico)或物理调差的方式获得,并且可以评估一个或多个候选多肽配体中的每一个的结构与靶蛋白结构之间的相互作用。可以根据评估结果选择一个或多个候选多肽配体中的一个作为多肽配体。如前所述,评估相互作用可以包括评估候选多肽配体与靶蛋白的结构的结合,例如识别以生物效应的足够亲和力结合的配体,和/或评估候选多肽配体与对靶蛋白(例如酶)的功能有影响的靶蛋白结构的关联(association),和/或评估候选多肽配体与靶蛋白结构之间的亲和力,或评估相互作用的选择性。在一些实施方式中,多肽配体可以是适体(aptamer)。同样,可以根据具有最高亲和力的多肽候选配体来选择多肽候选配体。
[0151]
如前所述,所选择的多肽配体可以包含受体或酶,并且配体可以是受体或酶的激动剂或拮抗剂。在一些实施方式中,多肽配体可以包含抗体,并且靶蛋白包含抗体靶标(target),即抗原,例如病毒,特别是病毒外壳蛋白,或在癌细胞上表达的蛋白。在这些实施方式中,抗体与抗原结合以提供治疗效果。例如,抗体可以与抗原结合并充当特定受体的激动剂;或者,抗体可以防止另一种配体与靶标结合,并因此防止相关生物途径的激活。
[0152]
这样的方法可包括合成,即制备小分子或多肽配体。配体可以通过任何常规化学技术合成和/或可以是已经可用的,例如可以来自化合物库或可以使用组合化学合成。
[0153]
该方法可以进一步包括在体外和/或体内测试配体的生物活性。例如,可以测试配体的adme(吸收、分布、代谢、排泄)和/或毒理学特性,以筛选出不合适的配体。所述测试可以包括例如使候选小分子或多肽配体与靶蛋白接触,并测量蛋白的表达或活性的变化。
[0154]
在一些实施方式中,候选(多肽)配体可以包括:分离的抗体、分离的抗体的片段、单可变结构域抗体、双特异性或多特异性抗体、多价抗体、双可变结构域抗体、免疫缀合物、纤连蛋白分子、附着蛋白(adnectin)、锚蛋白重复序列蛋白(darpin)、亲和多聚体(avimer)、亲和体(affibody)、抗运载蛋白(anticalin)、亲和蛋白(affilin)、蛋白表位模拟物或其组合。候选(多肽)配体可以包含具有突变或化学修改的氨基酸fc区的抗体,例如当与野生型fc区相比时,其阻止或降低adcc(抗体依赖性细胞毒性)活性和/或增加半衰期。
[0155]
错误折叠的蛋白与许多疾病相关联。该系统可用于识别蛋白错误折叠疾病的存在。这可以包括获得蛋白的氨基酸序列并执行如上所述的方法使用蛋白的氨基酸序列以确
定蛋白的结构,例如通过常规(物理)方法获得从人体或动物体获得的蛋白的版本(version)的结构,然后将蛋白的结构与从身体获得的版本的结构进行比较,根据结果识别蛋白错误折叠疾病的存在。也就是说,可以通过与确定的结构进行比较来确定来自身体的蛋白的版本的错误折叠。通常,识别蛋白错误折叠疾病的存在可以包括获得蛋白的氨基酸序列,使用蛋白的氨基酸序列来确定蛋白的结构,如本文所述,并将蛋白的结构与蛋白的基线版本的结构进行比较,根据比较的结果识别蛋白错误折叠疾病的存在。例如,所比较的结构可以是突变体和野生型蛋白的结构。在实施方式中,野生型蛋白可以用作基线版本,但原则上任一种都可以用作基线版本。
[0156]
在一些实施方式中,该系统可用于从其氨基酸序列识别靶蛋白上的活性/结合/阻断位点(site)。
[0157]
本说明书结合系统和计算机程序组件使用术语“配置”。对于被配置为执行特定操作或动作的一个或多个计算机的系统,意味着系统已经在其上安装了软件、固件、硬件或它们的组合,这些软件、固件、硬件或它们的组合在操作中使得系统执行操作或动作。对于被配置为执行特定操作或动作的一个或多个计算机程序,意味着一个或多个程序包括当由数据处理装置执行时使得装置执行操作或动作的指令。
[0158]
本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构及其结构等同物)或它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即,在有形非暂时性存储介质上编码的计算机程序指令的一个或多个模块,用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,其被生成以编码信息以传输到合适的接收器装置以供数据处理装置执行。
[0159]
术语“数据处理装置”是指数据处理硬件,并且涵盖用于处理数据的所有种类的装置、设备和机器,例如包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或进一步包括专用逻辑电路,例如fpga(现场可编程门阵列)或asic(专用集成电路)。除了硬件之外,装置可以可选地包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
[0160]
计算机程序(其也可以被称为或描述为程序、软件、软件应用、小程序、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释语言,或者声明或过程语言;并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中,例如,存储在标记语言文档中的一个或多个脚本,存储在专用于所讨论的程序的单一文件中,或者存储在多个协调文件中,例如,存储一个或多个模块、子程序或代码部分的文件。计算机程序可以被部署为在一个计算机上或在位于一个站点或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。
[0161]
在本说明书中,术语“引擎”广泛地用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常,引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下,一个或多个计算机将专用于
特定引擎;在其他情况下,可以在同一台或多台计算机上安装和运行多个引擎。
[0162]
本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如,fpga或asic)执行,或者由专用逻辑电路和一个或多个编程计算机的组合执行。
[0163]
适合于执行计算机程序的计算机可以基于通用或专用微处理器或两者,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常,计算机还将包括或者可操作地耦合用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘),以从其接收数据或向其传输数据或两者。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏控制台、全球定位系统(gps)接收器或便携式存储设备,例如通用串行总线(usb)闪存驱动器,仅举几例。
[0164]
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如eprom、eeprom和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及cdrom和dvd-rom盘。
[0165]
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示设备(例如,crt(阴极射线管)或lcd(液晶显示器)监视器)以及用户可以通过其向计算机提供输入的键盘和指向设备(例如,鼠标或轨迹球)的计算机上实现。其他种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求将网页发送到用户设备上的网络浏览器。此外,计算机可以通过向个人设备(例如,运行消息传送应用的智能电话)发送文本消息或其他形式的消息并且作为回报从用户接收响应消息来与用户交互。
[0166]
用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元,用于处理机器学习训练或生产的公共和计算密集部分,即推理、工作负载。
[0167]
可以使用机器学习框架(例如,tensorflow框架、microsoft cognitive toolkit框架、apache singa框架或apache mxnet框架)来实现和部署机器学习模型。
[0168]
本说明书中描述的主题的实施例可以在计算系统中实现,该计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可以通过其与本说明书中描述的主题的实现交互的图形用户界面、网络浏览器或小程序的客户端计算机),或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(lan)和广域网(wan),例如因特网。
[0169]
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客
户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将数据(例如,html页面)发送到设备的用户,例如,用于向与充当客户端的设备交互的用户显示数据和从其接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据,例如,用户交互的结果。
[0170]
虽然本说明书包含许多具体实施方式细节,但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制,而是作为可以特定于特定发明的特定实施例的特征的描述。在本说明书中在分开实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。此外,尽管特征可以在上面被描述为以某些组合起作用并且甚至最初如此要求保护,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中删除,并且所要求保护的组合可以针对子组合或子组合的变型。
[0171]
类似地,虽然在附图中描绘了操作并且在权利要求中以特定顺序叙述了操作,但是这不应被理解为要求以所示的特定顺序或按顺序执行这些操作,或者执行所有示出的操作,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的划分不应被理解为在所有实施例中都需要这种划分,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或封装到多个软件产品中。
[0172]
已经描述了主题的特定实施例。其它实施例在所附权利要求书的范围内。例如,权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定需要所示的特定顺序或相继顺序来实现期望的结果。在一些情况下,多任务和并行处理可能是有利的。

技术特征:
1.一种由一个或多个数据处理装置执行的用于使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽的方法,所述方法包括:接收蛋白的掩蔽表示,其中,所述蛋白的掩蔽表示包括:(i)蛋白的氨基酸序列的表示,其包括多个嵌入,每个嵌入对应于蛋白的氨基酸序列中的相应位置,以及(ii)蛋白的结构的表示,其包括多个嵌入,每个嵌入对应于蛋白的相应结构特征,其中,包括在蛋白的掩蔽表示中的嵌入中的至少一个被掩蔽;以及使用蛋白重建神经网络处理蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的相应预测嵌入,其中,对应于蛋白的氨基酸序列的表示中的掩蔽嵌入的预测嵌入定义了对氨基酸序列中对应位置处的氨基酸的同一性的预测,其中,与蛋白的结构的表示中的掩蔽嵌入相对应的预测嵌入定义了对蛋白的相应结构特征的预测。2.根据权利要求1所述的方法,还包括:通过用相应的预测嵌入替换蛋白的掩蔽表示中的掩蔽嵌入的适当子集来更新蛋白的掩蔽表示;使用蛋白重建神经网络处理更新的蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个剩余掩蔽嵌入相对应的相应预测嵌入。3.根据权利要求1或2所述的方法,其中,所述蛋白的氨基酸序列的表示包括一个或多个掩蔽嵌入,并且还包括:使用蛋白折叠神经网络处理蛋白的预测氨基酸序列,以生成定义了预测氨基酸序列的预测蛋白结构的数据,所述蛋白的预测氨基酸序列通过用相应的预测嵌入替换氨基酸序列的表示中的每个掩蔽嵌入来定义;以及使用蛋白重建神经网络处理以下两者:(i)蛋白的掩蔽表示,以及(ii)预测氨基酸序列的预测蛋白结构,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的新的预测嵌入。4.根据前述权利要求中任一项所述的方法,其中,包括在蛋白的掩蔽表示中的每个掩蔽嵌入是默认嵌入。5.根据权利要求4所述的方法,其中,所述默认嵌入包括零向量。6.根据前述权利要求中任一项所述的方法,其中,与蛋白的结构的表示中的掩蔽嵌入相对应的每个预测嵌入定义了对蛋白的结构中的相应氨基酸对之间的空间距离的预测。7.根据前述权利要求中任一项所述的方法,其中,所述蛋白的氨基酸序列的表示的嵌入中的至少一个被掩蔽。8.根据前述权利要求中任一项所述的方法,其中,所述蛋白的结构的表示的嵌入中的至少一个被掩蔽。9.根据前述权利要求中任一项所述的方法,其中,所述蛋白的氨基酸序列的表示包括多个单一嵌入,所述多个单一嵌入各自对应于蛋白的氨基酸序列中的相应位置;其中,所述蛋白的结构的表示包括多个成对嵌入,每个成对嵌入对应于蛋白的氨基酸序列中的相应位置对;
其中,所述蛋白重建神经网络包括更新块序列;其中,每个更新块具有一组相应的更新块参数,并且执行以下操作:接收当前成对嵌入和当前单一嵌入;基于当前成对嵌入,根据更新块的更新块参数的值,更新当前单一嵌入;以及基于更新的单一嵌入,根据更新块的更新块参数的值,更新当前成对嵌入;以及其中,所述更新块序列中的最终更新块生成最终成对嵌入和最终单一嵌入。10.根据权利要求9所述的方法,其中,所述蛋白重建神经网络执行进一步操作,所述进一步操作包括,对蛋白的氨基酸序列的表示中的一个或多个掩蔽单一嵌入中的每一个:基于由最终更新块生成的相应的最终单一嵌入,生成针对掩蔽单一嵌入的预测嵌入。11.根据权利要求9-10中任一项所述的方法,其中,所述蛋白重建神经网络执行进一步操作,所述进一步操作包括,对蛋白的氨基酸序列的表示中的一个或多个掩蔽成对嵌入中的每一个:基于由最终更新块生成的相应的最终成对嵌入,生成针对掩蔽成对嵌入的预测嵌入。12.根据权利要求9-11中任一项所述的方法,其中,基于当前成对嵌入更新当前单一嵌入包括:使用对当前单一嵌入的注意力来更新当前单一嵌入,其中,所述注意力以当前成对嵌入为条件。13.根据权利要求12所述的方法,其中,使用对当前单一嵌入的注意力来更新当前单一嵌入包括:基于当前单一嵌入,生成多个注意力权重;基于当前成对嵌入,生成与每个注意力权重相对应的相应注意力偏置;基于注意力权重和注意力偏置,生成多个偏置的注意力权重;以及基于偏置的注意力权重,使用对当前单一嵌入的注意力来更新当前单一嵌入。14.根据权利要求9-13中任一项所述的方法,其中,基于更新的单一嵌入来更新当前成对嵌入包括:将变换操作应用于更新的单一嵌入;以及通过将变换操作的结果添加到当前成对嵌入来更新当前成对嵌入。15.根据权利要求14所述的方法,其中,所述变换操作包括外积运算。16.根据权利要求14-15中任一项所述的方法,其中,基于更新的单一嵌入来更新当前成对嵌入还包括,在将变换操作的结果添加到当前成对嵌入之后:使用对当前成对嵌入的注意力来更新当前成对嵌入,其中,所述注意力以当前成对嵌入为条件。17.一种获得配体的方法,其中,所述配体是药物或工业酶的配体,所述方法包括:执行根据权利要求1-16中任一项所述的方法,以通过生成定义了靶蛋白的完整蛋白结构表示的预测嵌入来确定靶蛋白的预测结构,其中,所述蛋白的掩蔽表示包括靶蛋白的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括靶蛋白的结构的完全掩蔽表示;评估一个或多个候选配体与靶蛋白的预测结构的相互作用;以及根据评估结果选择候选配体中的一个或多个作为配体。
18.一种获得配体的方法,其中,所述配体是药物或工业酶的配体,所述方法包括:执行根据权利要求1-16中任一项所述的方法,以通过生成定义了每个靶蛋白的完整蛋白结构表示的预测嵌入来确定多个靶蛋白中的每一个的预测结构,其中,对于每个靶蛋白,所述蛋白的掩蔽表示包括靶蛋白的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括靶蛋白的结构的完全掩蔽表示;评估一个或多个候选配体与每个靶蛋白的预测结构的相互作用;以及选择一个或多个候选配体作为配体以i)获得与每个靶蛋白相互作用的配体,或ii)获得仅与一个靶蛋白相互作用的配体。19.根据权利要求17或18所述的方法,其中,所述靶蛋白包括受体或酶,并且其中,所述配体是受体或酶的激动剂或拮抗剂。20.一种获得多肽配体的方法,其中,所述配体是药物或工业酶的配体,所述方法包括:对于一个或多个候选多肽配体中的每一个,执行根据权利要求1-16中任一项所述的方法,以通过生成定义了候选多肽配体的完整蛋白结构表示的预测嵌入来确定候选多肽配体的预测结构,其中,对于一个或多个候选多肽配体中的每一个,所述蛋白的掩蔽表示包括候选多肽配体的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括候选多肽配体的结构的完全掩蔽表示;获得靶蛋白的靶蛋白结构;评估一个或多个候选多肽配体中的每一个的预测结构与靶蛋白结构之间的相互作用;以及根据评估结果,选择一个或多个候选多肽配体中的一个作为多肽配体。21.根据权利要求20所述的方法,其中,所述靶蛋白包括受体或酶,并且其中,所述配体是受体或酶的激动剂或拮抗剂,或者其中,所述多肽配体包括抗体,并且所述靶蛋白包括抗原,并且其中,所述抗体与抗原结合以提供治疗效果。22.一种获得针对抗原的抗体的方法,所述方法包括:执行根据权利要求1-16中任一项所述的方法,以通过生成预测嵌入来确定抗体的预测结构和氨基酸序列,所述预测嵌入定义了i)抗体的完整氨基酸序列表示,和ii)抗体的完整蛋白结构表示,其中,所述蛋白的掩蔽表示包括与抗原结合的抗体的补位的表示,并且包含i)抗体的氨基酸序列的部分掩蔽表示,和ii)抗体的结构的部分掩蔽表示。23.根据权利要求21或22所述的方法,其中,所述抗原包括病毒蛋白或癌细胞蛋白。24.一种获得疾病的诊断抗体标记的方法,所述方法包括:对于一个或多个候选抗体中的每一个,执行权利要求1-16中任一项所述的方法,以通过生成定义了候选抗体的完整蛋白结构表示的预测嵌入来确定候选抗体的预测结构,其中,对于一个或多个候选抗体中的每一个,所述蛋白的掩蔽表示包括候选抗体的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括候选抗体的结构的完全掩蔽表示;获得靶蛋白的靶蛋白结构;评估一个或多个候选抗体中的每一个的预测结构与靶蛋白结构之间的相互作用;以及根据评估结果,选择一个或多个候选抗体中的一个作为诊断抗体标记。25.一种设计具有优化特性的突变蛋白的方法,包括:
获得i)已知蛋白的氨基酸序列的完整表示,和ii)已知蛋白的完整蛋白结构表示;以及对于一个或多个候选突变蛋白中的每一个,执行根据权利要求1-16中任一项所述的方法,以通过生成定义了候选突变蛋白的完整氨基酸序列的预测嵌入来确定候选突变蛋白的预测氨基酸序列,其中,生成预测嵌入包括:通过掩蔽候选突变蛋白的氨基酸序列的表示中的一个或多个嵌入来生成候选突变蛋白的部分掩蔽表示;对于每个掩蔽氨基酸嵌入,生成定义了一组可能的氨基酸类型中的每个氨基酸类型的得分的相应的得分分布;通过根据氨基酸的得分分布对每个掩蔽氨基酸的相应类型进行采样来生成预测嵌入;以及通过从候选突变蛋白中识别预测候选突变蛋白的最优特性的预测氨基酸序列,选择候选突变蛋白之一作为突变蛋白。26.根据权利要求25所述的方法,还包括合成突变蛋白。27.一种识别蛋白错误折叠疾病的存在的方法,包括:执行根据权利要求1-16中任一项所述的方法,以通过生成定义了蛋白的完整蛋白结构表示的预测嵌入来确定蛋白的预测结构,其中,所述蛋白的掩蔽表示包括蛋白的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括蛋白的结构的完全掩蔽表示;获得从人体或动物体获得的蛋白的版本的结构;将蛋白的预测结构与从人体或动物体获得的蛋白的版本的结构进行比较;以及根据比较结果,识别蛋白错误折叠疾病的存在。28.一种获得蛋白的氨基酸序列的方法,包括:接收蛋白的结构,其中,所述蛋白的结构已经通过实验获得;从所述结构确定蛋白的完整蛋白结构表示;以及执行根据权利要求1-16中任一项所述的方法,以通过生成定义了蛋白的完整氨基酸序列表示的预测嵌入来确定蛋白的预测氨基酸序列,其中,所述蛋白的掩蔽表示包括蛋白的结构的完整表示,其中,所述蛋白的氨基酸序列的表示包括蛋白的氨基酸序列的完全掩蔽表示,并且其中,所述蛋白的预测氨基酸序列是获得的蛋白的氨基酸序列。29.一种系统,包括:一个或多个计算机;以及通信地耦合到所述一个或多个计算机的一个或多个存储设备,其中,所述一个或多个存储设备存储指令,所述指令在由所述一个或多个计算机执行时,使得所述一个或多个计算机执行根据权利要求1-28中任一项所述的相应方法的操作。30.一种存储指令的一个或多个非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使得所述一个或多个计算机执行根据权利要求1-28中任一项所述的相应方法的操作。

技术总结
方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽。在一个方面,一种方法包括:接收蛋白的掩蔽表示;以及使用蛋白重建神经网络处理蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的相应预测嵌入,其中与蛋白的氨基酸序列的表示中的掩蔽嵌入相对应的预测嵌入定义了对氨基酸序列中的对应位置处的氨基酸的同一性的预测,其中,与蛋白的结构的表示中的掩蔽嵌入相对应的预测嵌入定义了对蛋白的相应结构特征的预测。相应结构特征的预测。相应结构特征的预测。


技术研发人员:A
受保护的技术使用者:渊慧科技有限公司
技术研发日:2022.01.27
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐