基于迭代优化预训练大模型采样的定向蛋白质改造方法
未命名
10-25
阅读:104
评论:0
1.本发明属于蛋白质性质预测技术领域,具体涉及一种基于迭代优化预训练大模型采样的定向蛋白质改造方法。
背景技术:
2.蛋白质预训练大模型是一种基于深度学习技术,用于预测蛋白质结构和功能的模型。它类似于自然语言处理领域中的语言模型,通过在大规模蛋白质序列和结构数据上进行预训练,使模型具备更好的表征蛋白质序列和结构的能力。蛋白质预训练大模型的训练过程通常采用自监督学习的方法,即利用蛋白质序列或结构本身的特征进行无监督的预训练,例如预测缺失的蛋白质序列或结构部分。预训练完成后,模型可以在少量标记数据上进行微调,用于具体的蛋白质结构或功能预测任务。另外,也可以用于蛋白质的表征,使得模型面对完全没有标注的样本集,也有一定的泛化能力。
3.主动学习(active learning)是一种机器学习方法,它允许算法自主选择最具代表性的样本进行标注,从而尽可能地提高模型的性能。在传统的监督学习方法中,通常需要大量的标记数据来训练模型。但是,在某些情况下,标记数据可能很难获得,或者标记成本很高。此时,主动学习就可以通过主动地选择具有代表性的样本来降低标记数据的需求,从而提高学习效率和性能。主动学习的核心思想是让机器算法自己选择需要标注的样本,这些样本被称为查询样本。通常,查询样本是由计算机算法根据之前标注样本的特征和类别进行选择的。在每次迭代中,算法会根据当前模型对查询样本进行预测,并选择那些对模型预测产生最大贡献的样本进行标注。这样,每次标注的样本数量可以被控制在较小的范围内,从而提高模型训练的效率。
4.利用预训练模型学到的潜在的蛋白质语义知识,合理的设计采样方法可以达到更高的采样质量。
5.机器学习方法驱动的蛋白质性质预测是指利用机器学习技术对蛋白质性质进行预测的一类方法。这些性质可以包括蛋白质的结构、功能、稳定性、抗原性等方面的特征。在这类方法中,通常会采用一些特征提取方法对蛋白质序列或结构进行特征表示。这些特征可以包括基于生物信息学的序列特征、基于物理化学性质的结构特征等。接下来,这些特征将作为输入,被用来训练一个机器学习模型。常见的机器学习模型包括支持向量机、随机森林、神经网络等。在训练过程中,通常会使用已知的蛋白质性质数据集作为训练集。通过不断优化模型参数,使其能够在训练数据上得到更好的拟合效果。训练完成后,这个模型可以用来预测新的蛋白质性质。机器学习方法驱动的蛋白质性质预测已经在蛋白质研究和药物设计等领域发挥了重要作用。例如,利用机器学习方法可以对蛋白质的功能进行预测,从而找到新的药物靶点或设计更有效的药物。同时,这些方法也可以用来预测蛋白质的稳定性,从而指导蛋白质工程的设计。
技术实现要素:
6.鉴于上述,本发明的目的是提供一种基于迭代优化预训练大模型采样的定向蛋白质改造方法和装置,通过设计一种迭代优化的基于最优传输距离的采样方法,利用预训练大模型对目标蛋白质的预测信息,进而选取最具代表性的突变蛋白质样本,使用高通量实验设备标注样本,完成蛋白质预测模型的训练与更优突变蛋白的选取。
7.为实现上述发明目,实施例提供了一种基于迭代优化预训练大模型采样的定向蛋白质改造方法,包括以下步骤:
8.步骤1,基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到候选突变氨基酸的概率分布;
9.步骤2,根据候选突变氨基酸的概率分布,采用最优传输距离对候选突变氨基酸进行采样,得到包含采样候选突变氨基酸的目标突变蛋白质;
10.步骤3,利用高通量实验设备合成目标突变蛋白质并进行生化测试,得到目标突变蛋白质的湿实验标注结果;
11.步骤4,将带有湿实验标注结果的目标突变蛋白质作为样本对蛋白质预训练大模型进行有监督训练,利用训练后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,并根据预测值降序排序;
12.步骤5,依据降序排序筛选预测值最高的多个突变蛋白质,这些突变蛋白质综合天然蛋白质对蛋白质预训练大模型做无监督微调;
13.步骤6,利用步骤5微调后的蛋白质预训练大模型,重复步骤1-5,直至达到蛋白质改造预期目标。
14.优选地,所述基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测时,掩蔽关键突变位置的氨基酸后,输入至蛋白质预训练大模型,经过正向推理得到掩蔽位置各种天然氨基酸的出现概率,即得到候选突变氨基酸的概率分布。
15.优选地,所述采用最优传输距离对候选突变氨基酸进行采样,包括:
16.从候选突变氨基酸集合中随机选择目标数量的候选突变氨基酸组成1个可能子集,所有可能子集组成子集集合,基于候选突变氨基酸的概率分布得到每个可能子集中候选氨基酸的概率分布;从蛋白质预训练大模型中获得每种候选突变氨基酸的表征,依据表征计算任意两种候选突变氨基酸之间的差异距离;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸的概率分布,通过unbalanced sinkhorn distance计算每个可能子集的第一最优传输距离;
17.首轮迭代中,以第一最优传输距离最小的可能子集作为采样结果,并对采样得到的突变蛋白质样本进行湿实验来进行功能性表征。
18.优选地,所述采用最优传输距离对候选突变氨基酸进行采样,还包括:
19.非首轮迭代中,利用微调后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到更新后的候选突变氨基酸的概率分布;同时根据已进行湿实验标注的突变蛋白质样本得到已标注氨基酸概率分布;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸与已标注样本氨基酸概率分布计算unbalanced sinkhorn distance,得到每个可能子集的第二最优传输距离;
20.综合第二最优传输距离和第一最优传输距离确定最终采样的可能子集作为采样
结果。
21.优选地,综合第一最优传输距离和第二最优传输距离确定最终采样的可能子集作为采样结果,包括:
22.根据实际实验场景设置控制第一最优传输距离和第二最优传输距离比例的超参数,依据该比例超参数计算考虑第一最优传输距离和第二最优传输距离的最终最优传输距离,并筛选最终最优传输距离最小的可能子集作为采样结果。
23.优选地,步骤4中,将带有湿实验标注结果的目标突变蛋白质作为样本,对蛋白质预训练大模型在目标下游服务上进行有监督微调,微调后蛋白质预训练大模型对目标蛋白质关键突变位置的所有突变可能进行功能性预测,得到所有功能属性值的伪标签,并根据伪标签的大小对所有突变蛋白质降序排序,并从降序排序筛选伪标签高的多个突变蛋白质。
24.优选地,所述天然蛋白质来自于uniref蛋白质数据。
25.优选地,步骤6中,蛋白质改造预期目标是指得到目标突变蛋白质的功能性达到预期目标。
26.与现有技术相比,本发明具有的有益效果至少包括:
27.本发明通过精巧设计的基于最优传输距离的采样机制,来实现对巨大突变搜索空间的高质量采样,进而训练出高精确度的蛋白质预训练大模型。
28.本发明基于预训练的蛋白质大模型,利用迭代优化的方式,对目标蛋白质进行突变并进行生化测试,最终得到预期的改造目标。通过不断迭代,能够不断提高预测的准确性,从而提高改造的成功率。
29.相比于传统的蛋白质定向进化方法,本发明并不依赖于目标蛋白质的同源序列,鉴于自然界中存在许多蛋白质只有很少甚至没有同源序列蛋白,所以本发明在应用方面适用面更广,同时效果可以比之前使用同源序列蛋白的方法更好。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
31.图1是实施例提供的基于迭代优化预训练大模型采样的定向蛋白质改造方法的流程图;
32.图2是实施例提供的基于迭代优化预训练大模型采样的定向蛋白质改造方法的另一流程图;
33.图3是实施例提供的最优传输距离采样候选突变氨基酸的原理图。
具体实施方式
34.为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
35.如图1和图2所示,实施例提供的基于迭代优化预训练大模型采样的定向蛋白质改造方法,包括以下步骤:
36.步骤1,基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到候选突变氨基酸的概率分布。
37.蛋白质预训练大模型的训练数据来源于自然界中亿级的蛋白质样本,学习了自然界中蛋白质氨基酸序列的潜在的复杂语义知识。所以通过利用蛋白质预训练大模型,可以对目标蛋白质的关键突变位点的位置处进行候选突变氨基酸的概率分布预测,这种预测是对自然界中千万年来蛋白质突变规律的一种利用。具体预测时,对目标蛋白质的关键突变位置进行掩码,掩蔽关键突变位置的氨基酸后,输入至蛋白质预训练大模型,经过正向推理得到掩蔽位置各种天然氨基酸的出现概率,即得到候选突变氨基酸的概率分布。
38.步骤2,根据候选突变氨基酸的概率分布,采用最优传输距离对候选突变氨基酸进行采样,得到包含采样候选突变氨基酸的目标突变蛋白质。
39.实施例中,采用最优传输距离对候选突变氨基酸进行采样的过程包括:
40.从候选突变氨基酸集合中随机选择目标数量的候选突变氨基酸组成1个可能子集,所有可能子集组成子集集合,基于候选突变氨基酸的概率分布得到每个可能子集中候选氨基酸的概率分布;从蛋白质预训练大模型中获得每种候选突变氨基酸的表征,依据表征计算任意两种候选突变氨基酸之间的差异距离;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸的概率分布,通过unbalanced sinkhorn distance计算每个可能子集的第一最优传输距离,最优传输距离越小,表示采样出的氨基酸子集和蛋白质预训练大模型的预测越相符。当首轮迭代中,由于要使选取的待标注样本的概率分布与蛋白质预训练模型的概率预测尽可能接近,使得选取的待标注样本尽可能符合蛋白质预训练模型的预测,因此,选择第一最优传输距离最小的可能子集作为采样结果,同时并对采样得到的突变蛋白质样本进行湿实验来进行功能性表征。
41.针对非首轮迭代,如图3所示,还利用微调后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,更新后的候选突变氨基酸的概率分布,同时根据已进行湿实验标注的突变蛋白质样本得到已标注氨基酸概率分布;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸与已标注样本氨基酸概率分布计算,通过unbalanced sinkhorn distance计算每个可能子集的第二最优传输距离。第二最优传输距离越大,代表采样子集与已标注蛋白质的差异越大,使得样本整体更具广泛性(diversity)及信息性,有益于后续训练,由于要扩大待标注样本与已标注样本之间的差异性,所以第二最优传输距离越大越好。
42.如图3所示,利用蛋白质预训练大模型预测得到的候选突变氨基酸的概率分布表示为从中选取的可能子集的概率表示为组成可能子集的集合计算第一最优传输距离d
intra
,具体过程为:
[0043][0044]
其中,γ表示最优运输计划,1表示单位向量,代价矩阵m存储特征表示embedding的差异距离,具体为成对欧几里得距离,《γ,m》f中f表示frobenius点积,ω(γ)=∑
i,j
γ
i,j
log(γ
i,j
)是熵正则化项,kl是kullback-leibler散度,a和b分别是熵正则化系数和边际松弛系数;
[0045]
已标注氨基酸的概率分布用公式表示为:
[0046][0047]
其中,n(v)代表已标注突变蛋白质样本的各氨基酸出现次数,代表所有突变蛋白质样本的数量,计算第二最优传输距离d
inter
,具体过程为:
[0048][0049]
第一最优传输距离表示各个突变蛋白质子集与蛋白质预训练模型整体预测的差异,差异越小,代表越符合蛋白质预训练模型的预测;第二最优传输距离表示各个突变蛋白质与已标注蛋白质样本之间的差异,差异越大,越具有信息性,有利与模型的后续训练。因此,综合第二最优传输距离和第一最优传输距离确定最终采样的可能子集作为采样结果,具体地,根据实际实验场景设置控制第一最优传输距离和第二最优传输距离比例的超参数,依据该比例超参数计算考虑第一最优传输距离和第二最优传输距离的最终最优传输距离,并筛选最终最优传输距离最小的可能子集作为采样结果,用公式表示为:
[0050][0051]
其中,采样的第i个可能子集,对应的概率分布为d
intra
表示第一最优传输距离,d
inter
表示第二最优传输距离,λ表示比例超参数,v表示所有可能子集。
[0052]
在采样得到最终氨基酸可能子集后,将最终氨基酸可能子集补充到掩码位置得到目标突变蛋白质。
[0053]
步骤3,利用高通量实验设备合成目标突变蛋白质并进行生化测试,得到目标突变蛋白质的湿实验标注结果。
[0054]
实施例中,通过高通量实验设备高效快速精准的合成目标突变蛋白质,并对目标突变蛋白质的功能进行测试,以得到湿实验标注结果。
[0055]
步骤4,将带有湿实验标注结果的目标突变蛋白质作为样本对蛋白质预训练大模型进行有监督训练,利用训练后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,并根据预测值降序排序。
[0056]
实施例中,将带有湿实验标注结果的目标突变蛋白质作为样本,对蛋白质预训练大模型在目标下游服务上进行有监督微调,微调后蛋白质预训练大模型对目标蛋白质关键突变位置的所有突变可能进行功能性预测,得到所有功能属性值的伪标签,并根据伪标签的大小对所有突变蛋白质降序排序。
[0057]
步骤5,依据降序排序筛选预测值高的多个突变蛋白质,这些突变蛋白质结合天然蛋白质对蛋白质预训练大模型做无监督微调。
[0058]
实施例中,从降序排序中筛选伪标签高的多个突变蛋白质,这些突变蛋白质结合从uniref蛋白质数据库中抽取的自然界中存在的天然蛋白质,对步骤1中利用的蛋白质预训练大模型进行进一步的微调。
[0059]
步骤6,利用步骤5微调后的蛋白质预训练大模型,重复步骤1-5,直至达到蛋白质改造预期目标。
[0060]
实施例中,利用步骤5微调后的蛋白质预训练大模型,重复步骤1-5,直到得到的目标突变蛋白质的功能性达到预期目标,即达到蛋白质改造预期目标为止,完成定向蛋白质的改造。
[0061]
上述实施例提供的基于迭代优化预训练大模型采样的定向蛋白质改造方法,通过精巧设计的基于最优传输距离的采样机制,来实现对巨大突变搜索空间的高质量采样,进而训练出高精确度的模型。通过不断迭代,能够不断提高预测的准确性,从而提高改造的成功率。
[0062]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,包括以下步骤:步骤1,基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到候选突变氨基酸的概率分布;步骤2,根据候选突变氨基酸的概率分布,采用最优传输距离对候选突变氨基酸进行采样,得到包含采样候选突变氨基酸的目标突变蛋白质;步骤3,利用高通量实验设备合成目标突变蛋白质并进行生化测试,得到目标突变蛋白质的湿实验标注结果;步骤4,将带有湿实验标注结果的目标突变蛋白质作为样本对蛋白质预训练大模型进行有监督训练,利用训练后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,并根据预测值降序排序;步骤5,依据降序排序筛选预测值最高的多个突变蛋白质,这些突变蛋白质结合天然蛋白质对蛋白质预训练大模型做无监督微调;步骤6,利用步骤5微调后的蛋白质预训练大模型,重复步骤1-5,直至达到蛋白质改造预期目标。2.根据权利要求1所述的基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,所述基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测时,掩蔽关键突变位置的氨基酸后,输入至蛋白质预训练大模型,经过正向推理得到掩蔽位置各种天然氨基酸的出现概率,即得到候选突变氨基酸的概率分布。3.根据权利要求1所述的基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,所述采用最优传输距离对候选突变氨基酸进行采样,包括:从候选突变氨基酸集合中随机选择目标数量的候选突变氨基酸组成1个可能子集,所有可能子集组成子集集合,基于候选突变氨基酸的概率分布得到每个可能子集中候选氨基酸的概率分布;从蛋白质预训练大模型中获得每种候选突变氨基酸的表征,依据表征计算任意两种候选突变氨基酸之间的差异距离;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸的概率分布,通过unbalanced sinkhorn distance计算每个可能子集的第一最优传输距离;首轮迭代中,将第一最优传输距离最小的可能子集作为采样结果,并对采样得到的突变蛋白质样本进行湿实验来进行功能性表征。4.根据权利要求3所述的基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,所述采用最优传输距离对候选突变氨基酸进行采样,还包括:非首轮迭代中,利用微调后的蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到更新后的候选突变氨基酸的概率分布;同时根据已进行湿实验标注的突变蛋白质样本得到已标注氨基酸的概率分布;针对每个可能子集,基于其中两种候选突变氨基酸之间的差异距离和候选氨基酸与已标注氨基酸概率分布计算unbalanced sinkhorn distance,得到每个可能子集的第二最优传输距离;综合第二最优传输距离和第一最优传输距离确定最终采样的可能子集作为采样结果。5.根据权利要求4所述的基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,所述综合第一最优传输距离和第二最优传输距离确定最终采样的可能子集作为
采样结果,包括:根据实际实验场景设置控制第一最优传输距离和第二最优传输距离比例的超参数,依据该比例超参数计算考虑第一最优传输距离和第二最优传输距离的最终最优传输距离,并筛选最终最优传输距离最小的可能子集作为采样结果,用公式表示为:其中,采样的第i个可能子集,d
intra
表示第一最优传输距离,d
inter
表示第二最优传输距离,λ表示比例超参数,v表示所有可能子集。6.根据权利要求1所述的基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,步骤4中,将带有湿实验标注结果的目标突变蛋白质作为样本,对蛋白质预训练大模型在目标下游服务上进行有监督微调,微调后蛋白质预训练大模型对目标蛋白质关键突变位置的所有突变可能进行功能性预测,得到所有功能属性值的伪标签,并根据伪标签的大小对所有突变蛋白质降序排序。7.根据权利要求1所述的基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,所述天然蛋白质来自于uniref蛋白质数据。8.根据权利要求1所述的基于迭代优化预训练大模型采样的定向蛋白质改造方法,其特征在于,步骤6中,蛋白质改造预期目标是指得到目标突变蛋白质的功能性达到预期目标。
技术总结
本发明公开了一种基于迭代优化预训练大模型采样的定向蛋白质改造方法,包括:基于蛋白质预训练大模型对目标蛋白质关键突变位置进行预测,得到候选突变氨基酸的概率分布;根据概率分布采用最优传输距离采样候选突变氨基酸以得到目标突变蛋白质;利用高通量实验设备合成目标突变蛋白质并进行生化测试,得到湿实验标注结果;将带有湿实验标注结果的目标突变蛋白质对模型进行有监督训练,利用训练后的模型对目标蛋白质关键突变位置进行预测并降序排序;依据降序排序筛选多个突变蛋白质,并结合天然蛋白质对大模型做无监督微调;利用微调后的蛋白质预训练大模型,重复上述过程直至达到蛋白质改造预期目标。该方法蛋白质改造效率和准确度高。率和准确度高。率和准确度高。
技术研发人员:陈华钧 秦铭 张强 丁科炎 吴槟 王泽元
受保护的技术使用者:浙江大学
技术研发日:2023.07.26
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/