基于对比学习和注意力机制的蛋白质与RNA结合位点预测方法
未命名
08-02
阅读:205
评论:0

基于对比学习和注意力机制的蛋白质与rna结合位点预测方法
技术领域
1.本发明涉及生物信息学领域,特别涉及一种基于对比学习和注意力机制的蛋白质与rna结合位点预测方法、设备和介质。
背景技术:
2.蛋白质与核糖核酸的相互作用对许多细胞的处理都很重要,包括基因表达、rna剪接和调节、蛋白质合成和转录后调节。这些蛋白质的错误调控导致了许多疾病,包括癌症、糖尿病、心血管和神经退行性疾病。蛋白质-rna相互作用的分子水平细节可以从一些数据库中查询,如蛋白质数据库(pdb)涵盖原子水平的细节,以及biolip和disprot提供氨基酸水平的注释。然而,这些数据库只适用于小部分的rna结合蛋白,这就促使需要开发精确的预测方法。
3.虽然已经有一些方法已被用于预测蛋白质中的rna结合,但普遍存在一些问题。第一,预测的精准度偏低,而且预测的假阳本偏高,特别是将不与任何分子结合的氨基酸预测为rna结合氨基酸;第二,不能有效的区分rna结合氨基酸和其他分子结合氨基酸,例如将与dna或者蛋白质的结合氨基酸预测为rna结合氨基酸。
技术实现要素:
4.针对目前蛋白质与rna结合位点预测精度偏低,假阳性偏高,且在不同种类蛋白质上泛化能差的问题,本发明提出一种基于对比学习和注意力机制的蛋白质与rna结合位点预测方法、设备和介质,提高蛋白质与rna相互作用位点预测的精度。
5.为实现上述技术目的,本发明采用如下技术方案:
6.一种基于对比学习和注意力机制的蛋白质与rna结合位点预测方法,包括:
7.提取蛋白质的生物理化特征及其序列的语义特征;
8.使用多头注意力融合蛋白质的生物理化特征及其序列的语义特征,得到蛋白质各氨基酸的注意力向量;
9.将注意力向量输入至预测模块,输出得到蛋白质与rna的结合位点;
10.其中,多头注意力和预测模块的参数预先优化方法为:根据蛋白质样本上的rna结合位点和非结合位点的注意力向量之间的相似性构建第一损失函数,以及根据蛋白质样本的预测准确性构建第二损失函数,然后基于蛋白质样本的第一和第二损失函数值之和对多头注意力和预测模块的参数进行优化。
11.进一步地,蛋白质的生物理化特征包括蛋白质各氨基酸的相对溶剂可及性、无序倾向性、进化信息和结合能力倾向性信息。
12.进一步地,采用预训练的语言模型提取蛋白质序列的语义特征,过程如下:
13.使用预训练的语言模型提取蛋白质序列的语义特征,其中序列中每个氨基酸均使用1024维的词向量表示;
14.再使用一个多通道的卷积层对各氨基酸的1024维词向量进行压缩,生成低维度的特征向量,记为提取得到的蛋白质序列的语义特征。
15.进一步地,使用多头注意力融合蛋白质的生物理化特征及其序列的语义特征,过程如下:
16.将蛋白质序列中每个氨基酸的生物理化特征与语义特征拼接,记第i个氨基酸的拼接向量为xi;
17.针对蛋白质序列中第i个氨基酸ai,使用长度为w的窗口取氨基酸ai的上下文信息[x
i-w/2
,
…
,xi,
…
,x
i+w/2
],以xi为query,以[x
i-w/2
,
…
,xi,
…
,x
i+w/2
]为key和value,使用多头自注意力机制提取氨基酸ai的注意力向量ki。
[0018]
进一步地,所述预测模块包括两个mlp层。
[0019]
进一步地,第一损失函数的构建方法为:
[0020]
先将氨基酸的注意力向量ki输入至两层的mlp,输出得到氨基酸的隐特征向量zi;其中两层的mlp之间添加有relu函数;
[0021]
再根据所有蛋白质样本中所有氨基酸的隐特征向量,构建第一损失函数为:
[0022][0023]
式中,lc为第一损失函数值,i为所有蛋白质样本中所有氨基酸构成的样本集合,i为样本集合i中的氨基酸样本,p(i)是正样本集合,a(i)是除样本i以外的其他样本的集合,zi是样本i的隐特征向量,z
p
是和样本i属于同类的氨基酸的隐特征向量,za是与样本i不属于同类的氨基酸的隐特征向量;氨基酸分是否为结合位点两类。τ是温度系数,调节对困难负样本的关注程度。
[0024]
进一步地,构建的第二损失函数方法为:
[0025][0026]
式中,n是所有蛋白质样本中所有氨基酸构成的样本集合i中的氨基酸样本个数,yi是氨基酸样本i的标签,1表示是结合位点,0表示非结合位点;pi是预测模型根据输入的注意力向量ki预测得到的结合倾向性,其值范围是[0,1];α是调节样本不平衡的因子,r是调节难易分类样本的因子。
[0027]
一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项所述的基于对比学习和注意力机制的蛋白质与rna结合位点预测方法。
[0028]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的基于对比学习和注意力机制的蛋白质与rna结合位点预测方法。
[0029]
有益效果
[0030]
本发明在融合生物理化特征和序列语义特征的基础上,通过一个端到端的、采用多头注意力机制和对比学习的模型,预测蛋白质与rna结合位点。其中,多头注意力机制使模型更多关注并提取能够有效区分结合位点和非结合位点的特征,能够提高模型准确率,
同时一定程度上降低了假阳性。另外,在特征空间上基于相似性构建模型训练的损失函数,使得不同种类蛋白质的同类型的氨基酸(即是结合位点或者是非结合位点)距离更近,不同类型氨基酸之间距离更远,进一步保证学习到的结合位点和非结合位点特征具有明显差异,缓解因蛋白质种类不同造成的泛化较差问题。
附图说明
[0031]
图1是本技术实施例所述方法的框架图。
具体实施方式
[0032]
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
[0033]
本实施例提供一种基于对比学习和注意力机制的蛋白质与rna结合位点预测方法,参考图1所示,包括以下步骤。
[0034]
步骤1,提取蛋白质的生物理化特征及其序列的语义特征。
[0035]
已有研究表明蛋白质的相互作用位点和一些生物理化属性存在一定的关系,例如氨基酸的溶剂可及性、蛋白质二级结构、蛋白质的进化信息保守性等。为了保证模型能够快速的输出预测结果,本发明实施例通过一些快速的工具和方法获取蛋白质的生物理化特征信息。首先以蛋白质序列作为输入,通过asaquick提取蛋白质氨基酸的相对溶剂可及性,每一个氨基酸的相对溶剂可及性使用一个浮点型数值aj进行表示,蛋白质序列特征向量为a
lx1
。其次,通过anchor提取蛋白质无序区域氨基酸的结合倾向性,而每一个氨基酸的无序倾向性由一个长度为2的向量表示,其中一个数值为0到1之间的浮点数,表示无序性的概率,一个数值是0或者1。其中0表示非无序,1表示该氨基酸是无序的。蛋白质序列则表示为一个d
lx2
的特征矩阵。然后使用hhblits提取蛋白质进化信息,使用一个p
lx20
的矩阵表示每个蛋白质序列的进化保守性特征。此外通过文献收集了蛋白质与蛋白质、蛋白质与dna、蛋白质与rna、蛋白质与蛋白质和dna、蛋白质与蛋白质和rna的结合倾向性,并使用一个维度为5的向量b
lx5
进行表示。最后将所获取的上述特征矩阵ai,di,pi,bi在氨基酸维度进行拼接,得到蛋白质生物理化特征矩阵x1。
[0036]
蛋白质序列序列常见的的氨基有20个(l,s,a,g,e,v,k,r,p,t,d,i,n,q,f,y,h,m,c,w)。以蛋白质序列为语句,每个氨基酸为词,基于bert语言模型生成每条蛋白质序列的语义特征矩阵m。特征矩阵m中每一行对应序列中的一个氨基酸,而每一个氨基酸使用一个n维的词向量表示。由于语义模型生成的氨基酸词向量维度大,为了降低后续训练任务的复杂度和过拟合,本实施例使用一个卷积层对其进行降维。将氨基酸词向量的维度作为卷积层的输入通道个数,使用1维的卷积核沿着蛋白质序列方向进行滑动,进行降维。最后将氨基酸的词向量压缩为12维的特征向量x2。
[0037]
步骤2,使用多头注意力融合蛋白质的生物理化特征及其序列的语义特征,得到蛋白质各氨基酸的注意力向量。
[0038]
如何融合蛋白质不同类型的特征并有效的提取氨基酸的结合位点表示特征,直接影响模型最后的预测结果。本发明使用自注意力机制融合蛋白质生物理化和序列的语义特征信息,并提取氨基酸的表示特征用于后续结合氨基酸和非结合氨基酸的分类预测。
[0039]
在本发明中以氨基酸为预测样本,以所预测的氨基酸ai为中心,取窗口w补充所预测氨基酸的上下文信息。在窗口w中,只计算中心位置ai的注意力。首先合并生物理化特征x1和序列语义特征x2得到特征x3,取ai的窗口上下文特征信息h=[x3
i-w/2
,
…
x3i,
…
x3
i+w/2
]。然后将x3i映射到q空间得qi,h映射到键空间得到k=[k
i-w/2
,
…ki
,
…
,k
i+w/2
],h映射到值空间得到v=[v
i-w/2
,
…
vi,
…
,v
i+w/2
],k=[x3
i-w/2
,
…
x3i,
…
x3
i+w/2
],v=[x3
i-w/2
,
…
x3i,
…
x3
i+w/2
]。最后根据公式计算注意力分布并将相应结果进行加权求和得到氨基酸ai的注意力向量ki。
[0040]
步骤3,将注意力向量输入至预测模块,输出得到蛋白质与rna的结合位点;
[0041]
将蛋白质各氨基酸ai的注意力向量ki输入到预测模块,该模块包含了两个mlp层得到预测结果pi。
[0042]
其中,本发明模型中用于融合生物理化特征与语义特征的多头注意力以及预测模块的参数,根据蛋白质样本预先训练得到,具体为:根据蛋白质样本上的rna结合位点和非结合位点的注意力向量之间的相似性构建第一损失函数,以及根据蛋白质样本的预测准确性构建第二损失函数,然后基于蛋白质样本的第一和第二损失函数值之和对多头注意力和预测模块的参数进行优化。
[0043]
第一损失函数的构建方法为:先将蛋白质各氨基酸ai的注意力向量ki输入到含有两层的mlp得到隐特征向量zi,在两层之间添加一个relu函数;再根据所有蛋白质样本中所有氨基酸的隐特征向量,构建第一损失函数为:
[0044][0045]
式中,lc为第一损失函数值,i为所有蛋白质样本中所有氨基酸构成的样本集合,i为样本集合i中的氨基酸样本,p(i)是正样本集合,a(i)是除样本i以外的其他样本的集合,zi是样本i的隐特征向量,z
p
是和样本i属于同类的氨基酸的隐特征向量,za是与样本i不属于同类的氨基酸的隐特征向量,τ是温度系数,调节对困难负样本的关注程度;氨基酸按是否为与rna的结合位点分为两类,和rna结合的氨基酸是正样本,不和rna结合的氨基酸是负样本。
[0046]
基于第一损失函数训练模型参数,是一种有监督的对比学习方法,其使相同类别氨基酸的隐特征向量之间具有高相似性,不同类别氨基酸的隐特征向量之间的差异性变大,从而进一步增强rna结合位点和非rna结合位点的特征向量,同时缓解蛋白质因稳定结构和无序结构两种类型不同造成的结合位点特征向量之间差异性。
[0047]
考虑到样本的不均衡性,使用focal loss函数构建第二损失函数,公式如下:
[0048][0049]
式中,n是所有蛋白质样本中所有氨基酸构成的样本集合i中的残基样本个数,yi是残基样本i的标签,1表示是结合位点,0表示非结合位点;pi是预测模型根据输入的注意力向量ki预测得到的结合倾向性,其值范围是[0,1],值越接近于1表示是结合位点概率越大,相反值越趋近于0表示越有可能是非结合位点;α是调节样本不平衡的因子,本发明中α值设置为0.25;r是调节难易分类样本的因子,本发明中r值设置为2。
[0050]
实验验证
[0051]
为了验证使用本实施例方法进行结合位点鉴定的有效性和相比于其他方法的性能优越性,本实验分别从pdb数据库收集具有稳定结构的蛋白质和disprot数据库中收集无序蛋白质,然后将数据集为训练集,验证集和测试集。本发明使用接受者操作特征曲线下的面积(auc)、precison-recall曲线下面积(auprc)、交叉预测曲线下的面积(aucpc)和过度预测曲线下的面积(auopc)来评估预测结果。roc曲线绘制了tpr与fpr的对比图,precison-recall曲线绘制了精准度和召回率的对比图,计算所使用的阈值依次取给定预测器产生的倾向性值。其中tpr是所预测正样本中真实正样本的比例,fpr是所真实正样本中被预测为负样本的比例。交叉预测曲线绘制了cpr与tpr的对比,过度预测曲线绘制了opr与tpr的对比,这些都是用同一组阈值计算的。其中cpr是与其他分子相互作用的氨基酸被预测为与rna相互作用,opr是与不相互作用的氨基酸被预测为与rna相互作用。由此产生的aucpc值评估了与非rna分子相互作用的氨基酸是否被预测为与rna相互结合,而auopc评估了不与任何分子相互作用的氨基酸是否被预测为与rna结合。更高的auc和auprc值表示更高的预测质量,而更低的aucpc和auopc值意味着相应的预测器产生更少的交叉预测和过度预测。
[0052]
表1在具有稳定结构蛋白质数据集上的预测结果比较分析
[0053][0054]
表2在无序蛋白质数据集上的预测结果比较分析
[0055][0056]
表3在所有测试集上的预测结果比较分析
[0057][0058]
如表1-3所示,为了证明本发明实施例方法的有效性,本实验选择了8个基于序列的预测方法,其中包括2个用于无序蛋白质预测方法(disordpbind和deepdisobind)和6个用于结构蛋白质的方法(pprint、bindn+、drnapred、ncbrpred、prona2020和mtdsite)。
[0059]
将本发明实施例方法与目前的方法进行经验比较。本发明实施例方法在整个测试数据集产生了最准确的结果,其auc=0.844,auprc=0.181。而且本发明实施例方法,在无序注释的蛋白质上要优于基于无序蛋白质的最好方法deepdisobind(auc=0.816vs.0.716;auprc=0.103vs 0.058),同时在在结构注释的蛋白质上也优于最好的基于结构预测方法mtdsite(auc=0.918vs.0.762;auprc=0.389vs 0.142)。
[0060]
此外也着重分析了不同方法的交叉预测和过度预测,表1-3的结果表明本发明所提出的方法明显优于其他对比方法。对于结构注释的蛋白质,本发明实施例方法的aucpc和auopc都小于0.1,而其他对比方法的aucpc和auopc都大于0.25。而且本发明实施例方法在无序注释的蛋白质(aucpc=0.132vs.第二好的方法deepdisobind的0.341)和整个测试数据集(0.125vs.第二好的deepdisobind的0.355)上也确保了最低的aucpc。并且基于auopc的评价,也观察到了相同的结论。可见本发明例方法具有相当低的交叉预测率和过度预测率。总的来说,本发明方法在测试数据集上的表现明显优于其他方法并提供了相对较低的交叉预测水平。
[0061]
以上实施例为本技术的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本技术总的构思的前提下,这些变换或改进都应当属于本技术要求保护的范围之内。
技术特征:
1.一种基于对比学习和注意力机制的蛋白质与rna结合位点预测方法,其特征在于,包括:提取蛋白质的生物理化特征及其序列的语义特征;使用多头注意力融合蛋白质的生物理化特征及其序列的语义特征,得到蛋白质各氨基酸的注意力向量;将注意力向量输入至预测模块,输出得到蛋白质与rna的结合位点;其中,多头注意力和预测模块的参数预先优化方法为:根据蛋白质样本上的rna结合位点和非结合位点的注意力向量之间的相似性构建第一损失函数,以及根据蛋白质样本的预测准确性构建第二损失函数,然后基于蛋白质样本的第一和第二损失函数值之和对多头注意力和预测模块的参数进行优化。2.根据权利要求1所述的方法,其特征在于,蛋白质的生物理化特征包括蛋白质各氨基酸的相对溶剂可及性、无序倾向性、进化信息和结合能力倾向性信息。3.根据权利要求1所述的方法,其特征在于,采用预训练的语言模型提取蛋白质序列的语义特征,过程如下:使用预训练的语言模型提取蛋白质序列的语义特征,其中序列中每个氨基酸均使用1024维的词向量表示;再使用一个多通道的卷积层对各氨基酸的1024维词向量进行压缩,生成低维度的特征向量,记为提取得到的蛋白质序列的语义特征。4.根据权利要求1所述的方法,其特征在于,使用多头注意力融合蛋白质的生物理化特征及其序列的语义特征,过程如下:将蛋白质序列中每个氨基酸的生物理化特征与语义特征拼接,记第i个氨基酸的拼接向量为x
i
;针对蛋白质序列中第i个氨基酸a
i
,使用长度为w的窗口取氨基酸a
i
的上下文信息[x
i-w/2
,
…
,x
i
,
…
,x
i+w/2
],以x
i
为query,以[x
i-w/2
,
…
,x
i
,
…
,x
i+w/2
]为key和value,使用多头自注意力机制提取氨基酸a
i
的注意力向量k
i
。5.根据权利要求1所述的方法,其特征在于,所述预测模块包括一个两层的感知机。6.根据权利要求1所述的方法,其特征在于,第一损失函数的构建方法为:先将氨基酸的注意力向量k
i
输入至两层的mlp,输出得到氨基酸的隐特征向量z
i
;其中两层的mlp之间添加有relu函数;再根据所有蛋白质样本中所有氨基酸的隐特征向量,构建第一损失函数为:式中,l
c
为第一损失函数值,i为所有蛋白质样本中所有氨基酸构成的样本集合,i为样本集合i中的氨基酸样本,p(i)是正样本集合,a(i)是除样本i以外的其他样本的集合,z
i
是样本i的隐特征向量,z
p
是和样本i属于同类的氨基酸的隐特征向量,z
a
是与样本i不属于同类的氨基酸的隐特征向量;氨基酸分是否为结合位点两类;τ是温度系数,调节对困难负样本的关注程度;其中,氨基酸按是否为与rna的结合位点分为两类,和rna结合的氨基酸是正样本,不和rna结合的氨基酸是负样本。
7.根据权利要求1所述的方法,其特征在于,构建的第二损失函数方法为:式中,n是所有蛋白质样本中所有氨基酸构成的样本集合i中的氨基酸样本个数,y
i
是氨基酸样本i的标签,1表示是结合位点,0表示非结合位点;p
i
是预测模型根据输入的注意力向量k
i
预测得到的结合倾向性,其值范围是[0,1];α是调节样本不平衡的因子,r是调节难易分类样本的因子。8.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~7中任一项所述的方法。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
技术总结
本发明公开了一种基于对比学习和注意力机制的蛋白质与RNA结合位点预测方法、设备和介质,方法包括:提取蛋白质的生物理化特征及语义特征,使用多头注意力融合生物理化特征及语义特征,得到蛋白质各氨基酸的注意力向量;将注意力向量输入至预测模块,得到蛋白质与RNA的结合位点;其中,多头注意力和预测模块的参数预先优化方法为:根据蛋白质样本上的RNA结合位点和非结合位点的注意力向量之间的相似性构建第一损失函数,及根据蛋白质样本的预测准确性构建第二损失函数,然后基于两个损失函数和对多头注意力和预测模块的参数进行优化。本发明分类效果好、适用性强,且具有较强泛化能力,在蛋白质与RNA结合位点预测问题上取得显著效果。得显著效果。得显著效果。
技术研发人员:李敏 张富豪 武朝进
受保护的技术使用者:中南大学
技术研发日:2023.02.10
技术公布日:2023/7/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/