融合元路径的分子异质图性质预测方法、存储介质及装置
未命名
08-29
阅读:122
评论:0

1.本发明涉及化学分子图学习技术领域,具体涉及一种融合元路径的分子异质图性质预测方法及装置。
背景技术:
2.药物发现是一个极为耗时、复杂且昂贵的过程,通常需要测试成千上万的化合物,然而其中只有少部分候选化学分子具有实用价值。准确高效的分子特性预测有助于快速筛选具有特定目标特性的新分子,有效提高药物发现的成功率,节省大量资源和时间,对于发现新的有效药物和其他化学材料具有重要意义。因此,准确预测分子的化学特性可以起到药物设计的辅助作用,提高药物发现的开发效率,是一项极具研究价值的任务。
3.分子表示学习是建立化学信息学与深度学习联系的关键步骤,高效的分子表示学习对于分子特性预测的关键。在早期的一些分子表示算法中,分子首先会被编码为保留分子结构和特征的向量,比如采用similes表示法,将化学分子编码为序列化的文本形式,然而这种非几何的字符串形式丢失信息较多,不能充分利用分子的拓扑信息,对于分子的拓扑结构和属性信息的表达能力是有限的。
4.随着深度学习的发展,设计图学习模型来学习分子图特征在近几年取得了显著的研究进展,在处理分子性质预测任务方面表现出了良好效果。图神经网络(graphneural network,简称gnn)是一类直接应用于图结构数据的深度学习模型,以端到端的方式处理各种与图学习相关的任务。由于分子是天然的图结构,分子的原子和化学键可以对应于图结构的节点和边的特征,而图神经网络是图学习的有力工具,因此通过图神经网络有助于有效学习分子的结构和特征。目前,使用图神经网络处理分子上的图学习任务是一个极具潜力的研究方向,大多数现有的基于图的分子学习方法是针对同质图而设计的,忽略了原子节点或边的不同类型,也忽略了来自不同化官能团的原子之间的高阶相互作用。由于化学分子的性质主要由关键功能基团决定的,而这些功能基团是由几种路径模式组合而成的,因此学习捕捉分子中这些关键基团有助于更好的学习分子特征。可见,当前亟需一种能够有效学习融合宏观化学特征的分子表示方法,从而实现更好的分子性质回归预测效果。
技术实现要素:
5.针对现有技术中存在的缺陷,本发明的目的在于提供一种融合元路径的分子异质图性质预测方法及装置,可以有效学习分子图特征并用于分子属性回归预测任务。
6.为达到以上目的,本发明提供的一种融合元路径的分子异质图性质预测方法,具体包括以下步骤:
7.将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;
8.预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行节点类型和边缘类型描述;
9.基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;
10.对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;
11.将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;
12.基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;
13.采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。
14.在上述技术方案的基础上,所述将每个分子建模为异质图,其中,对于异质图,具体表示为:
15.g=(v,e,m,r)
16.其中,g表示异质图,v表示节点集合,e表示边集合,m表示节点类型集合,r表示边类型集合,一个原子被表示为一个节点v,且v∈v,一个边e用于描述两个原子之间的化学键,即两个节点之间的化学键,节点类型映射为v
→
m,边类型映射φ为e
→
r。
17.在上述技术方案的基础上,所述基于元路径进行分子图的局部路径结构的学习,具体步骤包括:
18.给定一个分子图,对所有预定义的元路径模板执行bfs图遍历算法,匹配出当前分子图中所有的元路径实例;
19.通过连接每个元路径实例中的源节点和目标节点,构建元路径连接。
20.在上述技术方案的基础上,所述对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新,具体步骤包括:
21.给定一个由r类型的边连接的原子对(vi,vj),将节点vi的特征向量由线性层将离散特征向量投射为连续向量hi,将节点vj的特征向量由线性层将离散特征向量投射为连续向量hj;
22.通过一个具有可学习权重wr的函数,将hi和hj转化为高维的隐藏嵌入向量,拼接后得到一个聚合的特征向量m;
23.在每个聚合的特征向量m上乘以一个注意力向量来实现邻居注意力策略,输出为每个邻居节点的重要性得分μ,μ用于说明在关系类型r下,邻居节点vi对节点vj的影响程度;
24.邻居节点的重要性得分μ使用softmax函数,将邻接点的重要性得分转换成邻接点的影响系数α,具体的:
25.hi=linear(xi),wr=linear(e
ij
)
26.m=[w
rhi
;w
rhj
]
[0027]
μ=relu(wm)
[0028]
[0029]
其中,xi表示原始的节点特征向量,投射到一个连续向量hi中,e
ij
表示原始的边特征向量,被转换和重塑为关系权重wr,w表示一个权重矩阵,将拼接起来的的节点嵌入向量映射成一个重要性分数μ,linear表示线性函数,relu表示激活函数;
[0030]
汇总邻居信息来更新源节点vi的嵌入向量,将邻接节点嵌入与邻接点影响系数整合在一起,作为下一层的输入,具体的:
[0031][0032]
其中,h
′
表示下一层的输入,f表示激活函数,ni表示节点vi的邻接节点集合。
[0033]
在上述技术方案的基础上,所述将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量,具体步骤包括:
[0034]
创建关系关注力模块,关系关注力模块用于学习不同类型关系r={r-,r
=
,r
#
,r
~
,rm}的权重{w-,w
=
,w
#
,w
~
,wm,},其中,r-表示单键连接的边类型,r
=
表示双键连接的边类型,r
#
表示三键连接的边类型,r
~
表示苯环连接的边类型,rm表示元路径连接的边类型,w-表示r-的权重,w
=
表示r
=
的权重,w
#
表示r
#
的权重,w
~
表示r
~
的权重,wm表示rm的权重;
[0035]
在关系关注力模块中,对节点嵌入向量h
′r={h
′
r,v
|v∈v,r∈r
bond
∪rm}使用一个投影函数,将它们映射到一个隐空间,其中,h
′
r,v
表示在只包括r类型边的子图中,节点v的向量表示,r
bond
表示化学键类型集合,rm表示由元路径连接构成的边;
[0036]
在隐藏向量上应用一个注意力向量w,以获得每个节点嵌入的得分s
r,v
;
[0037]
通过对节点嵌入的得分进行平均,计算作为每种关系类型的关系影响力得分;
[0038]
使用softmax函数对所有关系的影响分数归一化,得到归一化分数βr;
[0039]
将不同关系下的节点嵌入向量加权相加得到最终的节点嵌入向量h
″
={h
″v|v∈v},其中,h
″v表示关系关注力模块输出的节点v的向量表示。
[0040]
在上述技术方案的基础上,所述基于门控循环单元更新节点的嵌入向量,具体步骤包括:
[0041]
对于当前时间步t,将节点嵌入向量h
″
经过门控循环单元gru,输出更新后的节点嵌入向量,作为输入下一时间步t+1中的节点嵌入向量
[0042]
在上述技术方案的基础上,所述基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值,具体步骤包括:
[0043]
通过读出函数将所有节点的嵌入向量读出成分子图的特征向量hg;
[0044]
通过回归器预测得到属性值其中,读出函数采用平均函数或求和函数实现,回归器采用多层感知器mlp实现。
[0045]
在上述技术方案的基础上,所述采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测,具体步骤包括:
[0046]
采用属性的预测值和真实值yi的平均绝对误差作为损失函数;
[0047]
将所有的目标属性值均被归一化,使平均值为0,方差为1;
[0048]
将数据集中的每64张分子图作为一批量,进行批量化模型训练,采用adam优化器求解最小损失得到最优模型参数,直到训练误差小于预设值,输出模型,具体的:
[0049][0050]
其中,k表示分子的属性个数,对于分子的第i个属性,yi为真实值,为预测值,loss表示模型的预测损失。
[0051]
本发明提供的一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述所述融合元路径的分子异质图性质预测方法的步骤。
[0052]
本发明提供的一种融合元路径的分子异质图性质预测装置,包括:
[0053]
构建模块,其用于将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;
[0054]
定义模块,其用于预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行节点类型和边缘类型描述;
[0055]
分解模块,其用于基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;
[0056]
第一更新模块,其用于对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;
[0057]
第二更新模块,其用于将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;
[0058]
第三更新模块,其用于基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;
[0059]
预测模块,其用于采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。
[0060]
与现有技术相比,本发明的优点在于:
[0061]
(1)考虑到分子中节点之间的各种复合作用,将分子建模为异质图,并利用元路径来模拟复杂分子功能团之间的长距离节点相互作用,并设计一个分子图学习模型来端到端地预测分子特性;
[0062]
(2)考虑到分子图中的多种节点类型和关系类型,设计了一个分层的注意力机制,以构建一个异质的图形神经网络来学习分子图的结构信息,其中,注意力机制学习了节点级和关系级的重要性;
[0063]
(3)本发明具有适用性强、易于优化求解的优点,可以有效学习分子图特征并用于分子属性回归预测任务。
附图说明
[0064]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
[0065]
图1为本发明实施例中一种融合元路径的分子异质图性质预测方法的流程图。
具体实施方式
[0066]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。
[0067]
本发明实施例提供一种融合元路径的分子异质图性质预测方法,能够尽可能更好地利用分子的图结构和化学信息,灵活地学习分子图中的多种节点类型和关系类型、以及原子之间的高阶相互作用,从而获得更好的分子性质回归预测效果。首先将分子建模为异质图,在图上构建基于元路径的连接,捕捉不同官能团的节点之间的各种复合作用,增强辅助信息,并且在模型中使用了一个分层注意力策略,在邻接节点层次和关系层次汇总特征信息,有助于学习属性回归的分子特征表示。
[0068]
本发明的融合元路径的分子异质图性质预测方法,将分子建模为异质图,构建基于元路径的连接来建模化学功能团之间的高阶作用,增强辅助信息,利用分子的图拓扑结构和化学信息,并且考虑到分子图中的多种节点类型和关系类型,以及节点之间的各种复合作用,设计分层注意力在节点和关系层面上汇总特征信息,学习分子图的特征向量,进行有效的分子性质回归预测。
[0069]
参见图1所示,本发明实施例提供的一种融合元路径的分子异质图性质预测方法,具体包括以下步骤:
[0070]
s1:将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;
[0071]
本发明中,将每个分子建模为异质图,其中,对于异质图,具体表示为:
[0072]
g=(v,e,m,r)
[0073]
其中,g表示异质图,v表示节点集合,e表示边集合,m表示节点类型集合,r表示边类型集合,一个原子被表示为一个节点v,且v∈v,一个边e用于描述两个原子之间的化学键,即两个节点之间的化学键,节点类型映射为v
→
m,边类型映射φ为e
→
r。
[0074]
从分子数据集中选择一定比例样本{g1,
…
,gn},n表示分子图样本个数,以及选择标签{y1,
…
,yn}作为训练样本,作为训练模型的输入数据,选择80%样本作为训练图像样本,10%作为验证集,剩下为测试集。
[0075]
s2:预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行节点类型和边缘类型描述;
[0076]
在具体的应用过程中,元路径模板库如下表1所示。
[0077]
表1元路径模板库
[0078][0079]
s3:基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;
[0080]
本发明中,基于元路径进行分子图的局部路径结构的学习,具体步骤包括:
[0081]
s301:给定一个分子图,对所有预定义的元路径模板执行bfs(广度优先遍历)图遍历算法,匹配出当前分子图中所有的元路径实例;
[0082]
s302:通过连接每个元路径实例中的源节点和目标节点,构建元路径连接。
[0083]
即通过元路径学习分子图的局部路径结构。给定一个分子图,对所有预定义的元路径模板执行图遍历算法,匹配出该分子中所有的元路径实例。每个实例都是由图中的节点和关系组成的有序序列,并与相应的元路径模板相对应。通过连接每个实例中的源节点和目标节点,完成元路径连接构建,建模原子之间的高阶相互作用。
[0084]
在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图都是只包含一种类型边的同质图。
[0085]
s4:对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;
[0086]
本发明中,对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新,具体步骤包括:
[0087]
s401:给定一个由r类型的边连接的原子对(vi,vj),将节点vi的特征向量由线性层将离散特征向量投射为连续向量hi,将节点vj的特征向量由线性层将离散特征向量投射为连续向量hj;
[0088]
本发明中,r类型,是代指某一种化学键的类型,化学键在分子图表示为边,化学键的类型也就是边的类型。这里的r类型可以是{单键,双键,三键,芳香键}这几种化学键类型中的一种,由于在分子图构造了元路径连接,这种连接相当于添上去的一种新的边,因此r类型也可以是元路径连接这种类型的边。
[0089]
s402:通过一个具有可学习权重wr的函数,将hi和hj转化为高维的隐藏嵌入向量,拼接后得到一个聚合的特征向量m;
[0090]
s403:在每个聚合的特征向量m上乘以一个注意力向量来实现邻居注意力策略,输出为每个邻居节点的重要性得分μ,μ用于说明在关系类型r下,邻居节点vi对节点vj的影响程度;
[0091]
s404:邻居节点的重要性得分μ使用softmax函数,将邻接点的重要性得分转换成
邻接点的影响系数α,具体的:
[0092]hi
=linear(xi),wr=linear(e
ij
)
[0093]
m=[w
rhi
;w
rhj
]
[0094]
μ=relu(wm)
[0095][0096]
其中,xi表示原始的节点特征向量,投射到一个连续向量hi中,e
ij
表示原始的边特征向量,被转换和重塑为关系权重wr,w表示一个权重矩阵,将拼接起来的的节点嵌入向量映射成一个重要性分数μ,linear表示线性函数,即代码中直接调用pytorch的库函数torch.nn.linear,relu表示激活函数,即代码中直接调用pytorch的库函数torch.nn.relu;
[0097]
s405:汇总邻居信息来更新源节点vi的嵌入向量,将邻接节点嵌入与邻接点影响系数整合在一起,作为下一层的输入,具体的:
[0098][0099]
其中,h
′
表示下一层的输入,f表示激活函数,ni表示节点vi的邻接节点集合。
[0100]
s5:将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;
[0101]
本发明中,将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量,具体步骤包括:
[0102]
s501:创建关系关注力模块,关系关注力模块用于学习不同类型关系r={r-,r
=
,r
#
,r
~
,rm}的权重{w-,w
=
,w
#
,w
~
,wm,},其中,r-表示单键连接的边类型,r
=
表示双键连接的边类型,r
#
表示三键连接的边类型,r
~
表示苯环连接的边类型,rm表示元路径连接的边类型,w-表示r-的权重,w
=
表示r
=
的权重,w
#
表示r
#
的权重,w
~
表示r
~
的权重,wm表示rm的权重;
[0103]
s502:在关系关注力模块中,对节点嵌入向量h
′r={h
′
r,v
|v∈v,r∈r
bond
∪rm}使用一个投影函数,将它们映射到一个隐空间,其中,h
′
r,v
表示在只包括r类型边的子图中,节点v的向量表示,是邻居注意力层的输出数据,同时是关系关注力模块的输入数据,r
bond
表示化学键类型集合,即{单键、双键、三键、芳香键},rm表示由元路径连接构成的边,也就是元路径连接这种边类型;
[0104]
s503:在隐藏向量上应用一个注意力向量w,以获得每个节点嵌入的得分s
r,v
;
[0105]
s504:通过对节点嵌入的得分进行平均,计算作为每种关系类型的关系影响力得分;
[0106]
s505:使用softmax函数(归一化指数函数)对所有关系的影响分数归一化,得到归一化分数βr;
[0107]
s506:将不同关系下的节点嵌入向量加权相加得到最终的节点嵌入向量h
″
={h
″v|v∈v},其中,h
″v表示关系关注力模块输出的节点v的向量表示。
[0108]
在一个分子中,尽管节点类型不同,但节点具有相同数量的原子属性,因此,它们的初始向量的特征维度是相同的。
[0109]
s6:基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;
[0110]
本发明中,基于门控循环单元更新节点的嵌入向量,具体步骤包括:
[0111]
对于当前时间步t,将节点嵌入向量h
″
经过门控循环单元gru(gate recurrent unit,循环神经网络的一种),输出更新后的节点嵌入向量,作为输入下一时间步t+1中的节点嵌入向量
[0112]
本发明中,基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值,具体步骤包括:
[0113]
s601:通过读出函数将所有节点的嵌入向量读出成分子图的特征向量hg;
[0114]
s602:通过回归器预测得到属性值其中,读出函数采用平均函数或求和函数实现,回归器采用多层感知器mlp(multi-layer perceptron,多层感知器)实现。
[0115]
即重复步骤s4至s7,最终通过读出函数将所有节点的嵌入向量读出成分子图的特征向量hg然后,通过回归器预测得到属性值
[0116]
s7:采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。
[0117]
本发明中,采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测,具体步骤包括:
[0118]
s701:采用属性的预测值和真实值yi的平均绝对误差作为损失函数;
[0119]
s702:将所有的目标属性值均被归一化,使平均值为0,方差为1;
[0120]
s703:将数据集中的每64张分子图作为一批量,进行批量化模型训练,采用adam优化器求解最小损失得到最优模型参数,直到训练误差小于预设值,输出模型,具体的:
[0121][0122]
其中,k表示分子的属性个数,对于分子的第i个属性,yi为真实值,为预测值,loss表示模型的预测损失,也就是训练误差,作为优化目标。
[0123]
即采用平均绝对误差作为损失函数,优化求解目标函数得到最优模型参数,最小化损失函数直至模型收敛,输出模型。
[0124]
本发明中,实现语言是python,使用图学习框架pytorch geometric实现模型。
[0125]
在一种可能的实施方式中,本发明实施例还提供一种可读存储介质,可读存储介质位于plc(programmable logic controller,可编程逻辑控制器)控制器中,可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下所述融合元路径的分子异质图性质预测方法的步骤:
[0126]
将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;
[0127]
预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行
节点类型和边缘类型描述;
[0128]
基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;
[0129]
对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;
[0130]
将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;
[0131]
基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;
[0132]
采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。
[0133]
存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0134]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0135]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0136]
本发明实施例提供的一种融合元路径的分子异质图性质预测装置,包括构建模块、定义模块、分解模块、第一更新模块、第二更新模块、第三更新模块和预测模块。
[0137]
构建模块用于将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;定义模块用于预定义一个元路径模板库,且一个元路径建模一种
化学基团的路径结构,以进行节点类型和边缘类型描述;分解模块用于基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;第一更新模块用于对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;第二更新模块用于将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;第三更新模块用于基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;预测模块用于采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。
[0138]
以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
[0139]
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
技术特征:
1.一种融合元路径的分子异质图性质预测方法,其特征在于,具体包括以下步骤:将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行节点类型和边缘类型描述;基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。2.如权利要求1所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述将每个分子建模为异质图,其中,对于异质图,具体表示为:g=(v,e,m,r)其中,g表示异质图,v表示节点集合,e表示边集合,m表示节点类型集合,r表示边类型集合,一个原子被表示为一个节点v,且v∈v,一个边e用于描述两个原子之间的化学键,即两个节点之间的化学键,节点类型映射为v
→
m,边类型映射φ为e
→
r。3.如权利要求1所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述基于元路径进行分子图的局部路径结构的学习,具体步骤包括:给定一个分子图,对所有预定义的元路径模板执行bfs图遍历算法,匹配出当前分子图中所有的元路径实例;通过连接每个元路径实例中的源节点和目标节点,构建元路径连接。4.如权利要求1所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新,具体步骤包括:给定一个由r类型的边连接的原子对(v
i
,v
j
),将节点v
i
的特征向量由线性层将离散特征向量投射为连续向量h
i
,将节点v
j
的特征向量由线性层将离散特征向量投射为连续向量h
j
;通过一个具有可学习权重w
r
的函数,将h
i
和h
j
转化为高维的隐藏嵌入向量,拼接后得到一个聚合的特征向量m;在每个聚合的特征向量m上乘以一个注意力向量来实现邻居注意力策略,输出为每个邻居节点的重要性得分μ,μ用于说明在关系类型r下,邻居节点v
i
对节点v
j
的影响程度;邻居节点的重要性得分μ使用softmax函数,将邻接点的重要性得分转换成邻接点的影响系数α,具体的:
h
i
=linear(x
i
),w
r
=linear(e
ij
)m=[w
r
h
i
;w
r
h
j
]μ=relu(wm)其中,x
i
表示原始的节点特征向量,投射到一个连续向量h
i
中,e
ij
表示原始的边特征向量,被转换和重塑为关系权重w
r
,w表示一个权重矩阵,将拼接起来的的节点嵌入向量映射成一个重要性分数μ,linear表示线性函数,relu表示激活函数;汇总邻居信息来更新源节点v
i
的嵌入向量,将邻接节点嵌入与邻接点影响系数整合在一起,作为下一层的输入,具体的:其中,h
′
表示下一层的输入,f表示激活函数,n
i
表示节点v
i
的邻接节点集合。5.如权利要求4所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量,具体步骤包括:创建关系关注力模块,关系关注力模块用于学习不同类型关系r={r-,r
=
,r
#
,r
~
,r
m
}的权重{w-,w
=
,w
#
,w
~
,w
m
,},其中,r-表示单键连接的边类型,r
=
表示双键连接的边类型,r
#
表示三键连接的边类型,r
~
表示苯环连接的边类型,r
m
表示元路径连接的边类型,w-表示r-的权重,w
=
表示r
=
的权重,w
#
表示r
#
的权重,w
~
表示r
~
的权重,w
m
表示r
m
的权重;在关系关注力模块中,对节点嵌入向量h
′
r
={h
′
r,v
|v∈v,r∈r
bond
∪r
m
}使用一个投影函数,将它们映射到一个隐空间,其中,h
′
r,v
表示在只包括r类型边的子图中,节点v的向量表示,r
bond
表示化学键类型集合,r
m
表示由元路径连接构成的边;在隐藏向量上应用一个注意力向量w,以获得每个节点嵌入的得分s
r,v
;通过对节点嵌入的得分进行平均,计算作为每种关系类型的关系影响力得分;使用softmax函数对所有关系的影响分数归一化,得到归一化分数β
r
;将不同关系下的节点嵌入向量加权相加得到最终的节点嵌入向量h
″
={h
″
v
|v∈v},其中,h
″
v
表示关系关注力模块输出的节点v的向量表示。6.如权利要求5所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述基于门控循环单元更新节点的嵌入向量,具体步骤包括:对于当前时间步t,将节点嵌入向量h
″
经过门控循环单元gru,输出更新后的节点嵌入向量,作为输入下一时间步t+1中的节点嵌入向量7.如权利要求6所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值,具体步骤包括:通过读出函数将所有节点的嵌入向量读出成分子图的特征向量h
g
;通过回归器预测得到属性值其中,读出函数采用平均函数或求和函数实现,回归
器采用多层感知器mlp实现。8.如权利要求7所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测,具体步骤包括:采用属性的预测值和真实值y
i
的平均绝对误差作为损失函数;将所有的目标属性值均被归一化,使平均值为0,方差为1;将数据集中的每64张分子图作为一批量,进行批量化模型训练,采用adam优化器求解最小损失得到最优模型参数,直到训练误差小于预设值,输出模型,具体的:其中,k表示分子的属性个数,对于分子的第i个属性,y
i
为真实值,为预测值,loss表示模型的预测损失。9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述融合元路径的分子异质图性质预测方法的步骤。10.一种融合元路径的分子异质图性质预测装置,其特征在于,包括:构建模块,其用于将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;定义模块,其用于预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行节点类型和边缘类型描述;分解模块,其用于基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;第一更新模块,其用于对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;第二更新模块,其用于将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;第三更新模块,其用于基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;预测模块,其用于采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。
技术总结
本发明公开了一种融合元路径的分子异质图性质预测方法及装置,涉及化学分子图学习技术领域,该方法包括将每个分子建模为异质图;预定义一个元路径模板库,以进行节点类型和边缘类型描述;进行分子图的局部路径结构的学习,将异质图分解成不同的关系子图;对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块;将所有节点的表征输入关系关注力模块,将节点在不同关系子图下的特征向量按权相加;将所有节点的嵌入向量读出成分子图的特征向量,输入回归器预测得到属性值;得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。本发明可以有效学习分子图特征并用于分子属性回归预测任务。预测任务。预测任务。
技术研发人员:杜博 纪颖 万国佳
受保护的技术使用者:武汉大学
技术研发日:2023.05.09
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/