基于多种特征融合的lncRNA-疾病关联预测方法
未命名
09-03
阅读:61
评论:0

基于多种特征融合的lncrna-疾病关联预测方法
技术领域
1.本发明利用多种特征融合的方法预测lncrna和疾病之间是否相关。主要利用基于条件随机域的图自编码器和基于元路径的图神经网络两种方法得到的特征进行融合,对特征进行预测得分,得出更准确的结果。
背景技术:
2.人类基因组由30多亿个碱基对dna组成,可转录为核糖核酸(rna)的约占七成。然而,这些rna中只有不到2%可以作为翻译成蛋白质,它们被称为“编码rna”,其余绝大多数是“非编码rna”(ncrna),不同的细胞过程由不同类别的非编码rna分别参与。研究表明,lncrna 在遗传和生命活动如细胞调控等方面发挥着重要作用,是生物信息学的一个研究热点。lncrna在人体中可以通过不同的细胞机制来调节目标基因的表达,在生命活动中有着不可被替代的作用。随着已确定的lncrna的数量持续增长,当前已有一定数量的lncrna-疾病之间的关联已经得到生物学实验验证,然而绝大多数lncrna-疾病关联仍然未知。从生物学角度来看,人体内蕴含大量的lncrna,运用传统的生物学实验依次验证要耗费大量时间且需要高额的花费。于是,利用计算机建立模型来预测lncrna-疾病关联可以降低实验成本。从社会角度而言,预测潜在的lncrna
ꢀ‑
疾病关联关系并分析这些关联关系具有重要的研究价值。研究成果不仅可以帮助人们加深对复杂疾病在分子层面的致病机理的理解,而且可以利用lncrna作为疾病诊断、预测的生物靶标以及治疗和预防的药物靶标。目前研究方法可大概分为三类:基于网络的方法、基于矩阵的方法和基于机器学习的方法。随着研究发展,基于神经网络的方法也逐渐被人们重视,应用更加广泛。
技术实现要素:
3.本发明用于预测lncrna和疾病关联,以解决生物实验成本过高的问题。针对目前lncrna等数据量过大,构建邻接矩阵稀疏导致特征不明显等缺陷,本发明采用多种特征融合的方法,充分利用各种图产生的嵌入特征,将其进行融合,最大化减少单一种方法得到的特征不明显、不充分的问题。用不同方法中提取嵌入特征时,本发明也采用了不同的机制如条件随机和采用元路径提取特征等方法,让得到的特征结果更具有价值。本发明的模型主要由以下几个模块构成:
4.1)基于条件随机的图自编码器,整体工作流程如图一;
5.2)将不同的节点lncrna和疾病构造异构图,对其提取元路径,利用图注意力神经网络更新特征,具体流程参考图二;
6.3)将得到的特征进行融合,利用sigmoid分类函数得到输出结果,如图三所示。
7.主要算法步骤如下:
8.step-1:构建lncrna和疾病的关联邻接矩阵及其各自的相似度矩阵,并利用lncrna和疾病之间的关联构建异构图;
9.step-2:计算融合矩阵,构建图自编码器模型,将得到的特征矩阵输入到模型中,
得到初步嵌入;
10.step-3:利用条件随机方法和注意力计算不同节点贡献成都得分进一步优化得到的嵌入特征,使其信息更丰富与准确;
11.step-4:从异构图中提取不同的元路径,计算元路径每个节点对中心节点的权重wi,随后利用注意得分ei计算lncrna和不同疾病之间的相似度矩阵,得到特征向量ci;
12.step-5:将特征向量ci输入到神经网络中得到最终的特征向量ri;
13.step-6:将得到的两种特征矩阵进行融合,利用sigmoid分类器得到输出结果,从而得到机器预测的与lncrna相关联的疾病。
附图说明
14.图1基于条件随机法的图自编码器处理特征流程图
15.图2基于元路径的图神经网络处理特征流程图
16.图3多种特征融合进行lncrna疾病关联预测。
具体实施方式
17.本发明是一种基于多种特征融合的lncrna和疾病关联预测模型构建方法,下面介绍本模型的具体实施方式。由于本发明采用两种模型,以下分模块进行说明。
18.第一个模块是利用条件随机法的图自编码器。该模型主要采用lncrna和疾病两种对象。针对lncrna计算lncrna序列相似度和lncrnagip相似度,对于疾病分别计算疾病语义相似度和疾病gip相似度。其次通过已公开的数据库中得到的lncrna和疾病关联构建异构网络,将异构网络输入到图自编码器中,利用其压缩lncrna和疾病的特征,得到节点的初步嵌入。随后将初始嵌入输入到crf层进行更新,并利用注意力机制计算出不同节点的得分值,学习得到最终的嵌入特征。主要流程如图1所示。
19.第二个模块是基于元路径进行特征提取的图注意力网络。该模型采用lncrna和疾病两种对象,计算lncrna的功能相似度和gip相似度、疾病的语义相似度和gip相似度。其次应用lncrna和疾病的已知关联,构造异构图。从该异构图中提取节点数量最多为3的元路径。考虑到元路径越长,节点之间的关联越小,过长的元路径不进行计算。元路径的选取利用注意力机制计算相邻节点的权重,找出最优的元路径,从而得到特征向量。主要流程如图2所示。
20.第三模块是对得到的特征向量进行融合,利用sigmoid分类器得到输出结果,筛选出与lncrna相关的疾病。总体流程如图3所示。
21.以下针对不同的模块进行详细介绍。
22.1)模块一首先需要计算lncrna和疾病的相似度矩阵。lncrna序列相似性特征矩阵计算如公式1所示:
23.lss
ij
=[max(l(li),l(lj))-lev(li,lj)]/max(l(li),l(lj)
ꢀꢀꢀꢀ
公式1
[0024]
lss为计算得出的lncrna之间的序列相似度。其中li和lj分别表示第i个和第j个lncrna的序列信息。函数l返回输入lncrna序列的长度。函数lev返回两个输入lncrna序列之间的levenshtein距离的比较分数。得到的相似度值范围为0 ~ 1,其中1表示两个lncrna序列完全相同,0表示两个lncrna序列没有相似度。
[0025]
疾病和lncrna的gip相似度如计算公式2:
[0026]
gsl(li,lj)=exp(-λ
l
||ip(li)-ip(lj)||2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2
[0027]
以lncrna为例,其中ip为lncrna和疾病之间的相互作用信息,由lncrna和疾病的邻接矩阵获得。其中lncrna和疾病的邻接矩阵im,若lncrna和疾病相关,则im
ld
为1,否则为0,其中l为lncrna,d为疾病。λ
l
是控制高斯相互作用属性核相似度的带宽。λ
l
用于正则化高斯相互作用性质核相似带宽,这里将其值设为1。
[0028]
计算疾病语义相似度时,首先构造疾病的有环无向图dag,其包括疾病节点、疾病之间的连接集以及该疾病祖先疾病节点集。
[0029]
dag中疾病t对疾病d的语义贡献计算公式3和公式4:
[0030]
dd(t)=1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
if t=d
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3
[0031]
dd(t)=max{δ*dd(t')|t'∈children of t } if t≠d
ꢀꢀ
公式4
[0032]
其中δ为贡献因子,默认为0.5,t为计算的疾病节点,t'为该疾病节点的关联节点,dd(t)为该关联疾病节点t'对该疾病t的语义贡献。
[0033]dd
(t)计算方式如公式5:
[0034]gds
(di,dj)= (σ
t∈t(di)∩t(dj)
(d
di
(t)+d
dj
(t)))/(σ
t∈t(di)
(d
di
(t))+σ
t∈t(dj)
(d
dj
(t)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式5
[0035]
其中d
di
(t)和d
dj
(t)代表疾病t对疾病di和dj的语义贡献,n为疾病的数量。t为该疾病祖先节点集。
[0036]
目前得到lncrna和疾病的两种相似度,采用线性融合方法生成新的综合相似矩阵,计算方式如公式6和公式7:
[0037]
lsm=(lss(li,lj)+gsl(li,lj))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式6
[0038]
dsm=(gss(di,dj)+gsd(di,dj))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式7
[0039]
其中lsm为由lncrna序列相似矩阵和gip相似矩阵得到的lncrna最终相似矩阵。gsm为由疾病gip相似矩阵和疾病语义相似矩阵得到的最终相似矩阵。然后构造特征矩阵am。该特征矩阵第一行由lsm和邻接矩阵im构成,第二行由gsm和im构成。最终得到的特征矩阵每一行作为lncrna或疾病的特征向量。将最终得到的特征矩阵am输入到神经网络中,得到节点的初步嵌入。应用神经网络的优点是它能够提取网络结构信息和节点信息,对每一层相邻节点的信息进行聚合。
[0040]
图自编码器包含编码层和解码层。编码层将节点编码为低维嵌入特征,解码层对低维嵌入特征进行解码,计算方式如公式8和公式9所示:
[0041]
p
(1)
=relu(d-1/2
amw)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式8
[0042]
p
(k+1)
=relu(d-1/2
am p
(k)
w)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式9
[0043]
其中p为经过卷积层编码后的嵌入矩阵,p
(1)
为第一层卷积层,p
(k)
为第k层卷积层。relu为线性整流激活函数。w为可训练权矩阵,矩阵d为am的度矩阵。
[0044]
对训练得到的初始嵌入采用crf层更新,使lncrna和疾病有更相似的嵌入表达。crf为条件随机层,其利用相邻的上下文信息和状态来更新当前节点特征。
[0045]
其损失函数计算如公式10所示:
[0046]
l(qi)=α(q
i-pi)2+μσψ
ic
(q
i-qj)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式10
[0047]
l(qi)为计算邻居节点与当前节点的损失值,α和μ分别是平衡第一项和第二项的
学习参数,ψ
ic
为可训练的权值,其计算公式在后文列出。qi为当前更新的节点嵌入,qc为i的邻居节点嵌入。
[0048]
qi节点的更新公式11和公式12如下:
[0049]qi(1)
=(αpi+μσ
j∈λi
ψ
ic
pc)/(α+μσ
j∈λi
ψ
ic
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式11
[0050]qi(k+1)
=(αq
i(k)
+μσ
j∈λi
ψ
ic q
i(k)
)/(α+μσ
j∈λi
ψ
ic
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式12
[0051]
qi
(1)
为第一次迭代后,qi
(k+1)
为第k次迭代后的嵌入,本次训练中设置qk为最终节点嵌入。此外添加注意力机制,以获得不同节点的贡献值。通过不同权值的大小,模型可以侧重更具有重要贡献的节点。λi表示节点i的邻居节点集合。
[0052]
节点i和节点c的注意力贡献 ic计算公式13和公式14为:
[0053]fic
=att(wqi,wqc)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式13
[0054]
ψ
ic
=softmax(f
ic
)=exp(f
ic
)/ σ
k=1λi
exp(f
ik
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式14
[0055]
其中att表示单层前馈神经网络,w表示潜在可训练权矩阵,f
ic
为相邻节点间的注意力权值,softmax为归一化指数函数。
[0056]
最后得到lncrna和疾病的嵌入矩阵q
l
和qd,重构lncrna和疾病的特征矩阵am',重构公式15如下:am'=q
lwl
(wd)
t
(qd)
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式15
[0057]
2)模块二首先根据上述方法计算得出异构图提取元路径。这里选用两个节点长度和三个节点长度的元路径用来计算特征。考虑到元路径越长,节点之间的关联越小,过长的元路径不进行提取和计算。通过上述构造的异构图,提取出全部长度为2和3 的元路径,元路径实例包含:lncrna-》lncrna、disease-》disease、lncrna-》disease-》lncrna、disease-》lncrna-》disease。
[0058]
得到元路径后,计算不同元路径的权值,使关联程度更高的元路径贡献分数越高。元路径的权值计算公式16如下:
[0059]
wu=(1/|v|)
·
σ
u∈vqt
·
tanh(w
·zu
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式16
[0060]
其中wu为权重矩阵,b为偏置向量,tanh为激活函数,q为语义层关注向量,其维数设为128。v表示与节点u具有相同类型的节点数,即元路径的数量。随后用softmax函数对各元路径的权值进行归一化。
[0061]
因此,我们可以得到各个元路径的权值,记为bu,计算公式17如下:
[0062]
buo=exp(wuo)/ σ
n=1m
exp(wun)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式17
[0063]
m表示与节点u相关联的元路径类型个数,bu表示元路径o对中心节点u的贡献。我们可以知道,bu越大,元路径o越重要。
[0064]
将元路径的权重作为系数,通过聚合特定语义的嵌入来计算最终的节点嵌入zu。zu计算公式18如下:
[0065]zu
=σ
n=1mbuo
·zuo
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式18
[0066]
随后将得到的特征向量输入到卷积层中进行特征嵌入。
[0067]
通过模块一和模块二最终得到两种处理后的特征,利用下面的计算公式19将特征融合:
[0068]
x
u = (am'+ zu)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式19
[0069]
最后利用交叉熵损失函数计算模型预测值与样本之间的差值,计算公式20和公式21如下:
[0070]yid
=sigmoid((x
u(i)
)
t
r x
u(d)
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式20
[0071]
sigmoid(x)=1/(1+e-x
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式21
[0072]
r为可训练参数矩阵,其维数设置为64* 64。sigmoid为激活函数,它的输入是任意的x,输出在0,1之间,实现数据映射,得到最终预测结果。
技术特征:
1.一种基于多种特征融合的lncrna和疾病关联预测模型构建方法,所述模型包括以下几个步骤:步骤一:利用条件随机法的图自编码器,该模型主要采用lncrna和疾病两种对象,针对lncrna计算lncrna序列相似度和lncrnagip相似度,对于疾病分别计算疾病语义相似度和疾病gip相似度;其次通过已公开的数据库中得到的lncrna和疾病关联构建异构网络,将异构网络输入到图自编码器中,利用其压缩lncrna和疾病的特征,得到节点的初步嵌入;随后将初始嵌入输入到crf层进行更新,并利用注意力机制计算出不同节点的得分值,学习得到最终的嵌入特征;步骤二:基于元路径进行特征提取的图注意力网络。该模型采用lncrna和疾病两种对象,计算lncrna的功能相似度和gip相似度、疾病的语义相似度和gip相似度;其次应用lncrna和疾病的已知关联,构造异构图,从该异构图中提取节点数量最多为3的元路径;考虑到元路径越长,节点之间的关联越小,过长的元路径不进行计算;元路径的选取利用注意力机制计算相邻节点的权重,找出最优的元路径,从而得到特征向量;步骤三:对得到的特征向量进行融合,利用sigmoid分类器得到输出结果,筛选出与lncrna相关的疾病;首先需要计算lncrna和疾病的相似度矩阵;lncrna序列相似性特征矩阵计算如公式1所示:lss
ij
=[max(l(l
i
),l(l
j
))-lev(l
i
,l
j
)]/max(l(l
i
),l(l
j
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1lss为计算得出的lncrna之间的序列相似度,其中l
i
和l
j
分别表示第i个和第j个lncrna的序列信息,函数l返回输入lncrna序列的长度,函数lev返回两个输入lncrna序列之间的levenshtein距离的比较分数,得到的相似度值范围为0 ~ 1,其中1表示两个lncrna序列完全相同,0表示两个lncrna序列没有相似度;疾病和lncrna的gip相似度如计算公式2:gsl(li,lj)=exp(-λ
l
||ip(l
i
)-ip(l
j
)||2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2以lncrna为例,其中ip为lncrna和疾病之间的相互作用信息,由lncrna和疾病的邻接矩阵获得;其中lncrna和疾病的邻接矩阵im,若lncrna和疾病相关,则im
ld
为1,否则为0,其中l为lncrna,d为疾病;λ
l
是控制高斯相互作用属性核相似度的带宽,λ
l
用于正则化高斯相互作用性质核相似带宽,这里将其值设为1;计算疾病语义相似度时,首先构造疾病的有环无向图dag,其包括疾病节点、疾病之间的连接集以及该疾病祖先疾病节点集;dag中疾病t对疾病d的语义贡献计算公式3和公式4:dd(t)=1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
if t=d
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3dd(t)=max{δ*dd(t')|t'∈children of t } if t≠d
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4其中δ为贡献因子,默认为0.5,t为计算的疾病节点,t'为该疾病节点的关联节点,d
d
(t)为该关联疾病节点t'对该疾病t的语义贡献;d
d
(t)计算方式如公式5:g
ds
(di,dj)= (σ
t∈t(di)∩t(dj)
(d
di
(t)+d
dj
(t)))/(σ
t∈t(di)
(d
di
(t))+σ
t∈t(dj)
(d
dj
(t))) 公式5其中d
di
(t)和d
dj
(t)代表疾病t对疾病d
i
和d
j
的语义贡献,n为疾病的数量,t为该疾病祖
先节点集;目前得到lncrna和疾病的两种相似度,采用线性融合方法生成新的综合相似矩阵,计算方式如公式6和公式7:lsm=(lss(l
i
,l
j
)+gsl(l
i
,l
j
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式6dsm=(gss(d
i
,d
j
)+gsd(d
i
,d
j
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式7其中lsm为由lncrna序列相似矩阵和gip相似矩阵得到的lncrna最终相似矩阵;gsm为由疾病gip相似矩阵和疾病语义相似矩阵得到的最终相似矩阵;然后构造特征矩阵am;该特征矩阵第一行由lsm和邻接矩阵im构成,第二行由gsm和im构成;最终得到的特征矩阵每一行作为lncrna或疾病的特征向量;将最终得到的特征矩阵am输入到神经网络中,得到节点的初步嵌入;应用神经网络的优点是它能够提取网络结构信息和节点信息,对每一层相邻节点的信息进行聚合;图自编码器包含编码层和解码层;编码层将节点编码为低维嵌入特征,解码层对低维嵌入特征进行解码,计算方式如公式8和公式9所示:p
(1)
=relu(d-1/2
amw)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式8p
(k+1)
=relu(d-1/2
am p
(k)
w)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式9其中p为经过卷积层编码后的嵌入矩阵,p
(1)
为第一层卷积层,p
(k)
为第k层卷积层;relu为线性整流激活函数,w为可训练权矩阵,矩阵d为am的度矩阵;对训练得到的初始嵌入采用crf层更新,使lncrna和疾病有更相似的嵌入表达;crf为条件随机层,其利用相邻的上下文信息和状态来更新当前节点特征;其损失函数计算如公式10所示:l(q
i
)=α(q
i-p
i
)2+μσψ
ic
(q
i-q
j
)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式10l(qi)为计算邻居节点与当前节点的损失值,α和μ分别是平衡第一项和第二项的学习参数,ψ
ic
为可训练的权值,其计算公式在后文列出;q
i
为当前更新的节点嵌入,q
c
为i的邻居节点嵌入;q
i
节点的更新公式11和公式12如下:q
i(1)
=(αp
i
+μσ
j∈λi
ψ
ic
p
c
)/(α+μσ
j∈λi
ψ
ic
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式11q
i(k+1)
=(αq
i(k)
+μσ
j∈λi
ψ
ic q
i(k)
)/(α+μσ
j∈λi
ψ
ic
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式12qi
(1)
为第一次迭代后,qi
(k+1)
为第k次迭代后的嵌入,本次训练中设置q
k
为最终节点嵌入;此外添加注意力机制,以获得不同节点的贡献值;通过不同权值的大小,模型可以侧重更具有重要贡献的节点;λ
i
表示节点i的邻居节点集合;节点i和节点c的注意力贡献 ic计算公式13和公式14为:f
ic
=att(wq
i
,wq
c
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式13ψ
ic
=softmax(f
ic
)=exp(f
ic
)/ σ
k=1λi
exp(f
ik
)
ꢀꢀꢀꢀꢀ
公式14其中att表示单层前馈神经网络,w表示潜在可训练权矩阵,f
ic
为相邻节点间的注意力权值,softmax为归一化指数函数;最后得到lncrna和疾病的嵌入矩阵q
l
和q
d
,重构lncrna和疾病的特征矩阵am',重构公式15如下:am'=q
l
w
l
(w
d
)
t
(q
d
)
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式15根据上述方法计算得出异构图提取元路径;这里选用两个节点长度和三个节点长度的元路径用来计算特征;考虑到元路径越长,节点之间的关联越小,过长的元路径不进行提取
和计算;通过上述构造的异构图,提取出全部长度为2和3 的元路径,元路径实例包含:lncrna->lncrna、disease->disease、lncrna->disease->lncrna、disease->lncrna->disease;得到元路径后,计算不同元路径的权值,使关联程度更高的元路径贡献分数越高;元路径的权值计算公式16如下:wu=(1/|v|)
·
σ
u∈v
q
t
·
tanh(w
·
z
u
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式16其中wu为权重矩阵,b为偏置向量,tanh为激活函数,q为语义层关注向量,其维数设为128;v表示与节点u具有相同类型的节点数,即元路径的数量;随后用softmax函数对各元路径的权值进行归一化;因此,我们可以得到各个元路径的权值,记为b
u
,计算公式17如下:bu
o
=exp(wu
o
)/ σ
n=1m
exp(wu
n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式17m表示与节点u相关联的元路径类型个数,b
u
表示元路径o对中心节点u的贡献;我们可以知道,b
u
越大,元路径o越重要;将元路径的权重作为系数,通过聚合特定语义的嵌入来计算最终的节点嵌入z
u
;z
u
计算公式18如下:z
u
=σ
n=1m
b
uo
·
z
uo
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式18随后将得到的特征向量输入到卷积层中进行特征嵌入;通过最终得到两种处理后的特征,利用下面的计算公式19将特征融合:x
u = (am'+ z
u
)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式19最后利用交叉熵损失函数计算模型预测值与样本之间的差值,计算公式20和公式21如下:y
id
=sigmoid((x
u(i)
)
t
r x
u(d)
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式20sigmoid(x)=1/(1+e-x
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式21r为可训练参数矩阵,其维数设置为64* 64,sigmoid为激活函数,它的输入是任意的x,输出在0,1之间,实现数据映射,得到最终预测结果。
技术总结
本发明设计了一种基于多种特征融合的LncRNA和疾病关联预测方法,主要由两部分组成:基于条件随机域的图自编码器进行特征提取和基于元路径的图注意力神经网络。首先获得初步的特征矩阵后将其输入到卷积层中,对特征进行压缩,从而计算初始嵌入特征;随后其中通过计算不同节点的注意力分数,充分运用当前节点的邻居节点特征来更新当前节点特征。其次通过异构图提取不同类型的元路径,通过相邻的不同节点的相似度及其贡献度来更新目标节点的特征。对上述得到的特征进行融合,最后进行预测得分,从而筛选出与疾病关联的lncRNA。该模型充分利用相邻节点对目标节点的影响,有效提高特征的精确度,使预测结果更加准确。使预测结果更加准确。
技术研发人员:姚登举 邓岳潇 张雪慧
受保护的技术使用者:哈尔滨理工大学
技术研发日:2023.06.17
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/