CircRNA-miRNA关联预测方法、装置及介质
未命名
09-03
阅读:79
评论:0

circrna-mirna关联预测方法、装置及介质
技术领域
1.本发明属于生物智能处理方法技术领域,更具体地,涉及一种circrna-mirna关联预测方法、装置及介质。
背景技术:
2.在20世纪70年代初,环状核糖核酸(circrnas)就已经被发现,但在人类生理学中,它们并没有被认为是核糖核酸(rna)表达分析的关键元素。2013年以后,由于高分辨率和高通量rna-seq数据,特别是端到端读取和深度测序,新一批circrnas被发现并被量化。根据已发表的文献,circrna有三种类型的识别方法:从头(abinitio)预测方法、基于rna-seq比对工具如(如segemehl),以及专门为寻找circrna而设计的算法和工具(如ciri)。这些研究证明,circrna是一种内源性单链非编码rna(ncrna)分子,在rna转录物的下游5'端剪接位点和上游3'位点产生共价闭环结构,具有重要的生物学功能,通过识别circrna和疾病关联从而对疾病的治疗起到了至关重要的作用。大量实验分析表明,mirna是一种ncrna,是真核生物基因调控不可或缺的一部分。截至目前,越来越多的生物学实验验证表明circrnas是mirnas海绵并且circrnas可作为一类新的生物标志物。为了减轻通过一些湿实验室实验探索circrna-mirna相互作用的劳动密集型的问题,许多计算机方法被用于circrna-mirna关联关系(cmas)的鉴定。
3.近年来的研究表明,迅速涌现的计算机算法模型为cmas预测不仅仅提供了良好的解决方案,而且在机器学习技术中快速处理海量数据的同时,也实现了更高的精度。例如,lan等人开发了一种necma模型,使用内积和邻域正则化逻辑矩阵分解来预测cmas。qian等提出了一种基于奇异值分解和图变分自编码器的cmivgsd模型来预测mirna相关的circrna。guo等人设计了wscd,该wscd基于结构深度神经网络嵌入,使用卷积神经网络和深度神经网络对cmas进行预测。wang等通过多模态信息整合节点相似性特征融合,推断mirna相关circrna之间的关联关系得分。
4.此外,大多数现有的cmas预测模型忽略了其序列中包含的完全相关的生物学信息和它们对mirna功能的影响以及与circrna的复杂关联。因此,以下有一明确值得考虑解决的问题:
5.(1)合理的特征融合模型融合多模态异构信息,提取circrnas和mirnas之间的关联关系;
6.(2)考虑适当的序列和交互信息策略来学习良好的特征;
7.(3)需要解决实验交叉反应产生的噪声影响。
技术实现要素:
8.提供了本发明以解决现有技术中存在的上述问题。因此,需要一种circrna-mirna关联预测方法、装置及介质,基于图表示学习(graph representation learning)预测cmas的机器学习框架cmalf,该框架利用了深度学习同构嵌入融合模型和分解方法。具体而言,
我们首先从基于circrna序列的词嵌入(一种自然语言处理方法)中提取潜在的生物属性特征,word2vec[24]。其次,多源的特征信息包含其对circrna-mirna相互作用关系的影响,通过验证的相互作用对和相同数量的未标记样本得到异构图,构建可靠的分子关联网络。因此,将网络输入到大规模信息网络嵌入和图分解的融合模型中,用于低维嵌入向量生成。最后,利用梯度增强决策树分类器有效地推断出潜在的cmas。
[0009]
根据本发明的第一方案,提供了一种circrna-mirna关联预测方法,所述方法包括:
[0010]
构建数据集,所述数据集中包括多个circrna以及多个mirna;
[0011]
基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征;
[0012]
基于同构图嵌入提取出行为特征;
[0013]
基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas。
[0014]
进一步地,通过公式(1)描述构建的数据集:
[0015]
d=d
+
∪d-ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0016]
式中,d表示元素的并集,d
+
和d-分别表示20208个阳性样本和4091280个阴性样本的集合。
[0017]
进一步地,构建维数为m
×
n的数据集的邻接矩阵,其中m表示circrna的数量,n表示mirna的数量;
[0018]
若mirna(m(i))与circrna(c(j))不相关,则dm中的dm(i,j)被设置为0;否则,dm中的dm(i,j)的值为1,其中mirna(m(i))表示邻接矩阵中的第i个mirna,circrna(c(j))表示邻接矩阵中的第j个circrna,dm(i,j)表示在邻接矩阵中第i个mirna与第j个circrna的相关性。
[0019]
进一步地,所述基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征,具体包括:
[0020]
提供提取模型来实现生物属性特征的提取;
[0021]
所述提取模型的输出值的目标函数表示为:
[0022][0023]
式中,ω表示权重矩阵,ω
t
表示目标单词,上下文单词的参数被视为ω
t-n
,
…
,ω
t+n
,t表示样本数量,t表示当前样本序号。
[0024]
进一步地,所述基于同构图嵌入提取出行为特征,具体包括:
[0025]
利用多层感知器用来保持一阶与二阶相似度来学习低维密集向量,其中一阶与二阶的目标函数表示为:
[0026][0027][0028]
式中,q1表示一阶的目标函数,q2表示二阶的目标函数,d(
·
,
·
)表示两个分布之间的距离,和被视为经验分布的表示,p1(
·
,
·
)和p1(
·
|vi)分别表示联合分
布和上下文条件分布,λi表示正则化参数;
[0029]
对图的邻接矩阵进行因子分解,因子分解的目标函数表示为:
[0030][0031]
式中,y,z和λ分别表示权重邻接矩阵、因子矩阵和正则化参数;e表示邻接矩阵的大小,zi表示第i行因子向量,y
ij
表示第i行j列权重,zj表示第j列因子向量。
[0032]
进一步地,所述基于同构图嵌入提取出行为特征,具体包括:
[0033]
提供融合图嵌入模型来提取出行为特征;
[0034]
所述融合图嵌入模型的目标函数表示为:
[0035][0036]
式中,y表示图的嵌入,yi和yj分别表示节点的嵌入和由y表示的图的嵌入,w
ij
表示权重,l表示图g的拉普拉斯算子,y
t
表示图嵌入的转置,tr表示最小化目标函数。
[0037]
进一步地,所述基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas,具体包括:
[0038]
提供分类器来学习circrna与mirna的相互作用得分,并推断出潜在的cmas。
[0039]
进一步地,提供弱分类器,所述弱分类器用于多次迭代和先前分类器的残差;
[0040]
所述弱分类器的目标函数表示为:
[0041][0042]
式中,f
m-1
(x)表示此时的迭代结果,θm表示单样本目标函数,n表示样本数量,yi表示标签,l()表示损失函数,t(xi;θm)表示误差。
[0043]
根据本发明的第二技术方案,提供一种circrna-mirna关联预测装置,所述装置包括:
[0044]
构建模块,被配置为构建数据集,所述数据集中包括多个circrna以及多个mirna;
[0045]
第一提取模块,被配置为基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征;
[0046]
第二提取模块,被配置为基于同构图嵌入提取出行为特征;
[0047]
预测模块,被配置为基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas。
[0048]
根据本发明的第三技术方案,提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的方法。
[0049]
本发明至少具有以下有益效果:
[0050]
根据本发明,可以构建出cmalf,这是一种基于融合模型的图表示学习框架,结合了两种同构图嵌入方法来预测cmas。
[0051]
对构建的数据集的总体评估证实,cmalf在cmas预测方面优于其他优秀的模型。为了评估本文的最佳性能,我们在相同的数据集上进行了几个消融实验,包括cmalf-line模
型、cmalf-gf和lap模型的比较、不同的实验分类器模型、关联预测模型性能与其他最先进模型的比较。对构建的数据集的总体评估证实,cmalf在cmas预测方面优于其他高级模型。通过最近文献中的案例研究,对大量实验结果对的预测获得了更高的关联分数。通过对结果的仔细分析表明,本发明实现了对学术研究潜在cmas的出色预测。
[0052]
本发明具有优异预测性能。特别是,本发明考虑了circrna和mirna序列提供的属性特征和行为特征,而以前的方法较少关注这些信息的充分应用。更具体地说,1.与以前侧重于cmas特征提取信息的方法相比,使用序列信息可以用来增强特征表达。2.它可以执行全基因组定量测试和分析,几乎每个阅读片段都可以很好地表征其相关rna序列,并且没有实验交叉反应和噪声影响。此外,将序列信息与交互信息相结合,以获得非常可靠的行为属性的特征向量,并提高特征提取的质量。
附图说明
[0053]
图1为一种circrna-mirna关联预测方法的流程图。
[0054]
图2为cmalf模型的运行流程图,其中:a.通过预处理异构关联图来构建节点和节点拓扑特征;b.通过词嵌入和图嵌入模型学习circrna和mirna节点序列和拓扑结构的低维表示特征;c.gbdt预测的流程图。
[0055]
图3为一个同质嵌入融合模型的运行流程图。
[0056]
图4为通过cmalf实现的auc和aupr值的示意图,其中:a.auc是通过对绘制roc曲线的面板a下的面积求和而获得的;b.aupr是指精确度和召回率所包围的曲线下的面积。
[0057]
图5为不同策略的预测性能比较示意图。
[0058]
图6为曲线图,其中:a.使用五折交叉验证的数据集上的lap结果生成的roc曲线;b.使用五折交叉验证的数据集的结果生成的aupr。
[0059]
图7为不同分类器模型获得的5倍cv的结果。
[0060]
图8为一种circrna-mirna关联预测装置的结构图。
具体实施方式
[0061]
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
[0062]
实施例1:
[0063]
本发明实施例提供一种circrna-mirna关联预测方法,如图1和图2所示,该方法包括如下步骤:
[0064]
步骤s100,构建数据集,所述数据集中包括多个circrna以及多个mirna。
[0065]
示例性的,为了收集circrna和mirna的高可靠性序列信息以评估cmalf模型的性能,我们利用目前可用的实验验证的circbank数据库和mirbase数据库作为高质量的选择数据集来评估上述模型的质量。因此,我们可以将构建的数据集描述如下:
[0066]
d=d
+
∪d-ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0067]
在本实施例中,首先从构建的数据集中赛选了20208对实验验证的cmas,涉及3569个circrna和1152个mirna。这里d
+
和d-分别表示20208个阳性样本和4091280个阴性样本的集合。d表示元素之间的并集。其次,我们建立了维数为3569
×
1152的数据集的邻接矩阵dm。当mirna(m(i))与circrna(c(j))不相关时,dm的dm(i,j)被设置为0;否则,它的值为1。
[0068]
步骤s200,基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征。
[0069]
示例性的,可以基于word2vec来进行生物属性特征的提取。
[0070]
word2vec是由谷歌提出的。流行的word2vec是一个单词嵌入模型,它使用句子中出现的单词之间的关系来获得机器学习中从高维到低维空间的单词向量。类似地,节点被用作单词,节点序列被用作句子,如word2vec算法对circrna和mirna节点表示的序列分析中所述。
[0071]
在这里,word2vec利用在依赖于cbow(bag-of-words)模型的载体空间中提取circrna和mirna序列特征,该模型用于表征本研究中的节点特征。由cbow确定的最优目标字在目标字之前和之后执行次预测,其中cbow的输出值的目标函数如下:
[0072][0073]
这里ω是权重矩阵,ω
t
代表目标单词,上下文单词的参数被视为ω
t-n
,
…
,ω
t+n
。
[0074]
在本实施例中,通过使用word2vec模型的gensim-python软件包,训练circrna和mirna序列特征,可以获得64维的目标特征。
[0075]
步骤s300,基于同构图嵌入提取出行为特征。
[0076]
同构图嵌入是一种图表示学习方法,旨在学习顶点的低维表示时保留图拓扑。它也被公认为网络嵌入或非属性图嵌入,包含11种基于随机行走、基于深度学习和基于矩阵分解的方法。因此,本实施例中选择了矩阵分解中的gf、lap和深度学习中的line。
[0077]
在构建的数据集中,多源的特征信息包含其对circrna-mirna相互作用关系的影响,通过验证的相互作用对和相同数量的未标记样本得到异构图,构建可靠的分子关联网络,如图2中右上角的图片所示,基于该分子关联网络利用同构图嵌入提取出行为特征。
[0078]
具体的,通过使用多层感知器用来保持一阶与二阶相似度来学习低维密集向量。用一阶与二阶的目标函数,分别如下所示
[0079][0080][0081]
在这里,设置v={v1,
…
,vn}和分别表示顶点和边,这意味着,在图g(v,e)中,e
i,j
从vi到vj。d(
·
,
·
)表示两个分布之间的距离。和被视为经验分布的表示,p1(
·
,
·
)和p1(
·
|vi)分别代表联合分布和上下文条件分布。
[0082]
为了解决下游分类器的存储和构造问题,选择gf对图的邻接矩阵进行因子分解。该目标函数描述为
[0083][0084]
其中y,z和λ分别表示权重邻接矩阵、因子矩阵和正则化参数。
[0085]
在一些实施例中,在行为特征提取过程中,结合深度学习和因子分解的优势,提出了一种基于集成line和gf的融合图嵌入模型(lpa),如图3所示。
[0086]
本实施例提出了lap模型,这是一种矩阵分解,旨在分解高维矩阵以获得嵌入。特别地,通过拉普拉斯特征映射来最小化所获得的目标函数。
[0087][0088]
其中yi和yj是节点的嵌入和由y表示的图的嵌入。w
ij
和l分别被视为其表示权重和图g的拉普拉斯算子。
[0089]
本文将所建立的open-ne库将应用于图嵌入模型的行为特征提取。在训练上述模型之后,获得了每个节点具有64个维度的向量。
[0090]
步骤s400,基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas。
[0091]
该步骤是一个预测过程,可以基于决策树方法进行实现。
[0092]
示例性的,提出一种分类器,可用于分类或回归或过滤特征。在这种策略下,再设置一个弱分类器,通过多次迭代和先前分类器的残差。本实施例将弱分类器的损失函数表示为
[0093][0094]
这里f
m-1
(x)表示此时的迭代结果,我们将弱分类器(a decision tree)设置为t(xi;θm)的参数值;我们用m表示的迭代次数。
[0095]
实施例2:cmalf模型的预测性能
[0096]
cmalf模型是基于实施例1所述方法所构建的一个模型,其可以实现circrna-mirna关联预测,本实施例的目的在于说明该模型的预测性能,以说明本发明的可行性和进步性。
[0097]
对于在机器学习中进行的评估,不同的常用评估指标来衡量所提出的cmalf模型的预测性能,包括spe.(specificity)、pre.(precision)、sen.(sensitivity)、mcc(matthews correlation coefficient)和acc.(accuracy)。这些评价指标的定义如下:
[0098][0099][0100][0101]
[0102][0103]
这里,评估标准的缩写包括,tp表示真阳性,tn表示真阴性,fp表示假阳性,fn表示假阴性。此外,我们通过计算cmalf生成的tp率和fp率,可视化了roc(receiver-operating-characteristic)曲线,并计算了它们的平均auc(roc下面积)和aupr(area under precision-recall(pr)),以考虑不平衡。此外,可靠的5倍交叉验证(cv)。
[0104]
在评估中,我们使用我们构建的数据集,使用5倍cv方法来访问cmalf模型在acc.、sen.、spe.、pre.、mcc、auc和aupr方面预测潜在cmas的能力。所有实验结果和黑体标粗的平均预测值如表1所示。cmalf获得了0.9075的auc平均值和0.0016的标准差,其中5倍交叉验证实验的auc值分别为0.9067、0.9103、0.9076、0.9070和0.9061。在图4中,auc可以通过对绘制roc曲线的面板a下的面积求和来获得,aupr是指面板b中精度和召回率包围的pr曲线下的面积,分别到达曲线下面积较大的图像左上角和右上角。总体而言,上述统计数据证明,该模型具有最先进的性能,它可以通过有效预测潜在的cmas,并且也为深入理解circrna-mirna的关系提供有力的证据。
[0105]
表1 cmalf进行的五折交叉验证实验所得到的结果
[0106][0107][0108]
实施例3:对比不同特征提取策略
[0109]
为了确认两种不同的图嵌入方法的有效性是否比所提出的模型对模型的性能更好,我们将测试line和gf模型分别与cmalf进行了比较,分别命名为cmalf-line和cmalf-gf。cmalf-line和cmalf-gf与cmalf在同一数据集上进行的相同五折交叉验证实验的结果显示在图3的直方图中,其具体值如表2和表3所示。根据表1和表2中的数据,从cmalf-line模型获得的acc.、sen.、spe.、pre.、mcc和auc的平均值分别比本文模型中提出的模型低3.65%、3.32%、5.77%、5.33%、9.1%和0.0342。与表1相比,表3显示cmalf-gf模型的平均值小于构建的模型。同样,图5也通过预测性能的比较显示了cmalf的优势。总之,cmalf的特征提取效果优于两种单方面信息特征提取策略。
[0110]
表2 cmalf-line通过五折交叉验证实验所获得的结果
[0111]
5-foldacc.(%)sen.(%)spe.(%)pre.(%)mcc(%)auc
fold179.1179.2279.0079.0458.210.8736fold278.8178.8578.7778.7957.620.8777fold379.2978.8779.7179.5458.590.8794fold477.5778.8176.3476.9155.170.8683fold576.9877.4376.5376.7453.960.8676average78.3578.6478.0778.2056.710.8733standard deviation1.0200.6901.5301.2902.0300.0053
[0112]
表3 cmalf-gf通过五折交叉验证实验所获得的结果
[0113]
5-foldacc.(%)sen.(%)spe.(%)pre.(%)mcc(%)aucfold176.5876.6076.5776.5853.170.8516fold277.9678.3577.5677.7455.910.8583fold377.6278.2876.9777.2655.250.8516fold477.7777.7577.7877.7755.530.8598fold577.9378.4277.4377.6555.860.8642average77.5777.8877.2677.4055.140.8571standard deviation0.5700.7600.4900.5001.1400.0055
[0114]
实施例4:与拉普拉斯特征映射模型的比较
[0115]
为了推断所提出的模型利用生物属性特征和多源行为特征作为模型属性来优化该模型性能的有效性,我们将其与lap方法生成的行为拓扑特征向量进行了比较。为了公平性和一致性,我们在体验过程中使用了lap生成的低维嵌入向量的方法来代替所提出的融合模型的图嵌入,模型的其他部分保持不变。使用我们构建的数据集,我们使用五折交叉验证实验来和lap方法训练模型,其结果的值呈现表4中。从表4可以看出,cmalf获得了更好的结果,其预测acc.、spe.、pre.、mcc和auc分别比lap模型高8.91%、22.6%、14.4%、16.18%和0.0814。这一结果表明,所提出的模型使用的line和gf相结合的融合模型可以有效地建立向量的特征并训练计算机模型,这有助于改进模型并实现最有潜力的预测性能。cmalf的aupr和roc曲线优势可以从图5和图6的比较中看出。
[0116]
表4通过lap和cmalf获得的5倍cv的结果
[0117][0118]
[0119]
实施例5:不同分类器模型的比较
[0120]
为了确保通过特征提取选择最佳分类方法,我们比较了不同的分类器模型,以评估本研究中cmalf对特征和性能的影响。具体而言,我们保留了不变的生物属性特征和行为拓扑特征提取方法,仅用knn(k-nearest neighbour)、lr(logistic regression)、rf(rotation forest)、svm(support vector machine)和adaboost算法等五种不同的分类器代替gbdt模型进行研究。表5列出了上述模型在同一数据集上实现的五折交叉验证实验的平均值,如柱状图5所示。从表5可以得出,adaboost在acc.、sen.、spe.、pre.、mcc和auc中排名第二,但比最佳结果低1.54%、1.26%、1.82%、1.76%、3.09%和0.0189,图7中的比较也表明cmalf模型是最佳结果。简而言之,这些结果表明,我们的gfbdt分类器cmalf模型优于其他分类器模型。
[0121]
表5通过不同的分类器模型得到的平均结果
[0122][0123][0124]
实施例6:与其他先进方法的比较
[0125]
着近年来对cmas的研究不断深入,许多著名学者提出了不同的cmas预测方法。将cmalf与上述方法进行更公平的比较,以评估其预测性能。由于这里有一个精确的比较考虑,我们计算了先前模型中产生的auc和aupr分数,这些结果值列在表6中,其中包含了我们的模型和在cmas预测新研究领域中的几篇新发表的论文的cmivgsd、wscd、kgdcmi[20]、sgcncmi模型。该表显示,cmalf实现了最高的auc和aupr评分,分别优于第二好的sgcncmi模型的为0.0133和0.0233,与其他三种方法的平均值相比大约超过了0.0198和0.0372。因此,上述比较可以得出结论,cmalf可以为进一步的学术研究提供最具竞争力的理论指导。
[0126]
表6各种模型获得的auc和aupr得分
[0127]
methodscmivgsdwscdkgdcmisgcncmicmalfauc0.88040.88980.89300.89420.9075aupr0.86290.88470.87670.88870.9120
[0128]
实施例7:案例研究
[0129]
为了进一步研究cmalf识别新的mirna候选circrna的有效性,我们通过用已知的mirna相关circrna对训练模型进行了案例研究,并用训练的模型预测了所有未知的cmas。然后,根据较高的分数对未知关联关系对的候选者进行排名,并通过查找相关研究文献或相关实验来确保预测有效性与正确性。结论模型预测结果如表7所示,从中我们可以看出,
在最近的文献中,前30个mirna相关的circrna对中只有7个没有得到验证。总体而言,该案例研究表明,cmalf在预测潜在cmas方面具有优越的预测性能,并且这些用于mirna研究的有价值的circrna候选物可能会被选择用于额外的湿实验室实验研究,以减少手动错误的不足。
[0130]
表7 cmalf预测的前30对cma
[0131]
rankcircrnamirnaevidencerankcircrnamirnaevidence1hsa_circ_0051922hsa-mir-4739confirmed16hsa_circ_0013871hsa-mir-612unconfirmed2hsa_circ_0051285hsa-mir-4739confirmed17hsa_circ_0013871hsa-mir-1273h-5punconfirmed3hsa_circ_0039128hsa-mir-4739confirmed18hsa_circ_0061080hsa-mir-6860confirmed4hsa_circ_0081673hsa-mir-612confirmed19hsa_circ_0010663hsa-mir-3187-5pconfirmed5hsa_circ_0055327hsa-mir-612confirmed20hsa_circ_0048709hsa-mir-612confirmed6hsa_circ_0080666hsa-mir-4739confirmed21hsa_circ_0039087hsa-mir-612unconfirmed7hsa_circ_0013876hsa-mir-612unconfirmed22hsa_circ_0009652hsa-mir-612confirmed8hsa_circ_0081678hsa-mir-346confirmed23hsa_circ_0081678hsa-mir-3187-5pconfirmed9hsa_circ_0081678hsa-mir-4739confirmed24hsa_circ_0010541hsa-mir-346unconfirmed10hsa_circ_0082878hsa-mir-4739confirmed25hsa_circ_0085900hsa-mir-3187-5pconfirmed11hsa_circ_0081673hsa-mir-6860confirmed26hsa_circ_0010676hsa-mir-6860confirmed12hsa_circ_0065481hsa-mir-612unconfirmed27hsa_circ_0005266hsa-mir-612confirmed13hsa_circ_0055327hsa-mir-6860confirmed28hsa_circ_0055327hsa-mir-4739confirmed14hsa_circ_0048709hsa-mir-6860confirmed29hsa_circ_0039087hsa-mir-4739confirmed15hsa_circ_0020490hsa-mir-3187-5pconfirmed30hsa_circ_0065481hsa-mir-6860unconfirmed
[0132]
结合实施例1-7,本文提出了cmalf,这是一种基于融合模型的图表示学习框架,结合了两种同构图嵌入方法来预测cmas。我们首先通过词嵌入构建了基于序列信息的低维嵌入向量生成,然后基于line和gf相结合的融合模型构建了低维表示,同时保留了图的拓扑结构和节点的属性。接下来,我们通过结合生物属性特征和多源行为特征信息来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分。对构建的数据集的总体评估证实,cmalf在cmas预测方面优于其他优秀的模型。为了评估本文的最佳性能,我们在相同的数据集上进行了几个消融实验,包括cmalf-line模型、cmalf-gf和lap模型的比较、不同的实验分类器模型、关联预测模型性能与其他最先进模型的比较。对构建的数据集的总体评估证实,cmalf在cmas预测方面优于其他高级模型。通过最近文献中的案例研究,对大量实验结果对的预测获得了更高的关联分数。通过对结果的仔细分析表明,我们提出的模型实现了对学术研究潜在cmas的出色预测。
[0133]
实施例8:circrna-mirna关联预测方法装置
[0134]
本发明实施例还提供一种circrna-mirna关联预测方法装置,如图8所示,所述装置800包括:
[0135]
构建模块801,被配置为构建数据集,所述数据集中包括多个circrna以及多个mirna;
[0136]
第一提取模块802,被配置为基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征;
[0137]
第二提取模块803,被配置为基于同构图嵌入提取出行为特征;
[0138]
预测模块804,被配置为基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas。
[0139]
在一些实施例中,所述构建模块被进一步配置为通过公式(1)描述构建的数据集:
[0140]
d=d
+
∪d-ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0141]
式中,d表示元素的并集,d
+
和d-分别表示20208个阳性样本和4091280个阴性样本的集合。
[0142]
在一些实施例中,构建维数为m
×
n的数据集的邻接矩阵,其中m表示circrna的数量,n表示mirna的数量;
[0143]
若mirna(m(i))与circrna(c(j))不相关,则dm中的dm(i,j)被设置为0;否则,dm中的dm(i,j)的值为1,其中mirna(m(i))表示邻接矩阵中的第i个mirna,circrna(c(j))表示邻接矩阵中的第j个circrna,dm(i,j)表示在邻接矩阵中第i个mirna与第j个circrna的相关性。
[0144]
在一些实施例中,所述第一提取模块被进一步配置为:
[0145]
提供提取模型来实现生物属性特征的提取;
[0146]
所述提取模型的输出值的目标函数表示为:
[0147][0148]
式中,ω表示权重矩阵,ω
t
表示目标单词,上下文单词的参数被视为ω
t-n
,
…
,ω
t+n
,t表示样本数量,t表示当前样本序号。
[0149]
在一些实施例中,所述第二提取模块被进一步配置为:
[0150]
利用多层感知器用来保持一阶与二阶相似度来学习低维密集向量,其中一阶与二阶的目标函数表示为:
[0151][0152][0153]
式中,q1表示一阶的目标函数,q2表示二阶的目标函数,d(
·
,
·
)表示两个分布之间的距离,和被视为经验分布的表示,p1(
·
,
·
)和p1(
·
|vi)分别表示联合分布和上下文条件分布,λi表示正则化参数;
[0154]
对图的邻接矩阵进行因子分解,因子分解的目标函数表示为:
[0155][0156]
式中,y,z和λ分别表示权重邻接矩阵、因子矩阵和正则化参数;e表示邻接矩阵的大小,zi表示第i行因子向量,y
ij
表示第i行j列权重,zj表示第j列因子向量。
[0157]
在一些实施例中,所述第二提取模块被进一步配置为:
[0158]
提供融合图嵌入模型来提取出行为特征;
[0159]
所述融合图嵌入模型的目标函数表示为:
[0160][0161]
式中,y表示图的嵌入,yi和yj分别表示节点的嵌入和由y表示的图的嵌入,w
ij
表示权重,l表示图g的拉普拉斯算子,y
t
表示图嵌入的转置,tr表示最小化目标函数。
[0162]
在一些实施例中,所述预测模块被进一步配置为:
[0163]
提供分类器来学习circrna与mirna的相互作用得分,并推断出潜在的cmas。
[0164]
在一些实施例中,所述预测模块被进一步配置为提供弱分类器,所述弱分类器用于多次迭代和先前分类器的残差;
[0165]
所述弱分类器的目标函数表示为:
[0166][0167]
式中,f
m-1
(x)表示此时的迭代结果,θm表示单样本目标函数,n表示样本数量,yi表示标签,l()表示损失函数,t(xi;m)表示误差。
[0168]
需要说明的是,本实施例所提出的装置与在先阐述的方法属于同一技术思路,其局有限相同的工作原理,并能起到同样的有益效果,此处不赘述。
[0169]
本发明实施例最后还提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例所述的circrna-mirna关联预测方法。
[0170]
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本技术的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
[0171]
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
技术特征:
1.一种circrna-mirna关联预测方法,其特征在于,所述方法包括:构建数据集,所述数据集中包括多个circrna以及多个mirna;基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征;基于同构图嵌入提取出行为特征;基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas。2.根据权利要求1所述的方法,其特征在于,通过公式(1)描述构建的数据集:d=d
+
∪d-ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中,d表示元素的并集,d
+
和d-分别表示20208个阳性样本和4091280个阴性样本的集合。3.根据权利要求2所述的方法,其特征在于,构建维数为m
×
n的数据集的邻接矩阵,其中m表示circrna的数量,n表示mirna的数量;若mirna(m(i))与circrna(c(j))不相关,则dm中的dm(i,j)被设置为0;否则,dm中的dm(i,j)的值为1,其中mirna(m(i))表示邻接矩阵中的第i个mirna,circrna(c(j))表示邻接矩阵中的第j个circrna,dm(i,j)表示在邻接矩阵中第i个mirna与第j个circrna的相关性。4.根据权利要求1所述的方法,其特征在于,所述基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征,具体包括:提供提取模型来实现生物属性特征的提取;所述提取模型的输出值的目标函数表示为:式中,ω表示权重矩阵,ω
t
表示目标单词,上下文单词的参数被视为ω
t-n
,
…
,ω
t+n
,t表示样本数量,t表示当前样本序号。5.根据权利要求1所述的方法,其特征在于,所述基于同构图嵌入提取出行为特征,具体包括:利用多层感知器用来保持一阶与二阶相似度来学习低维密集向量,其中一阶与二阶的目标函数表示为:目标函数表示为:式中,q1表示一阶的目标函数,q2表示二阶的目标函数,d(
·
,
·
)表示两个分布之间的距离,和被视为经验分布的表示,p1(
·
,
·
)和p1(
·
|v
i
)分别表示联合分布和上下文条件分布,λ
i
表示正则化参数;对图的邻接矩阵进行因子分解,因子分解的目标函数表示为:式中,y,z和λ分别表示权重邻接矩阵、因子矩阵和正则化参数;e表示邻接矩阵的大小,
z
i
表示第i行因子向量,y
ij
表示第i行j列权重,z
j
表示第j列因子向量。6.根据权利要求1所述的方法,其特征在于,所述基于同构图嵌入提取出行为特征,具体包括:提供融合图嵌入模型来提取出行为特征;所述融合图嵌入模型的目标函数表示为:式中,y表示图的嵌入,y
i
和y
j
分别表示节点的嵌入和由y表示的图的嵌入,w
ij
表示权重,l表示图g的拉普拉斯算子,y
t
表示图嵌入的转置,tr表示最小化目标函数。7.根据权利要求1所述的方法,其特征在于,所述基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas,具体包括:提供分类器来学习circrna与mirna的相互作用得分,并推断出潜在的cmas。8.根据权利要求7所述的方法,其特征在于,提供弱分类器,所述弱分类器用于多次迭代和先前分类器的残差;所述弱分类器的目标函数表示为:式中,f
m-1
(x)表示此时的迭代结果,θ
m
表示单样本目标函数,n表示样本数量,y
i
表示标签,l()表示损失函数,t(x
i
;
m
)表示误差。9.一种circrna-mirna关联预测装置,其特征在于,所述装置包括:构建模块,被配置为构建数据集,所述数据集中包括多个circrna以及多个mirna;第一提取模块,被配置为基于所述数据集,从circrna序列和mirna序列的词嵌入中提取生物属性特征;第二提取模块,被配置为基于同构图嵌入提取出行为特征;预测模块,被配置为基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circrna与mirna的相互作用得分,并推断出潜在的cmas。10.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的方法。
技术总结
本发明具体公开了一种CircRNA-miRNA关联预测方法、装置及介质。其中方法包括:构建数据集,所述数据集中包括多个CircRNA以及多个miRNA;基于所述数据集,从CircRNA序列和miRNA序列的词嵌入中提取生物属性特征;基于同构图嵌入提取出行为特征;基于所述生物属性特征和所述行为特征来获得融合载体的训练特征,以学习circRNA与miRNA的相互作用得分,并推断出潜在的CMAs。本发明成功预测了circRNAs和miRNAs之间的复杂关系,准确率为82.90%,AUC为0.9075。0.9075。0.9075。
技术研发人员:郭陆祥 王磊 黄利广
受保护的技术使用者:广西科学院
技术研发日:2023.06.01
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/