基于图神经网络和知识图谱的靶点基因预测系统

未命名 09-22 阅读:71 评论:0


1.本发明涉及的是一种神经网络应用领域的技术,具体是一种基于图神经网络和知识图谱的靶点基因预测系统。


背景技术:

2.靶点基因发现作为基因治疗、靶向药物研制的前期准备工作,对于加速药物研发有重要的意义。目前靶点基因的发现多为基于功能相似性、基于蛋白质互作网络中的图拓扑特征以及传统机器学习的方法,这些方法多基于单一类型数据,模型的预测质量一般,且传统机器学习方法缺乏可解释性。知识图谱作为一种图结构数据,可以融合如基因互作网络、基因表达数据等多种生物学知识,且模型具有一定可解释性。近期图神经网络技术发展迅速,在处理图结构数据时表现出优异的性能。


技术实现要素:

3.本发明针对现有技术基于基因功能相似性、基于基因互作网络的图相关算法以及传统机器学习方法的数据类型单一、预测效果有限和缺乏可解释性的问题,提出一种基于图神经网络和知识图谱的靶点基因预测系统,以基因之间的作用关系为基础构建图结构,使用有向图对多个数据库的基因互作网络进行整合建模,且使用了改进的图神经网络训练节点嵌入,同时整合了多组学数据,能够得到更加精确的预测结果,可以改善数据单一和可解释性问题。
4.本发明是通过以下技术方案实现的:
5.本发明涉及一种基于图神经网络和知识图谱的靶点基因预测系统,包括:预处理模块、知识图谱构建模块和图神经网络模块,其中:预处理模块对输入的基因表达数据进行预处理,融合多个数据库的基因互作网络,构建出基因相互作用的图结构;知识图谱构建模块将基因相互作用的图结构、基因表达数据和已知靶点信息融合构建出知识图谱;图神经网络模块通过构建基于图注意力网络gat的网络模型,并在离线阶段基于知识图谱对网络模型进行训练,并在在线阶段对实时输入的基因表达数据进行分类识别。
6.所述的图结构中,节点代表基因,基因之间的相互作用关系为有向边。
7.所述的知识图谱中,表达矩阵x为节点特征,已知靶点基因为正样本,随机采样等量的非已知靶点基因作为负样本,并划分为五折交叉验证数据集。
8.所述的分类识别是指:图神经网络模块将交叉验证数据集均分成五份,分别以其中四份做训练集一份做验证集,训练五个模型后,将五个模型输出的平均值作为基因为靶点的概率并降序排序,得到最终的预测结果。
9.所述的融合,具体为:首先合并多数据库的基因互作网络,将所有数据库的节点和有向边取并集,然后融合基因组学数据作为节点特征,对图中缺少节点特征的基因及其连接的边予以去除,最后融合已知靶点的信息,将图中为已知靶点的基因的标签设置为1,其余基因标签设置为0。
10.所述的图神经网络模型,基于图注意力网络(gat),通过信息在节点之间沿有向边的方向传递,并在信息合并时引入自注意力机制,利用相邻节点特征通过一个单层前馈神经网络将其映射为表示邻居节点重要性的注意力系数,在信息合并时根据各邻居节点的注意力系数对信息进行加权求和,进而得到节点表示,并可引入多头注意力机制增加模型的表示能力,该图神经网络模型具体包括三个并行的gat层,三个gat层分别根据各自对应的三个节点相同结构相关联的图输出节点表示,并将三个节点表示进行拼接,得到最终节点嵌入,进一步输入到下一层或用于下游节点分类任务。
11.本发明涉及一种基于上述系统的基于图注意力网络和知识图谱的靶点基因预测方法,通过对输入的基因表达数据进行预处理,同时将输入的多个数据库的基因互作网络合并转化为图结构形式;然后融合预处理后的基因表达数据、图结构形式的基因互作网络和已知靶点信息并构建生成知识图谱;再构建图神经网络模型并以知识图谱进行训练验证和测试,最终采用训练后的图神经网络模型实现对所有非已知靶点基因预测其为靶点的概率。
12.所述的预处理是指:对基因表达数据中重复基因的表达数据取均值,之后去除零表达的基因数据,最后根据均值和方差对数据进行标准化。
13.所述的基因互作网络包括:基因调控网络和蛋白质互作网络。
14.所述的合并转化是指:将多个数据库的基因互作网络转换成有向图形式并合并,具体包括:
15.i)将各数据库的基因互作网络分别转换成有向图结构:对于基因调控网络,以有向边表征两个基因之间的调控关系,即当基因a调控基因b,则存在一条由基因a指向基因b的有向边;对于蛋白质互作网络,当基因a和基因b表达的蛋白质存在相互作用关系,则基因a与b之间存在两条方向相反的有向边;
16.ii)将所有数据库中的有向边取并集得到合并后的用有向图表示的基因互作网络;
17.iii)在有向图中添加数据库的信息。
18.所述的知识图谱的节点表示基因,节点特征为表达数据,存在相互作用关系的基因用一条边连接。技术效果
19.本发明通过合并多数据库的基因互作网络、多组学数据和已知靶点的知识信息的知识图谱;使用了改进的基于注意力的图神经网络模型,为靶点基因预测任务提供更充分的信息数据和先验知识,改进的图神经网络模型可以更充分地挖掘图中基因之间的相互作用机制,从而得到精度更高更可信的靶点基因预测效果。
附图说明
20.图1为本发明流程图;
21.图2为本发明图神经网络模型示意图。
具体实施方式
22.如图1所示,为本实施例涉及的一种基于图注意力网络和知识图谱的靶点基因预
测方法,包括:
23.步骤1)首先进行基因表达数据的预处理,对重复基因的表达数据取均值,之后去除零表达的基因数据,最后根据均值和方差对数据进行标准化。
24.步骤2)合并多数据库的基因互作网络,具体包括:
25.步骤2.1)从kegg等公开数据库中下载基因相互作用数据,并分别转换为有向图结构的基因互作网络。对于基因调控网络,若基因a调控基因b,则存在一条由基因a指向基因b的有向边。对于蛋白质互作网络,若基因a和基因b表达的蛋白质存在相互作用关系,则基因a与b之间存在两条方向相反的有向边;
26.步骤2.2)将所有数据库中的基因相互作用数据取并集得到合并后的用有向图表示的基因互作网络。
27.步骤2.3)在合并后的有向图中添加数据库的信息。
28.步骤3)将经过预处理的基因表达数据、基因互作网络和已知靶点信息进行合并得到知识图谱。首先将表达数据与基因互作网络根据基因进行overlap操作。之后对于基因互作网络中未出现的已知靶点基因予以去除。最终在合并多组学信息生成的知识图谱中,基因互作网络为图的结构,基因表达数据为节点特征,已知的靶点基因为标签为1的正样本。
29.步骤4)数据准备完成后,构建并训练基于gat的图神经网络模型,具体包括:
30.4.1)堆叠两个处理层,每层如图2所示,由三个相同的gat层并联构成,每个gat层的激活函数采用relu函数,并通过dropout层控制过拟合,将最终输出的节点表示通过一个线性层映射到一维实数,通过sigmoid函数映射到(0,1)并采用交叉熵损失,具体为:由节点特征矩阵x表示基因表达数据,a表示基因互作网络的邻接矩阵,将其输入gat的一层后,首先按照以下公式计算各节点之间的注意力系数其中:表示训练的用于将相邻节点特征向量映射到注意力系数的单层前馈神经网络,w表示用于节点特征变换的权重矩阵,leakyrelu函数定义式为y=max(0,x)+l*min(0,x),示为一较小系数,用以减轻训练过程中出现的神经元死亡现象。在计算出注意力系数后,将线性映射后的各邻居节点的特征与注意力系数加权求和,得到更新节点表示
31.4.2)对步骤3得到的知识图谱的边进行反向操作得到反向图、将知识图谱和反向图合并得到双向图;将知识图谱、反向图和双向图的邻接矩阵分别输入处理层的三个gat层中,并将三个gat层输出的节点表示拼接后作为该处理层的输出并进一步输出至下一个处理层。
32.步骤5)在构建好的知识图谱上进行模型训练。考虑到已知靶点基因的极小占比,在训练时假设除已知靶点外其余基因都为负样本,并从中采样与正样本等量的负样本构建数据集。训练采用早停法的策略控制过拟合,并采用交叉验证的思想,首先将数据集划分成训练集和测试集,之后将训练集均分成五份(数据划分时保持正负样本的均衡分布),构建出五组训练验证数据集,分别训练出五个模型,最后将五个模型输出的平均值作为最终结果在测试集上观察模型表现。使用测试集上的auroc和aupr衡量模型的泛化性能和预测精度。
33.步骤6)在对模型参数调整并在测试集上获得不错的性能后,使用模型对图中所有
基因进行预测,模型的输出作为基因是潜在靶点的概率值,并按照这一概率降序排列,得到最有可能是潜在靶点的top基因。
34.经过具体实际实验,使用来自kegg、regnetwork等数据库的基因互作网络数据,来自gene expression omnibus(geo)的基因表达数据以及来自malacards的已知靶点信息构建知识图谱。使用基于pytorch的pyg库搭建模型进行训练,模型以及训练过程的参数设置为:网络深度为2,dropout概率为0.2,激活函数为relu函数,优化器为adam优化器,earlystopping的patience为20,最终在测试集上的表现如表1所示。模型在许多症状数据的测试集上auroc和aupr在0.9以上,实现了较好的泛化性和预测精度。
35.表1.模型在不同数据集的测试集上的表现表1.模型在不同数据集的测试集上的表现
36.与现有技术相比,本发明合并了多组学数据的知识图谱和改进的图神经网络模型显著地提高了靶点基因预测的准确率和精度。
37.上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

技术特征:
1.一种基于图神经网络和知识图谱的靶点基因预测系统,其特征在于,包括:预处理模块、知识图谱构建模块和图神经网络模块,其中:预处理模块对输入的基因表达数据进行预处理,融合多个数据库的基因互作网络,构建出基因相互作用的图结构;知识图谱构建模块将基因相互作用的图结构、基因表达数据和已知靶点信息融合构建出知识图谱;图神经网络模块通过构建基于图注意力网络gat的网络模型,并在离线阶段基于知识图谱对网络模型进行训练,并在在线阶段对实时输入的基因表达数据进行分类识别。2.根据权利要求1所述的基于图神经网络和知识图谱的靶点基因预测系统,其特征是,所述的分类识别是指:图神经网络模块将交叉验证数据集均分成五份,分别以其中四份做训练集一份做验证集,训练五个模型后,将五个模型输出的平均值作为基因为靶点的概率并降序排序,得到最终的预测结果。3.根据权利要求1所述的基于图神经网络和知识图谱的靶点基因预测系统,其特征是,所述的融合,具体为:首先合并多数据库的基因互作网络,将所有数据库的节点和有向边取并集,然后融合基因组学数据作为节点特征,对图中缺少节点特征的基因及其连接的边予以去除,最后融合已知靶点的信息,将图中为已知靶点的基因的标签设置为1,其余基因标签设置为0。4.根据权利要求1所述的基于图神经网络和知识图谱的靶点基因预测系统,其特征是,所述的图神经网络模型,基于图注意力网络,通过信息在节点之间沿有向边的方向传递,并在信息合并时引入自注意力机制,利用相邻节点特征通过一个单层前馈神经网络将其映射为表示邻居节点重要性的注意力系数,在信息合并时根据各邻居节点的注意力系数对信息进行加权求和,进而得到节点表示,并可引入多头注意力机制增加模型的表示能力,该图神经网络模型具体包括三个并行的gat层,三个gat层分别根据各自对应的三个节点相同结构相关联的图输出节点表示,并将三个节点表示进行拼接,得到最终节点嵌入,进一步输入到下一层或用于下游节点分类任务。5.一种基于权利要求1-4中任一所述的基于图神经网络和知识图谱的靶点基因预测系统的预测方法,其特征在于,通过对输入的基因表达数据进行预处理,同时将输入的多个数据库的基因互作网络合并转化为图结构形式;然后融合预处理后的基因表达数据、图结构形式的基因互作网络和已知靶点信息并构建生成知识图谱;再构建图神经网络模型并以知识图谱进行训练验证和测试,最终采用训练后的图神经网络模型实现对所有非已知靶点基因预测其为靶点的概率;所述的预处理是指:对基因表达数据中重复基因的表达数据取均值,之后去除零表达的基因数据,最后根据均值和方差对数据进行标准化;所述的基因互作网络包括:基因调控网络和蛋白质互作网络。6.根据权利要求5所述的预测方法,其特征是,所述的合并转化是指:将多个数据库的基因互作网络转换成有向图形式并合并,具体包括:i)将各数据库的基因互作网络分别转换成有向图结构:对于基因调控网络,以有向边表征两个基因之间的调控关系,即当基因a调控基因b,则存在一条由基因a指向基因b的有向边;对于蛋白质互作网络,当基因a和基因b表达的蛋白质存在相互作用关系,则基因a与b之间存在两条方向相反的有向边;ii)将所有数据库中的有向边取并集得到合并后的用有向图表示的基因互作网络;
iii)在有向图中添加数据库的信息。7.根据权利要求5或6所述的预测方法,其特征是,具体包括:步骤1)首先进行基因表达数据的预处理,对重复基因的表达数据取均值,之后去除零表达的基因数据,最后根据均值和方差对数据进行标准化;步骤2)合并多数据库的基因互作网络,具体包括:步骤2.1)从kegg等公开数据库中下载基因相互作用数据,并分别转换为有向图结构的基因互作网络;对于基因调控网络,若基因a调控基因b,则存在一条由基因a指向基因b的有向边;对于蛋白质互作网络,若基因a和基因b表达的蛋白质存在相互作用关系,则基因a与b之间存在两条方向相反的有向边;步骤2.2)将所有数据库中的基因相互作用数据取并集得到合并后的用有向图表示的基因互作网络;步骤2.3)在合并后的有向图中添加数据库的信息;步骤3)将经过预处理的基因表达数据、基因互作网络和已知靶点信息进行合并得到知识图谱;首先将表达数据与基因互作网络根据基因进行overlap操作;之后对于基因互作网络中未出现的已知靶点基因予以去除;最终在合并多组学信息生成的知识图谱中,基因互作网络为图的结构,基因表达数据为节点特征,已知的靶点基因为标签为1的正样本;步骤4)数据准备完成后,构建并训练基于gat的图神经网络模型,具体包括:4.1)堆叠两个处理层,每层由三个相同的gat层并联构成,每个gat层的激活函数采用relu函数,并通过dropout层控制过拟合,将最终输出的节点表示通过一个线性层映射到一维实数,通过sigmoid函数映射到(0,1)并采用交叉熵损失,具体为:由节点特征矩阵x表示基因表达数据,a表示基因互作网络的邻接矩阵,将其输入gat的一层后,首先按照以下公式计算各节点之间的注意力系数其中:表示训练的用于将相邻节点特征向量映射到注意力系数的单层前馈神经网络,w表示用于节点特征变换的权重矩阵,leakyrelu函数定义式为y=max(0,x)+l*min(0,x),l为一较小系数,用以减轻训练过程中出现的神经元死亡现象;在计算出注意力系数后,将线性映射后的各邻居节点的特征与注意力系数加权求和,得到更新节点表示4.2)对步骤3得到的知识图谱的边进行反向操作得到反向图、将知识图谱和反向图合并得到双向图;将知识图谱、反向图和双向图的邻接矩阵分别输入处理层的三个gat层中,并将三个gat层输出的节点表示拼接后作为该处理层的输出并进一步输出至下一个处理层;步骤5)在构建好的知识图谱上进行模型训练;考虑到已知靶点基因的极小占比,在训练时假设除已知靶点外其余基因都为负样本,并从中采样与正样本等量的负样本构建数据集;训练采用早停法的策略控制过拟合,并采用交叉验证的思想,首先将数据集划分成训练集和测试集,之后将训练集均分成五份,构建出五组训练验证数据集,分别训练出五个模型,最后将五个模型输出的平均值作为最终结果在测试集上观察模型表现;使用测试集上的auroc和aupr衡量模型的泛化性能和预测精度;步骤6)在对模型参数调整并在测试集上获得不错的性能后,使用模型对图中所有基因
进行预测,模型的输出作为基因是潜在靶点的概率值,并按照这一概率降序排列,得到最有可能是潜在靶点的top基因。

技术总结
一种基于图神经网络和知识图谱的靶点基因预测系统,包括:预处理模块、知识图谱构建模块和图神经网络模块,预处理模块对输入的基因表达数据进行预处理,融合多个数据库的基因互作网络,构建出基因相互作用的图结构;知识图谱构建模块将基因相互作用的图结构、基因表达数据和已知靶点信息融合构建出知识图谱;图神经网络模块通过构建基于图注意力网络GAT的网络模型,并在离线阶段基于知识图谱对网络模型进行训练,并在在线阶段对实时输入的基因表达数据进行分类识别。本发明以基因之间的作用关系为基础构建图结构,使用有向图对多个数据库的基因调控网络进行整合建模,且使用了改进的图神经网络训练节点嵌入,同时整合了多组学数据,能够得到更加精确的预测结果,可以改善数据单一和可解释性问题。据单一和可解释性问题。据单一和可解释性问题。


技术研发人员:杨铠源 袁野
受保护的技术使用者:上海交通大学
技术研发日:2023.06.21
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐