知识图谱链接预测方法及系统与流程

1.本发明涉及知识图谱链接领域,更为具体的,涉及一种知识图谱链接预测方法及系统。
背景技术:
2.知识图谱是由大量实体以及它们之间的关系构成的大规模知识库,它作为许多人工智能应用的基础,具有不可或缺的地位。
3.目前信息对抗知识图谱的发展方兴未艾,在指挥控制信息系统中已经逐步开始构建一些较大规模知识图谱,但是大部分知识都是由人工或者半自动构建生成的,这必然会导致两个问题:其一,装备实体和目标实体之间存在许多潜藏的关系;其二,已有的知识存在噪声。这就导致知识图谱距离知识完备这一目标仍相距甚远。
4.为了进一步补全和完善信息对抗知识图谱,提高知识图谱整体质量,为智能化的电磁态势分析服务打好坚实的基础,研究者们提出了知识图谱的链接预测方法作为解决方案。目前的知识图谱链接预测方法主要分为2类:
5.1.基于规则推理的链接预测方法:通过人工归纳或现代规则挖掘系统从现有知识图谱中挖掘霍恩规则并进行推理预测,这类方法具有较好的可解释性,但在大规模知识图谱上效率很低。信息对抗知识图谱的规模一般较大,且随着战场实时数据的不断融合,规模会日渐庞大,因此该类方法无法直接应用。
6.2.基于表示学习的链接预测方法:通过某种映射将知识图谱中实体和关系的语义投影到连续的低维向量空间中(即知识图谱嵌入),该空间的嵌入能够保存原始知识图谱中的语义结构信息,同时基于向量和矩阵的运算能够极大改善方法的整体效率,适用于目前日渐增大的信息对抗知识图谱。但该类方法目前主要存在两个问题:第一,在知识图谱中,实体根据其邻域连通数量的分布应当有所差异,部分实体邻域数极少,部分实体邻域数极多,这种实体本身存在的连通差异会影响模型的能力和效率。在信息对抗领域,往往存在部分邻域数极多或极少的极端实体,现有模型在这类实体嵌入的学习效果上表现较差;第二,现有模型学习网络结构时大多采用注意力机制以便为不同的邻域赋予不同的权重,但从具体实现上来看它们都忽视了任务目标本身对注意力所产生的影响,因而注意力分配效果较差,模型预测能力有限。
技术实现要素:
7.本发明的目的在于克服现有技术的不足,提供一种知识图谱链接预测方法及系统,提高了知识图谱的质量,增强了聚合邻域信息更新嵌入的效果,有效提高了注意力分配的质量,增强了嵌入学习的质量,提高了知识图谱链接预测任务的准确度等。
8.本发明的目的是通过以下方案实现的:
9.一种知识图谱链接预测方法,包括以下步骤:
10.实体连通差异预处理,计算偏僻实体阈值并采用规则补全对其进行连通性处理;
计算过饱和实体阈值,采用邻域注意力排序截断对其进行连通性处理;预处理后,生成均衡知识图谱;
11.将生成的所述均衡知识图谱输入至目标导向注意力网络中进行嵌入学习,将预测链接任务融入至邻域交互作用体,计算目标导向的邻域注意力,针对链接预测任务的预测链接进行针对性的嵌入更新和进行链接预测。
12.进一步地,所述计算偏僻实体阈值并采用规则补全对其进行连通性处理,包括子步骤:
13.a1,遍历知识图谱统计获取各个实体的邻域数目;
14.a2,计算偏僻实体邻域阈值,确定知识图谱偏僻实体集合;
15.a3,采用关联规则挖掘系统从知识图谱挖掘霍恩规则并转换为链式规则;
16.a4,基于链式规则对偏僻实体集合中的实体进行邻域推导以补全偏僻实体。
17.进一步地,所述计算过饱和实体阈值,采用邻域注意力排序截断对其进行连通性处理,包括子步骤:
18.b1,计算过饱和实体领域阈值,确定知识图谱过饱和实体集合;
19.b2,基于注意力对过饱和实体的邻域进行排序截断。
20.进一步地,所述将预测链接任务融入至邻域交互作用体,计算目标导向的邻域注意力,包括子步骤:
21.c1,建模邻域关系与邻域实体的交互作用,生成邻域嵌入;
22.c2,为关系定义预测链接特征矩阵,将预测链接嵌入与邻域交互作用体融合得到目标导向的邻域交互作用体嵌入;
23.c3,基于目标导向的邻域交互作用体嵌入计算各邻域的注意力值。
24.进一步地,所述针对链接预测任务的预测链接进行针对性的嵌入更新和进行链接预测,包括子步骤:
25.d1,采用图注意力网络,以步骤c3中计算的目标导向注意力值和邻域置信度的积作为邻域权重,聚合邻域信息更新中心实体嵌入;
26.d2,更新后的实体嵌入输入至解码器中进行链接预测任务。
27.进一步地,在步骤d2中,所述更新后的实体嵌入输入至解码器中进行链接预测任务,包括子步骤:采用置信度修正的二值交叉熵损失函数作为模型训练的损失函数,模型整体以自编码的形式进行端到端的训练。
28.进一步地,所述解码器包括conv-transe解码器。
29.进一步地,在步骤a3中,所述转换为链式规则包括子步骤:通过反向边方法转换构建链式规则。
30.一种知识图谱链接预测系统,包括:
31.实体连通差异预处理单元,用于计算偏僻实体阈值并采用规则补全对其进行连通性处理;计算过饱和实体阈值,采用邻域注意力排序截断对其进行连通性处理;所述连通性处理预处理后,生成均衡知识图谱;
32.链接预测单元,用于将生成的所述均衡知识图谱输入至目标导向注意力网络中进行嵌入学习,将预测链接任务融入至邻域交互作用体,计算目标导向的邻域注意力,针对链接预测任务的预测链接进行针对性的嵌入更新和进行链接预测。
33.进一步地,所述实体连通差异预处理单元包括规则挖掘转换模,用于采用关联规则挖掘系统从知识图谱挖掘霍恩规则并通过反向边方法转换为链式规则,基于链式规则对偏僻实体集合中的实体进行邻域推导以补全偏僻实体。
34.本发明的有益效果包括:
35.(1)本发明通过对知识图谱中的不均衡实体进行处理,有效提高了知识图谱的质量,增强了聚合邻域信息更新嵌入的效果。
36.(2)本发明通过将预测链接任务融入至邻域交互作用体,构建目标导向的邻域注意力,有效提高了注意力分配的质量,增强了嵌入学习的质量,相对于sacn模型而言,各项评价指标均有极大的提升。
37.(3)本发明对实体分布不均衡的信息对抗知识图谱,首先进行实体连通差异预处理,计算偏僻实体阈值和过饱和实体阈值,并分别采用规则补全和邻域注意力排序截断的手段对其进行连通性处理以生成均衡知识图谱;基于处理后的均衡知识图谱,针对链接预测任务,解决了现有技术注意力分配策略效果较低的问题;本发明建模邻域交互作用体,并将链接预测任务本身融入邻域交互嵌入中以计算目标导向的邻域注意力,从而实现高效高质的注意力分配,进而增强嵌入学习的质量,提高了知识图谱链接预测任务的准确度。
38.(4)本发明可以提升知识图谱自我学习和补全的能力,进而为目标威胁预测、目标行为预测、目标活动规律分析、目标体系分析、力量运用分析、装备体系分析、对抗关系决策支撑等智能化态势分析服务提供支撑。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
40.图1是本发明实施例基于实体连通差异和目标导向注意力网络的知识图谱链接预测方法(entity-connectivity-difference-aware and target-oriented attention network for link prediction,etan)的结构图;
41.图2是本发明实施例中基于规则的偏僻实体邻域补全的结构图;
42.图3是本发明实施例中过饱和实体邻域截断的结构图;
43.图4是本发明实施例中目标导向的邻域注意力网络的结构图;
44.图5是本发明实施例中给出的几种模型在fb15k-237数据集上的一实验结果图;
45.图6是本发明实施例中给出的几种模型在wn18rr数据集上的一实验结果图。
具体实施方式
46.本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
47.鉴于背景中的技术问题,本发明提出了解决方案。知识图谱补全方法目前的主流发展趋势是在保持嵌入学习模型的高效率基础上,提高模型的补全和预测能力。为了适应信息对抗知识图谱日渐扩大的规模,提高实体的嵌入质量,进而增强知识图谱的自我学习
和补全能力,为智能化电磁态势分析服务提供支撑,本发明技术构思的出发点在于结合传统规则推理和基于表示学习方法的优势,构建一个端到端的神经网络:首先通过实体连通差异处理构件对知识图谱的极端实体进行预处理,然后将处理后的信息对抗知识图谱输入至目标导向注意力网络中进行嵌入学习,最终通过解码器网络实现链接预测,完成对知识图谱的补全和完善。其中,涉及到发明构思包括:知识图谱实体连通差异的预处理、基于目标导向的注意力网络。
48.在进一步的发明构思中,本发明具体实施方案提供一种基于实体连通差异和目标导向注意力网络的知识图谱链接预测方法(entity-connectivity-difference-aware and target-oriented attention network for link prediction,etan),etan为本发明自命名术语。具体而言,首先对实体连通数据分布进行预处理:确定偏僻实体和过饱和实体阈值对知识图谱中的实体进行划分,对于过饱和实体进行邻域截断,对于偏僻实体采用规则进行邻域补全。再将预处理后的均衡知识图谱输入至目标导向注意力网络中,基于链接预测任务的预测链接进行针对性的嵌入更新,具体实施方式中采用端到端的结构感知卷积网络模型(end-to-end structure-aware convolutional networks for knowledge base completion,sacn)中的解码器conv-transe(convolutional 2d knowledge graph embedding-transe)复原破损元组,进行链接预测。
49.作为本发明具体实施方式方案的一方面,关于知识图谱实体连通差异的预处理,具体包括:
50.遍历知识图谱统计获取各个实体的邻域数目;
51.计算偏僻实体邻域阈值,确定知识图谱偏僻实体集合;
52.采用关联规则挖掘系统(association rule mining under incomplete evidence 3,amie3)从知识图谱挖掘霍恩规则并进一步转换为链式规则;
53.基于链式规则对偏僻实体集合中的实体进行邻域推导以补全偏僻实体;
54.计算过饱和实体领域阈值,确定知识图谱过饱和实体集合;
55.基于注意力对过饱和实体的邻域进行排序截断;
56.经过偏僻实体补全和过饱和实体截断的知识图谱为均衡知识图谱,输入至目标导向注意力网络中进行实体嵌入更新和链接预测。
57.作为本发明具体实施方式方案的另一方面,基于目标导向的注意力网络,用于针对性地更新知识图谱实体和关系嵌入,并在具体实施方式中采用conv-transe解码器进行链接预测,具体包括:
58.输入均衡知识图谱网络;
59.建模邻域关系与邻域实体的交互作用,生成邻域嵌入;
60.为关系定义预测链接特征矩阵,将预测链接嵌入与邻域交互作用体融合得到目标导向的邻域交互作用体嵌入;
61.基于目标导向的邻域交互作用体嵌入计算各邻域的注意力值;
62.采用图注意力网络(graph attention network,gat)网络,以上一步计算的目标导向注意力值和邻域置信度的积作为邻域权重,聚合邻域信息更新中心实体嵌入;
63.更新后的实体嵌入输入至conv-transe解码器中进行链接预测任务,采用置信度修正的二值交叉熵损失函数作为模型训练的损失函数,模型整体以自编码的形式进行端到
端的训练。
64.在信息对抗指挥控制信息系统中,通过对我方装备力量整编数据和敌方作战平台整编数据等传统结构化数据进行清洗转换,融合作战监控收集的战场实时数据,构建电磁态势知识图谱,支撑电磁态势综合生成与分析。具体实施方式中提供的知识图谱预测方案能够进一步提升知识图谱自我学习和补全的能力,进而为目标威胁预测、目标行为预测、目标活动规律分析、目标体系分析、力量运用分析、装备体系分析、对抗关系决策支撑等智能化态势分析服务提供支撑。
65.需要说明的是,在本发明权利要求书中所限定的保护范围内,以下实施例均可以从上述具体实施方式中,例如公开的技术原理,公开的技术特征或隐含公开的技术特征等,以合乎逻辑的任何方式进行组合和/或扩展、替换。
66.实施例一
67.如图1所示,本实施例中模型整体以自编码器模式构建。在编码器部分,本实施例设计并实现了新的etan网络(etan网络为本发明自定义名称)。该新网络首先对知识图谱中的实体连通分布进行统计并确定原始知识图谱中的偏僻实体和过饱和实体阈值。对于偏僻实体采用规则进行知识推理从而实现邻域补全,而对于过饱和实体则通过注意力对邻域进行排序后根据饱和阈值对邻域进行截断。本实施例采用amie3挖掘步长为2的霍恩规则,并以部分完全假设(partial completeness assumption,pca)置信度作为规则可靠性评估指标,通过链式规则转换生成用于知识推理的链式规则。实体嵌入和关系嵌入首先交互生成邻域嵌入,紧接着通过将链接预测任务的预测链接融入到该嵌入中生成目标导向的邻域嵌入并基于此计算最终的目标导向邻域注意力。该注意力一方面作为邻域权重输入到gat网络中实现节点信息传播聚合,另一方面输入到饱和实体邻域排序截断器中处理下一轮的饱和截断任务。
68.本实施例中解码器部分则沿用原有的conv-transe网络提取嵌入特征并复原知识图谱破损元组进行链接预测。首先在更新后的嵌入矩阵中查找h和p的嵌入(其中,h表示三元组中的头实体,p表示预测链接),将二者堆叠后利用卷积提取特征模式,然后进行向量化并投影至嵌入空间与实体嵌入矩阵作点积得到logits向量输出,通过sigmoid函数后得到复原元组概率与真实概率计算二值交叉熵损失用于模型训练。
69.本实施例中,数据来源于公开知识图谱数据集fb15k-237和wn18rr,具体实现如下:
70.第一步:对原始知识图谱进行处理,得到均衡实体知识图谱,具体步骤为:
71.随机初始化原始知识图谱的实体嵌入和关系嵌入;
72.对原始知识图谱进行遍历统计得到各个实体的邻域数目;
73.计算实体邻域均值并向下取整,作为均衡实体的参考阈值;
74.对上一步得出的参考阈值乘上γ值进行衰减,并取大于该衰减值2n值作为偏僻实体阈值,即:
[0075][0076]
其中,num
nei
(ei)表示ei实体的邻域实体数,m表示知识图谱中的实体个数,γ表示衰减系数(基于自然界的黄金分割现象,γ值取0.382)。
[0077]
基于偏僻实体阈值构建偏僻实体集合;
[0078]
采用amie3自动从知识图谱中挖掘步长为2,pca置信度大于设定阈值的霍恩规则;
[0079]
增加反向边,即:(其中,r表示霍恩规则,为转换符号)将霍恩规则转换为链式规则(即规则体中的变量串联连接并和规则头的变量相互对应);
[0080]
通过pca置信度对链式规则集合进行降序排序;
[0081]
遍历偏僻实体集合,对其中的每一个实体而言,获取其一阶邻域集合,按序从链式规则集合中取规则进行比对,如果存在邻域匹配了规则体的第一个原子,则进一步获取该邻域实体的一阶邻域集合,尝试和规则体的第二个原子进行匹配,如果匹配成功,则生成推导事实,去重后加入到本次补全的实体邻域集合中,以该条规则的pca置信度作为该推导事实的置信度;
[0082]
定义邻域数目跨度参数s为8,该参数将实体根据其邻域数目划分为不同的区间,以相邻两个区间的实体数量差作为每一个跨度点的值绘制实体连通分布散点图,用n次多项式对该离散数据进行拟合得到分布变化趋势曲线;
[0083]
从趋势的曲线的上升与下降的拐点开始,计算每一个跨度点的斜率zi;
[0084]
基于跨度点斜率计算跨度点的连通变化度:τi=|z
i+1-zi|;
[0085]
取阈值为1,当连通变化度小于1时,实体的邻域连通分布变化趋于停滞,取此处对应的邻域数据作为过饱和实体阈值即:τi<1.0;(其中,表示过饱和实体阈值,i表示连图变化度小于1的位置,s表示邻域数目跨度参数)
[0086]
遍历知识图谱中的实体,当实体的邻域数量大于过饱和实体阈值时,加入至过饱和实体集合中;
[0087]
遍历过饱和实体集合,对每一个过饱和实体的邻域利用注意力值对邻域实体进行排序截断。
[0088]
第二步:计算目标导向的邻域注意力,具体步骤为:
[0089]
对知识图谱中的每一个实体而言,建模其邻域关系和邻域实体的交互作用,构建邻域交互作用体嵌入,即:
[0090]
nei_embeddinga=ej+wrrn+nei_bias
[0091]
nei_embeddingb=wr(ej||rn+nei_bias
[0092]
nei_embeddingc=e
j-wrrn+nei_bias
[0093]
其中,nei_embeddinga表示叠加形式的邻域交互作用体嵌入,nei_embeddingb表示拼接形式的邻域交互作用体嵌入,nei_embeddingc表示差值形式的邻域交互作用体嵌入,ej表示邻域实体嵌入,rn表示邻域关系嵌入,wr用于将关系嵌入从低维度空间映射到高维度空间增强其特征表示能力,nei_bias为交互作用加入偏置以更好地拟合真实数据,二者均通过神经网络自动从数据中进行学习。
[0094]
为关系定义预测链接特征矩阵p∈rn×d,其中n为关系数量,d为特征维度,p的每一行对应一种关系作为预测链接时的特征向量pn。模型整体以自编码器的方式进行端到端的训练,也即在学习实体ei的嵌入时,一方面获取到该实体所有的领域(rn,ej)∈ni,另一方面给定了当前迭代学习该实体嵌入针对的链接预测任务(ei,pn,q)(其中,q表示三元组中缺失的尾实体)。将预测链接嵌入pn与上一步建模的邻域交互作用体嵌入nei_embedding融合得
到目标导向的邻域交互作用体嵌入,即:
[0095]
θ
nj
=nei_embedding
nj
+wgpn;
[0096]
其中,nei_embedding
nj
表示邻域交互作用体嵌入,wg为线性变换矩阵,pn为预测链接嵌入。
[0097]
目标导向的邻域交互作用体嵌入θ
nj
通过激活函数后进行线性变换得到该作用体的绝对注意力值,该值可以反映此作用体对中心实体的重要程度:
[0098]vinj
=w
a tanh(θ
nj
);
[0099]
其中,tanh为激活函数;
[0100]
绝对注意力值经过leakyrelu函数激活后再由softmax函数转换为相对注意力值:
[0101][0102]
其中,wg和wa是线性变换参数矩阵,前者用于升维以增强特征表示能力,后者用于降维生成绝对注意力值,σ是负输入坡度为0.2的leakyrelu函数,用于减少静默神经元的出现;
[0103]
第三步:基于目标导向的邻域注意力聚合信息更新实体和关系嵌入,具体步骤为:
[0104]
定义邻域置信度将原始邻域和推导邻域进行区分,对于原始邻域而言,该值为1,对于推导领域而言,该值为对应规则的pca置信度;
[0105]
采用gat网络聚合邻域信息更新中心实体嵌入,同时采用邻域置信度对注意力进行衰减以降低规则推导带来的噪声信息,即:
[0106][0107]
其中,h
′i表示更新后的头实体嵌入,(n,j
′
)表示实体的邻域,α
′
inj
表示目标导向的邻域注意力,表示邻域置信度;
[0108]
采用线性映射矩阵更新关系嵌入,即:
[0109]
l
′n=w
l
ln;
[0110]
其中,l
′n表示更新后的关系嵌入,ln表示原始关系嵌入,w
l
表示线性映射矩阵;
[0111]
第四步:沿用conv-transe网络进行解码,复原破损元组,进行链接预测,具体步骤为:
[0112]
对预测任务(h,p,q)(其中,q表示三元组中缺失的尾实体)以same卷积对头实体嵌入h和预测链接嵌入p提取特征,即:
[0113][0114]
其中,mc(h,p)表示第c个卷积核输出的(h,p)的特征,k表示卷积核大小,τ表示卷积核移动,表示头实体嵌入,n表示输出条目向量的索引,ωc表示线性变换向量,表示预测链接嵌入;
[0115]
对所有卷积核提取出的特征对齐叠加后的结果向量化,通过线性映射矩阵w投影至嵌入空间,经relu函数激活后与全部实体嵌入矩阵相乘进行相似度评估,该结果代表复原元组存在的可能性(也即链接存在的可能性),即:
[0116]
score(h,p,e)=relu(vec(m(h,p))w)e;
[0117]
其中,score(h,p,e)表示(h,p,e)预测元组的得分,e表示实体,vec表示向量化,m(h,p)表示卷积核输出向量组成矩阵,w表示线性变换矩阵;
[0118]
损失函数采用邻域置信度修正的二值交叉熵损失函数,模型整体在gpu上通过端到端的方式进行训练,即:
[0119]
probability
(h,p,e)
=sigmoid(score(h,p,e))
[0120]
loss=bceloss(probability
(h,p,e)
,label
(h,p,e)
)
[0121]
其中,probability
(h,p,e)
表示(h,p,e)的可能性,loss表示损失值,bceloss表示二值交叉熵损失函数,label
(h,p,e)
表示元组(h,p,e)的标签值(对于原始知识图谱中的确定元组,其标签值为1.0;而对于规则推导得出的元组则采用对应规则的pca置信度作为该样本的标签值)。
[0122]
实施例二
[0123]
本实施例提供一种基于实体连通差异和目标导向注意力网络的链接预测方法,具体包括:
[0124]
遍历知识图谱统计获取各个实体的邻域数目;
[0125]
计算偏僻实体邻域阈值,确定知识图谱偏僻实体集合;
[0126]
采用关联规则挖掘系统从知识图谱挖掘霍恩规则并进一步转换为链式规则;
[0127]
基于链式规则对偏僻实体集合中的实体进行邻域推导以补全偏僻实体,如图2所示;
[0128]
计算过饱和实体领域阈值,确定知识图谱过饱和实体集合;
[0129]
基于注意力对过饱和实体的邻域进行排序截断,根据邻域注意力降序排序,只保留过饱和阈值个数的邻域,删除该实体其他邻域,如图3所示;
[0130]
经过偏僻实体补全和过饱和实体截断的知识图谱为均衡知识图谱,基于此建模邻域交互作用体;
[0131]
融入链接预测任务计算目标导向的邻域注意力,如图4所示;
[0132]
聚合信息更新实体和关系的嵌入,并采用conv-transe网络解码进行链接预测。
[0133]
本实施例的技术方案可以在社会科学领域进行应用,本实施例方案可以作为社科知识图谱链接的预测。比如:链接预测任务为:(张三,参与项目,q)(q表示三元组中缺失尾实体),在模型训练更新“张三”这个实体嵌入时,首先会建模其所有的邻域交互作用体嵌入,并将“参与项目”这个预测任务融入至邻域交互作用体中计算每个邻域的注意力值,从而进行更高效、高质地信息聚合和嵌入更新。基于更新的“张三”实体嵌入和“参与项目”关系嵌入,提取特征,叠加处理并向量化后与知识图谱中的其余实体特征向量做相似度计算,得到所有复原元组的评分,比如:【(张三,参与项目,人文科学研究项目),0.9】;取得分最高的作为本次链接预测任务的结果,即实体“张三”和实体“人文科学研究项目”有90%的概率存在“参与项目”关系。
[0134]
实施例三
[0135]
本实施例提供了一种基于实体连通差异和目标导向注意力网络的链接预测系统,具体包括:
[0136]
实体连通差异分析模块,被配置为:遍历知识图谱,统计分析各实体的邻域数据,计算偏僻实体阈值和过饱和实体阈值;
[0137]
规则挖掘转换模块,被配置为:基于amie3挖掘步长为2,pca置信度为80的霍恩规则,通过反向边方法构建链式规则;
[0138]
实体连通差异处理模块,被配置为:根据计算的偏僻实体阈值和过饱和实体阈值,确定两类实体集合;对偏僻实体,采用链式规则集合进行补全处理;对过饱和实体,采用注意力进行邻域排序截断;
[0139]
目标导向邻域注意力计算模块,被配置为:遍历知识图谱中的实体,计算其每个邻域的邻域交互作用体嵌入;
[0140]
嵌入更新模块,被配置为:采用gat网络更新聚合信息更新实体嵌入,采用权重映射更新关系嵌入,初始嵌入维度为100,输出嵌入维度为200,神经元丢弃率为0.2;
[0141]
链接预测模块,被配置为:针对链接预测任务(h,p,q),沿用卷积通道数为200,卷集合大小为2
×
5的conv-transe作为解码器,利用邻域置信度修正评分二值交叉熵函数,复原破损元组并进行打分,取得分最高的3个结果作为链接预测任务的预测结果。
[0142]
参阅图5,为本实施例中给出的几种模型在fb15k-237数据集上的一实验结果图。参阅图5,为本实施例中给出的几种模型在wn18rr数据集上的一实验结果图。
[0143]
此处需要说明的是,上述链接预测系统与实施例一中的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行,系统设置的模型参数是针对fb15k-237数据集设置,在其他数据集中这些参数则不具备通用性,可能需要根据具体的网络分布情况,调整模型参数,以取得更好的效果。
[0144]
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0145]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
[0146]
作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
[0147]
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
[0148]
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
[0149]
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
技术特征:
1.一种知识图谱链接预测方法,其特征在于,包括以下步骤:实体连通差异预处理,计算偏僻实体阈值并采用规则补全对其进行连通性处理;计算过饱和实体阈值,采用邻域注意力排序截断对其进行连通性处理;预处理后,生成均衡知识图谱;将生成的所述均衡知识图谱输入至目标导向注意力网络中进行嵌入学习,将预测链接任务融入至邻域交互作用体,计算目标导向的邻域注意力,针对链接预测任务的预测链接进行针对性的嵌入更新和进行链接预测。2.根据权利要求1所述的知识图谱链接预测方法,其特征在于,所述计算偏僻实体阈值并采用规则补全对其进行连通性处理,包括子步骤:a1,遍历知识图谱统计获取各个实体的邻域数目;a2,计算偏僻实体邻域阈值,确定知识图谱偏僻实体集合;a3,采用关联规则挖掘系统从知识图谱挖掘霍恩规则并转换为链式规则;a4,基于链式规则对偏僻实体集合中的实体进行邻域推导以补全偏僻实体。3.根据权利要求1所述的知识图谱链接预测方法,其特征在于,所述计算过饱和实体阈值,采用邻域注意力排序截断对其进行连通性处理,包括子步骤:b1,计算过饱和实体领域阈值,确定知识图谱过饱和实体集合;b2,基于注意力对过饱和实体的邻域进行排序截断。4.根据权利要求1所述的知识图谱链接预测方法,其特征在于,所述将预测链接任务融入至邻域交互作用体,计算目标导向的邻域注意力,包括子步骤:c1,建模邻域关系与邻域实体的交互作用,生成邻域嵌入;c2,为关系定义预测链接特征矩阵,将预测链接嵌入与邻域交互作用体融合得到目标导向的邻域交互作用体嵌入;c3,基于目标导向的邻域交互作用体嵌入计算各邻域的注意力值。5.根据权利要求4所述的知识图谱链接预测方法,其特征在于,所述针对链接预测任务的预测链接进行针对性的嵌入更新和进行链接预测,包括子步骤:d1,采用图注意力网络,以步骤c3中计算的目标导向注意力值和邻域置信度的积作为邻域权重,聚合邻域信息更新中心实体嵌入;d2,更新后的实体嵌入输入至解码器中进行链接预测任务。6.根据权利要求5所述的知识图谱链接预测方法,其特征在于,在步骤d2中,所述更新后的实体嵌入输入至解码器中进行链接预测任务,包括子步骤:采用置信度修正的二值交叉熵损失函数作为模型训练的损失函数,模型整体以自编码的形式进行端到端的训练。7.根据权利要求5所述的知识图谱链接预测方法,其特征在于,所述解码器包括conv-transe解码器。8.根据权利要求2所述的知识图谱链接预测方法,其特征在于,在步骤a3中,所述转换为链式规则包括子步骤:通过反向边方法转换构建链式规则。9.一种知识图谱链接预测系统,其特征在于,包括:实体连通差异预处理单元,用于计算偏僻实体阈值并采用规则补全对其进行连通性处理;计算过饱和实体阈值,采用邻域注意力排序截断对其进行连通性处理;所述连通性处理预处理后,生成均衡知识图谱;
链接预测单元,用于将生成的所述均衡知识图谱输入至目标导向注意力网络中进行嵌入学习,将预测链接任务融入至邻域交互作用体,计算目标导向的邻域注意力,针对链接预测任务的预测链接进行针对性的嵌入更新和进行链接预测。10.根据权利要求9所述的知识图谱链接预测系统,其特征在于,所述实体连通差异预处理单元包括规则挖掘转换模,用于采用关联规则挖掘系统从知识图谱挖掘霍恩规则并通过反向边方法转换为链式规则,基于链式规则对偏僻实体集合中的实体进行邻域推导以补全偏僻实体。
技术总结
本发明公开了一种知识图谱链接预测方法及系统,属于知识图谱链接领域,包括步骤:实体连通差异预处理,计算偏僻实体阈值并采用规则补全对其进行连通性处理;计算过饱和实体阈值,采用邻域注意力排序截断对其进行连通性处理;预处理后,生成均衡知识图谱;将生成的所述均衡知识图谱输入至目标导向注意力网络中进行嵌入学习,将预测链接任务融入至邻域交互作用体,计算目标导向的邻域注意力,针对链接预测任务的预测链接进行针对性的嵌入更新和进行链接预测。本发明提高了知识图谱的质量,增强了聚合邻域信息更新嵌入的效果,有效提高了注意力分配的质量,增强了嵌入学习的质量,提高了知识图谱链接预测任务的准确度。高了知识图谱链接预测任务的准确度。高了知识图谱链接预测任务的准确度。
技术研发人员:闫德祥 王飞 葛江涛 王禹力 于翔 苏骞 申治明 刘忆璐
受保护的技术使用者:中国电子科技集团公司第二十九研究所
技术研发日:2023.03.24
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/