一种自适应融合时间信息的自动降噪与增强实体对齐方法
未命名
08-03
阅读:84
评论:0

1.本发明涉及一种自适应融合时间信息的自动降噪与增强实体对齐方法,属于自然语言处理与机器学习领域。
背景技术:
2.实体对齐(entity alignment),也叫实体匹配(entity matching),是指从两个知识图中识别引用同一对象的实体,这对于不完整性很常见的现实世界知识图谱至关重要。知识图谱所承载的丰富信息使其有利于各种应用,例如问答和推荐系统。不幸的是,单一的知识图谱并不能保证知识的全面覆盖。例如,在著名的公共知识数据库freebase中,超过70%个实体的出生地不明。这种数据稀缺问题极大地限制了知识图谱对下游应用的有效性,知识图谱中信息缺失这一问题可以通过融合两个包含补充信息的知识图谱来加以缓解,而知识图谱融合的一个重要步骤是实体对齐。
3.得益于机器学习和深度神经网络的蓬勃发展,许多实体对齐方法通过知识图谱嵌入进行有效的知识图谱融合。尽管他们取得了成功,但实体对齐方法的一个主要限制是他们难以学习事实(实体)的时间动态,因为他们假设事实是静态的;然而,许多事实会随着时间的改变而改变。例如,事实(fifa 世界杯,主办国,卡塔尔)在2022年起才成立,忽略此类时间信息可能会导致实体歧义和误解,更不用说事实的时间动态还带有可以帮助实体对齐的潜在因果模式。
4.在最近的几项研究中,实体对齐任务已经开始包含时间信息(即时间知识图的实体对齐)。一些研究侧重于如何同时学习关系嵌入和时间嵌入。动态网络嵌入的相关模型也激发了时间知识表示学习。此外,有人使用基于固定边距的完整多类对数损失进行有效训练,以及使用顺序时间正则化来模拟未观察到的时间戳。他们认为没有必要学习知识图谱中时间信息的嵌入,因为大多数时间知识图谱具有统一的时间表示。因此,他们提出了一种结合时间信息匹配机制的简单图神经网络模型,以用更少的时间和更少的参数实现更好的性能。人类在时间知识图的实体对齐方面实现了最先进的性能。然而,根据据我们的调查,时间知识图谱的存储时间信息的方式具有多样性,例如时间点、开始或结束时间、时间间隔。这种存储时间信息的混乱方式给构建高级时间实体对齐模型带来了挑战。在对齐大型时间知识图谱时,他们仍然需要大量计算时间才能完成时间知识图谱实体对齐任务。此外,当前时间知识图的实体对齐模型主要依赖于专家标注的标签,而标签中包含噪声的问题尚未得到讨论。
5.随着最近大规模数据集的出现,深度神经网络 (deep neural network,dnn) 在计算机视觉、信息检索和语言等众多机器学习任务中表现出了令人印象深刻的性能。他们的成功取决于大量经过专家标注的数据,这些数据的获取既昂贵又耗时。一些非专家来源,例如:谷歌知识图谱(google knowledge graph)提供没有来源归属或引用的答案;亚马逊的mechanical turk和收集数据的周边文本,已被广泛用于降低高标签成本。然而,使用这些来源通常会导致标签不可靠。此外,即使对于经验丰富的领域专家来说,数据标签也可能
非常复杂;它们也可以通过标签翻转攻击进行对抗性操纵。
6.据报道,真实世界数据集中损坏标签的比例在8.0%和38.5%之间。这种从非专家来源的标签可能会破坏真实的标签,因此会产生噪声标签。人们把从非专家来源的标签称为伪标签。虽然大多数现有的实体对齐研究在专家标注种子(实体对齐标签)的帮助下取得了显著的成功,但是实体对齐模型非常容易受到噪声标签的影响,并且性能会急剧下降。在伪标签存在噪声的情况下,已知训练 dnn 容易受到噪声标签的影响,因为大量模型参数使 dnn 过度拟合甚至损坏的标签,具有学习任何复杂函数的能力。有人表明 dnn 可以轻松地用任意比例的损坏标签拟合整个训练数据集,这最终导致测试数据集的泛化能力差。不幸的是,流行的正则化技术,如数据增强(data augmentation)、权重衰减(weight decay)、随机失活(dropout)和批量归一(batch normalization)等,虽然已经得到广泛应用,但它们并不能完全解决过拟合问题。即使激活了上述所有正则化技术,在干净数据和噪声数据上训练的模型之间的测试精度差距仍然很大。此外,标签噪声导致的精度下降比输入噪声等其他噪声更加有害。有人提出了可以在噪声的标记实体对中完成实体对齐任务的实体对齐模型。该模型的两个组成部分是噪声检测和噪声感知,实体对齐噪声检测建立在对抗性训练原则之上,噪声感知实体对齐的核心是基于图神经网络的知识图谱编码器。为了相互增强这两个组件的性能,他们提出了一种统一的强化训练策略来将它们结合起来。虽然该模型在实体对齐任务中可以取得更好的性能,但在时间实体对齐任务中无法取得更好的效果。
7.因此,在存在噪声标签的情况下实现模型良好的泛化能力是一个关键挑战。
技术实现要素:
8.本发明的目的是针对现有技术在存在噪声标签的情况下实现模型的泛化能力不足的问题,提出一种自适应融合时间信息的自动降噪与增强实体对齐方法,有效的解决了实体的时间属性多样性问题,并恰当的建模了时间知识图谱的实体之间的复杂关系。除此之外,此框架可以自适应的融合时间信息和增加相似性度量的维度可以有效抵抗噪声标签对时间实体对齐模型的干扰。
9.本发明的技术方案包括如下内容:步骤1,编码计算相关特征。通过一个聚合获得时间关系图注意力网络的输出特征是通过一个聚合获得的,该聚合线性组合了相邻实体输入特征的实体、时间和关系正交变换。
10.步骤2、计算模型的损失。
11.自适应相对误差损失最小化方案是在训练阶段作为时间实体对齐模型的优化目标,它是基于相对误差定理的方案。首先,在训练过程中,使用l2距离作为度量来定义两个实体和的表示差异。其次,通过计算源种子实体和目标种子实体的距离得出测量值 () ,这类似于翻译嵌入(translating embedding,transe)的翻译假设;通过分别计算源种子实体、目标种子实体和所有其他实体之间距离的平方获得真实值();最后,我们使用相对错误率作为时间实体对齐模型的优化目标。
12.步骤3、噪声过滤。
13.噪声过滤使用噪声过滤层,噪声过滤层是实体嵌入的约束moore-penrose伪逆矩阵变换。moore-penrose伪逆是一种线性代数技术,用于逼近不可逆矩阵的逆矩阵。这种技术可以逼近任何矩阵的逆矩阵,无论是否为正方形。
14.步骤4、根据、和训练练模型直至收敛。
15.步骤5、实体对齐的多维度相似性度量算法是计算在源实体和目标实体之间生成可靠的匹配对。
16.步骤6、使用训练好的模型用多维度相似性度量算法对实体进行对齐并输出结果。
17.有益效果
18.相比于已有的时间知识图谱实体对齐方法,本发明利用时间关系图注意力网络来捕获时间知识图谱的实体结构信息、关系信息和时间信息。此外,通过本发明自适应相对误差损失最小化作为模型的优化算法,可以在没有固定边距或手动设置超参数来优化模型。
19.相比于依赖专家标注种子的方法,不仅减少了人工标注成本,而且对伪标签数据集进行了过滤,噪声过滤层还增强了模型的鲁棒性。本发明的多维相似性度量算法在源实体和目标实体之间能够生成可靠的匹配对,大大增强了时间实体对齐模型的性能,从而提高了实体对齐的准确性,进而提升了知识图谱的质量。
附图说明
20.图1为本发明的方法设计框架图。
具体实施方式
21.为了使本发明的目的和优点更加清楚明白,下面结合附图和实施例对本发明作进一步描述。需要指出的是,此处所描述的具体实施方式仅仅用于解释本发明,并不限定本发明。
22.实施例
23.如图1所示 实验数据采用公开的三个时间知识图谱:(1) d-n:它是一个基于dicews的混合噪声标签数据集。dicews由基于时间知识库构建的时间知识图之间的实体对齐任务数据集组成,它包含具有特定时间注释的政治事件。为了模拟在真实场景,发明人将噪声实体对混合到训练数据集中以模拟实际情况。通过固定实体1数据集,随机选择实体2数据集中的实体,重组新的实体对,建立噪声实体对。在训练数据集中,我们分别混合了20%和40%的噪声实体对。(2) d-y:它是基于yago-wiki20k的混杂噪声的数据集。yago-wiki20k是一个包含时间和非时间事实的混合数据集,它有大约20,000个实体对。值得注意的是,yago-wiki数据集中的时间戳以多种形式表示,例如时间点、开始或结束时间、时间间隔。这种存储时间信息的混乱方式给构建高级时间实体对齐模型带来了挑战。(3)y-w:它是源自wikidata和yago,其中大量相同的实体以不同的表面形式表示,该数据集包含大约50,000个实体对,每个实体都有时间信息。实验数据的统计信息见表1:表1数据类型d-nd-yy-w
实体19,51719,49349,629实体29,53719,92949,222关系12473211关系224613030时间集4,017405245四元组1307,55283,583221,050四元组2307,553142,568317,814测试集8,56619,46249,172训练集1,000*2,000*5,000/1,000 表1 时间实体对齐实验数据,“*”表示含有噪声。
[0024][0025]
实验采用hits@k(hk)和mrr来评估模型。该评估是通过衡量排名前k的知识图实体对中正确排名的比例来计算hits@k(hk)得分(得分越高越好)。mrr的全称为mean reciprocal ranking(平均倒数排名),指标越大越好(即预测排名越高,倒数越大,求和结果越大,越好)。
[0026]
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:intel(r) i5-1135g7,cpu 2.40ghz,内存16gb,操作系统是windows10,64位;服务器的具体配置为:intel(r) xeon(r) gold 6240,cpu 2.60ghz,gpu v100 32gb,操作系统是debian gnu/linux 11 64位。
[0027]
步骤1,总体方法过程如图1所示。
[0028]
步骤1.1,时间关系图注意力网络的输出特征是通过一个聚合获得的,该聚合线性组合了实体的相邻实体、关系和时间的正交变换。
[0029]
步骤1.2,构建关系注意力矩阵,是共享关系注意力权重向量,表示实体集,表示关系链接集,表示关系正交变换矩阵:
[0030]
,
[0031]
步骤1.3,构建时间注意力矩阵,是时间注意力权重向量,表示时间链接集,表示时间正交变换矩阵:
[0032]
,
[0033]
步骤1.4,获得实体的聚合特征:
[0034]
,
[0035]
步骤1.5,获得关系的聚合特征:
[0036]
,
[0037]
步骤1.6,获得时间的聚合特征:
[0038]
,
[0039]
步骤1.7,输出特征,||表示串联。
[0040]
步骤2,计算模型的损失,自适应相对误差损失最小化方案是在训练阶段作为时间实体对齐模型的优化目标,它是基于相对误差定理的方案。
[0041]
步骤2.1,首先,在训练过程中,使用l2距离作为度量来定义两个实体和的表示差异如下:,步骤2.2,通过计算源种子实体和目标种子实体的距离得出测量值 () ,这类似于transe的翻译假设:
[0042]
,步骤2.3,真实值()是通过分别计算源种子实体、目标种子实体和所有其他实体之间的距离获得,任何不在种子中的实体()都应该被认为是未知实体:
[0043]
,步骤2.4,使用相对错误率作为时间实体对齐模型的优化目标:
[0044]
,步骤2.5,是绝对误差损失最小化,是返回缩减张量的函数,是任何不在种子中的实体one-hot矩阵:
[0045]
,步骤3,噪声过滤。噪声过滤涉及噪声过滤层,噪声过滤层是实体嵌入的约束moore-penrose伪逆矩阵变换。
[0046]
步骤3.1,给定实体对齐线性方程组,其中矩形矩阵(是所有实体嵌入的集合)和向量已知,向量未知:
[0047]
,步骤3.2,通过svd分解矩阵:
[0048]
,
步骤3.3,用它的svd分解结果替换矩阵:
[0049]
,步骤3.4,对的奇异分量进行逆运算:
[0050]
,步骤3.5,对该等式进行简化:
[0051]
,步骤3.6,将数量表示为。对角矩阵是先对进行转置,然后计算的奇异值的倒数得到d
×
d矩阵,d表示全部实体数量。
[0052]
步骤3.7,构建一个约束条件来计算噪声过滤阈值:
[0053]
,,步骤3.8,最终获得约束moore-penrose伪逆矩阵:
[0054]
,步骤4,根、、和数值训练模型直至收敛。
[0055]
步骤5,实体对齐的多维度相似性度度量算法。相似性度量是在源实体和目标实体之间生成可靠的匹配对。
[0056]
步骤5.1 计算目标实体与其邻域实体之间的平均相似度,表示邻居实体的数量,表示邻域,表示余弦相似度:,步骤5.2获得源实体和目标实体之间的相似性度量:,其中csls指跨域相似性局部缩放(cross-domain similarity local scaling)。
[0057]
步骤5.3构建一个1*n维偏移矩阵,对csls矩阵进行转置,选择每行的最大值作为目标实体与源实体的偏移距离:,步骤5.4获得最终的多维度相似性度量算法:,步骤6,使用训练好的模型用多维度相似性度量算法对实体进行对齐。
[0058]
步骤7,在时间知识图谱d-n数据集上测试,最终的准确率hit@1为0.925,hit@10为
0.956,mmr为0.936 。输出结果可以看出,虽然准确率没有达到100%,但三个结果的准确率都达到了93%以上,说明本发明的效果还是非常明显的,值得大力推广。而且,如果在本发明的基础上进一步改进,还可以继续提高准确率,达到100%也不是没有可能。
[0059]
至此,已经结合说明书附图所示的优选实施方式详细描述了本发明的技术方案,但是,本领域技术人员容易理解,本发明的保护范围显然不局限于此具体实施方式。在不偏离本发明原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
技术特征:
1.一种自适应融合时间信息的自动降噪与增强实体对齐方法,其特征在于:所述方法包括如下步骤:步骤1、编码计算相关特征:,其中,是时间关系图注意力网络的输出特征,是关系的聚合特征,是时间的聚合特征,是实体的聚合特征,、表示实体集,和分别表示从到的关系和时间链接集,表示关系正交变换矩阵,表示时间正交变换矩阵,并且:,其中,和是共享关系和时间注意力权重向量;步骤2、计算模型的损失,1)用距离l2作为度量来定义两个实体和的表示差异如下:,2)计算测量值和真实值,任何不在种子中的实体都应该被认为是未知实体:,3)计算相对错误率:,其中是绝对误差损失最小化(aelm),是返回缩减张量的函数,是任何不在种子中的实体 one-hot 矩阵;步骤3:过滤噪声,过滤噪声使用噪声过滤层,所述噪声过滤层是实体嵌入的约束
moore-penrose伪逆矩阵变换,其中是所有实体嵌入的集合,、、是svd分解矩阵的输出结果:,步骤4,根据和训练模型直至收敛;步骤5,计算实体对齐的多维度相似性度度量,5-1)计算目标实体与其邻域之间的平均相似度:,其中,是源实体嵌入与其邻域之间的平均相似度,表示邻居实体的数量,表示邻域,表示余弦相似度,表示测试数据集的实体嵌入;5-2)获得源实体和目标实体之间的相似性度量:,5-3)计算1*n维矩阵偏移矩阵:,5-4)计算多维度相似性度度量:,以及步骤6,使用训练好的模型用多维度相似性度量算法对实体进行对齐并输出结果。2.根据权利要求1所述一种自适应融合时间信息的自动降噪与增强实体对齐方法,其特征在于:在所述过滤噪声步骤中,噪声过滤阈值通过下面约束条件来计算:,其中对角矩阵是先对进行转置,然后计算的奇异值的倒数得到d
×
d矩阵,是超参数,属于d,d表示全部实体数量。
技术总结
本发明属于自然语言处理与机器学习领域,具体涉及一种自适应融合时间信息的自动降噪与增强实体对齐方法。该方法包括:编码计算时间关系图注意力网络的输出特征、关系的聚合特征、和时间的聚合特征;计算模型损失;计算相对错误率;对噪声进行过滤并对噪声过滤阈值进行约束;训练模型直至收敛;计算实体对齐的多维度相似性度度量;以及使用训练好的模型用多维度相似性度量算法对实体进行对齐。本发明有效的解决了实体的时间属性多样性问题,并恰当地建模了时间知识图谱的实体之间的复杂关系,实现了实体时间对齐。除此之外,本发明自适应地融合时间信息和增加相似性度量的维度,有效抵抗噪声标签对时间实体对齐模型的干扰。抗噪声标签对时间实体对齐模型的干扰。抗噪声标签对时间实体对齐模型的干扰。
技术研发人员:宋丹丹 李佳
受保护的技术使用者:北京理工大学
技术研发日:2023.06.12
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/