一种台风时序知识图谱的构建方法及终端与流程
未命名
08-02
阅读:113
评论:0

1.本发明涉及知识图谱技术领域,尤其涉及一种台风时序知识图谱的构建方法及终端。
背景技术:
2.知识图谱是一种用于表示和组织知识的图形化模型,它将客观世界中存在的实体、属性和关系表示为节点和边,形成一种关系网络,以便于机器理解和处理。2012年google最早提出知识图谱,主要应用于搜素引擎,助力人们更准确快速地检索到目标信息,近年来,知识图谱的下游还衍生出知识问答、智能推荐、语义理解等任务,越来越广泛地应用于医疗、电商、金融等诸多领域。然而随着互联网信息指数级增长,无论是通用知识图谱还是行业知识图谱,如何从非结构化信息中自动抽取出实体及其之间的关系变得至关重要,是构建知识图谱的前提条件。
3.台风的观测数据、预报数据、影响数据等对台风的发生规律、趋势和影响研究具有重要价值。但随着对台风的观测和记录越来越精细,台风相关数据的体量越来越大,其相关记录分散在不同的数据源和文献中。同时,由于历史上的观测和记录条件有限,现有的台风历史数据质量参差不齐,包含很多非结构化数据和半结构化数据。此外,台风的各种属性和时间关联性较强,如同一个台风的登陆地点可能有多个,需要和登陆时间关联,随着时间变化台风的特征和影响也在不断变化,台风知识数据的更新及时性也很重要。因此,台风知识图谱的构建工作具有重要意义和应用价值,比如用于台风的发生规律、趋势和影响研究,但也存在不小的难度和挑战。
4.从非结构化文本中提取实体及实体之间的关系是构建大规模知识图谱的关键,然而现有的关系抽取方法存在以下几个问题:(1)一些模型先进行实体识别再抽取关系,存在误差传递的问题,即实体漏识别或误识别而导致关系抽取错误,同时这类方式也会造成处理时间和计算资源的浪费,效率低下。
5.(2)实际情况中,一个句子或段落中的实体可能存在一对多或多对多的关系,将关系作为离散的标签方法难以提取重叠的三元组。
6.(3)现实世界中很多关系是带有时间属性的,只提取三元组难以准确描述,如台风知识中的很多多对多关系需要时间限定性的描述才能区分。
技术实现要素:
7.本发明所要解决的技术问题是:提供一种台风时序知识图谱的构建方法及终端,能够提高构建效率以及台风时序知识图谱的可靠性。
8.为了解决上述技术问题,本发明采用的一种技术方案为:一种台风时序知识图谱的构建方法,包括步骤:采集待构建的台风文本数据;
使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组;根据所述时序三元组构建生成台风时序知识图谱。
9.为了解决上述技术问题,本发明采用的另一种技术方案为:一种台风时序知识图谱的构建终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:采集待构建的台风文本数据;使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组;根据所述时序三元组构建生成台风时序知识图谱。
10.本发明的有益效果在于:使用训练完成的级联神经网络模型对待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与待构建的台风文本数据对应的时序三元组,根据时序三元组构建生成台风时序知识图谱,相较于现有先进行实体识别再进行关系分类的管道式方法,通过级联神经网络模型联合抽取实体和关系,打破了每个组件之间的依赖,增加了两个子任务之间的信息交互,避免信息丢失和错误传递的问题,提升了实体和关系抽取的效果,且采用级联的网络结构不仅可以抽取一对多或多对多的关系,还可以抽取带时间元素的时序三元组,确保最终的台风时序知识图谱描述准确,从而提高了构建效率以及台风时序知识图谱的可靠性。
附图说明
11.图1为本发明实施例的一种台风时序知识图谱的构建方法的步骤流程图;图2为本发明实施例的一种台风时序知识图谱的构建终端的结构示意图;图3为本发明实施例的台风时序知识图谱的构建方法中的训练完成的级联神经网络模型示意图。
具体实施方式
12.为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
13.请参照图1,本发明实施例提供了一种台风时序知识图谱的构建方法,包括步骤:采集待构建的台风文本数据;使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组;根据所述时序三元组构建生成台风时序知识图谱。
14.从上述描述可知,本发明的有益效果在于:使用训练完成的级联神经网络模型对待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与待构建的台风文本数据对应的时序三元组,根据时序三元组构建生成台风时序知识图谱,相较于现有先进行实体识别再进行关系分类的管道式方法,通过级联神经网络模型联合抽取实体和关系,打破了每个组件之间的依赖,增加了两个子任务之间的信息交互,避免信息丢失和错误传递的问题,提升了实体和关系抽取的效果,且采用级联的网络结构不仅可以抽取一对多或
多对多的关系,还可以抽取带时间元素的时序三元组,确保最终的台风时序知识图谱描述准确,从而提高了构建效率以及台风时序知识图谱的可靠性。
15.进一步地,所述采集待构建的台风文本数据之前包括:采集用于训练的台风文本数据;对所述用于训练的台风文本数据进行时序三元组标注,得到标注数据;构建级联神经网络模型;以最大化似然函数为目标,使用所述用于训练的台风文本数据以及所述标注数据对所述级联神经网络模型进行训练,得到训练完成的级联神经网络模型。
16.由上述描述可知,通过对级联神经网络模型进行训练,该模型上下文理解能力强,能更好地理解句子中的语境和含义,可以在不同的任务和领域中进行迁移学习,且不需要大量的标注数据,也能准确地提取实体和关系,从而提高了台风时序知识图谱的构建效率和准确性。
17.进一步地,所述似然函数为:进一步地,所述似然函数为:;式中,d表示所述标注数据,xj表示数据集中的句子,j表示句子序号,tj表示句子xj中的标注时序三元组集合,s表示头实体,r表示关系,o表示尾实体,t表示时间,表示时序三元组属于句子xj的标注时序三元组集合中的三元组,表示句子xj中存在时序三元组(s,r,o,t)的概率,表示关系r属于句子xj中的标注时序三元组集合中以s作为头实体的时序三元组集合,表示时序三元组集合中的头实体,表示句子xj中以s作为头实体的概率,表示句子xj中以s作为头实体在关系r下存在尾实体o的概率,表示关系r属于与头实体s无关的其它关系,表示句子xj中所有其它关系的对象为空的概率,表示尾实体为空,表示时序三元组集合中以s作为头实体、r作为关系、o作为尾实体的时间,表示句子xj中以头实体s、关系r、尾实体o作为三元组的前提下存在时间t的概率。
18.由上述描述可知,似然函数表示了模型参数的似然性,通过以最大化似然函数为目标进行训练模型,最终训练完成的级联神经网络模型即较好地拟合了给定的数据,确保模型能够更好地实现三元组的抽取。
19.进一步地,所述构建级联神经网络模型包括:将中文bert预训练模型作为编码层;构建头实体识别层、关系与尾实体联合识别层以及时间识别层,并根据所述头实体识别层、关系与尾实体联合识别层以及时间识别层生成解码层;根据所述编码层和所述解码层构建级联神经网络模型。
20.由上述描述可知,中文bert预训练模型是一个基于双向transformer(基于自注意力机制的神经网络模型)的语言表示模型,能够很好地联合每个单词的上下文进行表征,根据头实体识别层、关系与尾实体联合识别层以及时间识别层生成的解码层可以高效、精准地抽取时序三元组元素,提高了模型整体对于实体和关系抽取的效果。
21.进一步地,所述使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组包括:使用训练完成的级联神经网络模型中的所述编码层对所述待构建的台风文本数据进行编码,得到编码结果;使用训练完成的级联神经网络模型中的所述头实体识别层对所述编码结果进行解码,得到所有可能的头实体,并基于线性层以及sigmoid激活函数使用最近匹配原则从所述所有可能的头实体中得到候选头实体集合;使用训练完成的级联神经网络模型中的所述关系和尾实体联合识别层基于所述编码结果和所述候选头实体集合进行识别,得到关系以及与所述关系对应的尾实体集合;使用训练完成的级联神经网络模型中的所述时间识别层基于所述编码结果、所述候选头实体集合、所述关系以及与所述关系对应的尾实体集合进行识别,得到时间元素;根据所述候选头实体集合、所述时间元素、所述关系与所述关系对应的尾实体集合生成与所述待构建的台风文本数据对应的时序三元组。
22.由上述描述可知,采用基于transformer的三级级联网络结构从非结构化文本中提取带有时间关系的三元组,完成台风时序知识图谱的构建,将分散在不同数据源的台风知识信息整合起来,形成一个统一的知识库,方便用户查找使用,提高了台风信息的可访问性。
23.请参照图2,一种台风时序知识图谱的构建终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:采集待构建的台风文本数据;使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组;根据所述时序三元组构建生成台风时序知识图谱。
24.从上述描述可知,本发明的有益效果在于:使用训练完成的级联神经网络模型对待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与待构建的台风文本数据对应的时序三元组,根据时序三元组构建生成台风时序知识图谱,相较于现有先进行实体识别再进行关系分类的管道式方法,通过级联神经网络模型联合抽取实体和关系,打破了每个组件之间的依赖,增加了两个子任务之间的信息交互,避免信息丢失和错误传递的问题,提升了实体和关系抽取的效果,且采用级联的网络结构不仅可以抽取一对多或多对多的关系,还可以抽取带时间元素的时序三元组,确保最终的台风时序知识图谱描述准确,从而提高了构建效率以及台风时序知识图谱的可靠性。
25.进一步地,所述采集待构建的台风文本数据之前包括:采集用于训练的台风文本数据;对所述用于训练的台风文本数据进行时序三元组标注,得到标注数据;构建级联神经网络模型;以最大化似然函数为目标,使用所述用于训练的台风文本数据以及所述标注数据对所述级联神经网络模型进行训练,得到训练完成的级联神经网络模型。
26.由上述描述可知,通过对级联神经网络模型进行训练,该模型上下文理解能力强,能更好地理解句子中的语境和含义,可以在不同的任务和领域中进行迁移学习,且不需要大量的标注数据,也能准确地提取实体和关系,从而提高了台风时序知识图谱的构建效率和准确性。
27.进一步地,所述似然函数为:进一步地,所述似然函数为:;式中,d表示所述标注数据,xj表示数据集中的句子,j表示句子序号,tj表示句子xj中的标注时序三元组集合,s表示头实体,r表示关系,o表示尾实体,t表示时间,表示时序三元组属于句子xj的标注时序三元组集合中的三元组,表示句子xj中存在时序三元组(s,r,o,t)的概率,表示关系r属于句子xj中的标注时序三元组集合中以s作为头实体的时序三元组集合,表示时序三元组集合中的头实体,表示句子xj中以s作为头实体的概率,表示句子xj中以s作为头实体在关系r下存在尾实体o的概率,表示关系r属于与头实体s无关的其它关系,表示句子xj中所有其它关系的对象为空的概率,表示尾实体为空,表示时序三元组集合中以s作为头实体、r作为关系、o作为尾实体的时间,表示句子xj中以头实体s、关系r、尾实体o作为三元组的前提下存在时间t的概率。
28.由上述描述可知,似然函数表示了模型参数的似然性,通过以最大化似然函数为目标进行训练模型,最终训练完成的级联神经网络模型即较好地拟合了给定的数据,确保模型能够更好地实现三元组的抽取。
29.进一步地,所述构建级联神经网络模型包括:将中文bert预训练模型作为编码层;构建头实体识别层、关系与尾实体联合识别层以及时间识别层,并根据所述头实体识别层、关系与尾实体联合识别层以及时间识别层生成解码层;根据所述编码层和所述解码层构建级联神经网络模型。
30.由上述描述可知,中文bert预训练模型是一个基于双向transformer(基于自注意力机制的神经网络模型)的语言表示模型,能够很好地联合每个单词的上下文进行表征,根据头实体识别层、关系与尾实体联合识别层以及时间识别层生成的解码层可以高效、精准地抽取时序三元组元素,提高了模型整体对于实体和关系抽取的效果。
31.进一步地,所述使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组包括:使用训练完成的级联神经网络模型中的所述编码层对所述待构建的台风文本数据进行编码,得到编码结果;使用训练完成的级联神经网络模型中的所述头实体识别层对所述编码结果进行解码,得到所有可能的头实体,并基于线性层以及sigmoid激活函数使用最近匹配原则从所述所有可能的头实体中得到候选头实体集合;
使用训练完成的级联神经网络模型中的所述关系和尾实体联合识别层基于所述编码结果和所述候选头实体集合进行识别,得到关系以及与所述关系对应的尾实体集合;使用训练完成的级联神经网络模型中的所述时间识别层基于所述编码结果、所述候选头实体集合、所述关系以及与所述关系对应的尾实体集合进行识别,得到时间元素;根据所述候选头实体集合、所述时间元素、所述关系与所述关系对应的尾实体集合生成与所述待构建的台风文本数据对应的时序三元组。
32.由上述描述可知,采用基于transformer的三级级联网络结构从非结构化文本中提取带有时间关系的三元组,完成台风时序知识图谱的构建,将分散在不同数据源的台风知识信息整合起来,形成一个统一的知识库,方便用户查找使用,提高了台风信息的可访问性。
33.本发明上述一种台风时序知识图谱的构建方法及终端能够适用于需要对台风相关数据进行研究的场景,以下通过具体实施方式进行说明:实施例一请参照图1和图3,本实施例的一种台风时序知识图谱的构建方法,包括步骤:s1、采集用于训练的台风文本数据,具体包括:s11、从百度百科、中央气象网、台风年鉴等官方数据源爬取初始台风文本数据。
34.s12、对所述初始台风文本数据进行数据清洗,包括去掉多余的空格、多余的换行符、文献引用标记等无关字符,得到清洗后的初始台风文本数据。
35.s13、按照段落对所述清洗后的初始台风文本数据进行分割,得到用于训练的台风文本数据。
36.s2、对所述用于训练的台风文本数据进行时序三元组标注,得到标注数据;比如,所述用于训练的台风文本数据为:台风“梅花”于9月14日晚20时30分许被中央气象台认定以强台风级登陆浙江舟山,再于9月15日凌晨0时30分许被认定以台风级第二次登陆上海奉贤,又于9月16日凌晨0时许被认定以热带风暴级第三次登陆山东青岛,于9月16日12时40分前后以热带风暴级第四次登陆辽宁大连。
37.其中的时序三元组包括:《台风“梅花”、登陆地点、浙江舟山、9月14日晚20时30分》,《台风“梅花”、登陆地点、上海奉贤、9月15日凌晨0时30分》,《台风“梅花”、登陆地点、山东青岛、9月16日凌晨0时》,《台风“梅花”、登陆地点、辽宁大连、9月16日12时40分》,通过这些时序三元组对所述用于训练的台风文本数据进行标注,得到标注数据;从上述例子可以看到,该例中存在一对多的关系且关系相同,如果只提取三元组难以准确描述,时序三元组恰好可以解决上述问题。
38.s3、构建级联神经网络模型,具体包括:s31、将中文bert预训练模型(bert_base_chinese模型)作为编码层。
39.s32、构建头实体识别层、关系与尾实体联合识别层以及时间识别层,并根据所述头实体识别层、关系与尾实体联合识别层以及时间识别层生成解码层;该解码层为一个三级级联结构,首先识别所有可能的头实体,然后在给定的关系类别下去识别是否存在相应的尾实体,然后再去识别在该关系和尾实体下是否存在时间元素。
40.s33、根据所述编码层和所述解码层构建级联神经网络模型。
41.s4、以最大化似然函数为目标,使用所述用于训练的台风文本数据以及所述标注数据对所述级联神经网络模型进行训练,得到训练完成的级联神经网络模型;其中,所述似然函数为:;式中,d表示所述标注数据,xj表示数据集中的句子,j表示句子序号,tj表示句子xj中的标注时序三元组集合,s表示头实体,r表示关系,o表示尾实体,t表示时间,表示时序三元组属于句子xj的标注时序三元组集合中的三元组,表示句子xj中存在时序三元组(s,r,o,t)的概率,表示关系r属于句子xj中的标注时序三元组集合中以s作为头实体的时序三元组集合,表示时序三元组集合中的头实体,表示句子xj中以s作为头实体的概率,表示句子xj中以s作为头实体在关系r下存在尾实体o的概率,表示关系r属于与头实体s无关的其它关系,表示句子xj中所有其它关系的对象为空的概率,表示尾实体为空,表示时序三元组集合中以s作为头实体、r作为关系、o作为尾实体的时间,表示句子xj中以头实体s、关系r、尾实体o作为三元组的前提下存在时间t的概率,表示时序三元组集合中的一对关系、尾实体和时间,表示句子xj中以s作为头实体存在关系r、尾实体o和时间t的概率,表示时序三元组集合中以s作为头实体的一对关系和尾实体,表示句子xj中以s作为头实体存在关系r和尾实体o的概率。
42.s5、采集待构建的台风文本数据;s6、使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组,具体包括:s61、使用训练完成的级联神经网络模型中的所述编码层对所述待构建的台风文本数据进行编码,得到编码结果;如图3所示,将待构建的台风文本数据:“山竹”9月15日从菲律宾北部登陆,输入训练完成的级联神经网络模型中的bert编码层进行编码,得到编码结果。
43.s62、使用训练完成的级联神经网络模型中的所述头实体识别层对所述编码结果进行解码,得到所有可能的头实体,并基于线性层以及sigmoid激活函数使用最近匹配原则从所述所有可能的头实体中得到候选头实体集合;
具体的,基于线性层以及sigmoid激活函数判断每个token(分词词语)是不是头实体的开始token和结束token,然后利用最近匹配原则将识别到的start(开始)和end(结束)配对得到候选头实体集合。
44.如图3所示,编码结果传递给头实体识别层,该层包含2个二分类器,分别识别是否是头实体的开始token和结束token,然后按最近匹配原则得到两个实体:“山竹”、“菲律宾北部”。
45.s63、使用训练完成的级联神经网络模型中的所述关系和尾实体联合识别层基于所述编码结果和所述候选头实体集合进行识别,得到关系以及与所述关系对应的尾实体集合;具体的,结合编码结果和候选头实体集合,对给定的每一种关系类型,都利用两个二分类结构识别尾实体的start和end,同样根据最近匹配原则将识别到的start和end配对得到对应关系下的尾实体,如果不存在尾实体,则不存在该种关系,以此得到关系以及与所述关系对应的尾实体集合。
46.如图3所示,将编码结果和候选头实体集合的信息结合传递给关系和尾实体联合识别层,对每一种给定关系用两个二分类器(即二分类结构)识别该关系下是否存在尾实体的开始token和结束token,按最近原则匹配得到在登陆地点的关系中存在尾实体菲律宾北部。
47.s64、使用训练完成的级联神经网络模型中的所述时间识别层基于所述编码结果、所述候选头实体集合、所述关系以及与所述关系对应的尾实体集合进行识别,得到时间元素;具体的,结合编码结果、候选头实体集合、关系以及与关系对应的尾实体集合,识别所有可能的时间元素,同样利用二分类结构分别判断每个token是否为时间元素的开始token和结束token,然后利用最近匹配原则将识别到的start和end配对,得到时间元素,如果不存在,则该三元组的时间元素为空。
48.如图3所示,将前面三层的结果结合传递给时间识别层,用两个二分类器识别是否存在对应三元组组合下的时间的开始token和结束token,按最近匹配原则得到时间9月15日。
49.s65、根据所述候选头实体集合、所述时间元素、所述关系与所述关系对应的尾实体集合生成与所述待构建的台风文本数据对应的时序三元组。
50.s7、根据所述时序三元组构建生成台风时序知识图谱;具体的,由于时序三元组无法直接使用rdf(report definition file,报表定义文件)格式直接存储, rdf 是三元组形式,因此,对所述时序三元组的格式进行转换,对于不存在时间元素的三元组按原有结构导入即可,对于存在时间元素的三元组将时间转换成相应关系的属性进行导入,然后构建生成台风时序知识图谱。
51.本发明上述台风时序知识图谱的构建方法利用预训练语言模型进行编码,上下文理解能力强,能够更好地理解句子中的语境和含义,可以在不同的任务和领域中进行迁移学习,不需要大量的标注数据,也能准确地提取实体和关系;联合抽取实体和关系相比现有技术中先进行实体识别再进行关系分类的管道式方法,打破了每个组件之间的依赖,增加了两个子任务之间的信息交互,避免了信息丢失和错误传递的问题,有利于提升实体和关
系抽取的效果,同时也可以提高处理效率;采用三级级联的网络结构,不仅可以抽取一对多或多对多的关系,还可以抽取带时间元素的时序三元组,可以应用于事件序列分析、时间线生成、时间线推理等,适用于更多的应用场景,综上所述,本发明提高了构建效率以及台风时序知识图谱的可靠性。
52.实施例二请参照图2,本实施例的一种台风时序知识图谱的构建终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例一中的台风时序知识图谱的构建方法中的各个步骤。
53.综上所述,本发明提供的一种台风时序知识图谱的构建方法及终端,使用训练完成的级联神经网络模型对待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与待构建的台风文本数据对应的时序三元组,根据时序三元组构建生成台风时序知识图谱,相较于现有先进行实体识别再进行关系分类的管道式方法,通过级联神经网络模型联合抽取实体和关系,打破了每个组件之间的依赖,增加了两个子任务之间的信息交互,避免信息丢失和错误传递的问题,提升了实体和关系抽取的效果,且采用级联的网络结构不仅可以抽取一对多或多对多的关系,还可以抽取带时间元素的时序三元组,确保最终的台风时序知识图谱描述准确,从而提高了构建效率以及台风时序知识图谱的可靠性;并且,采用基于transformer的三级级联网络结构从非结构化文本中提取带有时间关系的三元组,完成台风时序知识图谱的构建,将分散在不同数据源的台风知识信息整合起来,形成一个统一的知识库,方便用户查找使用,提高了台风信息的可访问性。
54.以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种台风时序知识图谱的构建方法,其特征在于,包括步骤:采集待构建的台风文本数据;使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组;根据所述时序三元组构建生成台风时序知识图谱。2.根据权利要求1所述的一种台风时序知识图谱的构建方法,其特征在于,所述采集待构建的台风文本数据之前包括:采集用于训练的台风文本数据;对所述用于训练的台风文本数据进行时序三元组标注,得到标注数据;构建级联神经网络模型;以最大化似然函数为目标,使用所述用于训练的台风文本数据以及所述标注数据对所述级联神经网络模型进行训练,得到训练完成的级联神经网络模型。3.根据权利要求2所述的一种台风时序知识图谱的构建方法,其特征在于,所述似然函数为:数为:;式中,d表示所述标注数据,x
j
表示数据集中的句子,j表示句子序号,t
j
表示句子x
j
中的标注时序三元组集合,s表示头实体,r表示关系,o表示尾实体,t表示时间,表示时序三元组属于句子x
j
的标注时序三元组集合中的三元组,表示句子x
j
中存在时序三元组(s,r,o,t)的概率,表示关系r属于句子x
j
中的标注时序三元组集合中以s作为头实体的时序三元组集合,表示时序三元组集合中的头实体,表示句子x
j
中以s作为头实体的概率,表示句子x
j
中以s作为头实体在关系r下存在尾实体o的概率,表示关系r属于与头实体s无关的其它关系,表示句子x
j
中所有其它关系的对象为空的概率,表示尾实体为空,表示时序三元组集合中以s作为头实体、r作为关系、o作为尾实体的时间,表示句子x
j
中以头实体s、关系r、尾实体o作为三元组的前提下存在时间t的概率。4.根据权利要求2所述的一种台风时序知识图谱的构建方法,其特征在于,所述构建级联神经网络模型包括:将中文bert预训练模型作为编码层;构建头实体识别层、关系与尾实体联合识别层以及时间识别层,并根据所述头实体识别层、关系与尾实体联合识别层以及时间识别层生成解码层;根据所述编码层和所述解码层构建级联神经网络模型。5.根据权利要求4所述的一种台风时序知识图谱的构建方法,其特征在于,所述使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组包括:使用训练完成的级联神经网络模型中的所述编码层对所述待构建的台风文本数据进行编码,得到编码结果;
使用训练完成的级联神经网络模型中的所述头实体识别层对所述编码结果进行解码,得到所有可能的头实体,并基于线性层以及sigmoid激活函数使用最近匹配原则从所述所有可能的头实体中得到候选头实体集合;使用训练完成的级联神经网络模型中的所述关系和尾实体联合识别层基于所述编码结果和所述候选头实体集合进行识别,得到关系以及与所述关系对应的尾实体集合;使用训练完成的级联神经网络模型中的所述时间识别层基于所述编码结果、所述候选头实体集合、所述关系以及与所述关系对应的尾实体集合进行识别,得到时间元素;根据所述候选头实体集合、所述时间元素、所述关系与所述关系对应的尾实体集合生成与所述待构建的台风文本数据对应的时序三元组。6.一种台风时序知识图谱的构建终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:采集待构建的台风文本数据;使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组;根据所述时序三元组构建生成台风时序知识图谱。7.根据权利要求6所述的一种台风时序知识图谱的构建终端,其特征在于,所述采集待构建的台风文本数据之前包括:采集用于训练的台风文本数据;对所述用于训练的台风文本数据进行时序三元组标注,得到标注数据;构建级联神经网络模型;以最大化似然函数为目标,使用所述用于训练的台风文本数据以及所述标注数据对所述级联神经网络模型进行训练,得到训练完成的级联神经网络模型。8.根据权利要求7所述的一种台风时序知识图谱的构建终端,其特征在于,所述似然函数为:数为:;式中,d表示所述标注数据,x
j
表示数据集中的句子,j表示句子序号,t
j
表示句子x
j
中的标注时序三元组集合,s表示头实体,r表示关系,o表示尾实体,t表示时间,表示时序三元组属于句子x
j
的标注时序三元组集合中的三元组,表示句子x
j
中存在时序三元组(s,r,o,t)的概率,表示关系r属于句子x
j
中的标注时序三元组集合中以s作为头实体的时序三元组集合,表示时序三元组集合中的头实体,表示句子x
j
中以s作为头实体的概率,表示句子x
j
中以s作为头实体在关系r下存在尾实体o的概率,表示关系r属于与头实体s无关的其它关系,表示句子x
j
中所有其它关系的对象为空的概率,表示尾实体为空,表示时序三元组集合中以s作为头实体、r作为关系、o作为尾实体的时间,表示句子x
j
中以头实体s、关系r、尾实体o作为三元组的前提下存在时间t的概率。
9.根据权利要求7所述的一种台风时序知识图谱的构建终端,其特征在于,所述构建级联神经网络模型包括:将中文bert预训练模型作为编码层;构建头实体识别层、关系与尾实体联合识别层以及时间识别层,并根据所述头实体识别层、关系与尾实体联合识别层以及时间识别层生成解码层;根据所述编码层和所述解码层构建级联神经网络模型。10.根据权利要求9所述的一种台风时序知识图谱的构建终端,其特征在于,所述使用训练完成的级联神经网络模型对所述待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与所述待构建的台风文本数据对应的时序三元组包括:使用训练完成的级联神经网络模型中的所述编码层对所述待构建的台风文本数据进行编码,得到编码结果;使用训练完成的级联神经网络模型中的所述头实体识别层对所述编码结果进行解码,得到所有可能的头实体,并基于线性层以及sigmoid激活函数使用最近匹配原则从所述所有可能的头实体中得到候选头实体集合;使用训练完成的级联神经网络模型中的所述关系和尾实体联合识别层基于所述编码结果和所述候选头实体集合进行识别,得到关系以及与所述关系对应的尾实体集合;使用训练完成的级联神经网络模型中的所述时间识别层基于所述编码结果、所述候选头实体集合、所述关系以及与所述关系对应的尾实体集合进行识别,得到时间元素;根据所述候选头实体集合、所述时间元素、所述关系与所述关系对应的尾实体集合生成与所述待构建的台风文本数据对应的时序三元组。
技术总结
本发明公开一种台风时序知识图谱的构建方法及终端,使用训练完成的级联神经网络模型对待构建的台风文本数据进行实体和关系的联合抽取以及时间抽取,得到与待构建的台风文本数据对应的时序三元组,根据时序三元组构建台风时序知识图谱,相较于现有技术,通过级联神经网络模型联合抽取实体和关系,打破了每个组件之间的依赖,增加了两个子任务之间的信息交互,避免信息丢失和错误传递的问题,提升了实体和关系抽取的效果,且采用级联的网络结构不仅可以抽取一对多或多对多的关系,还可以抽取带时间元素的时序三元组,确保最终的台风时序知识图谱描述准确,从而提高了构建效率以及台风时序知识图谱的可靠性。风时序知识图谱的可靠性。风时序知识图谱的可靠性。
技术研发人员:戴诗琪 林永清 单森华 洪水洁 徐能通 陈新伟 梁礼燕
受保护的技术使用者:四创科技有限公司
技术研发日:2023.06.14
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/