一种用于故障工单的文本实体关系的联合抽取方法
未命名
10-08
阅读:126
评论:0

1.本发明涉及智能制造技术领域,尤其涉及一种用于故障工单的文本实体关系的联合抽取方法。
背景技术:
2.随着制造业的转型升级,生产线设备变得越来越复杂化和智能化,这导致产线设备一旦发生故障,维护所需的技术变高,时间变长,企业的经济效益受到影响。目前,维修人员对于生产线设备的故障诊断与维修大多依赖于维修手册和专家系统等,但维修手册和专家系统依赖于人力维护和更新且对于故障根因查找的效率不高,因此,挖掘故障根因效率高、更新及时的基于知识图谱的故障诊断成为一个热门领域。而高质量、大规模的故障知识图谱是基于知识图谱的故障诊断应用的基础,构建故障知识图谱需要高效地从记录了历史维修记录的故障工单中抽取出实体和关系。
3.目前,实体和关系抽取分为两种主要方法:流水线方法和联合抽取方法。流水线方法将实体抽取和关系抽取分为两个独立的子任务,在完成实体识别的基础上对实体进行关系分类。这种方法容易执行,具有较高的灵活性,但忽视了两个任务的内在联系,并且存在误差传播的问题。联合抽取方法隐式地降低了任务之间的错误传播,但仍存在关系重叠问题,包括单实体重叠和实体对重叠,影响了实体关系抽取的准确性。故障工单文本由于其特殊性,存在信息集中和单一实体依赖的问题,这导致关系重叠问题严重且实体关系抽取依赖于文本中的某个实体,一旦这个实体抽取失败,将失去所有有关的三元组。从而导致实体关系抽取的准确率较低的问题。
4.因此,如何提高故障工单文本实体关系抽取的准确率,成为了需要进一步研究的问题。
技术实现要素:
5.本发明的实施例提供一种用于故障工单的文本实体关系的联合抽取方法,能够提高故障工单文本实体关系抽取的准确率。
6.为达到上述目的,本发明的实施例采用如下技术方案:
7.一种用于故障工单的文本实体关系的联合抽取方法,包括:
8.s1、从故障工单文本中获取词向量;
9.s2、利用指针网络根据所述词向量预测基实体;
10.s3、针对所述词向量中与实体抽取任务和关系分类任务相关联的特征,进行增强处理;
11.s4、获取与基实体存在关系的关联实体;
12.s5、利用基实体与关联实体组成的实体对,确定实体关系三元组。
13.本发明实施例提供的用于故障工单的文本实体关系的联合抽取方法,基于层叠指针网络的方式获取所有可能存在关系的基实体;将所有的基实体通过双向映射的方法,得
到与其有关的头实体或尾实体,充分获取实体对;通过多个关系分类矩阵对实体对分类获取实体关系三元组。本发明基于层叠指针网络标注的方法,表达能力强,能够排除关系重叠的干扰。同时,针对故障工单文本信息中三元组集中、依赖单一实体的问题,加入了实体对双向映射方法,可以有效地提取实体对以提高实体关系联合抽取的性能。
附图说明
14.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
15.图1为本发明实施例提供的方法流程的示意图;
16.图2为本发明实施例提供的故障工单文本实体关系联合抽取整体结构图。
具体实施方式
17.为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
18.本发明实施例提供一种用于故障工单的文本实体关系的联合抽取方法,如图1所示,包括:
19.s1、从故障工单文本中获取词向量;
20.s2、利用指针网络根据所述词向量预测基实体;
21.s3、针对所述词向量中与实体抽取任务和关系分类任务相关联的特征,进行增强处理;
22.s4、获取与基实体存在关系的关联实体;
23.s5、利用基实体与关联实体组成的实体对,确定实体关系三元组。
24.具体的,在s1中,包括:采集故障工单文本,并获取利用预训练语言模型对所述故障工单文本进行文本编码,得到所述故障工单文本中每个词的词向量:本实施例中,以文
本:“真空箱工作时真空负压小于设定值”为例,将句子分为自然语言处理最基本单元,
‘
真’、
‘
空’、
‘
箱’、
‘
工’、
‘
作
’‘
时’、
‘
真’、
‘
空’、
‘
负’、
‘
压’、
‘
小’、
‘
于’、
‘
设’、
‘
定
’‘
值’。一个单元即为一个词,利用预训练语言模型bert进行文本编码,从而获得文本x每个词的词向量,其中,hi=bert(xi),其中xi表示文本中第i个词,{x1,x2,
…
,xn}∈x,x表示文本,n表示所获取词向量的总数。
25.本实施例中采用指针网络标注方式识别文本中的实体和关系,使得模型能够解决故障工单中普遍存在的关系重叠问题;并利用实体关系三元组的结构特点,设计了实体对双向抽取的框架,使得模型充分提取文本中潜在的实体对,解决故障工单文本中多个三元组依赖于同一实体抽取结果的问题。例如:对于实体对“真空箱,真空负压”,存在关系“设备/的属性是/属性”,可获得实体关系三元组“真空箱,设备/的属性是/属性,真空负压”,其中设备是头实体“真空箱”的实体类别,属性是尾实体“真空负压”的实体类别。根据本实施例中所设计的面向故障工单文本的实体关系联合抽取方法,可以解决故障工单文本中存在的关系重叠、头实体依赖问题,使模型在故障工单文本中能够充分提取实体关系三元组并用于构建高质量故障知识图谱。
26.本实施例中,可以利用指针网络预测所有的基实体是指将文本中所有存在关系的头实体或尾实体作为基实体提取出来。例如采用指针网络标注,将实体的标签分为起始标签和结束标签,起始标签中“1”代表所在位置的词是一个实体的开始,结束标签中“1”代表所在位置的词是一个实体的结束,其余位置标注为0。具体在s2中,包括:
27.将实体的标签分为起始标签和结束标签,对于所述故障工单文本中的词进行预测处理,所述预测处理包括:计算每一个词为基实体起始词的概率和结束词的概率:
[0028][0029][0030]
其中,分别表示第i个词为基实体起始词和结束词的概率,超过0.5则该位置标记为“1”,否则为“0”。具体可以采取临近匹配原则,对头尾指针进行匹配,如图2所示,
‘
真’和
‘
空’中间的词组成基实体
‘
真空箱’。
[0031]
本实施例中,在s3中,
[0032]
采用全连接神经网络,来强化词向量中关联实体抽取任务和关系分类任务的特征,其中强化关联实体抽取任务的特征的方式包括:
[0033][0034][0035]
其中,和为强化关联实体抽取任务后的词向量,分别用于正向抽取尾实体和反向抽取头实体,和分别表示对应正向抽取尾实体和反向抽取头实体的可训练权重矩阵,hi表示文本中第i个词向量,和分别表示对应正向抽取尾实体和反向抽取头实体的偏置,dh表示嵌入维度;
[0036]
强化关系分类任务的特征的方式包括:
[0037][0038]
其中,为强化关系分类任务后的词向量,用于对实体对进行关系分类,表示可训练权重矩阵,hi表示文本中第i个词向量,表示偏置
[0039]
本实施例中,对于每一个基实体,计算与其存在关系的关联实体起始词和结束词的概率,表示为:其中和分别代表表示第i个词为第k个基实体对应尾实体的起始词和结束词的概率,表示哈达玛积,表示可训练的权值矩阵,表示偏置。类似的可计算出基实体关联的头实体的起始词和结束词的概率和具体在s4中,可以通过双向映射的指针网络,预测与基实体存在关系的关联实体,其中将基实体分别作为头实体和尾实体,以指针标注的方式,从三元组的正向和反向分别预测尾实体和头实体,包括:
[0040][0041][0042][0043][0044]
其中,和分别为第i个词是第k个基实体的尾实体开始词和结束词的概率,和分别为第i个词是第k个基实体的头实体开始词和结束词的概率,为第k个基实体的向量表示,和为针对关联实体抽取任务强化后的词向量,为哈达玛积,σ为sigmoid,和分别表示对应尾实体开始词、尾实体结束词、头实体开始词和头实体结束词的可训练权重矩阵,和分别表示对应尾实体开始词、尾实体结束词、头实体开始词和头实体结束词的偏置。
[0045]
本实施例中,为抽取关联实体,首先需要获得基实体的向量表示具体通过最大池化获取基实体的向量表示,包括:其中,分别代表第k个基实体中每个词的向量表示,maxpooling表示最大池化计算模型。
[0046]
具体在s5中,包括:将基实体与关联实体组成实体对;通过关系分类器预测实体之间的关系,从而获取实体关系三元组。本实施例中,可以将基实体与关联实体组成实体对。例如图2所示,对
‘
真空箱’基实体,可抽取出
‘
真空负压’关联实体,组成实体对“真空箱,真
空负压”实体对,表示为(sk,oj),包括:
[0047]
其中,为头实体的嵌入表示,为尾实体的嵌入表示,为头实体中每个词的关系分类任务增强表示,为尾实体中每个词的关系分类任务增强表示。
[0048]
本发明通过多组全连接神经网络,在实体对抽取的基础上,对实体对进行关系分类。具体的,所述通过关系分类器预测实体之间的关系,从而获取实体关系三元组,包括:
[0049]
为提高关系分类的效果,在所述关系分类器中,通过一组全连接神经网络强化词向量中关系分类任务的特征,表示为:对于每个关系类型,建立用于模拟关系对头尾实体的连接特点的连接矩阵。其中,关系分类器是指多组全连接神经网络,每个关系对应一个全连接神经网络,关系分类器预测实体对概率的方式具体为:
[0050]
其中,表示第i个关系的连接矩阵,为实体对存在第i个关系的概率,对于大于0.5的关系,即判定基实体与关联实体组成实体对(sk,oj)存在第i个关系;和分别表示头实体和尾实体嵌入表示,为sigmoid。
[0051]
现有的故障工单实体关系抽取主要存在的问题有:现在的流水线实体和关系抽取方法带来的错误传播,从而影响实体关系抽取的准确率;文本中实体和关系丰富产生的关系会发生重叠,也会影响实体关系抽取的准确率;并且故障工单中实体关系的抽取严重依赖于单一实体的问题。
[0052]
因此在本实施例中进行了相应的改进,具体采用基实体抽取、关联实体抽取和关系分类共享编码层的联合抽取框架,减少了流水线方法中存在的错误传播问题;并且,本实施例中,采用指针网络标注的方式,解决了故障工单文本中普遍存在的关系重叠问题。再者,本实施例中,采用双向映射抽取实体对的框架,减少了故障工单文本中的头实体依赖问题,提高了实体关系抽取效率。
[0053]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
技术特征:
1.一种用于故障工单的文本实体关系的联合抽取方法,其特征在于,包括:s1、从故障工单文本中获取词向量;s2、利用指针网络根据所述词向量预测基实体;s3、针对所述词向量中与实体抽取任务和关系分类任务相关联的特征,进行增强处理;s4、获取与基实体存在关系的关联实体;s5、利用基实体与关联实体组成的实体对,确定实体关系三元组。2.根据权利要求1所述的方法,其特征在于,在s1中,包括:采集故障工单文本,并获取利用预训练语言模型对所述故障工单文本进行文本编码,得到所述故障工单文本中每个词的词向量:h
i
=bert(x
i
),其中x
i
表示文本中第i个词,{x1,x2,
…
,x
n
}∈x,x表示文本,n表示所获取词向量的总数。3.根据权利要求1所述的方法,其特征在于,在s2中,包括:将实体的标签分为起始标签和结束标签,对于所述故障工单文本中的词进行预测处理,所述预测处理包括:计算每一个词为基实体起始词的概率和结束词的概率:理,所述预测处理包括:计算每一个词为基实体起始词的概率和结束词的概率:其中,分别表示第i个词为基实体起始词和结束词的概率,超过0.5则该位置标记为“1”,否则为“0”。4.根据权利要求1所述的方法,其特征在于,在s3中,包括:采用全连接神经网络,来强化词向量中关联实体抽取任务和关系分类任务的特征,其中强化关联实体抽取任务的特征的方式包括:中强化关联实体抽取任务的特征的方式包括:其中,和为强化关联实体抽取任务后的词向量,分别用于正向抽取尾实体和反向抽取头实体,和分别表示对应正向抽取尾实体和反向抽取头实体的可训练权重矩阵,h
i
表示文本中第i个词向量,和分别表示对应正向抽取尾实体和反向抽取头实体的偏置,d
h
表示嵌入维度;强化关系分类任务的特征的方式包括:其中,为强化关系分类任务后的词向量,用于对实体对进行关系分类,表示可训练权重矩阵,h
i
表示文本中第i个词向量,表示偏置。5.根据权利要求1所述的方法,其特征在于,在s4中,通过双向映射的指针网络,预测与基实体存在关系的关联实体,其中,将基实体分别作为头实体和尾实体,从三元组的正向和反向分别预测尾实体和头实体,包括:
其中,和分别为第i个词是第k个基实体的尾实体开始词和结束词的概率,和分别为第i个词是第k个基实体的头实体开始词和结束词的概率,为第k个基实体的向量表示,和为针对关联实体抽取任务强化后的词向量,为哈达玛积,σ为sigmoid,和分别表示对应尾实体开始词、尾实体结束词、头实体开始词和头实体结束词的可训练权重矩阵,和分别表示对应尾实体开始词、尾实体结束词、头实体开始词和头实体结束词的偏置。6.根据权利要求5所述的方法,其特征在于,通过最大池化获取基实体的向量表示,包括:其中,分别代表第k个基实体中每个词的向量表示,maxpooling表示最大池化计算模型。7.根据权利要求1获7所述的方法,其特征在于,在s5中,包括:将基实体与关联实体组成实体对;通过关系分类器预测实体之间的关系,从而获取实体关系三元组。8.根据权利要求7所述的方法,其特征在于,所述将基实体与关联实体组成实体对,包括:括:其中,为头实体的嵌入表示,为尾实体的嵌入表示,为头实体中每个词的关系分类任务增强表示,为尾实体中每个词的关系分类任务增强表示。9.根据权利要求8所述的方法,其特征在于,所述通过关系分类器预测实体之间的关系,从而获取实体关系三元组,包括:在所述关系分类器中,-对于每个关系类型,建立用于模拟关系对头尾实体的连接特点的连接矩阵,包括:其中,表示第i个关系的连接矩阵,为实体对存在第i个关系的概率,对于大于0.5的关系,即判定基实体与关联实体组成实体对(s
k
,o
j
)
存在第i个关系;和分别表示头实体和尾实体嵌入表示,为sigmoid。
技术总结
本发明实施例公开了一种用于故障工单的文本实体关系的联合抽取方法,涉及智能制造技术领域,能够提高故障工单文本实体关系抽取的准确率。本发明包括:输入故障工单文本,用预训练语言模型将输入的文本转化为词向量;基于层叠指针网络的方式获取所有可能存在关系的基实体;将所有的基实体通过双向映射的方法,得到与其有关的头实体或尾实体,充分获取实体对;通过多个关系分类矩阵对实体对分类获取实体关系三元组。本发明基于层叠指针网络标注的方法,表达能力强,能够排除关系重叠的干扰。同时,针对故障工单文本信息中三元组集中、依赖单一实体的问题,加入了实体对双向映射方法,可以有效地提取实体对以提高实体关系联合抽取的性能。取的性能。取的性能。
技术研发人员:冒泽慧 王欢 姜斌 马亚杰 吕迅竑
受保护的技术使用者:南京航空航天大学
技术研发日:2023.06.29
技术公布日:2023/10/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/