电力设备缺陷文本的数据增强方法及系统与流程

未命名 10-08 阅读:82 评论:0


1.本发明涉及电力数据处理技术领域,特别涉及一种电力设备缺陷文本的数据增强方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。
3.当前电网数字化转型升级,且电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。然而由于数据量庞大,人工分析这些文本并从中获得缺陷规律和设备质量情况是一个艰巨的任务。因此,使用自然语言处理技术对缺陷文本进行自动化的挖掘成为研究热点。
4.然而文本数据标签稀疏、以及描述语言的模糊性、差异性等问题,使得电力文本中的运维信息难以被有效挖掘,因此需要对缺陷文本进行数据增强,既可以增加标注样本的数量,又可以模拟描述语言的模糊性和差异性,提升模型的泛化能力。
5.发明人发现,现有研究针对电力设备缺陷文本进行了不同目的的挖掘,然而共性的问题是挖掘结果受缺陷文本质量影响较大,目前对缺陷文本的处理大多采用直接的数据筛选的方式实现,容易使得数据处理的方向偏离符合电力设备缺陷文本挖掘领域的需求。


技术实现要素:

6.为了解决现有技术的不足,本发明提供了一种电力设备缺陷文本的数据增强方法及系统,基于信息价值的掩码单元选择策略替代常规随机选择掩码单元的方法,使得数据增强方向更符合电力设备缺陷文本挖掘领域的需求。
7.为了实现上述目的,本发明采用如下技术方案:
8.本发明第一方面提供了一种电力设备缺陷文本的数据增强方法。
9.一种电力设备缺陷文本的数据增强方法,包括以下过程:
10.使用电力设备缺陷文本数据集微调预训练的基于知识集成的增强表示算法模型,采用多阶段知识掩码,在掩码-预测过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中,获得融合处理后的文本语义编码;
11.基于降噪自动编码器架构设计破坏函数和重建函数,基于信息价值的掩码单元选择构建破坏函数,基于微调过的基于知识集成的增强表示算法模型构建重建函数,在对原始文本的破坏-重建过程中获得兼顾语法和语义的增强数据集;
12.对于获得的增强数据集通过计算影响函数估计验证损失,过滤掉数据质量差的增强样本;通过计算增强样本的差异度,过滤掉重复度高的增强样本,最终得到增强后的数据集。
13.本发明第二方面提供了一种电力设备缺陷文本的数据增强系统。
14.一种电力设备缺陷文本的数据增强系统,包括:
15.掩码-预测处理模块,被配置为:使用电力设备缺陷文本数据集微调预训练的基于
知识集成的增强表示算法模型,采用多阶段知识掩码,在掩码-预测过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中,获得融合处理后的文本语义编码;
16.破坏-重建处理模块,被配置为:基于降噪自动编码器架构设计破坏函数和重建函数,基于信息价值的掩码单元选择构建破坏函数,基于微调过的基于知识集成的增强表示算法模型构建重建函数,在对原始文本的破坏-重建过程中获得兼顾语法和语义的增强数据集;
17.数据过滤处理模块,被配置为:对于获得的增强数据集通过计算影响函数估计验证损失,过滤掉数据质量差的增强样本;通过计算增强样本的差异度,过滤掉重复度高的增强样本,最终得到增强后的数据集。
18.本发明第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的电力设备缺陷文本的数据增强方法中的步骤。
19.本发明第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的电力设备缺陷文本的数据增强方法中的步骤。
20.与现有技术相比,本发明的有益效果是:
21.1、本发明创新性的提供了一种电力设备缺陷文本的数据增强方法及系统,基于信息价值的掩码单元选择策略替代常规随机选择掩码单元的方法,使得数据增强方向更符合电力设备缺陷文本挖掘领域的需求,可以广泛灵活地应用在多种电力设备缺陷文本挖掘任务中,且对挖掘效果有较大提升。
22.2、本发明创新性的提供了一种电力设备缺陷文本的数据增强方法及系统,对电力设备缺陷文本编码方式进行了改进,使用多阶段知识掩码策略替代传统的直接添加知识嵌入的方法,在“掩码-预测”过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中,提高了文本语义编码水平。
23.3、本发明创新性的提供了一种电力设备缺陷文本的数据增强方法及系统,过滤数据质量较差和重复度较高的增强数据,提高了增强数据的有效性,减少了在文本挖掘任务中应用增强数据可能会造成的负面影响。
24.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
25.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
26.图1为本发明实施例1提供的电力设备缺陷文本的数据增强方法的流程示意图;
27.图2为本发明实施例1提供的多阶段知识掩码策略示意图;
28.图3为本发明实施例1提供的语义依存分析示意图;
29.图4为本发明实施例1提供的电力设备缺陷文本数据增强方法与常规数据增强方法的效果对比图。
具体实施方式
30.下面结合附图与实施例对本发明作进一步说明。
31.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
32.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
33.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
34.实施例1:
35.首先进行术语解释如下,包括:
36.ernie:enhanced representation through knowledge integration,基于知识集成的增强表示算法;
37.transformer:自注意力模型;
38.降噪自动编码器:denoising autoencoder,一种深度学习模型,可以用于去除信号中的噪声;
39.删除+交换:通过对原始文本随机的删除或者交换字符来增强文本数据,交换被设置在窗口大小为k的范围内,在窗口内附近位置随机交换字符;
40.同义字替换:基于word2vec用同义字随机替换原始文本中的字符;
41.word2vec:使用神经网络学习单词关联,可以检测同义词;
42.回译:首先将原始文本翻译成其他语种的语言,然后再翻译回来,使用翻译回来的句子作为增强数据。
43.具体的,如图1所示,本发明实施例1提供了一种电力设备缺陷文本的数据增强方法,包括以下过程:
44.s1:获取电力设备缺陷文本,构建电力设备缺陷文本数据集。使用电力设备缺陷文本数据集微调预训练模型ernie,采用多阶段知识掩码策略,在“掩码-预测”过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中。
45.多阶段知识掩码策略如图2所示,具体的,包括:
46.第一阶段,使用基本掩码,这一阶段和bert的预训练任务相同,把单个汉字看成是一个基本语言单位,输入文本就是基本语言单位的序列,在训练过程中,随机掩码15%的基本语言单位,并使用句子中的其他基本单位作为输入,训练一个transformer来预测掩码单位,基于基本掩码,可以得到一个基本的语言表示;
47.第二阶段,使用短语掩码,短语是具有特定语义的一组字符,短语掩码使用词法分析和分块工具获得文本中的短语边界,随机选择句子中的几个短语作为掩码单位,训练transformer预测短语中的所有字符,这样短语信息就被编码到词嵌入中;
48.第三阶段,使用实体掩码,实体包括机构名、地名以及其他所有以名称为标识的个体,更广泛的定义还包括数字和日期等,实体通常包含句子中的重要信息,与第二阶段一样,首先分析句子的命名实体,然后选择实体进行掩码和预测,经过三个阶段的学习,词向
量中编码了丰富的电力专业知识。
49.s2:基于降噪自动编码器架构设计破坏函数和重建函数,遵循基于信息价值的掩码单元选择策略构建破坏函数,基于微调过的ernie构建重建函数,在对原始文本的“破坏-重建”过程中获得了兼顾语法和语义的增强样本。
50.其中,基于信息价值的掩码单元选择策略,包括:
51.首先,通过语义依存分析,从给定的文本中提取名词性短语和动词性复合短语作为候选掩码单元,语义依存分析如图3;其次,将文本输入经过微调的预训练模型ernie,可以获得文本中每个字符的向量表示vc,对候选掩码单元u中的字符向量进行平均,可得到候选掩码单元的嵌入向量vu,具体公式如(1)所示:
[0052][0053]
公式(1)中,u是候选掩码单元,c是掩码单元中的字符。
[0054]
句子s的向量计算公式为公式(2)所示:
[0055][0056]
式中:s是缺陷文本句子,fc是一个字符在大型语料库中出现的概率,a∈[10-3
,10-4
]是使得函数平滑的超参数,对于不同领域的文本,字符的概率分布可能不同,在电气领域,通常很少见的字符可能很常见,为了更好地适应电气领域的任务,本实施例在句子嵌入计算过程中改变了单词的权重函数,这个权重是通用语料库和领域语料库的加权和,具体公式如公式(3):
[0057][0058]
其中,λ∈[0,1],w
com
(c)是在维基百科语料库上计算得到的权重,w
dom
(c)是在电气领域语料库上计算得到的权重,f
′c是一个字符在电气领域语料库中出现的概率,a

为使得函数平滑的超参数。
[0059]
定义掩码单元的信息价值为掩码单元的嵌入向量vu与句子向量vs的相似度,具体公式如公式(4):
[0060]
value(v
ui
,vs)=sim(v
ui
,vs)
ꢀꢀ
(4)
[0061]
其中,v
ui
是句子s中的第i个掩码单元的嵌入向量。
[0062]
相似度可以用余弦距离来计算,如公式(5)所示:
[0063][0064]
其中,value(v
ui
,vs)的值在0到1之间,它越接近1,候选掩码单元与整句的相关性就越大,信息价值就越高,按照信息价值设置抽取概率,让价值较高的候选掩码单元更容易被选中作为最终掩码单元。
[0065]
具体的,提供一种示例:“变压器设计时考虑抗短路能力不足,在诱发因素下引发局放,进而产生绝缘损坏”,以下是其详细的破坏重建过程:
[0066]
首先,对其进行语义依存分析,如图3,对其提取动词性复合短语和名词性复合短语如:“变压器设计”,“抗短路能力”,“考虑抗短路能力不足”,“诱发因素”,“引发局放”,“绝缘损坏”,“产生绝缘损坏”等,在这些语义单元中抽取“考虑抗短路能力不足”、“引发局放”、“损坏”作为掩码单元,将其替换为mask,得到破坏样本;
[0067]
然后,将其输入ernie模型,可得到对每一个掩码单元的预测,这些预测任务是典型的文本填充任务(text infilling:在输入序列中随机mask一些语义完整的句子片段,让模型填充缺失的部分),预测结果为“没有充分考虑在短路故障时承受的电流和电磁力的大小”,“导致局部放电”,“故障”,将结果填充到破坏样本中,即得到重建文本。
[0068]
s3:对于获得的增强数据集通过计算影响函数估计验证损失,过滤掉数据质量差的增强样本;通过计算增强样本的差异度,过滤掉重复度高的增强样本,获得一个多样化和高质量的增强数据集。
[0069]
s31:基于s2,对每一个原始文本数据可以获得n个增强样本,可以组成一个增强数据集。
[0070]
s32:对于s31获得的增强数据集通过计算影响函数估计验证损失,过滤掉数据质量差的增强样本,可获得高质量的增强数据集。
[0071]
其中,通过计算影响函数估计验证损失的具体步骤如下:
[0072]
将样本x在训练集中的权重增加ε,此时模型的参数如公式(6)所示:
[0073][0074]
式中,x为训练集中权重有变化的样本,ε为样本x在训练集中增加的权重,为验证损失,n为训练集中权重没有变化的样本数,xi为训练集中权重没有变化的第i个样本,θ为训练集样本权重变化后训练得到的模型参数,将模型参数的变化与训练样本权重变化的关系定义为影响函数,具体公式如公式(7):
[0075][0076]
式中,是在权重变化的样本x和权重变化ε的情况下训练得到的模型参数。
[0077]
应用影响函数i
up,loss
(x),可以得到对训练集添加增强示例x
new
后模型的验证损失变化的线性近似,计算公式如公式(8)所示:
[0078][0079]
式中x
val
是验证集,x
tr
是训练集,x
new
是对训练集添加的增强实例,n是训练集的样本数量。
[0080]
s33:对于经过s32过滤后的增强数据集通过计算增强样本的差异度,过滤掉重复度高的增强样本,可获得一个多样化和高质量的增强数据集,具体内容如下:用s2提到的句向量空间余弦距离来代表增强数据与原句的差异度,从s32获得的增强数据池中,选择句向量与原始文本数据余弦距离较大的增强示例,使得增强数据集多样性达到最大化。
[0081]
s4:通过多层训练框架将增强数据应用于各种文本挖掘任务,赋予增强数据与原始数据不同的权重。首先,采用自监督的方法对经过数据选择后的增强数据集进行标注;然
后,用带有伪标签的增强数据集初步训练一个任务模型;最后,基于多任务学习的架构,在经过初步训练的任务模型上使用原始数据集进行进一步的训练。
[0082]
如图4所示,为本发明的电力设备缺陷文本数据增强方法(kimba),与常规数据增强方法的效果对比图。从图4中可以看出常规数据增强方法(删除+交换、同义字替换、回译)获得的增强样本往往会出现语法和语义方面的问题。kimba获得的增强样本兼顾了语法和语义,在增强词汇的选择上更符合电气领域的要求;其中增强数据的多样性筛选策略的应用,可以过滤和原句极为相似的生成样本,使最终的增强数据集中包含更多样化的生成样本,即引入了更多的新的语义单元。
[0083]
实施例2:
[0084]
本发明实施例2提供了一种电力设备缺陷文本的数据增强系统,包括:
[0085]
掩码-预测处理模块,被配置为:使用电力设备缺陷文本数据集微调预训练的基于知识集成的增强表示算法模型,采用多阶段知识掩码,在掩码-预测过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中,获得融合处理后的文本语义编码;
[0086]
破坏-重建处理模块,被配置为:基于降噪自动编码器架构设计破坏函数和重建函数,基于信息价值的掩码单元选择构建破坏函数,基于微调过的基于知识集成的增强表示算法模型构建重建函数,在对原始文本的破坏-重建过程中获得兼顾语法和语义的增强数据集;
[0087]
数据过滤处理模块,被配置为:对于获得的增强数据集通过计算影响函数估计验证损失,过滤掉数据质量差的增强样本;通过计算增强样本的差异度,过滤掉重复度高的增强样本,最终得到增强后的数据集。
[0088]
所述系统的工作方法与实施例1提供的电力设备缺陷文本的数据增强方法相同,这里不再赘述。
[0089]
实施例3:
[0090]
本发明实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明实施例1所述的电力设备缺陷文本的数据增强方法中的步骤。
[0091]
实施例4:
[0092]
本发明实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明实施例1所述的电力设备缺陷文本的数据增强方法中的步骤。
[0093]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种电力设备缺陷文本的数据增强方法,其特征在于,包括以下过程:使用电力设备缺陷文本数据集微调预训练的基于知识集成的增强表示算法模型,采用多阶段知识掩码,在掩码-预测过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中,获得融合处理后的文本语义编码;基于降噪自动编码器架构设计破坏函数和重建函数,基于信息价值的掩码单元选择构建破坏函数,基于微调过的基于知识集成的增强表示算法模型构建重建函数,在对原始文本的破坏-重建过程中获得兼顾语法和语义的增强数据集;对于获得的增强数据集通过计算影响函数估计验证损失,过滤掉数据质量差的增强样本;通过计算增强样本的差异度,过滤掉重复度高的增强样本,最终得到增强后的数据集。2.如权利要求1所述的电力设备缺陷文本的数据增强方法,其特征在于,多阶段知识掩码,包括:第一阶段使用基本掩码,把单个汉字看成是一个基本语言单位,输入文本就是基本语言单位的序列,在训练过程中,随机掩码15%的基本语言单位,并使用句子中的其他基本单位作为输入,训练一个transformer来预测掩码单位,基于基本掩码,得到一个基本的语言表示;第二阶段使用短语掩码,短语是具有特定语义的一组字符,短语掩码使用词法分析和分块工具获得文本中的短语边界,随机选择句子中的几个短语作为掩码单位,训练transformer预测短语中的所有字符,短语信息被编码到词嵌入中;第三阶段使用实体掩码,实体至少包括机构名、地名以及其他所有以名称为标识的个体,分析句子的命名实体,选择实体进行掩码和预测。3.如权利要求1所述的电力设备缺陷文本的数据增强方法,其特征在于,基于信息价值的掩码单元选择,包括:通过语义依存分析,从给定的文本中提取名词性短语和动词性复合短语作为候选掩码单元,将文本输入经过微调的基于知识集成的增强表示算法模型,得到文本中每个字符的向量表示,对候选掩码单元中的字符向量进行平均,得到候选掩码单元的嵌入向量;以句子向量与候选掩码单元的嵌入向量的相似度为候选掩码单元的信息价值,按照信息价值设置抽取概率,让价值较高的候选掩码单元更容易被选中作为最终掩码单元。4.如权利要求3所述的电力设备缺陷文本的数据增强方法,其特征在于,候选掩码单元的嵌入向量v
u
,包括:其中,v
c
为文本中每个字符的向量表示,u是候选掩码单元,c是掩码单元中的字符。5.如权利要求3所述的电力设备缺陷文本的数据增强方法,其特征在于,句子向量v
s
,包括:其中,s是缺陷文本句子,c是掩码单元中的字符,f
c
是一个字符在大型语料库中出现的概率,a∈[10-3
,10-4
]是使得函数平滑的超参数,v
c
为文本中每个字符的向量表示,w(c)为权
重。6.如权利要求5所述的电力设备缺陷文本的数据增强方法,其特征在于,其中,λ∈[0,1],w
com
(c)是在某百科语料库上计算得到的权重,w
dom
(c)是在电气领域语料库上计算得到的权重,a和a

均为使得函数平滑的超参数,f
c

为一个字符在电气领域语料库中出现的概率。7.如权利要求3所述的电力设备缺陷文本的数据增强方法,其特征在于,句子向量与候选掩码单元的嵌入向量的余弦距离来表示相似度。8.一种电力设备缺陷文本的数据增强系统,其特征在于,包括:掩码-预测处理模块,被配置为:使用电力设备缺陷文本数据集微调预训练的基于知识集成的增强表示算法模型,采用多阶段知识掩码,在掩码-预测过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中,获得融合处理后的文本语义编码;破坏-重建处理模块,被配置为:基于降噪自动编码器架构设计破坏函数和重建函数,基于信息价值的掩码单元选择构建破坏函数,基于微调过的基于知识集成的增强表示算法模型构建重建函数,在对原始文本的破坏-重建过程中获得兼顾语法和语义的增强数据集;数据过滤处理模块,被配置为:对于获得的增强数据集通过计算影响函数估计验证损失,过滤掉数据质量差的增强样本;通过计算增强样本的差异度,过滤掉重复度高的增强样本,最终得到增强后的数据集。9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的电力设备缺陷文本的数据增强方法中的步骤。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的电力设备缺陷文本的数据增强方法中的步骤。

技术总结
本发明提供了一种电力设备缺陷文本的数据增强方法及系统,属于电力数据处理技术领域。本发明基于信息价值的掩码单元选择策略替代常规随机选择掩码单元的方法,使得数据增强方向更符合电力设备缺陷文本挖掘领域的需求,可以广泛灵活地应用在多种电力设备缺陷文本挖掘任务中,且对挖掘效果有较大提升;对电力设备缺陷文本编码方式进行了改进,使用多阶段知识掩码策略替代传统的直接添加知识嵌入的方法,在“掩码-预测”过程中不断将电气领域的专业知识融合到对缺陷文本的动态编码中,提高了文本语义编码水平;过滤数据质量较差和重复度较高的增强数据,提高了增强数据的有效性,减少了在文本挖掘任务中应用增强数据可能会造成的负面影响。造成的负面影响。造成的负面影响。


技术研发人员:赵全富 刘灵慧 张泽卉 韩涛 张培杰 黄矫 段辉 何振华 王寿星 刘涛
受保护的技术使用者:国网山东省电力公司莱芜供电公司
技术研发日:2023.07.10
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐