一种电力营销稽查信息分析系统及方法与流程
未命名
08-03
阅读:193
评论:0

1.本发明涉及电力营销分析技术领域,尤其涉及一种电力营销稽查信息分析系统及方法。
背景技术:
2.在电力系统中,客户的电负荷序列产生异常数据是无法避免的,其可能的原因有电表抄录员的失误、政策变更、客户用电习惯更改等。而面对异常用电行为,电力系统负责人需要及时根据异常用电记录进行实地的问题原因分析并记录,再由相关人员进行实际整改登记,最后进行核实整改是否合格。但由于用电客户的异常用电原因驳杂繁多,对应的解决方案也不尽相同,也使得核实整改工作变得繁重,且核实工作关系到客户用电体验以及电力系统的安全稳定,所以需要尽快得到解决。而随着计算机技术的发展,智能算法模型能够提供相较于传统人工核实更迅速的处理结果,也是智能电网的发展基础。
3.针对营销稽查工单文本的特点,结合实际背景,对所需智能模型进行分析:该智能模型是能够基于两个不定长度的汉字文本信息进行配对判断,并能够根据整改条件自适应匹配结果,但是实际操作过程中,文本预处理时,针对训练数据较少的问题、针对输入文本冗长的问题以及自注意力机制中权重计算,具有较大的缺陷。因此,使用时,为了辅助稽查人员全方位、多维度快速完成稽查营销信息分类与分析,强化数据深度挖掘应用,提高稽查营销系统效率,减少人工成本,全面提升营销稽查工作的时效性、标准性、准确性。亟需提出一种电力营销稽查信息分析系统及方法。
技术实现要素:
4.本发明的目的是为了解决现有技术中存在的缺点,而提出的一种电力营销稽查信息分析系统及方法,辅助稽查人员全方位、多维度快速完成稽查营销信息分类与分析,强化数据深度挖掘应用,提高稽查营销系统效率,减少人工成本,全面提升营销稽查工作的时效性、标准性以及准确性。
5.为达到以上目的,本发明采用的技术方案为:一种电力营销稽查信息分析系统,包括基于transformer模型的文本预处理模块、文本摘要算法模块、bert分类模块、权重计算模块以及编码模块;
6.文本预处理模块:用于数据集的同义词替换、随机插入、随即交换、随即删除,用以数据集的扩充,生成原始数据的增强数据,通过同义词替换和随机插入操作引入新的词汇,允许泛化至处于测试集中但不包括训练集中的单词;
7.文本摘要算法模块:用于筛选文本中的冗长信息,去除停用词,将冗余信息先行过滤,并制定适用于营销稽查工单的停用词词典;
8.bert分类模块:用作分类器,构建深度双向网络模型;
9.权重计算模块:用于计算文本中不同位置文字在编码后的数据上的注意力,并通过softmax激活函数生成不同位置的注意力概率,从而达到获得全局信息的目的;在文本处
理任务中,注意力可以理解为输入序列中每个单词和输出序列中某个单词的对应模型,输入序列中每个单词可当成一个键值元素,输出序列中某个单词看为一个查询元素,注意力的计算公式如下:
[0010][0011]
编码模块:采用相对位置的编码方式,输入句子的所有词汇是同时处理的,不对词的排序和位置信息进行干扰;位置编码的计算公式如下:
[0012][0013][0014]
还包括有:前馈神经网络,前馈神经网络包括有一个线性激活函数、一个relu函数,表示为:
[0015]
ffn=max(0,xw1+b1)w2+b2。
[0016]
优选的,所述同义词替换:是从句子中随机选取n个不属于停用词集的单词,并随机选择其同义词替换它们;所述随机插入:是随机地找出句中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置;所述随机交换:是随机的选择句中两个单词并交换它们的位置;所述随机删除:是以一定概率随机移除句中的某个单词。
[0017]
优选的,所述编码模块包括有编码器和解码器,编码器由一个多头注意力组成,解码器由两个多头注意力组成,其中一个多头注意力中包含掩码,多头注意力还包括一个add&norm层,add表示残差连接,用于防止网络退化,引入残差连接可以解决很深的网络用优化算法难以训练的问题。
[0018]
优选的,所述add表示残差连接,具体是将模块的输入与模块的输出相加,所述norm用于对每一层的激活值进行归一化,防止模型过拟合。
[0019]
一种电力营销稽查信息系统的分析方法,包括如下步骤:
[0020]
s1:首先进行文本预处理,将数据集中的“整改情况”、“问题原因分析”和“整改措施”输入进系统,形成单独的文本信息,然后进入文本预处理模块,文本预处理分为两个步骤;
[0021]
s101:第一步是分词处理。分词过程是将连续的字序列按照一定的规范重新组合成词序列的过程。使用hmm模型和viterbill4算法,并借助电力领域部分词典对故障案例文本进行分词;
[0022]
s102:第二步是停用词过滤。对于一些与分类结果无关的噪声词,如变电站名称、相关地名等,需要作为停用词在分词之后剔除;
[0023]
s2:使用bert有效的进行左右或上下文信息的获取,并将文本序列中的每个字转换为一维向量作为输入,输出则是对应的融合全文语义信息后的向量表示,再经过softmax函数得到最终的判断结果。其中包含两个步骤:预训练和微调;
[0024]
s201:预训练模型的参数会作为不同下游任务的模型的初始化参数;
[0025]
s202:在微调时,所有参数参与微调。[cls]是一个特别设置的符号,添加在每个输入样本的前面,表示这是一个输入样本的开始,[sep]是特别设置的一个分隔标记,比如分
隔问题/答案,在预训练期间,bert模型在不同任务的未标记数据上进行训练;
[0026]
s3:对于句子级别的连续性预测任务,例如预测输入bert的两端文本是否为连续的文本,输入模型的第二个片段会以50%的概率从全部文本中随机选取,剩下50%的概率选取第一个片段的后续的文本;
[0027]
s4:数据冗余去除完毕后,将数据预处理后的结果输入至bert分类模块中完成判断;
[0028]
s5:输出结果。
[0029]
本发明具有以下有益效果:
[0030]
1、针对训练数据较少的问题,采用同义词替换、随机插入、随机交换、随机删除对数据集做预处理、针对输入文本冗长的问题,通过文本摘要算法自行设计营销稽查工单停用词词典;
[0031]
2、对自注意力机制中权重计算的改进、采用相对位置的编码方式,降低数据分类的杂乱性,且提供数据深度挖掘的强化作用,提高稽查营销系统的效率,降低人工成本。
附图说明
[0032]
图1为本发明的transformer模型示意图;
[0033]
图2为本发明的bert模型架构示意图;
[0034]
图3为本发明的bert的输入表示示意图;
[0035]
图4为本发明的测试阶段的流程示意图;
[0036]
图5为本发明的transformer模型改进前的实验结果图;
[0037]
图6为本发明的文本预处理模块的改进后的实验结果图;
[0038]
图7为本发明的文本摘要算法模块的改进后的实验结果图;
[0039]
图8为本发明的权重计算模块的改进后的实验结果图;
[0040]
图9为本发明的编码模块的改进后的实验结果图。
具体实施方式
[0041]
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
[0042]
实施例1
[0043]
如附图1-4所示的一种电力营销稽查信息分析系统,包括基于transformer模型的文本预处理模块、文本摘要算法模块、bert分类模块、权重计算模块以及编码模块;
[0044]
文本预处理模块:用于数据集的同义词替换、随机插入、随即交换、随即删除,用以数据集的扩充,生成原始数据的增强数据,通过同义词替换和随机插入操作引入新的词汇,允许泛化至处于测试集中但不包括训练集中的单词;
[0045]
文本摘要算法模块:用于筛选文本中的冗长信息,去除停用词,将冗余信息先行过滤,并制定适用于营销稽查工单的停用词词典;
[0046]
bert分类模块:用作分类器,构建深度双向网络模型;
[0047]
权重计算模块:用于计算文本中不同位置文字在编码后的数据上的注意力,并通过softmax激活函数生成不同位置的注意力概率,从而达到获得全局信息的目的;在文本处
理任务中,注意力可以理解为输入序列中每个单词和输出序列中某个单词的对应模型,输入序列中每个单词可当成一个键值元素,输出序列中某个单词看为一个查询元素,注意力的计算公式如下:
[0048][0049]
设定下列示例文本:
[0050]
某地(户号156625968),经现场检查,该用户用户合同容量为16kva,实际测算容量为36kva,私增容量20kva,属于违约用电行为,根据《《供电营业规则》》第一百条第2小条:私自超过合同约定的容量用电的,除应拆除私增容设备外,其他用户应承担私增容量每千瓦(千伏安)50元的违约使用电费。如用户要求继续使用者,按新装增容办理手续或缴纳违约用电处理费,有异常,需整改。
[0051]
输入文本中有大量冗余信息,对模型决策判断的贡献很小。例如“位置”、“用户”等信息,这些冗余信息会影响序列的长度,从而可能会降低模型的训练速度,影响模型的训练效果。故需要去除停用词,将冗余信息先行过滤。将通过文本摘要算法模块,计算出营销稽查工单文本中信息量较少的词汇,从而制定适用于营销稽查工单的停用词词典。
[0052]
对于关注的词语,例如“用电”,距离它不同长度的词语,对它的贡献不相同。例如文本示例1,距离“用电”较近的“违约”、“缴纳”、“处理费”等,明显具有较大的贡献。而距离较远的“第一百条”、“用户合同容量”等,具有较小的贡献。
[0053]
同时,位于句首的一般来说信息量相对低,应降低自注意力的整体权重。
[0054]
编码模块:采用相对位置的编码方式,输入句子的所有词汇是同时处理的,不对词的排序和位置信息进行干扰;位置编码的计算公式如下:
[0055][0056][0057]
还包括有:前馈神经网络,前馈神经网络包括有一个线性激活函数、一个relu函数,表示为:
[0058]
ffn=max(0,xw1+b1)w2+b2。
[0059]
同义词替换:是从句子中随机选取n个不属于停用词集的单词,并随机选择其同义词替换它们;所述随机插入:是随机地找出句中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置;所述随机交换:是随机的选择句中两个单词并交换它们的位置;所述随机删除:是以一定概率随机移除句中的某个单词。
[0060]
编码模块包括有编码器和解码器,编码器由一个多头注意力组成,解码器由两个多头注意力组成,其中一个多头注意力中包含掩码,多头注意力还包括一个add&norm层,add表示残差连接,用于防止网络退化,引入残差连接可以解决很深的网络用优化算法难以训练的问题,add表示残差连接,具体是将模块的输入与模块的输出相加,所述norm用于对每一层的激活值进行归一化,防止模型过拟合。
[0061]
一种电力营销稽查信息系统的分析方法,包括如下步骤:
[0062]
s1:首先进行文本预处理,将数据集中的“整改情况”、“问题原因分析”和“整改措
施”输入进系统,形成单独的文本信息,然后进入文本预处理模块,文本预处理分为两个步骤;
[0063]
s101:第一步是分词处理。分词过程是将连续的字序列按照一定的规范重新组合成词序列的过程。使用hmm模型和viterbill4算法,并借助电力领域部分词典对故障案例文本进行分词;
[0064]
s102:第二步是停用词过滤。对于一些与分类结果无关的噪声词,如变电站名称、相关地名等,需要作为停用词在分词之后剔除;
[0065]
s2:使用bert有效的进行左右或上下文信息的获取,并将文本序列中的每个字转换为一维向量作为输入,输出则是对应的融合全文语义信息后的向量表示,再经过softmax函数得到最终的判断结果。其中包含两个步骤:预训练和微调;
[0066]
s201:预训练模型的参数会作为不同下游任务的模型的初始化参数;
[0067]
s202:在微调时,所有参数参与微调。[cls]是一个特别设置的符号,添加在每个输入样本的前面,表示这是一个输入样本的开始,[sep]是特别设置的一个分隔标记,比如分隔问题/答案,在预训练期间,bert模型在不同任务的未标记数据上进行训练;
[0068]
s3:对于句子级别的连续性预测任务,例如预测输入bert的两端文本是否为连续的文本,输入模型的第二个片段会以50%的概率从全部文本中随机选取,剩下50%的概率选取第一个片段的后续的文本;
[0069]
s4:数据冗余去除完毕后,将数据预处理后的结果输入至bert分类模块中完成判断;
[0070]
s5:输出结果。
[0071]
实施例2
[0072]
参照说明书附图5-9所示,通过transformer模型改进前的实验结果,对比改进后的实验结果,具体如下:
[0073]
transformer模型改进前:准确率83.04%、召回率67.91%,综合指标69.90%;
[0074]
进行文本预处理模块的优化改进后,准确率85.16%。相比改进前,提升了2.12%。召回率76.63%,相比改进前,提升了8.72%。综合指标76.63%,相比改进前,提升了6.73%;
[0075]
进行文本摘要算法模块的优化改进后,准确率84.45%。相比改进前,提升了1.41%。召回率68.11%,相比改进前,提升了0.20%。综合指标70.93%,相比改进前,提升了1.03%;
[0076]
进行权重计算模块的优化改进后,准确率86.57%。相比改进前,提升了3.53%。召回率78.18%,相比改进前,提升了10.27%。综合指标78.56%,相比改进前,提升了8.66%;
[0077]
进行编码模块的优化改进后,准确率87.99%。相比改进前,提升了4.95%。召回率75.70%,相比改进前,提升了7.79%。综合指标78.68%,相比改进前,提升了8.78%。
[0078]
上述的通过文本预处理模块、文本摘要算法模块、权重计算模块以及编码模块的优化改进后,形成了准确率的全面提高,且均达到了综合指标的提升,有利于稽查人员在实际的电力营销稽查信息的数据分类以及分析,强化数据深度挖掘的应用,提高稽查营销系统效率,减少人工成本。
[0079]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术
人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
技术特征:
1.一种电力营销稽查信息分析系统,其特征在于,包括:基于transformer模型的文本预处理模块、文本摘要算法模块、bert分类模块、权重计算模块以及编码模块;文本预处理模块:用于数据集的同义词替换、随机插入、随即交换、随即删除,用以数据集的扩充,生成原始数据的增强数据,通过同义词替换和随机插入操作引入新的词汇,允许泛化至处于测试集中但不包括训练集中的单词;文本摘要算法模块:用于筛选文本中的冗长信息,去除停用词,将冗余信息先行过滤,并制定适用于营销稽查工单的停用词词典;bert分类模块:用作分类器,构建深度双向网络模型;权重计算模块:用于计算文本中不同位置文字在编码后的数据上的注意力,并通过softmax激活函数生成不同位置的注意力概率,从而达到获得全局信息的目的;在文本处理任务中,注意力可以理解为输入序列中每个单词和输出序列中某个单词的对应模型,输入序列中每个单词可当成一个键值元素,输出序列中某个单词看为一个查询元素,注意力的计算公式如下:编码模块:采用相对位置的编码方式,输入句子的所有词汇是同时处理的,不对词的排序和位置信息进行干扰;位置编码的计算公式如下:序和位置信息进行干扰;位置编码的计算公式如下:还包括有:前馈神经网络,前馈神经网络包括有一个线性激活函数、一个relu函数,表示为:ffn=max(0,xw1+b1)w2+b2。2.根据权利要求1所述的一种电力营销稽查信息分析系统,其特征在于,所述同义词替换:是从句子中随机选取n个不属于停用词集的单词,并随机选择其同义词替换它们;所述随机插入:是随机地找出句中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置;所述随机交换:是随机的选择句中两个单词并交换它们的位置;所述随机删除:是以一定概率随机移除句中的某个单词。3.根据权利要求1所述的一种电力营销稽查信息分析系统,其特征在于,所述编码模块包括有编码器和解码器,编码器由一个多头注意力组成,解码器由两个多头注意力组成,其中一个多头注意力中包含掩码,多头注意力还包括一个add&norm层,add表示残差连接,用于防止网络退化,引入残差连接可以解决很深的网络用优化算法难以训练的问题。4.根据权利要求3所述的一种电力营销稽查信息分析系统,其特征在于,所述add表示残差连接,具体是将模块的输入与模块的输出相加,所述norm用于对每一层的激活值进行归一化,防止模型过拟合。5.根据权利要求1-4任意一项所述的一种电力营销稽查信息系统的分析方法,其特征在于,包括如下步骤:
s1:首先进行文本预处理,将数据集中的“整改情况”、“问题原因分析”和“整改措施”输入进系统,形成单独的文本信息,然后进入文本预处理模块,文本预处理分为两个步骤;s101:第一步是分词处理。分词过程是将连续的字序列按照一定的规范重新组合成词序列的过程。使用hmm模型和viterbill4算法,并借助电力领域部分词典对故障案例文本进行分词;s102:第二步是停用词过滤。对于一些与分类结果无关的噪声词,如变电站名称、相关地名等,需要作为停用词在分词之后剔除;s2:使用bert有效的进行左右或上下文信息的获取,并将文本序列中的每个字转换为一维向量作为输入,输出则是对应的融合全文语义信息后的向量表示,再经过softmax函数得到最终的判断结果。其中包含两个步骤:预训练和微调;s201:预训练模型的参数会作为不同下游任务的模型的初始化参数;s202:在微调时,所有参数参与微调。[cls]是一个特别设置的符号,添加在每个输入样本的前面,表示这是一个输入样本的开始,[sep]是特别设置的一个分隔标记,比如分隔问题/答案,在预训练期间,bert模型在不同任务的未标记数据上进行训练;s3:对于句子级别的连续性预测任务,例如预测输入bert的两端文本是否为连续的文本,输入模型的第二个片段会以50%的概率从全部文本中随机选取,剩下50%的概率选取第一个片段的后续的文本;s4:数据冗余去除完毕后,将数据预处理后的结果输入至bert分类模块中完成判断;s5:输出结果。
技术总结
本发明涉及电力营销分析技术领域,尤其是一种电力营销稽查信息分析系统及方法,包括基于Transformer模型的文本预处理模块、文本摘要算法模块、BERT分类模块、权重计算模块以及编码模块;文本预处理模块:用于数据集的同义词替换、随机插入、随即交换、随即删除,用以数据集的扩充,生成原始数据的增强数据,通过同义词替换和随机插入操作引入新的词汇,允许泛化至处于测试集中但不包括训练集中的单词;文本摘要算法模块:用于筛选文本中的冗长信息,去除停用词。此装置设计合理,辅助稽查人员全方位、多维度快速完成稽查营销信息分类与分析,强化数据深度挖掘应用,提高稽查营销系统效率,减少人工成本,全面提升营销稽查工作的时效性、标准性以及准确性。标准性以及准确性。标准性以及准确性。
技术研发人员:赵郭燚 张全 王海鸿 苏媛 赵骞 任海洋 夏泽举 顾理
受保护的技术使用者:国家电网有限公司客户服务中心
技术研发日:2023.03.14
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/