一种基于改进的格拉布斯检验法的异常值识别方法

未命名 08-29 阅读:116 评论:0


1.本发明涉及数据处理技术领域,具体涉及一种基于改进的格拉布斯检验法的异常值识别方法。


背景技术:

2.气体检测受环境中多种因素的影响,且多种因素相互影响,都会给检测结果产生影响。在设计出相应的补偿算法来弥补外界因素对检测结果产生的影响后,还需要采用更为高效的数据处理方法去解决在计算环境参数补偿值时产生的异常值。
3.补偿值中异常值得存在将会影响气体浓度的准确度和可信度。目前现有的异常数据处理方法有很大的限制,例如精度低、异常值占比不能过大等。当异常值占比较多的情况下,为了提高异常值的检测精度,直接应用格拉布斯准则能有效地处理数据中误差存在率小于10%。
4.当前对于异常值的识别方法主要有莱茵达准则、格拉布斯准则、罗马诺夫斯基准则等。莱茵达准则通过查表即可简单识别异常值,用起来方便,但当数据量小于或等于10个时,该准则就极为不准确。罗马诺夫斯基准则计算较为复杂,容易造成数据冗余。格拉布斯准则适合在数据量较少的情况下使用,同时在判断异常值的时候与数组的均值和方差皆无关联,容易控制和调整。但数学上已经证明,在一组测定值中只有存在少量异常值的情况下,格拉布斯准则是最好的解决办法。当一组测定值中存在较多异常值时,需要先删除离谱的异常值后再运用格拉布斯准则来识别剩下差别较小的异常值。
5.当数据样本中异常值个数占比小于10%时,识别情况非常稳定,但是当异常值占比超过15%时,格拉布斯方法将会直接失效。当异常值数量过多时,造成标准差在存在异常值时偏差变大造成识别失效或漏掉的可能性,降低识别率;异常值过多的存在将可能产生较大的均值估计偏差,使统计值改变较大,从而造成异常值的识别失效或漏判。


技术实现要素:

6.针对气体浓度补偿值在面对大量异常值时,传统的异常值识别方法可能会导致检测结果不准确的技术问题,本技术方案提供了一种基于改进的格拉布斯检验法的异常值识别方法,将对格拉布斯检验法进行改进,采用改进的格拉布斯准则识别并处理补偿值中的异常值,提升检测精度的同时解决异常值占比过大无法操作的情况;可以有效地消除因异常值占比过大而造成结果不准确的影响,以较高的精度去检测气体浓度补偿值中的异常值;能有效的解决上述问题。
7.本发明通过以下技术方案实现:
8.一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除,所述的方法包括步骤:
9.s1、建立数据模型;
10.s2、建立格拉布斯检验标准模型;
11.s3、改进算法模型,替换均值引入参考值;
12.将均值替换成其他参考值实现异常值判别,其他参考值是将中位数、众数、最大值和最小值按不同权重组成参考值,代替均值实现异常值检验,计算式(3-1)为
[0013][0014]
式中,p1和p2表示为参考值,x
max
表示为选取数据样本中的最大值;x
min
表示为选取数据样本中的最小值;n表示为选取数据样本的中位数;m表示为选取数据样本的众数;abcd表示为各个参数的权值;
[0015]
将参考值p1和p2代替均值完成残余误差绝对值的计算,计算公式为(3-2):
[0016][0017]
上式中,|vi|表示为数据样本中的第i个数据的残余误差绝对值,xi表示为数据样本中的第i个数据,p1和p2表示为参考值。
[0018]
将均值μ替换成参考值完成标准差的计算,计算式为(3-3):
[0019][0020]
上式中,σ'表示为均值替换成参考值后计算的标准差,n表示为数据样本总量,xk表示为数据样本中的第k个数据样本。
[0021]
s4、重新计算统计值hi,判断异常值。
[0022]
进一步的,步骤s1所述的建立数据模型是对空气中的气体进行检测,采用传感器检测模块对空气中气体浓度、温度、湿度和风速的数值采集,然后处理器对传感器发送的数据根据补偿算法计算气体补偿后的真实浓度,最后采用补偿修正模块对补偿值进行数据处理,识别并去除异常数据。
[0023]
进一步的,所述的补偿修正模块对补偿值进行数据处理的具体操作方式为:
[0024]
设气体补偿值x为监测数据样本集,i=1,2
···
,n,建立以μ为观测对象的数据模型(1-1)为
[0025]
x~n(μ,σ2)(1-1);
[0026]
式中,x表示数据集;μ表示数据集的均值;σ2表示为数据集的方差;式(1-1)补偿值数据样本符合正态分布,式(1-1)的均值μ和方差σ2为式(1-2)所示:
[0027]
[0028]
式中,xi表示为检测数据样本中的第i个数据;n表示为样本中数据的个数。
[0029]
进一步的,步骤s2所述建立标准模型的具体操作方式为:
[0030]
根据式(1-2),建立标准的格拉布斯检验法,其计算式如(2-1)
[0031][0032]
式中,hi表示为数据样本中的第i个数据的统计值,|vi|表示为数据样本中的第i个数据的残余误差绝对值。
[0033]
进一步的,步骤s4所述的重新计算统计值hi,判断异常值,具体的方法为:
[0034]
经过对补偿值的残余误差和标准差的改进,重新求得统计值hi,计算式为(4-1):
[0035][0036]
重新定义统计值h'i,使其公式中完全消除均值偏差可能带来的干扰,两个参考值是最大值、最小值、中位数和众数按比例结合,中位数可以有效的代表一组数据样本集中最中间的数据,一定程度上综合了平均数的优点,具有代表性;而众数着眼于对数据出现频率的记录,与数据组中的部分数据有关,不受极端值的影响;最大值和最小值作为数据组中出现的两端极值,极有可能是异常值,但二者结合即可消除其影响;计算好统计值h'i后,进行识别工作,识别的计算式为(4-2):
[0037]
h'i≤g
p
(n)(4-2);
[0038]
上式中,g
p
(n)为临界值;临界值g
p
(n)的大小与置信概率p和数据量n有关,对于有些数据集的精度需要极为精准,必须将置信概率p定义较高;若数据样本中某个数据的统计值h'i大于临界值g
p
(n),则该数据存在较大的误差,将其删除后,再用下一个数据的统计值h'i与临界值g
p
(n)进行比较,重复以上过程,直至再无异常值;
[0039]
按照上述流程,将多个样本数据集删除异常值后的数据作为一组数据,并将该组数据重新求得均值后即为较为准确的补偿值,较为准确的补偿值的计算式为(4-3):
[0040][0041]
式中,m表示为删除异常值后数据集中补偿值的数量,xj为删除异常值后数据样本中第j个数据;经过改进的格拉布斯检验后,得到精确的气体检测的环境参数补偿值v
补偿

[0042]
有益效果
[0043]
本发明提出的一种基于改进的格拉布斯检验法的异常值识别方法,与现有技术相比较,其具有以下有益效果:
[0044]
(1)本发明对格拉布斯检验法进行改进,将统计值li中的均值替换掉。用中位数、众数、最大值和最小值按照不同的权重来构成参考值p1和p2。中位数可以有效的代表一组数据样本集中最中间的数据,不受最大值和最小值两个极端数值的影响,一定程度上综合了平均数的优点,具有代表性;而众数着眼于对数据出现频率的记录,与数据组中的部分数据
有关,不受极端值的影响;最大值和最小值作为数据组中出现的两端极值,极有可能是异常值,但二者结合即可消除其影响,使参考值更接近于数据集的中心位置,减小极端值的影响。
[0045]
(2)本发明采用改进的格拉布斯准则识别并处理补偿值中的异常值,提升检测精度的同时解决异常值占比过大无法操作的情况;可以有效地消除异常值占比过大的影响,以较高的精度去检测气体浓度补偿值中的异常值。当较多的误差存在时,能减少对气体浓度检测的影响,是目前对于化工厂区内有毒气体浓度阈值检测结果异常值识别的一个创新点;可以较大的提升气体检测装置的可靠性,同时提升化工厂的安全系数,降低危险情况的发生。
附图说明
[0046]
图1为本发明的操作流程示意图。
具体实施方式
[0047]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围。
[0048]
实施例1:
[0049]
如图1所示,一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除,所述的方法包括步骤:s1、建立数据模型。
[0050]
对空气中的气体进行检测,采用传感器检测模块对空气中气体浓度、温度、湿度和风速的数值采集,然后处理器对传感器发送的数据根据补偿算法计算气体补偿后的真实浓度,最后采用补偿修正模块对补偿值进行数据处理,识别并去除异常数据;是对气体检测装置修正补偿模块中异常值检验算法的改进。
[0051]
补偿修正模块对补偿值进行数据处理的具体操作方式为:
[0052]
设气体补偿值x为监测数据样本集,i=1,2
···
,n,建立以μ为观测对象的数据模型(1-1)为
[0053]
x~n(μ,σ2)(1-1);
[0054]
式中,x表示数据集;μ表示数据集的均值;σ2表示为数据集的方差;式(1-1)补偿值数据样本符合正态分布,式(1-1)的均值μ和方差σ2为式(1-2)所示:
[0055][0056]
式中,xi表示为检测数据样本中的第i个数据;n表示为样本中数据的个数。
[0057]
s2、建立格拉布斯检验标准模型。
[0058]
根据式(1-2),建立标准的格拉布斯检验法,其计算式如(2-1)所示:
[0059][0060]
式中,hi表示为数据样本中的第i个数据的统计值,|vi|表示为数据样本中的第i个数据的残余误差绝对值。
[0061]
如果采用标准的格拉布斯检验法去判别异常值,则将补偿值xi和均值μ差值的绝对值与标准差σ的比值的定义为hi。如果统计值hi大于临界值g
p
(n),则表明该补偿值是异常值,可以直接删除。
[0062]
但是,当气体补偿值中异常值较多时,数据样本的均值会发生严重的偏差,标准差σ也会受到均值改变的影响。假设气体补偿值数据样本中存在大量的异常值且数值很大,这样直接导致数据模型中均值变大,方差变小。为了降低均值对格拉布斯准则检验异常值的影响,需要对格拉布斯检验法进行改进。
[0063]
s3、改进算法模型,替换均值引入参考值。
[0064]
大量的气体补偿值无法避免离群点的影响,所以随机选取部分气体补偿值。在标准的格拉布斯检验法中,均值是衡量数据集中心位置的标准,利用数据集的均值来判断异常值和异常值的z-score(即偏离均值的标准差数量)进行比较。异常值数量过多引起均值偏差变大,使得统计值也发生较大的改变。因此,本发明将均值替换成其他参考值实现异常值判别。
[0065]
中位数相比于均值更能代表数据集的中心位置,不易受到数据中极端数值的影响。众数则能反映出数据集的集中趋势,可以代表数据的整体状况,不易受到数据中极端数值的影响。最大值和最小值是数据集中的两个极端数值,可以代表数据的上下限,但不一定是异常值。本实施例将上述四种值按不同权重组成参考值,代替均值实现异常值检验,其计算式(3-1)为
[0066][0067]
式中,p1和p2表示为参考值,x
max
表示为选取数据样本中的最大值;x
min
表示为选取数据样本中的最小值;n表示为选取数据样本的中位数;m表示为选取数据样本的众数;a b c d表示为各个参数的权值。
[0068]
最大值和最小值按照不同权重构成参考值p1可以有效地防止数据集两边极端数值对检验异常值造成的影响。假设数据集的最大值和最小值分别都是异常值,经过式(3-1)后得到的参考值p1接近于数据集的中心位置,减小极端值造成的影响。中位数和众数构成的参考值p2则更能代替均值代替数据集的中心位置,而且中位数和众数不容易受到异常值的影响,可以更好地完成检验。参考值p1和p2代替均值完成残余误差绝对值的计算,这样可以使统计值hi的分子|vi|不会受到均值的偏差造成异常值识别失败或者漏掉。计算公式为(3-2):
[0069][0070]
上式中,|vi|表示为数据样本中的第i个数据的残余误差绝对值,xi表示为数据样本中的第i个数据,p1和p2表示为参考值。
[0071]
通过替换,可以有效地避免均值偏差造成的结果干扰。但是仅仅只对于均值进行替换并不能完全解决异常值较多造成的影响,还要从标准差处做出相应的调整,从根本上消除由均值带给统计值hi的影响。均值μ替换成参考值完成标准差的计算,计算式为(3-3):
[0072][0073]
上式中,σ'表示为均值替换成参考值后计算的标准差,n表示为数据样本总量,xk表示为数据样本中第k个数据。
[0074]
严格地讲从数学意义上,以上两种处理方式将改变统计值hi的统计分布特性,但从实际应用的角度理解,认为上述处理改变的只是统计值hi的数值,对分布的影响可以忽略。
[0075]
s4、重新计算统计值hi,判断异常值;具体的方法为:
[0076]
经过对补偿值的残余误差和标准差的改进,重新求得统计值hi,计算式为(4-1):
[0077][0078]
重新定义统计值h'i,使其公式中完全消除均值偏差可能带来的干扰,两个参考值是最大值、最小值、中位数和众数按比例结合,中位数可以有效的代表一组数据样本集中最中间的数据,一定程度上综合了平均数的优点,具有代表性;而众数着眼于对数据出现频率的记录,与数据组中的部分数据有关,不受极端值的影响;最大值和最小值作为数据组中出现的两端极值,极有可能是异常值,但二者结合即可消除其影响。计算好统计值h'i后,进行识别工作,识别的计算式为(4-2):
[0079]
h'i≤g
p
(n)(4-2);
[0080]
上式中,g
p
(n)为临界值;临界值g
p
(n)的大小与置信概率p和数据量n有关,对于有些数据集的精度需要极为精准,必须将置信概率p定义较高,这里取0.99。
[0081]
本次选取数据集中50个数据作为数据样本。通过查格拉布斯准则表可知:当n=50时,p=0.99,g
p
(n)=3.34。如果数据样本中某个数据的统计值h'i大于临界值g
p
(n),那么该数据存在较大的误差,将其删除后,再用下一个数据的统计值h'i与临界值g
p
(n)进行比较,重复以上过程,直至再无异常值。
[0082]
按照上述流程,将50个样本数据集删除异常值后的数据作为一组数据,并将该组数据重新求得均值后即为较为准确的补偿值,较为准确的补偿值的计算式为(4-3):
[0083][0084]
式中,m表示为删除异常值后数据集中补偿值的数量,xj为删除异常值后数据样本中第j个数据;经过改进的格拉布斯检验后,得到精确的气体检测的环境参数补偿值v
补偿

[0085]
以上仅为本发明的具体实施例,但本发明的保护范围不仅局限于此,任何在本发明揭露的技术范围内的变化、替换和改进,均在本发明的保护范围内。

技术特征:
1.一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除;其特征在于:所述的方法包括步骤:s1、建立数据模型;s2、建立格拉布斯检验标准模型;s3、改进算法模型,替换均值引入参考值;将均值替换成其他参考值实现异常值判别,其他参考值是将中位数、众数、最大值和最小值按不同权重组成参考值,代替均值实现异常值检验,计算式(3-1)为式中,p1和p2表示为参考值,x
max
表示为选取补偿值样本中的最大值;x
min
表示为选取补偿值样本中的最小值;n表示为选取补偿值样本的中位数;m表示为选取补偿值样本的众数;abcd表示为各个参数的权值;将参考值p1和p2代替均值完成残余误差绝对值的计算,计算公式为(3-2):上式中,|v
i
|表示为数据样本中的第i个数据的残余误差绝对值,x
i
表示为数据样本中的第i个数据,p1和p2表示为参考值;将均值μ替换成参考值完成标准差的计算,计算式为(3-3):上式中,σ'表示为均值替换成参考值后计算的标准差,n表示为数据样本总量,x
k
表示为数据样本中的第k个数据样本。s4、重新计算统计值h
i
,判断异常值。2.根据权利要求1所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:步骤s1所述的建立数据模型是对空气中的气体进行检测,采用传感器检测模块对空气中气体浓度、温度、湿度和风速的数值采集,然后处理器对传感器发送的数据根据补偿算法计算气体补偿后的真实浓度,最后采用补偿修正模块对补偿值进行数据处理,识别并去除异常数据。3.根据权利要求2所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:所述的补偿修正模块对补偿值进行数据处理的具体操作方式为:设气体补偿值x为监测数据样本集,i=1,2
···
,n,建立以μ为观测对象的数据模型(1-1)为x~n(μ,σ2)(1-1);式中,x表示数据集;μ表示数据集的均值;σ2表示为数据集的方差;式(1-1)补偿值数据样本符合正态分布,式(1-1)的均值μ和方差σ2为式(1-2)所示:
式中,x
i
表示为检测数据样本中的第i个数据;n表示为样本中数据的个数。4.根据权利要求3所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:步骤s2所述建立标准模型的具体操作方式为:根据式(1-2),建立标准的格拉布斯检验法,其计算式如(2-1)式中,h
i
表示为数据样本中的第i个数据的统计值,|v
i
|表示数据样本中的第i个数据的残余误差绝对值。5.根据权利要求1所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:步骤s4所述的重新计算统计值h
i
,判断异常值,具体的方法为:经过对补偿值的残余误差和标准差的改进,重新求得统计值h
i
,计算式为(4-1):重新定义统计值h'
i
,使其公式中完全消除均值偏差可能带来的干扰,两个参考值是最大值、最小值、中位数和众数按比例结合,中位数可以有效的代表一组数据样本集中最中间的数据,一定程度上综合了平均数的优点,具有代表性;而众数着眼于对数据出现频率的记录,与数据组中的部分数据有关,不受极端值的影响;最大值和最小值作为数据组中出现的两端极值,极有可能是异常值,但二者结合即可消除其影响;计算好统计值h'
i
后,进行识别工作,识别的计算式为(4-2):h'
i
≤g
p
(n)(4-2);上式中,g
p
(n)为临界值;临界值g
p
(n)的大小与置信概率p和数据量n有关,对于有些数据集的精度需要极为精准,必须将置信概率p定义较高;若数据样本中某个数据的统计值h'
i
大于临界值g
p
(n),则该数据存在较大的误差,将其删除后,再用下一个数据的统计值h'
i
与临界值g
p
(n)进行比较,重复以上过程,直至再无异常值;按照上述流程,将多个样本数据集删除异常值后的数据作为一组数据,并将该组数据重新求得均值后即为较为准确的补偿值,较为准确的补偿值的计算式为(4-3):式中,m表示为删除异常值后数据集中补偿值的数量,x
j
为删除异常值后数据样本中第j
个数据;经过改进的格拉布斯检验后,得到精确的气体检测的环境参数补偿值v
补偿


技术总结
一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除,所述的方法包括步骤:S1、建立数据模型;S2、标准模型缺陷,替换均值;S3、改进算法模型,替换均值引入参考值;S4、重新计算统计值H


技术研发人员:柯永斌 姜程文 孙靖康 孙攀峰 谢田 蓝庆华 邹佳明 倪静 刘玉祥 李金胜 祝芷沁
受保护的技术使用者:淮阴工学院
技术研发日:2023.05.23
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐