一种异常数据确定方法、装置、设备及介质与流程
未命名
09-24
阅读:58
评论:0
1.本技术涉及数据处理领域,尤其涉及一种异常数据确定方法、装置、设备及介质。
背景技术:
2.随着信息化的发展,物联设备被广泛应用于能源行业,进行运行状态监测、告警、财务结算、气量预测等处理,通过物联设备进行数据的采集可节省大量的人力成本并提高数据采集的准确性。但受物联设备工况、网络环境、数据传输链路等多方面影响,导致物联设备监测到的数据与实际量测结果可能会出现偏差,导致采集到的数据并非实际量测数据,从而对业务场景所必须的数据及时性和稳定性造成影响。目前在燃气等物联相关领域,由于不同物联设备的量程、精度、传输频次各不相同,难以通过单一算法规则识别物联设备采集的数据中的异常数据,因此大部分城燃企业仍采用人工线下抄表的方式,定期对数据进行纠偏矫正,但对于频繁夹杂在数据中的异常数据,即使人工识别也存在一定障碍,并且具体如何确定异常数据是目前无法实现信息化的重要障碍之一。
3.相关技术中为了识别异常数据,通常针对每个物联设备均保存有一个数据范围,超过该数据范围的数据即为异常数据,然而虽然此方法对于异常数据的识别较为准确,但在实际应用过程中工作量大、通用性低且难以落地。首先该方法要求针对不同物联设备配置不同的数据范围,但由于设备类型多、同类设备应用场景多,而且大多数设备无法通过数据范围下发的方式修改,只能通过近场配置甚至烧录硬件程序才能实现,导致工作量极大;其次不同城市的城燃企业由于业务量不同,因此相同的数据范围无法满足不同地域的企业;另外要求配置数据范围的人员对于本地的燃气业务极为熟悉,对于不同的设备或设备安装不同位置所对应的监测正常范围都要有所了解。基于以上三点决定了该方法无法大规模推广,因此在确定异常数据时通常采用较为通用的数据范围进行确定,导致确定的异常数据并不准确。
技术实现要素:
4.本技术实施例提供了一种异常数据确定方法、装置、设备及介质,用以解决现有技术中在确定物联设备采集的数据中的异常数据时,并不能准确地进行确定的问题。
5.第一方面,本技术实施例提供了一种异常数据确定方法,所述方法包括:
6.接收物联设备采集的目标数据及所述目标数据的第一采集时间;
7.获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间;
8.根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据。
9.进一步地,所述确定所述物联设备采集的数据的单位时间内的变化量之后,所述若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据之前,所述方法还
包括:
10.根据所述变化量以及所述上一数据,确定所述物联设备采集的所述目标数据单位时间内相对所述上一数据的目标变化率,采用所述目标变化率对所述变化量进行更新,针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。
11.进一步地,确定所述变化量不在预设的误差范围内之后,所述确定所述目标数据为异常数据之前,所述方法还包括:
12.获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,采用箱线图法确定所述目标数据及所述每个其他数据对应的外限,若所述目标数据是否超过所述外限,则执行后续确定所述目标数据为异常数据的步骤。
13.进一步地,所述方法还包括:
14.若所述目标数据并非候选异常数据,则确定所述每个其他数据和所述目标数据的平均值,判断所述目标数据与所述平均值之间的距离是否超过预设数值,若否,则确定所述目标数据为正常数据。
15.进一步地,所述方法还包括:
16.若所述目标数据与所述平均值之间的距离超过预设阈值,则采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据是否超过所述内限,则确定所述目标数据为异常数据,若所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
17.进一步地,所述方法还包括:
18.若所述变化量在预设的误差范围内,则判断所述变化量是否在温和误差范围内,其中,所述误差范围的最大值大于所述温和误差范围的最大值,且所述误差范围的最小值小于所述温和误差范围的最小值;
19.若否,则确定所述目标数据为正常数据;
20.若是,则获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,确定所述每个其他数据和所述目标数据的平均值,并采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据与所述平均值之间的距离未超过预设数值,或所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
21.进一步地,若确定所述目标数据为正常数据,所述方法还包括:
22.若所述目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定所述目标数据为异常数据。
23.进一步地,若确定所述目标数据为正常数据,所述方法还包括:
24.若所述目标数据与所述上一数据相同,则确定所述目标数据为异常数据。
25.第二方面,本技术实施例还提供了一种异常数据确定装置,所述装置包括:
26.接收模块,用于接收物联设备采集的目标数据及所述目标数据的第一采集时间;
27.获取模块,用于获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间;
28.处理模块,用于根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预
设的误差范围内,则确定所述目标数据为异常数据。
29.进一步地,所述处理模块,还用于根据所述变化量以及所述上一数据,确定所述物联设备采集的所述目标数据单位时间内相对所述上一数据的目标变化率,采用所述目标变化率对所述变化量进行更新,针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。
30.进一步地,所述处理模块,还用于获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,采用箱线图法确定所述目标数据及所述每个其他数据对应的外限,若所述目标数据是否超过所述外限,则执行后续确定所述目标数据为异常数据的步骤。
31.进一步地,所述处理模块,还用于若所述目标数据并非候选异常数据,则确定所述每个其他数据和所述目标数据的平均值,判断所述目标数据与所述平均值之间的距离是否超过预设数值,若否,则确定所述目标数据为正常数据。
32.进一步地,所述处理模块,还用于若所述目标数据与所述平均值之间的距离超过预设阈值,则采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据是否超过所述内限,则确定所述目标数据为异常数据,若所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
33.进一步地,所述处理模块,还用于若所述变化量在预设的误差范围内,则判断所述变化量是否在温和误差范围内,其中,所述误差范围的最大值大于所述温和误差范围的最大值,且所述误差范围的最小值小于所述温和误差范围的最小值;若否,则确定所述目标数据为正常数据;若是,则获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,确定所述每个其他数据和所述目标数据的平均值,并采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据与所述平均值之间的距离未超过预设数值,或所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
34.进一步地,所述处理模块,还用于若确定所述目标数据为正常数据,若所述目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定所述目标数据为异常数据。
35.进一步地,所述处理模块,还用于若确定所述目标数据为正常数据,若所述目标数据与所述上一数据相同,则确定所述目标数据为异常数据。
36.第三方面,本技术实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述异常数据确定方法的步骤。
37.第四方面,本技术实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述异常数据确定方法的步骤。
38.在本技术实施例中,电子设备接收物联设备采集的目标数据及目标数据的第一采集时间,获取物联设备采集目标数据的上一数据及上一数据的第二采集时间,并根据目标数据、第一采集时间、上一数据及第二采集时间,确定物联设备采集的数据单位时间内的变化量,若变化量不在预设的误差范围内,则确定目标数据为异常数据。由于在本技术实施例中,电子设备在接收到物联设备采集的目标数据及目标数据的第一采集时间之后,获取采集目标数据的上一数据及该上一数据的第二采集时间,并根据所述目标数据、第一采集时间、上一数据以及第二采集时间,确定物联设备采集的数据的单位时间内的变化量,若变化
量不在预设的误差范围内,则确定目标数据为异常数据,由于电子设备是根据物联设备采集的数据的单位时间内的变化量及预设的误差范围,进行的异常数据的确定,且通常正常数据在单位时间内的变化量不会太大,因此可以准确有效的进行异常数据的确定。
附图说明
39.为了更清楚地说明本技术的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1为本技术实施例提供的一种异常数据确定过程示意图;
41.图2为本技术实施例提供的一种记录的对应关系示意图;
42.图3为本技术实施例提供的一种异常数据确定装置结构示意图;
43.图4为本技术实施例提供的一种电子设备结构示意图。
具体实施方式
44.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
45.为了提高异常数据确定的准确性,本技术实施例提供了一种异常数据确定方法、装置、设备及介质。
46.该异常数据确定方法包括:接收物联设备采集的目标数据及目标数据的第一采集时间,获取物联设备采集目标数据的上一数据及上一数据的第二采集时间,并根据目标数据、第一采集时间、上一数据及第二采集时间,确定物联设备采集的数据单位时间内的变化量,若变化量不在预设的误差范围内,则确定目标数据为异常数据,从而可以准确地确定出异常数据。
47.实施例1:
48.图1为本技术实施例提供的一种异常数据确定过程示意图,该过程包括以下步骤:
49.s101:接收物联设备采集的目标数据及所述目标数据的第一采集时间。
50.本技术实施例提供的异常数据确定方法应用于电子设备,该电子设备可以为pc或服务器等设备。
51.为了确定物联设备采集的目标数据是否为异常数据,物联设备在采集到目标数据后,将采集到的目标数据发送至电子设备,其中,该物联设备采集的目标数据的类型包括温度、压力、流量、流速等,物联设备安装场景包括厂站、管网、工商户、民用户等,物联设备还将采集目标数据的采集时间发送至电子设备,为了便于区分,可以将该采集时间称为第一采集时间。电子设备即可接收到物联设备发送的目标数据及目标数据的第一采集时间。
52.s102:获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间。
53.为了确定物联设备采集的目标数据是否为异常数据,电子设备可以获取物联设备采集的目标数据的上一数据,该上一数据为该物联设备采集目标数据之前,采集时间与第
一采集时间最接近的数据,例如某一物联设备依次采集到数据a、数据b及数据c,若数据c为目标数据,则目标数据的上一数据为数据b。
54.物联设备在每次采集到数据之后,均将采集到的数据、数据的采集时间以及物联设备的标识发送至电子设备,其中,每个物联设备的标识均不相同,电子设备记录数据、采集时间及物联设备的标识三者之间的对应关系。在确定目标数据的上一数据时,电子设备可以根据记录的数据、采集时间及物联设备的标识三者之间的对应关系,确定该物联设备的标识对应的每个数据,该每个数据即为该物联设备采集到的数据,并根据该每个数据对应的采集时间,确定对应的采集时间早于第一采集时间,且与第一采集时间最接近的数据,该数据即为目标数据的上一数据,电子设备通过该方式即可获取到目标数据的上一数据,为了确定目标数据是否为异常数据,电子设备还获取上一数据对应的采集时间,为了便于区分,可以将该采集时间称为第二采集时间。
55.图2为本技术实施例提供的一种记录的对应关系示意图。
56.由图2可知,数据、采集时间及物联设备的标识的对应关系可以通过表格结构进行记录,其中,图2中第一列为物联设备的标识;图2中第二列为物联设备采集到的数据;图3中第三列为物联设备采集数据的时间,图2中第二行表示,标识为28657的物联设备在2022-12-5 04:57:47.420采集到的数据为42938888;图2中第四行表示,标识为28657的物联设备在2022-12-504:58:00.000采集到的数据为42938912;
57.s103:根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据。
58.在获取到目标数据、第一采集时间、上一数据及第二采集时间之后,电子设备可以根据获取到的目标数据、第一采集时间、上一数据、第二采集时间,确定物联设备采集的数据单位时间内的变化量,具体的,电子设备可以确定目标数据与上一数据的第一差值,并确定第一采集时间与第二采集时间的第二差值,将第一差值和第二差值的比值,确定为物联设备采集的数据的单位时间内的变化量。
59.电子设备可以通过以下公式确定物联设备采集的数据的单位时间内的变化量:
[0060][0061]
其中,d为物联设备采集的数据的单位时间内的变化量,ci为目标数据,c
i-1
为目标数据的上一数据,ti为第一采集时间,t
i-1
为第二采集时间。
[0062]
为了准确地确定目标数据是否为异常数据,电子设备本地保存有预设的误差范围,在确定物联设备采集的数据的单位时间内的变化量后,电子设备可以判断变化量是否在预设的误差范围内,若在预设的误差范围内,则说明物联设备采集的数据的单位时间内的变化量较大,则确定目标数据为异常数据。其中,该误差范围可以为(-10,10)。
[0063]
本技术实施例提供的方法可覆盖大部分燃气行业的物联设备的应用场景,对于不同物联设备、不同测点、不同场景的通用性强,而且方法应用过程无需通过大量计算或模型训练,对算力要求低,属于低成本、高成效方法,利于大范围推广。在本技术实施例中,通过对物联设备采集的异常数据的识别,可以协助企业定位物联设备的问题并进行整改,减少问题排查的和识别的时间,节省人力投入。过滤异常数据后的样本数据可满足大部分数据
分析场景对数据质量的要求,有助于物联设备采集的数据的应用、推广、数据挖掘、业务延伸拓展等。物联设备采集的数据的应用也可减少人工抄表、核对气量、预测气量等多个场景的人工成本并提高工作效率。
[0064]
由于在本技术实施例中,电子设备在接收到物联设备采集的目标数据及目标数据的第一采集时间之后,获取采集目标数据的上一数据及该上一数据的第二采集时间,并根据所述目标数据、第一采集时间、上一数据以及第二采集时间,确定物联设备采集的数据的单位时间内的变化量,若变化量不在预设的误差范围内,则确定目标数据为异常数据,由于电子设备是根据物联设备采集的数据的单位时间内的变化量及预设的误差范围,进行异常数据的确定,且通常正常数据在单位时间内的变化量不会太大,因此可以准确有效的进行异常数据的确定。
[0065]
实施例2:
[0066]
为了进一步提高异常数据确定的准确性,在上述实施例的基础上,在本技术实施例中,所述确定所述物联设备采集的数据的单位时间内的变化量之后,所述若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据之前,所述方法还包括:
[0067]
根据所述变化量以及所述上一数据,确定所述物联设备采集的所述目标数据单位时间内相对所述上一数据的目标变化率,采用所述目标变化率对所述变化量进行更新,针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。
[0068]
由于在实际应用场景中,可能存在某些物联设备采集的数据较大,某些物联设备采集的数据较小,若仅确定物联设备采集的数据的单位时间内的变化量,则确定的异常数据可能并不准确,为了提高异常数据确定的准确性,在确定物联设备采集的数据的单位时间内的变化量之后,电子设备可以根据变化量及上一数据,确定物联设备采集的目标数据单位时间内相对上一数据的目标变化率,具体的,电子设备可以将变化量和上一数据的比值,确定为物联设备采集的目标数据单位时间内相对上一数据的目标变化率,在确定目标变化量后,电子设备可以采用目标变化量对变化量进行更新,并针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。
[0069]
电子设备可以通过以下公式确定物联设备采集的数据的单位时间内的目标变化率:
[0070][0071]
其中,ci为目标数据,c
i-1
为目标数据的上一数据,ti为第一采集时间,t
i-1
为第二采集时间。
[0072]
例如,物联设备a采集的上一数据为5,目标数据为10,物联设备b采集的上一数据为10000,目标数据为10020,并且物联设备a及物联设备b第一采集时间与第二采集时间的间隔相同,且为1秒,所确定的物联设备a的目标变化率为1,所确定的物联设备b的目标变化率为20/10000。
[0073]
本技术实施例中提供的该异常数据确定方法,可以被称为逻辑判断法,通过历史数据分析得出,正常情况下,目标变化量落于预设的误差范围之间,即单位时间内数据的增幅或降幅不应超出上一数据的预设倍数,该预设倍数可以为误差范围的最大值。
[0074]
通常情况下,物联设备采集到的数据符合对应的数据变化规律,该数据变化规律包括上升、下降、递增、递减、震荡、恒值等,而通过本技术实施例提供的方法均可以降低将符合数据变化规律的数据确定为异常数据的风险。
[0075]
实施例3:
[0076]
为了进一步提高异常数据确定的准确性,在上述各实施例的基础上,在本技术实施例中,确定所述变化量不在预设的误差范围内之后,所述确定所述目标数据为异常数据之前,所述方法还包括:
[0077]
获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,采用箱线图法确定所述目标数据及所述每个其他数据对应的外限,判断所述目标数据是否超过所述外限,若是,则执行后续确定所述目标数据为异常数据的步骤。
[0078]
由于不同的业务场景中物联设备所采集的数据的规律各不相同,通过单一方法难以有效地适用不同的业务场景,因此为了进一步提高异常数据确定的准确性,电子设备在确定变化量不在预设的误差范围内之后,可以获取物联设备采集目标数据之前,预设时间段内采集到的每个其他数据,并采用箱线图法确定每个其他数据及目标数据对应的外限,具体的,确定出的外限为q3+3iqr和q1-3iqr,其中,q3为第三四分位数,iqr为四分位距,q1为第一四分位数,具体的,如何确定多个数据的第一四分位数、第三四分位数及四分位距为现有技术,在此不再赘述,若目标数据超过外限,也就是说若目标数据大于q3+3iqr或小于q1-3iqr,则可以将目标数据确定为异常数据。需要说明的是,此时所确定的异常数据为极端异常数据。其中,极端异常数据值得是与正常数据存在数量级差异的异常数据,可能由于干扰、数据解析错误、数据包错位、存储超限等原因导致,会影响数据变化规律。
[0079]
本技术实施例中,基于对数据规律的了解,利用计算方法之间优劣势相互弥补短板,提高了异常数据确定的准确性,同时为了防止漏判和误判结合了逻辑判断法对异常数据识别结果进行纠偏补正,进一步对结果提供了可靠保障。
[0080]
通过箱线图法进行异常数据的识别,可以被称为依赖于统计学中的对于离群值的识别,依赖于统计学中的对于离群值的识别还包括线性回归判断等。
[0081]
上述方法中对于极端异常数据的判断方法采用了箱线图法和逻辑判断法,也可用其他统计学手段(例如滑动平均值)或机器学习算法(例如二叉树),也可通过线性回归实现,由于数据规律相对简单,多类方法计算结果基本趋同,旨在于过滤极端异常数据,建立数据样本,实现即可。
[0082]
实施例4:
[0083]
为了进一步提高异常数据确定的准确性,在上述各实施例的基础上,在本技术实施例中,所述方法还包括:
[0084]
若所述目标数据并非候选异常数据,则确定所述每个其他数据和所述目标数据的平均值,判断所述目标数据与所述平均值之间的距离超过预设数值,若否,则确定所述目标数据为正常数据。
[0085]
若目标数据并非候选异常数据,则说明目标数据并非极端异常数据,电子设备可以确定每个其他数据和目标数据的平均值,在确定平均值之后,判断目标数据与平均值之间的距离是否超过预设数值,若未超过预设数值,则说明目标数据与平均值之间的距离较小,则说明目标数据为正常数据。
[0086]
通过数据分析得出物联设备采集的数据符合正态分布,即数据在平均值上下范围内浮动。因此可以在每个其他数据及目标数据的基础上基于正态分布进行异常数据的识别,由于99.7%的数据分布于平均值
±
3倍标准差的范围内,因此超出该范围的数据被判断为异常数据。因此上述实施例描述的预设数值可以为每个其他数据和目标数据的标准差的预设倍数,该预设倍数可以为3。
[0087]
为了进一步提高异常数据确定的准确性,在上述各实施例的基础上,在本技术实施例中,所述方法还包括:
[0088]
若所述目标数据与所述平均值之间的距离超过预设阈值,则采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据是否超过所述内限,则确定所述目标数据为异常数据,若所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0089]
若目标数据与平均值之间的距离超过预设阈值,则可以初步将目标数据确定为异常数据,由于采用单一方式确定的异常数据可能并不准确,因此电子设备还可以采用箱线图法确定目标数据及每个其他数据对应的内限,具体的,确定出的内限为q3+1.5iqr和q1-1.5iqr,其中,q3为第三四分位数,iqr为四分位距,q1为第一四分位数,若目标数据超过内限,也就是说目标数据大于q3+1.5iqr或小于q1-1.5iqr,则可以将目标数据确定为异常数据,若目标数据未大于q3+1.5iqr且未小于q1-1.5iqr,则可以将目标数据确定为正常数据。
[0090]
在本技术实施例中,异常数据往往由于信号干扰、数据错位等情况引起,与正常数据存在大数量级的差异,会导致正常区间偏移,判断失效,采用本技术实施例提供的方法,通过采用正态分布异常数据确定方法、箱线图法以及上述实施例描述的方法,可以进一步准确地确定出异常数据。
[0091]
实施例5:
[0092]
为了准确地确定目标数据是否为异常数据,在上述各实施例的基础上,在本技术实施例中,所述方法还包括:
[0093]
若所述变化量在预设的误差范围内,则判断所述变化量是否在温和误差范围内,其中,所述误差范围的最大值大于所述温和误差范围的最大值,且所述误差范围的最小值小于所述温和误差范围的最小值;
[0094]
若否,则确定所述目标数据为正常数据;
[0095]
若是,则获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,确定所述每个其他数据和所述目标数据的平均值,并采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据与所述平均值之间的距离未超过预设数值,或所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0096]
为了准确地确定目标数据是否为异常数据,电子设备在确定变化量不在预设的误差范围内之后,则可以说明目标数据并非极端异常数据,电子设备可以判断变化量是否在温和误差范围内,其中,误差范围的最大值大于温和误差范围的最大值,误差范围的最小值小于温和误差范围的最小值,若变化量在温和误差范围内,则可以确定目标数据为正常数据。其中,温和误差范围可以为(-2,2)。
[0097]
若变化量不在温和误差范围内,则可以初步将目标数据确定为异常数据,此时确
定的异常数据为温和异常数据,为了进一步确定目标数据是否为异常数据,电子设备可以确定每个其他数据和目标数据的平均值,并采用箱线图法确定目标数据及每个其他数据对应的内限,具体的,确定出的内限为q3+1.5iqr和q1-1.5iqr,在确定平均值及内限之后,判断目标数据与平均值之间的距离是否超过预设数值,并判断目标数据是否超过内限,若目标数据与平均值之间的距离未超过预设数值,或目标数据未超过内线,则说明目标数据与平均值之间的距离较小,或目标数据的偏差较小,则说明目标数据为正常数据,若目标数据与平均值之间的距离超过预设数值,且目标数据超过内限,则说明目标数据与平均值之间的距离较大,且目标数据的偏差较大,则确定目标数据为异常数据,此时所确定出的异常数据为温和异常数据,也就是说当目标数据超出正态分布异常范围且超出逻辑判断正常范围,即可认定为是异常值。其中,温和异常数据为处于正常监测范围内的异常数据,可能由于各类干扰、传输链路阻塞、时间设定异常等原因导致,但不会影响统计规律。
[0098]
在实际应用场景中,同一物联设备预设时间段内采集到的数据通常为正态分布的,因此该物联设备在预设时间段内采集到的数据通常与平均值的距离较小,该预设数值可以为每个其他数据和目标数据的标准差的预设倍数,该预设倍数可以为3。
[0099]
本技术实施例提供的方法通过数据规律、计算方法、业务逻辑三方面,来确定异常数据。打破了传统数据分析对于异常数据单一维度识别的局限性,从三个不同维度对异常值进行了识别以及对识别结果进行交叉印证,减少异常数据的漏判和误判。
[0100]
实施例6:
[0101]
为了准确地确定目标数据是否为异常数据,在上述各实施例的基础上,在本技术实施例中,若确定所述目标数据为正常数据,所述方法还包括:
[0102]
若所述目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定所述目标数据为异常数据。
[0103]
由于在实际应用场景中,物联设备采集到的数据不会过大也不会过小,因此为了准确地确定目标数据是否为异常数据,电子设备本地预先保存有规定的最低阈值,及规定的最高阈值,其中,该规定的最低阈值可以为0,该规定的最高阈值通常为国家规定的最高阈值,例如可以为15兆帕,在确定目标数据为正常数据后,电子设备可以判断目标数据是否小于规定的最低阈值,并判断目标数据是否大于规定的最高阈值,若目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定目标数据为异常数据。例如,流速、压力、流量不会为负值,压力不会超过国家管网压力。
[0104]
为了准确地确定目标数据是否为异常数据,在上述各实施例的基础上,在本技术实施例中,若确定所述目标数据为正常数据,所述方法还包括:
[0105]
若所述目标数据与所述上一数据相同,则确定所述目标数据为异常数据。
[0106]
由于在实际应用场景中,同一物联设备采集到的数据一般不为恒定值,因此为了准确地确定目标数据是否为异常数据,电子设备在确定目标数据为正常数据后,可以判断目标数据与上一数据是否相同,若目标数据与上一数据相同,则确定目标数据为异常数据。例如,当压力发生变化时,流量及流速多数部位恒定值,压力一般部位恒定值。并且当流速发生变化时,流量会随之变化,会有少量误差,但不会出现数量级的误差,采用本技术实施例描述的方法可以准确地确定异常数据。
[0107]
在本技术实施例中,通过观察监测数据了解数据规律,然后按照特定顺序应用不
同计算方法逐层过滤,实现异常数据的识别,最后结合业务场景数据间的关联关系验证异常数据的真实性。
[0108]
实施例7:
[0109]
图3为本技术实施例提供的一种异常数据确定装置结构示意图,所述装置包括:
[0110]
接收模块301,用于接收物联设备采集的目标数据及所述目标数据的第一采集时间;
[0111]
获取模块302,用于获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间;
[0112]
处理模块303,用于根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据。
[0113]
在一种可能的实施方式中,所述处理模块303,还用于根据所述变化量以及所述上一数据,确定所述物联设备采集的所述目标数据单位时间内相对所述上一数据的目标变化率,采用所述目标变化率对所述变化量进行更新,针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。
[0114]
在一种可能的实施方式中,所述处理模块303,还用于获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,采用箱线图法确定所述目标数据及所述每个其他数据对应的外限,若所述目标数据是否超过所述外限,则执行后续确定所述目标数据为异常数据的步骤。
[0115]
在一种可能的实施方式中,所述处理模块303,还用于若所述目标数据并非候选异常数据,则确定所述每个其他数据和所述目标数据的平均值,判断所述目标数据与所述平均值之间的距离是否超过预设数值,若否,则确定所述目标数据为正常数据。
[0116]
在一种可能的实施方式中,所述处理模块303,还用于若所述目标数据与所述平均值之间的距离超过预设阈值,则采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据是否超过所述内限,则确定所述目标数据为异常数据,若所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0117]
在一种可能的实施方式中,所述处理模块303,还用于若所述变化量在预设的误差范围内,则判断所述变化量是否在温和误差范围内,其中,所述误差范围的最大值大于所述温和误差范围的最大值,且所述误差范围的最小值小于所述温和误差范围的最小值;若否,则确定所述目标数据为正常数据;若是,则获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,确定所述每个其他数据和所述目标数据的平均值,并采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据与所述平均值之间的距离未超过预设数值,或所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0118]
在一种可能的实施方式中,所述处理模块303,还用于若确定所述目标数据为正常数据,若所述目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定所述目标数据为异常数据。
[0119]
在一种可能的实施方式中,所述处理模块303,还用于若确定所述目标数据为正常数据,若所述目标数据与所述上一数据相同,则确定所述目标数据为异常数据。
[0120]
实施例8:
[0121]
图4为本技术实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本技术实施例还提供了一种电子设备,如图4所示,包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信;
[0122]
所述存储器403中存储有计算机程序,当所述程序被所述处理器401执行时,使得所述处理器401执行如下步骤:
[0123]
接收物联设备采集的目标数据及所述目标数据的第一采集时间;
[0124]
获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间;
[0125]
根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据。
[0126]
进一步地,所述处理器401,还用于根据所述变化量以及所述上一数据,确定所述物联设备采集的所述目标数据单位时间内相对所述上一数据的目标变化率,采用所述目标变化率对所述变化量进行更新,针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。
[0127]
进一步地,所述处理器401,还用于获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,采用箱线图法确定所述目标数据及所述每个其他数据对应的外限,若所述目标数据是否超过所述外限,则执行后续确定所述目标数据为异常数据的步骤。
[0128]
进一步地,所述处理器401,还用于若所述目标数据并非候选异常数据,则确定所述每个其他数据和所述目标数据的平均值,判断所述目标数据与所述平均值之间的距离是否超过预设数值,若否,则确定所述目标数据为正常数据。
[0129]
进一步地,所述处理器401,还用于若所述目标数据与所述平均值之间的距离超过预设阈值,则采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据是否超过所述内限,则确定所述目标数据为异常数据,若所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0130]
进一步地,所述处理器401,还用于若所述变化量在预设的误差范围内,则判断所述变化量是否在温和误差范围内,其中,所述误差范围的最大值大于所述温和误差范围的最大值,且所述误差范围的最小值小于所述温和误差范围的最小值;
[0131]
若否,则确定所述目标数据为正常数据;
[0132]
若是,则获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,确定所述每个其他数据和所述目标数据的平均值,并采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据与所述平均值之间的距离未超过预设数值,或所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0133]
进一步地,所述处理器401,还用于若确定所述目标数据为正常数据,若所述目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定所述目标数据为异常数据。
[0134]
进一步地,所述处理器401,还用于若确定所述目标数据为正常数据,若所述目标
数据与所述上一数据相同,则确定所述目标数据为异常数据。
[0135]
上述服务器提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0136]
通信接口用于上述电子设备与其他设备之间的通信。
[0137]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0138]
上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0139]
实施例9:
[0140]
在上述各实施例的基础上,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
[0141]
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如下步骤:
[0142]
接收物联设备采集的目标数据及所述目标数据的第一采集时间;
[0143]
获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间;
[0144]
根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据。
[0145]
在一种可能的实施方式中,所述确定所述物联设备采集的数据的单位时间内的变化量之后,所述若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据之前,所述方法还包括:
[0146]
根据所述变化量以及所述上一数据,确定所述物联设备采集的所述目标数据单位时间内相对所述上一数据的目标变化率,采用所述目标变化率对所述变化量进行更新,针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。
[0147]
在一种可能的实施方式中,确定所述变化量不在预设的误差范围内之后,所述确定所述目标数据为异常数据之前,所述方法还包括:
[0148]
获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,采用箱线图法确定所述目标数据及所述每个其他数据对应的外限,若所述目标数据是否超过所述外限,则执行后续确定所述目标数据为异常数据的步骤。
[0149]
在一种可能的实施方式中,所述方法还包括:
[0150]
若所述目标数据并非候选异常数据,则确定所述每个其他数据和所述目标数据的
平均值,判断所述目标数据与所述平均值之间的距离是否超过预设数值,若否,则确定所述目标数据为正常数据。
[0151]
在一种可能的实施方式中,所述方法还包括:
[0152]
若所述目标数据与所述平均值之间的距离超过预设阈值,则采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据是否超过所述内限,则确定所述目标数据为异常数据,若所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0153]
在一种可能的实施方式中,所述方法还包括:
[0154]
若所述变化量在预设的误差范围内,则判断所述变化量是否在温和误差范围内,其中,所述误差范围的最大值大于所述温和误差范围的最大值,且所述误差范围的最小值小于所述温和误差范围的最小值;
[0155]
若否,则确定所述目标数据为正常数据;
[0156]
若是,则获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,确定所述每个其他数据和所述目标数据的平均值,并采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据与所述平均值之间的距离未超过预设数值,或所述目标数据未超过所述内限,则确定所述目标数据为正常数据。
[0157]
在一种可能的实施方式中,若确定所述目标数据为正常数据,所述方法还包括:
[0158]
若所述目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定所述目标数据为异常数据。
[0159]
在一种可能的实施方式中,若确定所述目标数据为正常数据,所述方法还包括:
[0160]
若所述目标数据与所述上一数据相同,则确定所述目标数据为异常数据。
[0161]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0162]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0163]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0164]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
[0165]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:
1.一种异常数据确定方法,其特征在于,所述方法包括:接收物联设备采集的目标数据及所述目标数据的第一采集时间;获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间;根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据。2.根据权利要求1所述的方法,其特征在于,所述确定所述物联设备采集的数据的单位时间内的变化量之后,所述若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据之前,所述方法还包括:根据所述变化量以及所述上一数据,确定所述物联设备采集的所述目标数据单位时间内相对所述上一数据的目标变化率,采用所述目标变化率对所述变化量进行更新,针对更新后的变化量执行后续,若所述变化量不在预设的误差范围,则确定所述目标数据为异常数据的步骤。3.根据权利要求1所述的方法,其特征在于,确定所述变化量不在预设的误差范围内之后,所述确定所述目标数据为异常数据之前,所述方法还包括:获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,采用箱线图法确定所述目标数据及所述每个其他数据对应的外限,若所述目标数据是否超过所述外限,则执行后续确定所述目标数据为异常数据的步骤。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述目标数据并非候选异常数据,则确定所述每个其他数据和所述目标数据的平均值,判断所述目标数据与所述平均值之间的距离是否超过预设数值,若否,则确定所述目标数据为正常数据。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述目标数据与所述平均值之间的距离超过预设阈值,则采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据是否超过所述内限,则确定所述目标数据为异常数据,若所述目标数据未超过所述内限,则确定所述目标数据为正常数据。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述变化量在预设的误差范围内,则判断所述变化量是否在温和误差范围内,其中,所述误差范围的最大值大于所述温和误差范围的最大值,且所述误差范围的最小值小于所述温和误差范围的最小值;若否,则确定所述目标数据为正常数据;若是,则获取所述物联设备采集所述目标数据之前,预设时间段内采集到的每个其他数据,确定所述每个其他数据和所述目标数据的平均值,并采用箱线图法确定所述目标数据及所述每个其他数据对应的内限,若所述目标数据与所述平均值之间的距离未超过预设数值,或所述目标数据未超过所述内限,则确定所述目标数据为正常数据。7.根据权利要求1-6任一项所述的方法,其特征在于,若确定所述目标数据为正常数据,所述方法还包括:若所述目标数据小于规定的最低阈值,或大于规定的最高阈值,则确定所述目标数据为异常数据。
8.根据权利要求1-6任一项所述的方法,其特征在于,若确定所述目标数据为正常数据,所述方法还包括:若所述目标数据与所述上一数据相同,则确定所述目标数据为异常数据。9.一种异常数据确定装置,其特征在于,所述装置包括:接收模块,用于接收物联设备采集的目标数据及所述目标数据的第一采集时间;获取模块,用于获取所述物联设备采集的所述目标数据的上一数据及所述上一数据的第二采集时间;处理模块,用于根据所述目标数据、所述第一采集时间、所述上一数据以及所述第二采集时间,确定所述物联设备采集的数据的单位时间内的变化量,若所述变化量不在预设的误差范围内,则确定所述目标数据为异常数据。10.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-8任一项所述异常数据确定方法的步骤。11.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述权利要求1-8任一项所述异常数据确定方法的步骤。
技术总结
本申请实施例提供了一种异常数据确定方法、装置、设备及介质,用以解决现有技术中在确定异常数据时,并不能准确地进行确定的问题。由于电子设备在接收到物联设备采集的目标数据及目标数据的第一采集时间之后,获取采集目标数据的上一数据及该上一数据的第二采集时间,并根据所述目标数据、第一采集时间、上一数据以及第二采集时间,确定物联设备采集的数据的单位时间内的变化量,若变化量不在预设的误差范围内,则确定目标数据为异常数据,由于电子设备是根据物联设备采集的数据的单位时间内的变化量及预设的误差范围,进行的异常数据的确定,且通常正常数据在单位时间内的变化量不会太大,因此可以准确有效的进行异常数据的确定。确定。确定。
技术研发人员:任泽宇 闫首江
受保护的技术使用者:新奥新智科技有限公司
技术研发日:2023.04.17
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/