确定结构化数据异常值的方法及装置与流程
未命名
09-23
阅读:73
评论:0
1.本技术涉及数据处理领域,具体而言,涉及一种确定结构化数据异常值的方法及装置。
背景技术:
2.在当今数字化时代,结构化数据(即可以使用关系型数据表示,可以用二维表来逻辑表达实现的有规律的数据)的规模和复杂性日益增加,企业等组织需要从大量的数据中提取有价值的信息。然而,在实际应用中,由于数据质量、数据收集方式、不完整数据等多种因素,结构化数据中经常存在异常值。异常数据的存在会导致数据分析结果的偏差,甚至会导致错误决策。因此,异常检测成为人工智能数据分析中一个重要的问题。异常检测,顾名思义,就是识别和检测数据中的异常值,以便将其排除在分析之外。异常值是指与数据集中的大多数值不同的值,可能是由于数据采集错误、设备故障、人为干扰等因素引起的。在结构化数据中,异常值通常表现为数值的突变或离群点,这些离群点可能对数据建模、分析和预测产生影响。对结构化数据的异常检测在生产生活的各个方面都有广泛的应用:电信行业经营风险检测,安全行业的网络安全入侵检测等。
3.相关技术中,一般都是人工检查的方式,对异常值进行筛选,但是这种检测方式成本过很高,效率较差,准确性难以保证。
4.针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
5.本技术实施例提供了一种确定结构化数据异常值的方法及装置,以至少解决相关技术中一般都是人工检查的方式对异常值进行筛选,造成的成本过高,效率较差以及准确性难移保证的技术问题。
6.根据本技术实施例的一个方面,提供了一种确定结构化数据异常分值的方法,包括:获取结构化数据,对结构化数据进行预处理;将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;根据各个异常值确定目标结构化数据的异常评分值。
7.可选地,在基于目标数量个目标异常检测模型对目标结构化数据进行并行分析之前,方法还包括:从多种不同类型的异常检测模型选中目标数量个目标异常检测模型。
8.可选地,从多种不同类型的异常检测模型选中目标数量个的目标异常检测模型,包括:获取多种不同类型的异常检测模型,对每个数据样本点进行分析得到局部异常分矩阵以及局部伪标签矩阵;确定局部分矩阵与局部伪标签矩阵在多个不同维度下对应的各个相关系数,基于各个相关系数构建综合相关系数矩阵,基于综合相关系数确定目标数量个的目标异常检测模型。
9.可选地,基于综合相关系数确定目标数量个的目标异常检测模型,包括:基于综合相关系数矩阵构建直方图,从直方图的最大分箱筛选出目标数量个目标异常检测模型。
10.可选地,根据各个异常值确定目标结构化数据的异常评分值,包括:确定各个异常值的平均值,将平均值作为目标结构化数据的异常评分值。
11.可选地,将预处理后的数据进行高斯秩变换得到目标结构化数据,包括:对预处理后的数据基于指定维度进行排序,确定排序特征数据;计算每个数据中的每个元素在排序特征数据中出现的频率,根据频率的大小将元素进行映射,得到目标结构化数据。
12.可选地,目标异常检测模型包括:基于角度的异常值检测模型、基于距离的knn算法检测模型、基于树模型的孤立森林iforest模型、基于双指向性对抗网络的alad模型、基于自编码器神经网络的autoencoder模型、基于密度的cof模型、基于图神经网络的lunar模型、基于单分类支持向量机的ocsvm模型以及基于多目标生成对抗网络的mo-gaal模型。
13.根据本技术实施例的另一方面,还提供了一种确定结构化数据异常分值的装置,包括:获取模块,用于获取结构化数据,对结构化数据进行预处理;变换模块,用于将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;第一确定模块,用于基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;第二确定模块,用于根据各个异常值确定目标结构化数据的异常评分值。
14.根据本技术实施例的另一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一种确定结构化数据异常分值的方法。
15.根据本技术实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一种确定结构化数据异常分值的方法。
16.在本技术实施例中,采用多个异常检测模型对目标结构化数据进行并行识别的方式,通过获取结构化数据,对结构化数据进行预处理;将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;根据各个异常值确定目标结构化数据的异常评分值,达到了保证结构化数据异常检测效果的目的,从而实现了节省检测成本,提高数据检测效率以及检测准确性的技术效果,进而解决了相关技术中一般都是人工检查的方式对异常值进行筛选,造成的成本过高,效率较差以及准确性难移保证的技术问题。
附图说明
17.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
18.图1是根据本技术实施例的确定结构化数据异常分值的方法的流程示意图;
19.图2是根据本技术实施例的一种确定结构化数据异常分值的装置的结构示意图。
具体实施方式
20.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
21.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.根据本技术实施例,提供了一种确定结构化数据异常分值的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
23.图1是根据本技术实施例的确定结构化数据异常分值的方法,如图1所示,该方法包括如下步骤:
24.步骤s102,获取结构化数据,对结构化数据进行预处理;
25.步骤s104,将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;
26.步骤s106,基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;
27.步骤s108,根据各个异常值确定目标结构化数据的异常评分值。
28.该确定结构化数据异常分值的方法中,采用多个异常检测模型对目标结构化数据进行并行识别的方式,通过获取结构化数据,对结构化数据进行预处理;将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;根据各个异常值确定目标结构化数据的异常评分值,达到了保证结构化数据异常检测效果的目的,从而实现了节省检测成本,提高数据检测效率以及检测准确性的技术效果,进而解决了相关技术中一般都是人工检查的方式对异常值进行筛选,造成的成本过高,效率较差以及准确性难移保证的技术问题。
29.作为一种可选的实施方式,在基于目标数量个目标异常检测模型对目标结构化数据进行并行分析之前,可以从多种不同类型的异常检测模型选中目标数量个目标异常检测模型。需要说明的是,上述不同类型的异常检测模型包括:基于树、距离、角度、密度、神经网络、生成对抗网络等多种异常检测模型。
30.本技术一些实施例中,从多种不同类型的异常检测模型选中目标数量个的目标异常检测模型,包括:获取多种不同类型的异常检测模型,对每个数据样本点进行分析得到局部异常分矩阵以及局部伪标签矩阵;确定局部分矩阵与局部伪标签矩阵在多个不同维度下对应的各个相关系数,基于各个相关系数构建综合相关系数矩阵,基于综合相关系数确定目标数量个的目标异常检测模型。
31.可选地,基于综合相关系数确定目标数量个的目标异常检测模型,包括:基于综合相关系数矩阵构建直方图,从直方图的最大分箱筛选出目标数量个目标异常检测模型。
32.作为一种可选的实施方式,根据各个异常值确定目标结构化数据的异常评分值,包括:确定各个异常值的平均值,将平均值作为目标结构化数据的异常评分值。
33.本技术一些实施例中,将预处理后的数据进行高斯秩变换得到目标结构化数据,包括:对预处理后的数据基于指定维度进行排序,确定排序特征数据;计算每个数据中的每个元素在排序特征数据中出现的频率,根据频率的大小将元素进行映射,得到目标结构化数据。
34.现结合一具体实现方式对上述技术方案进行说明,具体的,该技术方案包括如下步骤:
35.步骤1:数据处理:对输入的原始结构化数据进行处理,去除非正常字符,相应的缺失值处理,特征编码。由于各种原因,原始结构化数据中会有影响模型精准度的非正常字符,缺失值及特征非数值化,需要首先进行处理。
36.步骤2:高斯秩规范化:对预处理后的数据采用rankgauss规范化,充分保留数据次数信息与排序信息的同时,将数据转换成高斯分布,具体步骤包括:
37.步骤2.1:排序:对输入处理后数据进行排序,得到其排序特征。
38.步骤2.2:统计频率:计算每个输入的元素在该组排序特征数据中的出现频率。
39.步骤2.3:数值映射:根据该组特征数据的统计频率长度进行判断:长度为0(全空数据)的直接跳过忽略;长度为1(单值数据)的全部映射为0;长度为2(二值数据)根据排序分别映射为0、1;长度大于2(多值数据)则采用如下步骤:
40.步骤2.3.1:计算数值累计出现次数占所有数值总次数的比例,作为取值在0到1之间的线性等分向量rankv;
41.步骤2.3.2:对线性等分向量rankv按如下公式作线性变换,使得rankv限制在[0.001,0.999],避免数值极端化:
[0042]
rankv=rankv*0.998+1e-3;
[0043]
步骤2.3.3:设定缩放因子scale_factor,利用误差函数的逆函数erfinv对rankv逆向求高斯分布的分位数α,计算公式为:
[0044]
α=scale_factor*erfinv(rankv);
[0045]
步骤2.3.4:计算加权均值,将每个数值求出的分位数α作为数值出现次数的权重,即将分位数与数值的出现次数相乘,再除以总次数作为该组特征数据的加权均值mean。
[0046]
步骤2.3.5:得出规范化后数据,将每个数值前面计算得出的分位数α减去加权均值mean作为该数值的最终映射值,即得到高斯秩规范化后的数据。
[0047]
步骤3:多融合模型计算异常分值:对高斯秩规范化后的数据样本,利用改进的lscp并行框架对多模型进行集成融合,动态的选择组合基本异常检测模型,计算其异常值,
具体步骤包括:
[0048]
步骤3.1:基本异常检测分值计算:选择基于角度的异常检测方法abod,基于距离的knn方法,基于树模型的孤立森林iforest方法,基于双指向性对抗网络的alad方法,基于自编码器神经网络的autoencoder方法,基于密度的cof方法,基于图神经网络的lunar方法,基于单分类支持向量机的ocsvm方法,基于多目标生成对抗网络的mo_gaal方法等m种不同类型的基本异常检测模型,并行训练,分别计算每个数据样本点的异常分值。
[0049]
步骤3.2:选择局部区域:对于每个数据样本点,采用如下步骤生成其局部近邻区域:
[0050]
步骤3.2.1:在全部特征空间中,随机选择t组特征子空间。
[0051]
步骤3.2.2:对于选出的每一组特征子空间,利用该特征子空间,在全部数据样本中找出在该特征子空间中,与当前样本点距离(欧式距离)最近的k个邻居样本。
[0052]
步骤3.2.3:将上述步骤中在所有在全部数据样本挑选出的邻居样本中,出现次数超过t/2的样本,作为该数据样本点的局部区域,这样,每个数据样本点的局部区域的基数s可能不一样,即其中包含的样本数量s可能不一样。
[0053]
步骤3.3:计算局部异常分矩阵:对每个数据样本点,在上述选择的局部区域内,利用步骤3.1中计算得出的m个基本异常检测模型的异常分值,分别得到局部区域内每个样本点的异常分值,这样计算得出一个s*m的局部异常分矩阵r。
[0054]
步骤3.4:生成局部伪标签矩阵:对上述步骤中生成的s*m的局部异常分矩阵中的每一个数据样本点,即局部区域中的每个数据样本点,取m个模型中异常分的最大值生成局部伪标签,即得到s*1的局部伪标签矩阵f。
[0055]
步骤3.5:加权综合相关系数计算:对上述两步骤中分别得到的该数据样本点的局部异常分矩阵r与局部伪标签矩阵f,利用如下公式计算得出该数据样本点的加权综合相关系数矩阵:
[0056]
c=w1*p
r,f
+w2*s
r,f
+w3*k
r,f
;
[0057]
其中,w1、w2、w3为权重参数,p
r,f
为局部异常分矩阵r与局部伪标签矩阵f的皮尔逊相关系数,s
r,f
为局部异常分矩阵r与局部伪标签矩阵f的斯皮尔曼相关系数,k
r,f
为局部异常分矩阵r与局部伪标签矩阵f的肯德尔相关系数。
[0058]
步骤3.6:动态选择集成融合的基本模型:根据数据样本点的加权综合相关系数矩阵c,构建直方图,将直方图的最大分箱中的n(n≤m)个基本异常检测模型选出,作为该数据样本点的n个集成融合计算异常分值的基本模型(对不同的数据样本点,选择出的n个基本模型的数量与种类都可能是不同的),这样,每个数据样本点就依据局部特性在全部m个基本异常检测模型中动态选择出n个适用的基本模型。
[0059]
步骤3.7:计算异常分值:对每个数据样本点,将动态选择出的n个基本模型的平均异常分值作为该数据样本点最终异常分值s。
[0060]
步骤4:确定异常数据:根据上述步骤计算得到的每个数据样本点的异常分数值s,取超过设定阈值或者取异常分数高的一定数量(也可为一定比例)的数据点为异常样本,即得出异常检测结果。
[0061]
需要说明的是,目标异常检测模型包括:基于角度的异常值检测模型、基于距离的knn算法检测模型、基于树模型的孤立森林iforest模型、基于双指向性对抗网络的alad模
型、基于自编码器神经网络的autoencoder模型、基于密度的cof模型、基于图神经网络的lunar模型、基于单分类支持向量机的ocsvm模型以及基于多目标生成对抗网络的mo-gaal模型。
[0062]
以下结合江苏电信经营领域风险防控大数据项目这一应用场景,对上述技术方案进行说明。
[0063]
1.对提取的营业员行为数据进行处理。
[0064]
可以从江苏电信大数据平台提取营业员当月的行为数据,包括员工id、bss渠道id、代理商渠道id、代理商名称、低价宽带过户工单数、夜间办卡量、返销账金额、异常年龄办卡量、小额销售品订购数等共计32个特征字段,共25841条数据。对此结构化数据去除非正常字符,填充缺失值并进行特征编码。
[0065]
2.高斯秩规范化。
[0066]
将预处理后的营业员行为结构化数据进行高斯秩规范化,由于高斯秩规范化是对一维列表进行处理的,因此将每一维度的特征分别进行列表数值元素提取,分别进行排序、统计频率、数值映射,循环遍历每一维的特征,得出高斯秩规范化后的数据。
[0067]
3.异常分数值计算。
[0068]
可以选择基于角度的异常检测方法abod(设置n_neighbors=20),基于距离的knn方法(设置n_neighbors=25),基于树模型的孤立森林iforest方法(设置n_estimators=50,bootstrap=true),基于双指向性对抗网络的alad方法(设置epochs=200),基于自编码器神经网络的autoencoder方法(设置epochs=100),基于密度的cof方法(设置n_neighbors=10),基于图神经网络的lunar方法(设置n_neighbours=5,n_epochs=200),基于单分类支持向量机的ocsvm方法(设置max_iter=-1),基于多目标生成对抗网络的mo_gaal方法(设置k=10,stop_epochs=20,lr_d=0.01,lr_g=0.0001,momentum=0.9)9种不同类型的基本异常检测模型进行并行集成,将高斯秩规范化后的营业员行为结构化数据输入,设置random_state为42,对每个数据样本点,在其局部区域内根据局部异常分与局部伪标签得出的综合加权相关系数动态从上述9个基本并行模型中选择出最优的n个,然后将这n个基本模型的异常分均值作为该数据样本点的异常分,这样计算得出每个数据样本点的异常分值。
[0069]
4.取异常样本点。
[0070]
根据业务实际需求,取异常分值最高的3000条数据形成营业员异常操作行为风险点派单数据,形成“营业员异常操作风险挖掘”风险点,在江苏电信经营领域风险防控大数据平台进行派单核查,及时进行风险原因反馈。
[0071]
图2是根据本技术实施例的一种确定结构化数据异常分值的装置,如图2所示,该装置包括:
[0072]
获取模块20,用于获取结构化数据,对结构化数据进行预处理;
[0073]
变换模块22,用于将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;
[0074]
第一确定模块24,用于基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;
[0075]
第二确定模块26,用于根据各个异常值确定目标结构化数据的异常评分值。
[0076]
该确定结构化数据异常分值的装置中,获取模块20,用于获取结构化数据,对结构化数据进行预处理;变换模块22,用于将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;第一确定模块24,用于基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;第二确定模块26,用于根据各个异常值确定目标结构化数据的异常评分值,达到了保证结构化数据异常检测效果的目的,从而实现了节省检测成本,提高数据检测效率以及检测准确性的技术效果,进而解决了相关技术中一般都是人工检查的方式对异常值进行筛选,造成的成本过高,效率较差以及准确性难移保证的技术问题。
[0077]
根据本技术实施例的另一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一种确定结构化数据异常分值的方法。
[0078]
具体地,上述存储介质用于存储以下功能的程序指令,实现以下功能:
[0079]
获取结构化数据,对结构化数据进行预处理;将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;根据各个异常值确定目标结构化数据的异常评分值。
[0080]
根据本技术实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一种确定结构化数据异常分值的方法。
[0081]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0082]
在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0083]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0084]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0085]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0086]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0087]
以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
技术特征:
1.一种确定结构化数据异常分值的方法,其特征在于,包括:获取结构化数据,对所述结构化数据进行预处理;将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,所述目标结构化数据保留有所述结构化数据的次数信息以及排序信息;基于目标数量个目标异常检测模型对所述目标结构化数据进行并行分析,确定所述目标异常检测模型得到的各个异常值,其中,所述异常值越高,所述结构化数据为异常数据的可能性越大;根据所述各个异常值确定所述目标结构化数据的异常评分值。2.根据权利要求1所述的方法,其特征在于,在基于目标数量个所述目标异常检测模型对所述目标结构化数据进行并行分析之前,所述方法还包括:从多种不同类型的异常检测模型选中所述目标数量个目标异常检测模型。3.根据权利要求2所述的方法,其特征在于,从所述多种不同类型的异常检测模型选中目标数量个的目标异常检测模型,包括:获取多种不同类型的异常检测模型,对每个数据样本点进行分析得到局部异常分矩阵以及局部伪标签矩阵;确定所述局部分矩阵与所述局部伪标签矩阵在多个不同维度下对应的各个相关系数,基于所述各个相关系数构建综合相关系数矩阵,基于综合相关系数确定所述目标数量个的所述目标异常检测模型。4.根据权利要求3所述的方法,其特征在于,基于所述综合相关系数确定所述目标数量个的所述目标异常检测模型,包括:基于所述综合相关系数矩阵构建直方图,从所述直方图的最大分箱筛选出所述目标数量个所述目标异常检测模型。5.根据权利要求1所述的方法,其特征在于,根据所述各个异常值确定所述目标结构化数据的异常评分值,包括:确定所述各个异常值的平均值,将所述平均值作为所述目标结构化数据的异常评分值。6.根据权利要求1所述的方法,其特征在于,将预处理后的数据进行高斯秩变换得到目标结构化数据,包括:对所述预处理后的数据基于指定维度进行排序,确定排序特征数据;计算每个所述数据中的每个元素在所述排序特征数据中出现的频率,根据所述频率的大小将所述元素进行映射,得到所述目标结构化数据。7.根据权利要求1至权利要求6任意一项所述的方法,其特征在于,所述目标异常检测模型包括:基于角度的异常值检测模型、基于距离的knn算法检测模型、基于树模型的孤立森林iforest模型、基于双指向性对抗网络的alad模型、基于自编码器神经网络的autoencoder模型、基于密度的cof模型、基于图神经网络的lunar模型、基于单分类支持向量机的ocsvm模型以及基于多目标生成对抗网络的mo-gaal模型。8.一种确定结构化数据异常分值的装置,其特征在于,包括:获取模块,用于获取结构化数据,对所述结构化数据进行预处理;变换模块,用于将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,所述目
标结构化数据保留有所述结构化数据的次数信息以及排序信息;第一确定模块,用于基于目标数量个目标异常检测模型对所述目标结构化数据进行并行分析,确定所述目标异常检测模型得到的各个异常值,其中,所述异常值越高,所述结构化数据为异常数据的可能性越大;第二确定模块,用于根据所述各个异常值确定所述目标结构化数据的异常评分值。9.一种非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述确定结构化数据异常分值的方法。10.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的确定结构化数据异常分值的方法。
技术总结
本申请公开了一种确定结构化数据异常值的方法及装置。其中,该方法包括:获取结构化数据,对结构化数据进行预处理;将预处理后的数据进行高斯秩变换得到目标结构化数据,其中,目标结构化数据保留有结构化数据的次数信息以及排序信息;基于目标数量个目标异常检测模型对目标结构化数据进行并行分析,确定目标异常检测模型得到的各个异常值,其中,异常值越高,结构化数据为异常数据的可能性越大;根据各个异常值确定目标结构化数据的异常评分值。本申请解决了相关技术中一般都是人工检查的方式对异常值进行筛选,造成的成本过高,效率较差以及准确性难移保证的技术问题。较差以及准确性难移保证的技术问题。较差以及准确性难移保证的技术问题。
技术研发人员:马俊 储军梅 陈爱华
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.06.26
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/