聚类结果处理方法、装置、电子设备及存储介质与流程

未命名 09-22 阅读:75 评论:0


1.本公开涉及人工智能技术领域,特别涉及机器学习以及大数据处理等领域的聚类结果处理方法、装置、电子设备及存储介质。


背景技术:

2.在实际应用中,可采用无监督聚类算法对待处理的样本进行聚类,待处理的样本可为待处理的人群,那么对待处理的样本进行聚类即指进行人群分组,相应地,可评估聚类结果是否合理。


技术实现要素:

3.本公开提供了聚类结果处理方法、装置、电子设备及存储介质。
4.一种聚类结果处理方法,包括:
5.获取对待处理的样本进行无监督聚类后的聚类结果,所述聚类结果包括至少两个类簇;
6.获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在所述指标变量上的区分度信息,其中,所述聚类变量以及所述指标变量均为所述样本的变量,所述聚类变量为参与聚类的变量,所述指标变量为用于评估所述聚类结果的变量;
7.根据所述评估信息确定出所述聚类结果是否合理。
8.一种聚类结果处理装置,包括:结果获取模块、信息获取模块以及结果评估模块;
9.所述结果获取模块,用于获取对待处理的样本进行无监督聚类后的聚类结果,所述聚类结果包括至少两个类簇;
10.所述信息获取模块,用于获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在所述指标变量上的区分度信息,其中,所述聚类变量以及所述指标变量均为所述样本的变量,所述聚类变量为参与聚类的变量,所述指标变量为用于评估所述聚类结果的变量;
11.所述结果评估模块,用于根据所述评估信息确定出所述聚类结果是否合理。
12.一种电子设备,包括:
13.至少一个处理器;以及
14.与所述至少一个处理器通信连接的存储器;其中,
15.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
17.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如以上所述的方法。
18.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
19.附图用于更好地理解本方案,不构成对本公开的限定。其中:
20.图1为本公开所述聚类结果处理方法实施例的流程图;
21.图2为本公开所述二维平面图的示意图;
22.图3为本公开所述决策线的示意图;
23.图4为本公开所述表一所示样本占比对应的示意图;
24.图5为本公开所述聚类结果处理装置实施例500的组成结构示意图;
25.图6示出了可以用来实施本公开的实施例的电子设备600的示意性框图。
具体实施方式
26.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
27.另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
28.图1为本公开所述聚类结果处理方法实施例的流程图。如图1所示,包括以下具体实现方式。
29.在步骤101中,获取对待处理的样本进行无监督聚类后的聚类结果,聚类结果包括至少两个类簇。
30.在步骤102中,获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在指标变量上的区分度信息,其中,聚类变量以及指标变量均为样本的变量,聚类变量为参与聚类的变量,指标变量为用于评估聚类结果的变量。
31.在步骤103中,根据获取到的评估信息确定出聚类结果是否合理。
32.如前所述,在获取到聚类结果后,需要评估聚类结果是否合理,但目前还没有一种较好的评估方式。
33.而采用上述方法实施例所述方案,可根据类簇间的区分度信息、类簇内部的指标变量分布信息以及聚类变量在指标变量上的区分度信息中的一种或多种,对无监督聚类得到的聚类结果进行评估,即实现了对于聚类结果的有效评估,并具有较好的准确性等。
34.比如,当需要进行人群分组时,所述人群即为待处理的样本。如何对待处理的样本进行无监督聚类不作限制,即对于无监督聚类算法的具体实现不作限制。通过无监督聚类,可得到由多个类簇组成的聚类结果,每个类簇中分别包括一定数量的样本。进一步地,可按照本公开所述方式来评估聚类结果是否合理。
35.另外,可将样本的变量分为两类,一类为聚类变量,另一类为指标变量。其中,聚类变量为参与聚类的变量,即可借助于聚类变量来实现待处理的样本的无监督聚类,指标变
量为用于评估聚类结果的变量,指标变量不参与聚类,可理解为业务指标。
36.比如,假设待处理的样本为人群,那么聚类变量可为年龄、性别、学历等,指标变量可为收入水平等,相应地,可通过无监督聚类,将人群分组为高收入群体、中收入群体以及低收入群体等,每个群体即为一个类簇。其中,年龄的取值可包括20(表示一个年龄段)、30、40等,性别的取值可包括男和女等。
37.为评估聚类结果是否合理,可获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在指标变量上的区分度信息。优选地,可分别获取这三种评估信息。
38.相应地,可根据获取到的评估信息确定出聚类结果是否合理。优选地,响应于获取到的评估信息均符合对应的评估要求,可确定聚类结果合理,否则,可确定聚类结果不合理。即可借助于获取到的评估信息,简单方便地确定出聚类结果是否合理。
39.若聚类结果不合理,后续如何处理不作限制,比如,可对无监督聚类算法进行优化,并重新进行无监督聚类,或者,可按照预定策略对当前的聚类结果进行调整等。
40.以下分别对各评估信息的获取方式以及对应的评估要求进行说明。
41.1)类簇间的区分度信息
42.优选地,聚类变量的数量为l,l为大于一的正整数,具体取值可根据实际需要而定。针对每个样本,可分别进行以下处理:响应于聚类变量的数量为两个,将两个聚类变量作为目标变量,响应于聚类变量的数量大于两个,通过主成分分析(pca,principal componentanalysis)方式将聚类变量降维成两个变量,将降维结果作为目标变量,根据该样本的两个目标变量,将该样本映射到二维平面图中,二维平面图的横坐标和纵坐标分别对应于两个目标变量,完成各样本的映射后,可分别将两两不同类簇组成类簇对,并可根据二维平面图中的映射结果,分别获取同一类簇对中的两个类簇之间的重合度,作为所需的类簇间的区分度信息。
43.也就是说,若聚类变量的数量为两个,那么可直接将两个聚类变量作为目标变量,若聚类变量的数量大于两个,如为三个,那么可通过pca方式,将三个聚类变量降维成两个变量,进而将降维得到的两个变量作为目标变量。
44.进一步地,针对每个样本,可分别根据两个目标变量,将其映射到二维平面图中,即将各样本分别绘制到二维平面图中。
45.图2为本公开所述二维平面图的示意图。如图2所示,假设聚类结果中包括4个类簇,分别为类簇1、类簇2、类簇3和类簇4,每个类簇中均包括多个样本,图中所示的每个小圆点分别表示一个样本。
46.针对图2中所示的4个类簇,可将两两不同类簇组成类簇对,从而得到以下6个类簇对:类簇1和类簇2组成的类簇对、类簇1和类簇3组成的类簇对、类簇1和类簇4组成的类簇对、类簇2和类簇3组成的类簇对、类簇2和类簇4组成的类簇对以及类簇3和类簇4组成的类簇对。相应地,可分别获取各类簇对中的两个类簇之间的重合度,从而可得到6个重合度,进而可将这6个重合度作为所需的类簇间的区分度信息。
47.通过上述处理,可确定出两两类簇之间的重合度,通过所述重合度,可直观地反映出类簇之间的区分度,类簇之间的重合度越低,通常说明区分度越好。
48.优选地,针对每个类簇对,可分别进行以下处理:获取其中的两个类簇的并集面积
以及交集面积,并获取交集面积与并集面积的比值,将所述比值作为该类簇对中的两个类簇之间的重合度。
49.即两个类簇之间的重合度=两个类簇的交集面积/两个类簇的并集面积。
50.优选地,可将两个类簇中包括的样本数量之和作为并集面积,另外,可利用预先训练得到的支持向量机(svm,support vectormachine)模型,确定出两个类簇在二维平面图中的决策线,所述决策线用于划分出两个类簇分别所在区域,并分别统计出两个类簇中位于对方所在区域中的样本数量,将统计结果之和作为交集面积。
51.以图2中所示的类簇2和类簇3组成的类簇对为例,可将类簇2和类簇3中包括的样本数量之和作为两个类簇的并集面积,另外,可根据类簇2和类簇3中的样本的聚类变量等,利用svm模型确定出类簇2和类簇3在二维平面图中的决策线,如图3所示,图3为本公开所述决策线的示意图,之后,可分别统计类簇2(假设如图3中的黑色小圆点所示)中位于类簇3所在区域中的样本数量以及类簇3(假设如图3中的灰色小圆点所示)中位于类簇2所在区域中的样本数量,假设统计结果分别为3和1,那么类簇2和类簇3的交集面积即为3+1=4。
52.上述处理方式中,只需进行一些简单的统计及相加运算等操作,即可确定出同一类簇对中的两个类簇的并集面积以及交集面积,进而可得到两个类簇之间的重合度,从而提升了处理效率,并确保了得到的重合度的准确性,为后续处理奠定了良好的基础等。
53.优选地,对于类簇间的区分度信息,符合对应的评估要求可包括:从获取到的重合度中选出取值最大的重合度,响应于取值最大的重合度小于第一阈值,确定符合对应的评估要求,否则,确定不符合对应的评估要求。
54.第一阈值的具体取值可根据实际需要而定,如可为0.1。假设共获取到了6个重合度,那么可从这6个重合度中选出取值最大的一个,用max_cover表示,若max_cover《0.1,那么则可确定符合对应的评估要求。
55.max_cover《0.1,说明类簇间的区分度较好,相应地,可认为基于类簇间的区分度信息对聚类结果进行的评估通过。
56.2)类簇内的指标变量分布信息
57.优选地,指标变量的数量为m,m为正整数,具体取值可根据实际需要而定,另外,可分别获取不同类簇对应于不同指标变量的分布信息,作为所需的类簇内的指标变量分布信息。
58.比如,假设指标变量的数量为一个,类簇的数量为四个,那么可分别获取四个类簇对应于该指标变量的分布信息,再比如,假设指标变量的数量两个,为便于表述,分别称为指标变量1和指标变量2,那么可分别获取四个类簇对应于指标变量1的分布信息以及四个类簇对应于指标变量2的分布信息。
59.优选地,针对任一指标变量,可分别进行以下处理:获取该指标变量对应的n个科尔莫戈罗夫-斯米尔诺夫(ks,kolmogorov-smirnov)检验结果,n表示类簇的数量,为大于一的正整数,所述检验结果表示对应类簇中的样本的该指标变量是否服从正态分布。
60.比如,假设仅存在一个指标变量,且该指标变量为收入水平,并假设存在四个类簇,分别为类簇1、类簇2、类簇3和类簇4,那么针对类簇1,可获取其ks检验结果,得到的ks检验结果用于表示类簇1中的各样本的收入水平是否服从正态分布,针对类簇2,也可获取其ks检验结果,得到的ks检验结果用于表示类簇2中的各样本的收入水平是否服从正态分布,
类簇3和类簇4类推。
61.若存在两个甚至更多个指标变量,那么针对每个指标变量,可分别按照上述方式进行处理。
62.本公开中所述的ks检验结果是指ks检验的p值,ks检验通常输出两个结果,一个为检验统计量,另一个为p值,p值用于反映正态分布情况。
63.ks检验为成熟的检验方法,相应地,通过上述处理,可借助于ks检验结果,高效准确地确定出类簇内的指标变量分布信息。
64.优选地,对于类簇内的指标变量分布信息,符合对应的评估要求可包括:响应于获取到的各ks检验结果结果均大于第二阈值,确定符合对应的评估要求,否则,确定不符合对应的评估要求。
65.第二阈值的具体取值可根据实际需要而定,如可为0.05。假设共获取到了8个ks检验结果,那么当这8个ks检验结果均大于第二阈值时,则可确定符合对应的评估要求。
66.ks检验结果的取值越大,说明服从正态分布的可能性越大,相应地,若各ks检验结果结果均大于第二阈值,则可认为基于类簇内的指标变量分布信息对聚类结果进行的评估通过。
67.3)聚类变量在指标变量上的区分度信息
68.优选地,指标变量的数量为m,m为正整数,聚类变量的数量为l,l为大于一的正整数,可利用l个聚类变量以及m个指标变量组成l*m个变量对,每个变量对中分别包括一个聚类变量以及一个指标变量,并可分别获取不同变量对对应的群体稳定性指标(psi,population stability index),作为所需的聚类变量在指标变量上的区分度信息。
69.优选地,获取任一变量对对应的psi的方式可包括:获取该变量对中的第一变量的所有可能取值,作为目标取值,第一变量为该变量对中的聚类变量,该变量对中的指标变量为第二变量;针对任一目标取值,分别进行以下处理:分别统计第一变量为该目标取值的样本中、第二变量分别位于q个取值区间中的样本数量,根据统计结果确定出各取值区间的样本占比,q为大于一的正整数,表示第二变量对应的取值区间数量,且任意两个取值区间均不存在重叠;按照预定顺序对各目标取值进行排序,根据各目标取值对应的样本占比,分别确定出每两个相邻的目标取值对应的psi,作为该变量对对应的psi。
70.比如,假设聚类变量的数量为3,指标变量的数量为1,那么可得到3个变量对,假设某一变量对中的聚类变量为学历,指标变量为收入水平,并假设学历的目标取值包括:高中及以下、大专和本科及以上,收入水平对应的取值区间包括:0~2499、2500~10000以及10000以上,那么经统计,可得到如表一所示的各样本占比。
[0071][0072]
表一样本占比
[0073]
相应地,图4为本公开所述表一所示样本占比对应的示意图。如图4所示,其中的横轴表示不同的目标取值,纵轴表示不同的样本占比。
[0074]
如表一和图4所示,x表示聚类变量如学历,y表示指标变量如收入水平,目标取值1、目标取值2和目标取值3可分别表示高中及以下、大专和本科及以上,取值区间1、取值区间2和取值区间3可分别表示0~2499、2500~10000以及10000以上,那么针对目标取值1,可分别统计学历为高中及以下的样本中、收入水平分别位于取值区间1、取值区间2和取值区间3中的样本数量,比如,学历为高中及以下的样本数量为1000个,其中,收入水平位于取值区间1中的样本数量为600个,收入水平位于取值区间2中的样本数量为300个,收入水平位于取值区间3中的样本数量为100个,那么取值区间1的样本占比即为0.6,如图4中所示的左侧的大矩形框(从上到下包括3个小矩形框)中的最下面的小矩形框所示,取值区间2的样本占比即为0.3,如图4中所示的左侧的大矩形框中的中间的小矩形框所示,取值区间3的样本占比即为0.1,如图4中所示的左侧的大矩形框中的最上面的小矩形框所示,按照类似的方式,可分别得到目标取值2和目标取值3对应的各取值区间的样本占比,如表一和图4中所示。
[0075]
进一步地,可按照预定顺序对各目标取值进行排序,如何进行排序可根据实际需要而定,比如,可如表一中所示,按照目标取值从小到大的顺序进行排序,并可根据各目标取值对应的样本占比,分别确定出每两个相邻的目标取值对应的psi。
[0076]
如表一所示,目标取值1和目标取值2为两个相邻的目标取值,那么可按照以下方式计算出对应的psi:(0.6-0.4)*ln(0.6/0.4)+(0.3-0.4)*ln(0.3/0.4)+(0.1-0.2)*ln(0.1/0.2),即将计算结果作为psi。
[0077]
如表一所示,目标取值2和目标取值3也为两个相邻的目标取值,那么可按照以下方式计算出对应的psi:(0.4-0.2)*ln(0.4/0.2)+(0.4-0.4)*ln(0.4/0.4)+(0.2-0.4)*ln(0.2/0.4),即将计算结果作为psi。
[0078]
通过上述方式,可借助于psi,高效准确地确定出聚类变量在指标变量上的区分度信息。
[0079]
优选地,对于聚类变量在指标变量上的区分度信息,符合对应的评估要求可包括:响应于获取到的各psi均大于第三阈值,确定符合对应的评估要求,否则,确定不符合对应的评估要求。
[0080]
第三阈值的具体取值可根据实际需要而定,如可为0.1。假设共获取到了4个psi,那么当这4个psi均大于第三阈值时,则可确定符合对应的评估要求。
[0081]
psi的取值越大,说明聚类变量在指标变量上的区分度越大,相应地,若各psi均大于第三阈值,则可认为基于聚类变量在指标变量上的区分度信息对聚类结果进行的评估通过。
[0082]
假设获取到的评估信息同时包括类簇间的区分度信息、类簇内的指标变量分布信息以及聚类变量在所述指标变量上的区分度信息,那么只有当三种评估均通过时,才会认为聚类结果合理,否则,可认为聚类结果不合理。
[0083]
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明
书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
[0084]
总之,采用本公开方法实施例所述方案,可高效准确地实现对于无监督聚类的聚类结果的合理性评估。
[0085]
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
[0086]
图5为本公开所述聚类结果处理装置实施例500的组成结构示意图。如图5所示,包括:结果获取模块501、信息获取模块502以及结果评估模块503。
[0087]
结果获取模块501,用于获取对待处理的样本进行无监督聚类后的聚类结果,聚类结果包括至少两个类簇。
[0088]
信息获取模块502,用于获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在指标变量上的区分度信息,其中,聚类变量以及指标变量均为样本的变量,聚类变量为参与聚类的变量,指标变量为用于评估聚类结果的变量。
[0089]
结果评估模块503,用于根据获取到的评估信息确定出聚类结果是否合理。
[0090]
采用上述装置实施例所述方案,可根据类簇间的区分度信息、类簇内部的指标变量分布信息以及聚类变量在指标变量上的区分度信息中的一种或多种,对无监督聚类得到的聚类结果进行评估,即实现了对于聚类结果的有效评估,并具有较好的准确性等。
[0091]
优选地,结果评估模块503响应于获取到的评估信息均符合对应的评估要求,可确定聚类结果合理,否则,可确定聚类结果不合理。
[0092]
另外,优选地,聚类变量的数量为l,l为大于一的正整数,信息获取模块502可针对每个样本,分别进行以下处理:响应于聚类变量的数量为两个,将聚类变量作为目标变量,响应于聚类变量的数量大于两个,通过pca方式将聚类变量降维成两个变量,将降维结果作为目标变量,根据该样本的两个目标变量,将该样本映射到二维平面图中,二维平面图的横坐标和纵坐标分别对应于两个目标变量,完成各样本的映射后,可分别将两两不同类簇组成类簇对,并可根据二维平面图中的映射结果,分别获取同一类簇对中的两个类簇之间的重合度,作为所需的类簇间的区分度信息。
[0093]
也就是说,若聚类变量的数量为两个,那么可直接将两个聚类变量作为目标变量,若聚类变量的数量大于两个,如为三个,那么可通过pca方式,将三个聚类变量降维成两个变量,将降维得到的两个变量作为目标变量。
[0094]
优选地,针对每个类簇对,信息获取模块502可分别进行以下处理:获取其中的两个类簇的并集面积以及交集面积,并获取交集面积与并集面积的比值,将所述比值作为该类簇对中的两个类簇之间的重合度。
[0095]
即两个类簇之间的重合度=两个类簇的交集面积/两个类簇的并集面积。
[0096]
优选地,信息获取模块502可将两个类簇中包括的样本数量之和作为并集面积,另外,可利用预先训练得到的svm模型,确定出两个类簇在二维平面图中的决策线,所述决策线用于划分出两个类簇分别所在区域,并分别统计出两个类簇中位于对方所在区域中的样本数量,将统计结果之和作为交集面积。
[0097]
相应地,优选地,对于类簇间的区分度信息,结果评估模块503确定符合对应的评
估要求的方式可包括:从获取到的重合度中选出取值最大的重合度,响应于选出的重合度小于第一阈值,确定符合对应的评估要求,否则,确定不符合对应的评估要求。
[0098]
优选地,指标变量的数量为m,m为正整数,信息获取模块502可分别获取不同类簇对应于不同指标变量的分布信息,作为所需的类簇内的指标变量分布信息。
[0099]
优选地,针对任一指标变量,信息获取模块502可分别进行以下处理:获取该指标变量对应的n个ks检验结果,n表示类簇的数量,为大于一的正整数,所述检验结果表示对应类簇中的样本的该指标变量是否服从正态分布。
[0100]
相应地,优选地,对于类簇内的指标变量分布信息,结果评估模块503确定符合对应的评估要求的方式可包括:响应于获取到的各ks检验结果结果均大于第二阈值,确定符合对应的评估要求,否则,确定不符合对应的评估要求。
[0101]
优选地,指标变量的数量为m,m为正整数,聚类变量的数量为l,l为大于一的正整数,信息获取模块502可利用l个聚类变量以及m个指标变量组成l*m个变量对,每个变量对中分别包括一个聚类变量以及一个指标变量,并可分别获取不同变量对对应的psi,作为所需的聚类变量在指标变量上的区分度信息。
[0102]
优选地,信息获取模块502针对任一变量对,可获取该变量对中的第一变量的所有可能取值,作为目标取值,第一变量为该变量对中的聚类变量,该变量对中的指标变量为第二变量;针对任一目标取值,可分别进行以下处理:分别统计第一变量为该目标取值的样本中、第二变量分别位于q个取值区间中的样本数量,根据统计结果确定出各取值区间的样本占比,q为大于一的正整数,表示第二变量对应的取值区间数量,且任意两个取值区间均不存在重叠;按照预定顺序对各目标取值进行排序,根据各目标取值对应的样本占比,分别确定出每两个相邻的目标取值对应的psi,作为该变量对对应的psi。
[0103]
相应地,对于聚类变量在指标变量上的区分度信息,结果评估模块503确定符合对应的评估要求的方式可包括:响应于获取到的各psi均大于第三阈值,确定符合对应的评估要求,否则,确定不符合对应的评估要求。
[0104]
图5所示装置实施例的具体工作流程可参照前述方法实施例中的相关说明,不再赘述。
[0105]
总之,采用本公开装置实施例所述方案,可高效准确地实现对于无监督聚类的聚类结果的合理性评估。
[0106]
本公开所述方案可应用于人工智能领域,特别涉及机器学习以及大数据处理等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术,人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术,人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0107]
本公开所述实施例中的样本以及变量等并不是针对某一特定用户的,并不能反映出某一特定用户的个人信息。本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0108]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0109]
图6示出了可以用来实施本公开的实施例的电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0110]
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0111]
设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0112]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如本公开所述的方法。例如,在一些实施例中,本公开所述的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行本公开所述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开所述的方法。
[0113]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0114]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0115]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供
指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0116]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0117]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0118]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0119]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0120]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:
1.一种聚类结果处理方法,包括:获取对待处理的样本进行无监督聚类后的聚类结果,所述聚类结果包括至少两个类簇;获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在所述指标变量上的区分度信息,其中,所述聚类变量以及所述指标变量均为所述样本的变量,所述聚类变量为参与聚类的变量,所述指标变量为用于评估所述聚类结果的变量;根据所述评估信息确定出所述聚类结果是否合理。2.根据权利要求1所述的方法,其中,所述根据所述评估信息确定出所述聚类结果是否合理包括:响应于获取到的评估信息均符合对应的评估要求,确定所述聚类结果合理。3.根据权利要求2所述的方法,其中,所述聚类变量的数量为l,l为大于一的正整数;获取所述类簇间的区分度信息包括:针对所述样本,分别进行以下处理:响应于所述聚类变量的数量为两个,将所述聚类变量作为目标变量,响应于所述聚类变量的数量大于两个,通过主成分分析方式将所述聚类变量降维成两个变量,将降维结果作为所述目标变量,根据所述样本的两个目标变量,将所述样本映射到二维平面图中,所述二维平面图的横坐标和纵坐标分别对应于两个目标变量;分别将两两不同类簇组成类簇对,并根据所述二维平面图中的映射结果,分别获取同一类簇对中的两个类簇之间的重合度,作为所述类簇间的区分度信息。4.根据权利要求3所述的方法,其中,所述分别获取同一类簇对中的两个类簇之间的重合度包括:分别获取同一类簇对中的两个类簇的并集面积以及交集面积,并获取所述交集面积与所述并集面积的比值,将所述比值作为所述重合度。5.根据权利要求4所述的方法,其中,获取两个类簇的所述并集面积包括:将两个类簇中包括的样本数量之和作为所述并集面积;获取两个类簇的所述交集面积包括:利用预先训练得到的支持向量机模型,确定出两个类簇在所述二维平面图中的决策线,所述决策线用于划分出两个类簇分别所在区域,并分别统计出两个类簇中位于对方所在区域中的样本数量,将统计结果之和作为所述交集面积。6.根据权利要求3、4或5所述的方法,其中,对于所述类簇间的区分度信息,所述符合对应的评估要求包括:从获取到的重合度中选出取值最大的重合度,响应于选出的重合度小于第一阈值,确定符合对应的评估要求。7.根据权利要求2所述的方法,其中,所述指标变量的数量为m,m为正整数;获取所述类簇内的指标变量分布信息包括:分别获取不同类簇对应于不同指标变量的分布信息,作为所述类簇内的指标变量分布信息。
8.根据权利要求7所述的方法,其中,所述分别获取不同类簇对应于不同指标变量的分布信息包括:针对任一指标变量,分别进行以下处理:获取所述指标变量对应的n个科尔莫戈罗夫-斯米尔诺夫检验结果,n表示类簇的数量,为大于一的正整数,所述检验结果表示对应类簇中的样本的所述指标变量是否服从正态分布。9.根据权利要求8所述的方法,其中,对于所述类簇内的指标变量分布信息,所述符合对应的评估要求包括:响应于获取到的各检验结果结果均大于第二阈值,确定符合对应的评估要求。10.根据权利要求2所述的方法,其中,所述指标变量的数量为m,m为正整数;所述聚类变量的数量为l,l为大于一的正整数;获取所述聚类变量在所述指标变量上的区分度信息包括:利用l个所述聚类变量以及m个所述指标变量组成l*m个变量对,每个变量对中分别包括一个聚类变量以及一个指标变量,分别获取不同变量对对应的群体稳定性指标,作为所述聚类变量在所述指标变量上的区分度信息。11.根据权利要求10所述的方法,其中,获取任一变量对对应的所述群体稳定性指标的方式包括:获取所述变量对中的第一变量的所有可能取值,作为目标取值,所述第一变量为所述变量对中的所述聚类变量,所述变量对中的所述指标变量为第二变量;针对任一目标取值,分别进行以下处理:分别统计所述第一变量为所述目标取值的样本中、所述第二变量分别位于q个取值区间中的样本数量,根据统计结果确定出各取值区间的样本占比,q为大于一的正整数,表示所述第二变量对应的取值区间数量,且任意两个取值区间均不存在重叠;按照预定顺序对各目标取值进行排序,根据各目标取值对应的样本占比,分别确定出每两个相邻的目标取值对应的所述群体稳定性指标,作为所述变量对对应的所述群体稳定性指标。12.根据权利要求10或11所述的方法,其中,对于所述聚类变量在所述指标变量上的区分度信息,所述符合对应的评估要求包括:响应于获取到的各群体稳定性指标均大于第三阈值,确定符合对应的评估要求。13.一种聚类结果处理装置,包括:结果获取模块、信息获取模块以及结果评估模块;所述结果获取模块,用于获取对待处理的样本进行无监督聚类后的聚类结果,所述聚类结果包括至少两个类簇;所述信息获取模块,用于获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在所述指标变量上的区分度信息,其中,所述聚类变量以及所述指标变量均为所述样本的变量,所述聚类变量为参与聚类的变量,所述指标变量为用于评估所述聚类结果的变量;所述结果评估模块,用于根据所述评估信息确定出所述聚类结果是否合理。14.根据权利要求13所述的装置,其中,所述结果评估模块响应于获取到的评估信息均符合对应的评估要求,确定所述聚类结
果合理。15.根据权利要求14所述的装置,其中,所述聚类变量的数量为l,l为大于一的正整数;所述信息获取模块针对所述样本,分别进行以下处理:响应于所述聚类变量的数量为两个,将所述聚类变量作为目标变量,响应于所述聚类变量的数量大于两个,通过主成分分析方式将所述聚类变量降维成两个变量,将降维结果作为所述目标变量,根据所述样本的两个目标变量,将所述样本映射到二维平面图中,所述二维平面图的横坐标和纵坐标分别对应于两个目标变量;分别将两两不同类簇组成类簇对,并根据所述二维平面图中的映射结果,分别获取同一类簇对中的两个类簇之间的重合度,作为所述类簇间的区分度信息。16.根据权利要求15所述的装置,其中,所述信息获取模块分别获取同一类簇对中的两个类簇的并集面积以及交集面积,并获取所述交集面积与所述并集面积的比值,将所述比值作为所述重合度。17.根据权利要求16所述的装置,其中,所述信息获取模块将两个类簇中包括的样本数量之和作为所述并集面积,并利用预先训练得到的支持向量机模型,确定出两个类簇在所述二维平面图中的决策线,所述决策线用于划分出两个类簇分别所在区域,并分别统计出两个类簇中位于对方所在区域中的样本数量,将统计结果之和作为所述交集面积。18.根据权利要求15、16或17所述的装置,其中,对于所述类簇间的区分度信息,所述结果评估模块从获取到的重合度中选出取值最大的重合度,响应于选出的重合度小于第一阈值,确定符合对应的评估要求。19.根据权利要求14所述的装置,其中,所述指标变量的数量为m,m为正整数;所述信息获取模块分别获取不同类簇对应于不同指标变量的分布信息,作为所述类簇内的指标变量分布信息。20.根据权利要求19所述的装置,其中,所述信息获取模块针对任一指标变量,分别进行以下处理:获取所述指标变量对应的n个科尔莫戈罗夫-斯米尔诺夫检验结果,n表示类簇的数量,为大于一的正整数,所述检验结果表示对应类簇中的样本的所述指标变量是否服从正态分布。21.根据权利要求20所述的装置,其中,对于所述类簇内的指标变量分布信息,所述结果评估模块响应于获取到的各检验结果结果均大于第二阈值,确定符合对应的评估要求。22.根据权利要求14所述的装置,其中,所述指标变量的数量为m,m为正整数;所述聚类变量的数量为l,l为大于一的正整数;所述信息获取模块利用l个所述聚类变量以及m个所述指标变量组成l*m个变量对,每个变量对中分别包括一个聚类变量以及一个指标变量,分别获取不同变量对对应的群体稳定性指标,作为所述聚类变量在所述指标变量上的区分度信息。23.根据权利要求22所述的装置,其中,所述信息获取模块针对任一变量对,获取所述变量对中的第一变量的所有可能取值,
作为目标取值,所述第一变量为所述变量对中的所述聚类变量,所述变量对中的所述指标变量为第二变量;针对任一目标取值,分别进行以下处理:分别统计所述第一变量为所述目标取值的样本中、所述第二变量分别位于q个取值区间中的样本数量,根据统计结果确定出各取值区间的样本占比,q为大于一的正整数,表示所述第二变量对应的取值区间数量,且任意两个取值区间均不存在重叠;按照预定顺序对各目标取值进行排序,根据各目标取值对应的样本占比,分别确定出每两个相邻的目标取值对应的所述群体稳定性指标,作为所述变量对对应的所述群体稳定性指标。24.根据权利要求22或23所述的装置,其中,对于所述聚类变量在所述指标变量上的区分度信息,所述结果评估模块响应于获取到的各群体稳定性指标均大于第三阈值,确定符合对应的评估要求。25.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-12中任一项所述的方法。27.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-12中任一项所述的方法。

技术总结
本公开提供了聚类结果处理方法、装置、电子设备及存储介质,涉及机器学习以及大数据处理等人工智能领域,可应用于智慧金融等场景。其中的方法可包括:获取对待处理的样本进行无监督聚类后的聚类结果,聚类结果包括至少两个类簇;获取以下评估信息中的至少一种:类簇间的区分度信息、类簇内的指标变量分布信息、聚类变量在指标变量上的区分度信息,其中,聚类变量以及指标变量均为样本的变量,聚类变量为参与聚类的变量,指标变量为用于评估聚类结果的变量;根据获取到的评估信息确定出聚类结果是否合理。应用本公开所述方案,可实现对于聚类结果的有效评估等。类结果的有效评估等。类结果的有效评估等。


技术研发人员:刘昊骋 孙倩 鲁俊杉 魏承东 许海洋 安云静
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2023.05.26
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐