一种用于对样本进行可视化的方法和系统与流程
未命名
09-12
阅读:91
评论:0

1.本发明属于数据的可视化技术领域,特别提出一种用于对样本进行可视化的方法和系统。
背景技术:
2.数据可视化可以将抽象的数据通过直观的方式展现,帮助用户理解数据中的模式并发现其中可能存在的问题,从而提高数据分析的效率。例如,通过将高维数据映射到低维空间并且以散点图的形式进行展示,可以帮助用户直观的观察数据的分布,理解数据的分类情况,更加方便找到数据中分类错误的点,这些点被称为离群点。然而,散点图中存在过度绘制和视觉标记重叠等问题,不利于用户对感兴趣的样本进行观察与分析。圆包装布局是数据可视化中的一种常用的展示形式,具有视觉编码简单易懂、布局美观等优点。在圆包装布局中,每个样本被表示为一个圆,圆的大小(半径)通常编码数据中的某些数值属性(如样本的重要度),圆的颜色表示其对应样本的初始分类类别,这些不同大小的圆被紧密包装在一起。由于在圆包装布局中,不同的圆之间不存在重叠,因此可以利用圆包装布局方便地进行需要探索样本的任务,比如修复图像数据中的错误类标。
技术实现要素:
3.以下描述包括体现本发明技术的示例性方法、系统、技术和指令序列。然而,应该理解,在一个或多个方面,可以在没有这些具体细节的情况下实践所描述的发明。在其他情况下,没有详细示出公知的协议、结构和技术,以免模糊本发明。本领域普通技术人员将理解,所描述的技术和机制可以应用于对值进行排序的各种体系结构。
4.根据本发明的一个方面,提出了一种用于对样本进行可视化的系统,包括:接收模块,被配置为接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别;投影模块,被配置为根据所述多个样本中的每个样本对应的特征向量,获得所述多个样本中的每个样本在二维平面上的各自的投影点;平面图生成模块,被配置为获得所述多个样本中的每个样本的各自的投影点在所述二维平面上构建的初始平面图;子区域生成模块,被配置为根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域,其中所述多个子区域的每个子区域对应所述多个样本中的每个样本;圆包装布局生成模块,被配置为根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色;以及可视化模块,被配置为根据所述多个样本中的每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。
5.根据本发明的另一个方面,提出了一种用于对样本进行可视化的方法,包括:接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别;根据所述多个样本中的每个样本对应的特征向量,获得所
述多个样本中的每个样本在二维平面上的各自的投影点;获得所述多个样本中的每个样本的各自的投影点在所述二维平面上构建的初始平面图;根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域,其中所述多个子区域的每个子区域对应所述多个样本中的每个样本;根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色;以及根据所述多个样本中的每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。
6.根据本发明的又一方面,提出了一种用于对样本进行可视化的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如上所述的方法。
附图说明
7.通过参照附图阅读下面对说明性实施例的具体实施方式可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
8.图1a示出了一个服装图片数据集中的7个样本;
9.图1b示出了图1a中的7个样本通过圆包装布局可视化得到的结果;
10.图2示出了对若干图片样本通过现有方法进行圆包装布局的可视化结果;
11.图3示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的系统的结构框图;
12.图4a示出了投影在二维平面上的5个样本对应的投影点;
13.图4b示出了图4a中的投影点建立的初始平面图结果;
14.图5示出了根据本发明的一个或多个实施例的一种将凸包区域划分为多个子区域的流程图;
15.图6a-6d示出了将图4b的凸包区域划分为多个子区域的过程;
16.图7a-7c示出了根据得到的图6d的多个子区域,获得每个样本在二维平面上对应的圆的过程;
17.图8示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的方法的流程图;
18.图9示出了一个基于本发明的方法开发的可视化系统中对一个存在离群点的图像数据集进行可视化的界面。
具体实施方式
19.下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员明显的是,本发明的实现可不具有这些具体细节中的一些。此外,应当理解的是,本发明并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本发明,而无论它们是否涉及不同的实施例。并且,方法的步骤并不限于所说明的顺序,其中,很多步骤的顺序可以进行调整。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素
或限定,除非权利要求中明确提出。
20.随着网络技术的发展,大数据研究成为一个热点话题,对于大数据分类、深入分析的需求日益增加。数据可视化可以将抽象的数据通过直观的方式展现,帮助用户理解数据中的模式并发现其中可能存在的问题,从而提高数据分析的效率。圆包装布局是数据可视化中的一种常用的展示形式,具有视觉编码简单易懂、布局美观等优点。在圆包装布局中,每个样本被表示为一个圆,圆的大小(半径)通常编码数据中的某些数值属性(如样本的重要度),圆的颜色表示其对应样本的初始分类类别,这些不同大小的圆被紧密包装在一起。由于在圆包装布局中,不同的圆之间不存在重叠,因此可以利用圆包装布局方便地进行样本探索的任务,比如修复图像数据中的错误类标,寻找离群点等等。
21.例如,图1a示出了一个服装图片数据集中的7个样本,其中样本101-107表示衬衫图片,每个样本对应一个特征集(也称特征向量)和一个初始分类类别(该初始分类类别可以是人工标注的,也可以是其他方法获得的,不一定是根据该样本对应的特征向量进行分类而获得的)。样本101的初始分类类别是夹克衫,样本102-107的初始分类类别是衬衫。但是,如果按照样本101-107的特征向量进行分类,样本101-107的分类类别都应该是衬衫。图1b示出了图1a中的7个样本根据其特征向量通过圆包装布局可视化得到的结果,其中图1a中的样本101-107对应的圆分别是图1b中的圆110-170。圆110与圆120-170的颜色不一致(颜色表示类别),是一个离群点,存在初始分类类别错误的问题。
22.由于图1中的样本数量较少,因此圆的位置对于用户的感知影响不大,通过颜色差异,用户容易找到其中存在的离群点。当存在大量图片样本需要进行可视化时,圆的位置对用户的感知影响很大。图2示出了对若干图片样本通过现有方法进行圆包装布局的可视化结果。在图2中,圆的灰度代表圆的颜色,表示图片的初始分类类别。可以看出,在该可视化结果中用户难以感知样本的相似性和对应的分类情况(根据特征向量计算得到的分类类别),导致难以在该可视化结果中发现离群点。本发明的发明人通过分析认为,其主要原因在于在圆包装布局中没有考虑保留样本之间的相似度(即样本的特征向量之间的相似度),造成相似样本在圆包装布局可视化结果中的位置没有任何规律,因此很难看出样本中的分类情况,也很难发现样本中的离群点。
23.本发明的发明人认为,在圆包装布局中,可以通过圆之间的相邻关系传达圆所对应的数据之间的相似关系。在现有技术中,没有考虑对数据之间的近邻关系进行建模,因此在后续子区域生成和圆包装布局生成的过程中,没有保持每个数据对应的子区域和每个数据对应的圆之间存在的近邻关系,导致在最终生成的圆包装布局中,表示相似数据的圆可能无法放置在相邻的位置,破坏了用户对于样本的相似性的感知,不利于用户对数据中的聚类结构和离群点进行分析。在本发明中,提出了一种对多个样本进行圆包装布局可视化的方法,该方法通过将数据以及数据之间的近邻关系建模为一个平面图中的结点和边,并且在后续子区域生成和圆包装布局生成的过程中尽量保持平面图中的结点之间的近邻关系,基于平面图的信息,将表示相似数据的圆放置在相邻的位置,从而帮助用户感知样本的相似性。此外,为了生成美观且有效的圆包装布局以帮助分析,该方法同时考虑生成紧凑性、非重叠性、整体凸性和聚类凸性均良好的圆包装布局。本发明的方法能够帮助用户可视地分析样本中聚类结构和离群点,有利于用户分析数据中(包括但不限于图像、视频、表格、文档等等)的错误类标与难以区分的样本等。
24.本发明提出了一种对多个样本进行圆包装布局可视化的系统和方法,该系统和方法将表示相似数据的圆放置在相邻的位置,帮助用户感知样本的相似性。图3示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的系统300的结构框图。
25.如图3所示,系统300包括接收模块310,投影模块320,平面图生成模块330,子区域生成模块340,圆包装布局生成模块350,和可视化模块360。
26.在图3中,接收模块310被配置为接收多个样本301,多个样本301的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别。其中,样本的初始分类类别可能是根据该样本对应的特征向量进行的分类类别,也可能是人工标注的类别,还可能是采取任何聚类方法得到的分类类别。在一种实施方式中,接收模块310可以直接读取存储在某处(本地或者远程磁盘)的多个样本301。在另一种实施方式中,接收模块310可以通过网络获得传输给其的多个样本301。
27.投影模块320被配置为根据多个样本301中的每个样本对应的特征向量,获得多个样本301中的每个样本在二维平面上的各自的投影点302。在一种实施方式中,将多个样本301中的每个样本投影在二维平面上可以通过降维算法t-sne来实现。本领域技术人员可以知道,多个样本301中的每个样本投影在二维平面上也可以通过其他降维算法来实现,例如mds,pca等。图4a示出了投影在二维平面400上的一组样本401-405对应的投影点。
28.平面图生成模块330被配置为获得多个样本301中的每个样本的各自的投影点302在该二维平面上构建的初始平面图303。在一种实施方式中,通过计算多个样本301中的每个样本的各自的投影点302的delaunay三角化结果,可以建立初始的平面图303。本领域技术人员知道,也可以通过其他方法建立初始的平面图303。图4b示出了图4a中的投影点建立的初始平面图结果,该平面图包含5个结点401
’‑
405’以及结点401
’‑
405’在计算delaunay三角化后得到的7条连边。其中结点401
’‑
405’表示图4a中的样本401-405对应的投影点,每条连边表示样本之间的近邻关系。在现有技术中,没有将数据以及数据之间的近邻关系建模为一个平面图中的结点和边,因此在后续子区域生成和圆包装布局生成的过程中无法很好地保持平面图中的结点之间的近邻关系,导致表示相似数据的圆不能放置在相邻的位置,破坏了用户对于样本的相似性的感知。
29.子区域生成模块340被配置为根据多个样本301中的每个样本的各自的投影点302以及初始平面图303,获得该二维平面上的多个子区域304,其中多个子区域304的每个子区域304对应多个样本301中的每个样本。
30.在现有技术中,获得二维平面上的多个子区域可以首先计算包含二维平面上多个样本中的每个样本的各自的投影点的正方形区域或者圆形区域,然后直接利用centroidal power diagram等方法将正方形区域或者圆形区域划分为多个子区域,其中多个子区域的每个子区域对应多个样本中的每个样本。将正方形区域或者圆形区域划分为多个子区域的过程中,所建立的初始平面图的结点之间的近邻关系可能被破坏较多,使得相似度保留的效果较差。
31.在本发明的一种实施方式中,获得二维平面上的多个子区域304可以首先计算二维平面上多个样本301中的每个样本的各自的投影点302的凸包区域,然后将该凸包区域划分为多个子区域304,其中多个子区域的每个子区域对应多个样本301中的每个样本。由于凸包区域为包含多个样本301的所有投影点302的最小多边形区域,相比正方形区域或者圆
形区域,其面积更小,因此在将凸包区域划分为多个子区域304的过程中,多个样本301中的每个样本的各自的投影点的位移幅度更小,所建立的初始平面图中对应的结点之间的近邻关系能得到更多保留,从而提高了相似度保留的效果。
32.在一种实施方式中,计算二维平面上多个样本301中的每个样本的各自的投影点302的凸包区域可以通过graham算法来实现。本领域技术人员可以知道,计算二维平面上多个样本301中的每个样本的各自的投影点302的凸包区域也可以通过其他算法来实现,例如分治法,增量法等。对应图4b,其中结点401
’‑
405’的凸包区域为围绕这些结点形成的最小凸多边形区域,即多边形区域401
’‑
402
’‑
403
’‑
405
’‑
404’。
33.图5示出了根据本发明的一个或多个实施例的一种将凸包区域划分为该多个子区域的流程图500。
34.如图5所示,在步骤510,根据多个样本301中的每个样本在该二维平面对应的各自的投影点302之间的距离,获得多个样本301对应的所有投影点的聚类结构,该聚类结构的每个类别分别包括若干个样本对应的投影点。在一种实施方式中,获得多个样本301对应的所有投影点302的聚类结构可以通过k-means聚类算法来实现,本领域技术人员可以知道,获得多个样本301对应的所有投影点302的聚类结构也可以通过其他聚类算法来实现,例如k-medoids,meanshift等。图6a-6d示出了将图4b的凸包区域划分为多个子区域的过程,其中投影点601-605对应图4b中的投影点401
’‑
405’。假设图6a中,投影点601-602为一个聚类类别,投影点603-605为另一个聚类类别。
35.在步骤520,根据聚类结构将凸包区域601-602-603-605-604划分为多个超子区域,使得多个超子区域满足第一条件,其中多个超子区域的每个超子区域对应聚类结构的每个聚类类别,第一条件包括多个超子区域的每个超子区域的面积与凸包区域面积的比与该超子区域对应的聚类类别中包括的若干个样本的重要度之和与多个样本的重要度之和的比相等。假设图6a中,投影点601-605对应的样本的重要度分别为1,4,2,5,3,因此划分的两个超子区域中,投影点601和602对应的超子区域与该凸包区域面积的面积比为投影点603-605对应超子区域与该凸包区域面积的面积比为满足该面积比的超子区域划分方式有多种,在一种实施方式中,将该凸包区域划分为多个超子区域可以通过现有的计算凸包区域的容量限制power diagram实现。计算凸包区域的容量限制power diagram需要每个超子区域对应的初始站点和容量限制,其中,每个超子区域对应的初始站点为该超子区域对应的类别中的多个样本的投影点的中心,每个超子区域对应的容量限制为该超子区域对应的类别中的多个样本的重要度之和。如图6b所示,利用该方法,可以将凸包区域划分为两个超子区域610和620。本领域技术人员应该知道,可以有其他的方法将凸包区域划分为多个超子区域,只要能使得该多个超子区域满足第一条件,其均在本发明的保护范围之内。
36.在步骤530,对多个超子区域的每个超子区域中包括的若干个样本对应的若干个投影点同时进行旋转、平移和/或放缩得到若干个第一更新后的投影点,使得该若干个第一更新后的投影点满足第二条件,从而得到第一更新后的子平面图,全部第一更新后的子平面图组成第一更新(即对初始平面图的第一次更新)后的平面图,第二条件包括每个超子区域中包括的若干个第一更新后的投影点均位于该超子区域中,每个超子区域中包括的若干
个第一更新后的投影点在该第一更新后的子平面图中的连接关系不变,并且在该第一更新后的子平面图中的若干个第一更新后的投影点不能进行放缩比大于1的放缩变换。在一种实施方式中,对每个超子区域中包括的若干个样本对应的若干个投影点同时进行旋转、平移和/或放缩得到若干个第一更新后的投影点可以使用如下方法:对于每个超子区域,首先计算该超子区域中的多个投影点的中心和该超子区域的中心,然后将这些投影点平移使得上述两个中心重合,最后通过格点搜索计算每一个旋转角度下所有投影点的放缩变换,使得第一更新后的投影点仍然位于该超子区域中,并且该超子区域中的第一更新后的投影点在第一更新后的子平面图中的连接关系不变,并且不能进行缩放比大于1的放缩变换,从而获得其中最大的放缩比所对应的第一更新后的投影点。上述是一种蛮力搜索的方法,在现有技术中,还有多种蛮力搜索的方法可以使用。对图6a中的投影点601-605及图6b中的超子区域610-620应用步骤530中的方法,首先得到图6c中的第一更新后的投影点601
’‑
605’;如图6c所示,然后对超子区域610,应用步骤530中的蛮力搜索方法,投影点601和602的位置变换为第一更新后的投影点601’和602’,并且投影点601’和602’不能进行缩放比大于1的放缩变换;然后对超子区域620,应用步骤530中的上述蛮力搜索方法,投影点603-605的位置变换为第一更新后的投影点603
’‑
605’,并且投影点603
’‑
605’不能进行缩放比大于1的放缩变换。这样,就得到第一更新后的平面图601
’‑
605’,其包括更新后的投影点601
’‑
605’以及如图6c所示的边。
37.在步骤540,对多个超子区域的每个超子区域,根据该超子区域中得到的第一更新后的投影点,将该超子区域划分为多个子区域中的n个子区域,其中n为该超子区域中包括的样本个数,每个子区域对应该超子区域中的每个样本。在一种实施方式中,将每个超子区域划分为多个子区域中的n个子区域可以通过现有的计算centroidal power diagram实现。计算centroidal power diagram需要该n个子区域对应的初始站点和初始权重,其中,每个子区域对应的初始站点为该子区域对应的样本的第一更新后的投影点,每个子区域对应的初始权重为该子区域对应的样本的重要度。本领域技术人员应该知道,可以有其他的方法将每个超子区域划分为n个子区域,例如centroidal voronoi diagram等。如图6d所示,超子区域610被划分为子区域611和612,分别对应第一更新后的投影点601’和602’。超子区域620被划分为子区域623-625,分别对应第一更新后的投影点603
’‑
605’。
38.通过模块304利用凸包区域并将凸包区域划分为多个子区域,相比现有方法,模块304所获得的多个子区域保留了更多初始平面图中的投影点之间的邻接关系,并且能够保证每一个聚类类别对应的超子区域为凸多边形,使得后续生成的圆包装布局可以更好的体现样本的聚类类别。
39.回到图3,圆包装布局生成模块350被配置为根据获得的多个子区域304以及多个样本301中的每个样本的重要度和初始分类类别,获得多个样本301中的每个样本在二维平面上对应的圆305,其中每个圆的参数包括圆心、半径、以及颜色。和现有技术一样,每个圆的半径表示该圆对应的样本的重要度并且圆的颜色表示该圆对应的样本的初始分类类别。和现有技术不同的是,在布局中,任意两个圆之间的距离表示这两个圆对应的两个样本之间的相似度。获得多个样本中的每个样本在二维平面上对应的圆包括初始圆布局处理和后处理。初始圆布局处理可以利用现有技术中的圆布局方法,例如首先计算多个子区域的每个子区域的重心,然后计算多个子区域的每个子区域中的以重心为圆心,并且完全位于该
子区域的半径最大的圆,最后计算该多个样本中的每个样本在二维平面上对应的圆的最大半径,使得该多个样本中的每个样本的各自的重要度与该多个样本的每个样本各自对应圆的半径相关。其中,第i个样本对应的圆的半径可以由如下公式得到:
[0040][0041][0042]
图7a示出了对图6d中的子区域611、612和623-625应用初始圆布局处理,得到的圆701-705。
[0043]
在后处理中,也可以利用现有技术中的方法,例如,首先根据获得的多个子区域,更新第一更新后的平面图,从而得到第二更新后的平面图,其中在第二更新后的平面图中,多个第二更新后的投影点的每个第二更新后的投影点分别对应所述多个样本中的每个样本,超子区域内的第二更新后的投影点的之间的连边表示该超子区域内的n个子区域之间的邻接关系。然后根据第二更新后的平面图,通过力导向方法调整多个样本中的每个样本在二维平面上对应的圆的位置,使得多个圆满足预定条件。现有技术常用的预定条件是,多个圆构成的圆包装布局的紧凑程度尽可能高并且圆之间不发生重叠。
[0044]
在一种实施方式中,上述预定条件包括多个圆构成的圆包装布局的紧凑程度尽可能高,圆之间不发生重叠,并且特征向量相似的样本对应的圆在二维平面上尽可能布局在相近的位置。
[0045]
在一种实施方式中,调整多个圆的每个圆在二维平面上的位置的力导向方法为多个圆的每个圆添加一个指向布局中心的恒定大小的重力,并且根据第二更新后的平面图为连边对应的一对样本所对应的圆根据相似度添加一个指向对方圆中心的引力,然后通过梯度下降方法进行优化,从而使多个圆构成的圆包装布局的紧凑程度尽可能高,圆之间不发生重叠,并且特征向量相似的样本对应的圆尽可能布局在相近的位置。
[0046]
本领域技术人员应该知道,可以通过其他定义力的方式和其他优化方法并使用力导向方法调整多个圆的每个圆在二维平面上的位置,只要能使得多个圆满足预定条件,其均在本发明的保护范围之内。
[0047]
图7b示出了图7a中的圆701-705在力导向方法中施加的引力的方向。图7c示出了图7a中的圆701-705应用后处理之后的位置。可见,后处理后的所获得的调整位置后的多个圆之间的紧凑程度更高,确保了多个圆之间不发生重叠,并且使得代表相似样本的圆更多地布局在相近的位置,帮助用户更好感知样本的相似性。
[0048]
回到图3,可视化模块360被配置为根据多个样本301中的每个样本对应的各自的圆305,在该二维平面中对多个样本进行可视化展示。
[0049]
在一种实施方式中,系统300还包括离群点确定模块370,被配置为响应于在所述二维平面上的一个特定样本对应的圆的颜色与相邻的多个颜色相同的圆的颜色不同,确定该特定样本为离群点。由于在本发明生成的圆包装布局中,保留了样本之间的相似度,因此相似样本对应的圆在布局中位于相近位置,这展示了样本的分类情况,和图2中通过现有技术生成的圆包装布局结果相比,本发明的系统使用户能够容易地发现样本中的离群点。
[0050]
该可视化系统300可实现为一般的计算机系统上的应用程序,或者实现为服务器系统上的应用程序,或者实现为网络应用程序,或者实现为云平台上的应用程序。
[0051]
基于同一个发明构思,本发明还公开了一种用于对样本进行可视化的方法。图8示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的方法800的流程图。
[0052]
根据图8,在步骤810,接收多个样本,多个样本中的每个样本的信息包括样本的重要度、样本对应的特征向量、以及样本的初始分类类别。
[0053]
在步骤820,根据多个样本中的每个样本对应的特征向量,获得多个样本中的每个样本在二维平面上的各自的投影点。
[0054]
在步骤830,获得多个样本中的每个样本的各自的投影点在二维平面上构建的初始平面图。
[0055]
在步骤840,根据多个样本中的每个样本的各自的投影点以及该初始平面图,获得二维平面上的多个子区域,其中该多个子区域的每个子区域对应多个样本中的每个样本。
[0056]
在步骤850,根据获得的多个子区域以及多个样本中的每个样本的重要度和初始分类类别,获得多个样本中的每个样本在二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色。
[0057]
在步骤860,根据多个样本中的每个样本对应的各自的圆,在该二维平面上对多个样本进行可视化展示。
[0058]
在一种实施方式中,每个圆的半径表示该圆对应的样本的重要度,每个圆的颜色表示该圆对应的样本的初始分类类别,任意两个圆之间的距离表示这两个圆对应的两个样本之间的相似度。
[0059]
在一种实施方式中,方法800还进一步包括步骤870,响应于在该二维平面上的一个特定样本对应的圆的颜色与相邻的多个颜色相同的圆的颜色不同,确定该特定样本为离群点。
[0060]
在一种实施方式中,步骤840包括:首先根据多个样本中的每个样本的各自的投影点以及初始平面图,计算该二维平面上多个样本的所有投影点的凸包区域,然后将该凸包区域划分为多个子区域,多个子区域的每个子区域分别对应一个样本。
[0061]
在一种实施方式中,将该凸包区域划分为多个子区域,多个子区域的每个子区域分别对应一个样本包括:首先根据多个样本中的每个样本在该二维平面对应的各自的投影点之间的距离,获得多个样本对应的所有投影点的聚类结构,该聚类结构的每个类别分别包括若干个样本对应的投影点,接着根据聚类结构将该凸包区域划分为多个超子区域,使得多个超子区域满足第一条件,其中多个超子区域的每个超子区域对应聚类结构的每个聚类类别,第一条件包括该多个超子区域的每个超子区域的面积与该凸包区域面积的比与该超子区域对应的聚类类别中包括的若干个样本的重要度之和与该多个样本的重要度之和的比相等,然后对该多个超子区域的每个超子区域中包括的若干个样本对应的若干个投影点同时进行旋转、平移和/或放缩得到若干个第一更新后的投影点,使得该若干个第一更新后的投影点满足第二条件,从而得到第一更新后的子平面图,全部第一更新后的子平面图组成第一更新后的平面图,其中第二条件包括该每个超子区域中包括的若干个第一更新后的投影点均位于该超子区域中,该每个超子区域中包括的若干个第一更新后的投影点在该第一更新后的子平面图中的连接关系不变,并且在该第一更新后的子平面图中的若干个第
一更新后的投影点不能进行放缩比大于1的放缩变换,最后对该多个超子区域的每个超子区域,根据该超子区域中得到的第一更新后的投影点,将该超子区域划分为n个子区域,其中n为该超子区域中包括的样本个数,每个子区域对应该超子区域中的每个样本。
[0062]
在一种实施方式中,根据获得的多个子区域以及多个样本中的每个样本的重要度和初始分类类别,获得多个样本中的每个样本在该二维平面上对应的各自的圆包括初始圆布局处理和后处理。
[0063]
在一种实施方式中,初始圆布局处理包括:首先计算多个子区域的每个子区域的重心,然后计算多个子区域的每个子区域中的以上述重心为圆心的、完全位于该子区域的半径最大的圆,最后计算多个样本中的每个样本在二维平面上对应的圆的最大半径,使得多个样本的每个样本的各自的重要度与多个样本的每个样本各自对应圆的半径相关。
[0064]
在一种实施方式中,后处理包括:首先根据多个样本对应的多个子区域,更新该第一更新后的平面图,从而得到第二更新后的平面图,其中在第二更新后的平面图中,多个结点表示多个子区域各自对应的多个样本中的每个样本,结点之间连边表示多个子区域的邻接关系,然后根据第二更新后的平面图,调整多个样本中的每个样本在二维平面上各自对应的圆的位置,使得多个圆满足预定条件。这里需要注意的是,后处理的获得第二更新后的平面图的步骤可以发生在初始圆布局处理之前、之中和之后。只要在调整多个样本中的每个样本在二维平面上各自对应的圆的位置,使得多个圆满足预定条件之前即可。
[0065]
在一种实施方式中,预定条件包括多个样本对应的多个圆构成的圆包装布局的紧凑程度尽可能高,圆之间不发生重叠,并且特征向量相似的样本对应的圆在该二维平面上尽可能布局在相近的位置。
[0066]
基于本发明的方法,开发了一个可视化系统对图像数据进行分析。图9示出了该可视化系统对一个含有离群点的服装数据集进行可视化的界面。如图9所示,圆901的颜色与其相邻的圆902-907颜色不一致,说明圆901的初始分类类别和相邻的圆的初始分类类别不一致,但是检查对应的图片可以发现,圆901对应的图片901’与其相邻的圆902-907对应的图片902
’‑
907’均为衬衫,因此可以确定圆901的初始分类类别错误,圆901对应的数据为一个离群点。可见通过该界面,用户可以探索数据集中样本的聚类结构和离群点等,发现可能存在的错误类标并进行修复。
[0067]
本发明可以是系统、方法和/或计算机可读存储介质。计算机可读存储介质上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。本发明的方法可以在独立的计算机系统上执行,也可以在分布式计算系统上执行,甚至可以在云平台上执行。
[0068]
这里参照根据本发明实施例的方法、装置(系统)和计算机可读存储介质的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0069]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机可读存储介质的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
[0070]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
技术特征:
1.一种用于对样本进行可视化的系统,所述系统包括:接收模块,被配置为接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别;投影模块,被配置为根据所述多个样本中的每个样本对应的特征向量,获得所述多个样本中的每个样本在二维平面上的各自的投影点;平面图生成模块,被配置为获得所述多个样本中的每个样本的各自的投影点在所述二维平面上构建的初始平面图;子区域生成模块,被配置为根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域,其中所述多个子区域的每个子区域对应所述多个样本中的每个样本;圆包装布局生成模块,被配置为根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色;以及可视化模块,被配置为根据所述多个样本中的每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。2.根据权利要求1所述的系统,其中所述每个圆的半径表示该圆对应的样本的重要度,所述每个圆的颜色表示该圆对应的样本的初始分类类别,任意两个圆之间的距离表示这两个圆对应的两个样本之间的相似度。3.根据权利要求1所述的系统,该系统还包括:离群点确定模块,被配置为响应于在所述二维平面上的一个特定样本对应的圆的颜色与相邻的多个颜色相同的圆的颜色不同,确定所述特定样本为离群点。4.根据权利要求1-3之一所述的系统,其中根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域包括:根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,计算所述二维平面上所述多个样本的所有投影点的凸包区域;以及将所述凸包区域划分为所述多个子区域,所述多个子区域的每个子区域分别对应一个样本。5.根据权利要求4所述的系统,其中将所述凸包区域划分为所述多个子区域,所述多个子区域的每个子区域分别对应一个样本包括:根据所述多个样本中的每个样本在所述二维平面对应的各自的投影点之间的距离,获得所述多个样本对应的所有投影点的聚类结构,所述聚类结构的每个类别分别包括若干个样本对应的投影点;根据所述聚类结构将所述凸包区域划分为多个超子区域,使得所述多个超子区域满足第一条件,其中所述多个超子区域的每个超子区域对应所述聚类结构的每个聚类类别,所述第一条件包括所述多个超子区域的每个超子区域的面积与所述凸包区域面积的比与该超子区域对应的聚类类别中包括的若干个样本的重要度之和与所述多个样本的重要度之和的比相等;对所述多个超子区域的每个超子区域中包括的若干个样本对应的若干个投影点同时进行旋转、平移和/或放缩得到若干个第一更新后的投影点,使得所述若干个第一更新后的
投影点满足第二条件,从而得到第一更新后的子平面图,全部第一更新后的子平面图组成第一更新后的平面图,其中所述第二条件包括所述每个超子区域中包括的若干个第一更新后的投影点均位于所述超子区域中,所述每个超子区域中包括的若干个第一更新后的投影点在所述第一更新后的子平面图中的连接关系不变,并且在所述第一更新后的子平面图中的若干个第一更新后的投影点不能进行放缩比大于1的放缩变换;以及对所述多个超子区域的每个超子区域,根据所述超子区域中得到的第一更新后的投影点,将所述超子区域划分为所述多个子区域中的n个子区域,其中n为所述超子区域中包括的样本个数,每个子区域对应所述超子区域中的每个样本。6.根据权利要求5所述的系统,其中根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆包括:计算所述多个子区域的每个子区域的重心;计算所述多个子区域的每个子区域中的以所述重心为圆心的、完全位于所述子区域的半径最大的圆;计算所述多个样本中的每个样本在所述二维平面上对应的圆的最大半径,使得所述多个样本的每个样本的各自的重要度与所述多个样本的每个样本各自对应圆的半径相关;根据所述多个样本对应的多个子区域,更新所述第一更新后的平面图,从而得到第二更新后的平面图,其中在所述第二更新后的平面图中,多个第二更新后的投影点的每个第二更新后的投影点分别对应所述多个样本中的每个样本,超子区域内的第二更新后的投影点的之间的连边表示该超子区域内的n个子区域之间的邻接关系;以及根据所述第二更新后的平面图,调整所述多个样本中的每个样本在所述二维平面上各自对应的圆的位置,使得多个圆满足预定条件。7.根据权利要求6所述的系统,其中所述预定条件包括:所述多个样本对应的多个圆构成的圆包装布局的紧凑程度尽可能高,圆之间不发生重叠,并且特征向量相似的样本对应的圆在所述二维平面上尽可能布局在相近的位置。8.根据权利要求1-7所述的系统,其中所述样本为以下至少一个:图像;视频;表格;以及文档。9.一种用于对样本进行可视化的方法,包括:接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别;根据所述多个样本中的每个样本对应的特征向量,获得所述多个样本中的每个样本在二维平面上的各自的投影点;获得所述多个样本中的每个样本的各自的投影点在所述二维平面上构建的初始平面图;根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域,其中所述多个子区域的每个子区域对应所述多个样本中的每个样
本;根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色;以及根据所述多个样本中的每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。10.根据权利要求9所述的方法,其中所述每个圆的半径表示该圆对应的样本的重要度,所述每个圆的颜色表示该圆对应的样本的初始分类类别,任意两个圆之间的距离表示这两个圆对应的两个样本之间的相似度。11.根据权利要求9所述的方法,该方法还包括:响应于在所述二维平面上的一个特定样本对应的圆的颜色与相邻的多个颜色相同的圆的颜色不同,确定所述特定样本为离群点。12.根据权利要求9-11之一所述的方法,其中根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域包括:根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,计算所述二维平面上所述多个样本的所有投影点的凸包区域;以及将所述凸包区域划分为所述多个子区域,所述多个子区域的每个子区域分别对应一个样本。13.根据权利要求12所述的方法,其中将所述凸包区域划分为所述多个子区域,所述多个子区域的每个子区域分别对应一个样本包括:根据所述多个样本中的每个样本在所述二维平面对应的各自的投影点之间的距离,获得所述多个样本对应的所有投影点的聚类结构,所述聚类结构的每个类别分别包括若干个样本对应的投影点;根据所述聚类结构将所述凸包区域划分为多个超子区域,使得所述多个超子区域满足第一条件,其中所述多个超子区域的每个超子区域对应所述聚类结构的每个聚类类别,所述第一条件包括所述多个超子区域的每个超子区域的面积与所述凸包区域面积的比与该超子区域对应的聚类类别中包括的若干个样本的重要度之和与所述多个样本的重要度之和的比相等;对所述多个超子区域的每个超子区域中包括的若干个样本对应的若干个投影点同时进行旋转、平移和/或放缩得到若干个第一更新后的投影点,使得所述若干个第一更新后的投影点满足第二条件,从而得到第一更新后的子平面图,全部第一更新后的子平面图组成第一更新后的平面图,其中所述第二条件包括所述每个超子区域中包括的若干个第一更新后的投影点均位于所述超子区域中,所述每个超子区域中包括的若干个第一更新后的投影点在所述第一更新后的子平面图中的连接关系不变,并且在所述第一更新后的子平面图中的若干个第一更新后的投影点不能进行放缩比大于1的放缩变换;以及对所述多个超子区域的每个超子区域,根据所述超子区域中得到的第一更新后的投影点,将所述超子区域划分为所述多个子区域中的n个子区域,其中n为所述超子区域中包括的样本个数,每个子区域对应所述超子区域中的每个样本。14.根据权利要求13所述的方法,其中根据所述获得的多个子区域以及所述多个样本
中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆包括:计算所述多个子区域的每个子区域的重心;计算所述多个子区域的每个子区域中的以所述重心为圆心的、完全位于所述子区域的半径最大的圆;计算所述多个样本中的每个样本在所述二维平面上对应的圆的最大半径,使得所述多个样本的每个样本的各自的重要度与所述多个样本的每个样本各自对应圆的半径相关;根据所述多个样本对应的多个子区域,更新所述第一更新后的平面图,从而得到第二更新后的平面图,其中在所述第二更新后的平面图中,多个第二更新后的投影点的每个第二更新后的投影分别对应所述多个样本中的每个样本,超子区域内的第二更新后的投影点的之间的连边表示该超子区域内的n个子区域之间的邻接关系;以及根据所述第二更新后的平面图,调整所述多个样本中的每个样本在所述二维平面上各自对应的圆的位置,使得多个圆满足预定条件。15.根据权利要求14所述的方法,其中所述预定条件包括:所述多个样本对应的多个圆构成的圆包装布局的紧凑程度尽可能高,圆之间不发生重叠,并且特征向量相似的样本对应的圆在所述二维平面上尽可能布局在相近的位置。16.根据权利要求9-15所述的方法,其中所述样本为以下至少一个:图像;视频;表格;以及文档。17.一种用于对样本进行可视化的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如权利要求9-16中任意一项所述的方法。18.一种用于对样本进行可视化的系统,包括:存储器;以及至少一个处理器,可操作地耦合到存储器并配置用于执行如权利要求9-16中任意一项所述的方法。
技术总结
本发明提出一种用于对样本进行可视化的方法和系统,其中,系统包括:接收模块用于接收多个样本,每个样本的信息包括该样本的重要度、特征向量、以及初始分类类别;投影模块用于根据每个样本对应的特征向量,获得每个样本在二维平面上的各自的投影点;平面图生成模块用于获得投影点在所述二维平面上构建的初始平面图;子区域生成模块用于获得所述二维平面上的多个子区域,其中每个子区域对应每个样本;圆包装布局生成模块用于获得每个样本在二维平面上对应的各自的圆;以及可视化模块用于根据每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。对所述多个样本进行可视化展示。对所述多个样本进行可视化展示。
技术研发人员:刘世霞 袁隽 李端 王昊泽 郭心源 李磊 王立鹏 刘鹏
受保护的技术使用者:北京机电工程研究所
技术研发日:2023.07.10
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/