相似人群识别方法、装置、设备及存储介质与流程
未命名
09-22
阅读:42
评论:0
1.本技术涉及但不限于技术领域,尤其涉及一种相似人群识别方法、装置、设备及存储介质。
背景技术:
2.目前,通信技术和互联网技术取得了快速发展,伴随而来的是信息时代大数据的爆发式增长,对大数据进行数据挖掘、数据价值发现进行的如火如荼。其中,在海量大数据中进行相似人群识别这个细分类别,进行了很多有价值的技术研究,而相似人群识别在人群发现、人群定向广告投放、公共管理部门的人群定向信息推送、人群定向反诈宣传等领域有着非常广泛而必要的应用场景需求。
技术实现要素:
3.有鉴于此,本技术实施例至少提供一种相似人群识别方法、装置、设备、存储介质。
4.本技术实施例的技术方案是这样实现的:
5.一方面,本技术实施例提供一种相似人群识别方法,所述方法包括:
6.获取多个信令数据和每一所述信令数据的信令属性;所述信令属性包括位置信息和所述信令数据对应的初始用户;
7.基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合;
8.基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合;
9.将所述第一相似人群集合与第二相似人群集合的交集作为目标相似人群集合。
10.在一些实施例中,所述基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合,包括:
11.基于每一所述信令数据的位置信息对所述多个信令数据进行多个级别的栅格化处理,得到每一所述级别对应的栅格划分结果;所述栅格划分结果包括每一所述信令数据在所述级别对应的栅格区域;
12.针对每一所述级别,基于每一所述信令数据对应的初始用户和栅格区域,确定所述级别对应的初始用户关联图;所述初始用户关系图表征各所述初始用户之间是否存在关联关系;
13.基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图,生成综合关联图;所述综合关联图包括各所述初始用户之间的关联度信息;
14.基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中去除异常用户,得到与种子用户集合相似的第一相似人群集合。
15.在一些实施例中,所述栅格划分结果包括每一所述信令数据在所述级别对应的栅格区域;所述基于每一所述信令数据的位置信息对所述多个信令数据进行多个级别的栅格化处理,得到每一所述级别对应的栅格划分结果,包括:
16.针对每一所述级别的栅格化处理,获取所述级别对应的栅格区域集合;
17.基于每一所述信令数据的位置信息和所述栅格区域集合中的每一栅格区域,确定每一所述信令数据在所述级别对应的栅格区域。
18.在一些实施例中,所述基于每一所述信令数据对应的初始用户和栅格区域,确定所述级别对应的初始用户关联图,包括:
19.基于每一所述信令数据中初始用户与栅格区域之间的关联关系,构建二分图;所述二分图表征各所述初始用户与各所述栅格区域之间是否存在关联关系;
20.将所述二分图转换为所述级别对应的初始用户关联图。
21.在一些实施例中,所述基于每一所述信令数据中初始用户与栅格区域之间的关联关系,构建二分图,包括:
22.将每一所述栅格区域作为所述二分图中的栅格顶点,并将每一所述初始用户作为所述二分图中的第一用户顶点;
23.针对每一所述信令数据,建立所述信令数据对应的栅格顶点与第一用户顶点之间的第一连接关系,得到所述二分图;所述第一连接关系表征所述栅格顶点对应的栅格区域与第一用户顶点对应的初始用户存在关联关系。
24.在一些实施例中,所述将所述二分图转换为所述级别对应的初始用户关联图,包括:
25.针对所述二分图中每一所述栅格顶点,在所述二分图中获取所述栅格顶点对应的初始用户集合;所述初始用户集合包括与所述栅格顶点存在第一连接关系的所有第一用户顶点对应的初始用户;
26.将每一所述初始用户作为所述初始用户关联图中的第二用户顶点;
27.针对每一所述栅格顶点对应的初始用户集合,建立所述初始用户集合中每两个初始用户对应的第二用户顶点之间的第二连接关系,得到级别对应的初始用户关联图;所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系。
28.在一些实施例中,所述初始用户关联图包括第二用户顶点和至少一个第二连接关系,所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系;所述基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图,生成综合关联图,包括:
29.基于每一所述级别对应的初始用户关联图中第二用户顶点的并集,构建所述综合关联图中的第三用户顶点;
30.基于每一所述级别对应的初始用户关联图中至少一个所述第二连接关系的并集,得到所述综合关联图中至少一个第三连接关系;所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系;
31.基于每一所述级别对应的级别权重,和每一所述级别对应的初始用户关联图中至少一个所述第二连接关系,确定所述综合关联图中每一所述第三连接关系对应的权重和;所述权重和表征对应的两个初始用户之间的关联度信息。
32.在一些实施例中,所述异常用户包括其他用户和所述种子用户集合中的种子用户;所述基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中去除异常用户,得到与种子用户集合相似的第一相似人群集合,包括:
33.基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中将与每一所述种子用户不存在连接关系的初始用户作为所述其他用户;
34.在所述多个初始用户中去除所述其他用户和所述种子用户,得到与所述种子用户集合相似的第一相似人群集合。
35.在一些实施例中,所述综合关联图包括第三用户顶点、至少一个第三连接关系和每一所述第三连接关系对应的权重和,所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系;所述方法还包括:
36.在所述综合关联图中保留所述种子用户集合中的种子用户对应的第三用户顶点和所述目标相似人群集合中目标相似用户对应的第三用户顶点;
37.针对每一所述目标相似用户,累加所述目标相似用户对应的所述第三用户顶点与种子用户对应的第三用户顶点的第三连接关系对应的权重和,得到所述目标相似用户与所述种子用户集合的相似度;
38.基于每一所述目标相似用户对应的相似度,生成具有排序信息的目标相似人群集合。
39.在一些实施例中,所述基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合,包括:
40.获取所述多个信令数据对应的每一所述初始用户对应的画像数据,作为画像数据集;
41.基于所述画像数据集进行模型训练,得到种子用户集合对应的训练后的相似人群识别模型;
42.去除所述多个信令数据中初始用户为种子用户的信令数据,得到剩余用户集合;
43.基于所述种子用户集合对应的训练后的相似人群识别模型对所述剩余用户集合进行筛选,得到与所述种子用户集合相似的第二相似人群集合。
44.另一方面,本技术实施例提供一种相似人群识别装置,所述装置包括:
45.获取模块,用于获取多个信令数据和每一所述信令数据的信令属性;所述信令属性包括位置信息和所述信令数据对应的初始用户;
46.第一相似人群确定模块,用于基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合;
47.第二相似人群确定模块,用于基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合;
48.目标相似人群确定模块,用于将所述第一相似人群集合与第二相似人群集合的交集作为目标相似人群集合。
49.再一方面,本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器
存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
50.又一方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
51.本技术实施例中,由于同时使用了多级别的栅格化处理得到第一相似人群集合,并使用相似人群识别模型得到第二相似人群集合,进而通过求交集的方式融合该第一相似人群集合和第二相似人群集合,这样,本技术实施例相较于传统技术中仅利用机器学习方法识别相似人群的方案,利用多栅格化处理可以充分挖掘信令数据的时空关系,利用信令数据的特点(即时空范围内的共同人群具有更相近的属性特征),得到该第一相似人群集合;同时,本技术实施例中的融合方法提升了相似人群的识别精准度,同时提升了识别出的相似人群的紧密度。
52.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术的技术方案。
附图说明
53.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本技术的实施例,并与说明书一起用于说明本技术的技术方案。
54.图1为本技术实施例提供的一种相似人群识别方法的实现流程示意图;
55.图2a为本技术实施例提供的一种相似人群识别方法的实现流程示意图;
56.图2b为本技术实施例提供的一种二分图的构建示意图;
57.图2c为本技术实施例提供的一种初始用户关联图的构建示意图;
58.图2d为本技术实施例提供的一种另一个级别对应的初始用户关联图示意图;
59.图2e为本技术实施例提供的一种综合关联图示意图;
60.图3为本技术实施例提供的一种相似人群识别方法的实现流程示意图;
61.图4为本技术实施例提供的一种相似人群识别方法的实现流程示意图;
62.图5为本技术实施例提供的一种相似人群识别方法的实现流程示意图;
63.图6为本技术实施例提供的一种相似人群数据集a的计算流程示意图;
64.图7为本技术实施例提供的一种多层级栅格转换示意图;
65.图8为本技术实施例提供的一种二分图连线示意图;
66.图9为本技术实施例提供的一种手机用户合并后关系示意图;
67.图10为本技术实施例提供的一种相似人群数据集b的计算流程示意图;
68.图11为本技术实施例提供的一种相似度排序的实现流程示意图;
69.图12为本技术实施例提供的一种相似人群识别装置的组成结构示意图;
70.图13为本技术实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
71.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图和实施例对本技术的技术方案进一步详细阐述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范
围。
72.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
73.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术的目的,不是旨在限制本技术。
74.本技术实施例提供一种相似人群识别方法,该方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。
75.图1为本技术实施例提供的一种相似人群识别方法的实现流程示意图,如图1所示,该方法包括如下步骤s101至步骤s104:
76.步骤s101、获取多个信令数据和每一所述信令数据的信令属性;所述信令属性包括位置信息和所述信令数据对应的初始用户。
77.在一些实施例中,针对获取的原始信令数据集合,该原始信令数据集合可以包括获取的所有的信令数据,为了提升相似人群的识别效率和识别准确率,可以先从该原始信令数据集合中获取该多个信令数据,进而从该多个信令数据中确定与种子用户集合相似的目标相似人群集合。
78.在一些实施例中,该信令数据的信令属性信息还包括信令产生的时间戳,进而可以通过设定时间范围,在该原始信令数据集合中选择时间戳位于该时间范围内的信令数据,进而得到该多个信令数据。
79.在一些实施例中,还可以通过设定区域范围,在该原始信令数据集合中选择位置信息位于该区域范围内的信令数据,进而得到该多个信令数据。
80.在一些实施例中,还可以同时设定该时间范围和区域范围,进而在该原始信令数据集合中选择位置信息位于该区域范围内,且时间戳位于该时间范围内的信令数据,以得到该多个信令数据。
81.在一些实施例中,所述位置信息可以包括以下至少之一:基站唯一标识、基站所属行政区县编码、基站纬度、基站经度。
82.在一些实施例中,该信令数据对应的初始用户可以以国际移动用户识别码和/或用户手机号的形式体现。
83.步骤s102、基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合。
84.在一些实施例中,该种子用户集合为需要找到对应相似人群的用户集合,该种子用户集合可以包括多个种子用户,本技术实施例实际上为了在多个信令数据对应的多个初
始用户中找到与该多个种子用户形成的群体的相似人群。其中,该多个信令数据对应的多个初始用户中可以包括该种子用户。
85.在一些实施例中,可以设置至少两个级别的栅格化处理过程,进而可以得到至少两个栅格划分结果。其中,每一个级别的栅格化处理过程可以基于位置信息和当前等级的划分的栅格区域,确定当前等级中各个初始用户之间是否位于一个栅格区域,即生成每一级别的栅格划分结果;进而结合每一级别的栅格划分结果,生成各所述初始用户之间的关联度信息,该关联度信息至少用于表征对应的两个初始用户是否存在关联关系。
86.在一些实施例中,由于该多个信令数据对应的多个初始用户中包括该种子用户,且各所述初始用户之间的关联度信息至少用于表征对应的两个初始用户是否存在关联关系,因此,可以在多个初始用户中找到与各种子用户相似的第一相似用户,以形成该第一相似人群集合。
87.步骤s103、基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合。
88.在一些实施例中,可以通过相似人群扩展技术(look-alike)基于该种子用户集合,在该多个信令数据对应的多个初始用户中确定与该种子用户集合相似的第二相似人群集合。其中,相似人群扩展技术指基于一批种子用户,通过算法模型找到与种子用户相似或有潜在关联人群的技术。
89.在另一些实施例中,可以提取种子用户集合中各种子用户对应的种子用户特征,基于每一种子用户对应的种子用户特征,生成该种子用户集合对应的至少一个中心特征。之后,基于该至少一个中心特征在该多个初始用户中进行筛选,得到与所述种子用户集合相似的第二相似人群集合。其中,上述至少一个中心特征可以采用聚类算法对每一种子用户对应的种子用户特征进行聚类,得到至少一个种子用户簇,针对每一种子用户簇,将该种子用户簇内各种子用户对应的种子用户特征的进行融合后可以得到一个中心特征。
90.步骤s104、将所述第一相似人群集合与第二相似人群集合的交集作为目标相似人群集合。
91.在一些实施例中,基于上述多级别的栅格化处理后得到的与种子用户集合相似的第一相似人群集合是基于信令数据的位置信息和栅格划分确定的相似人群,基于上述相似人群识别模型得到的与所述种子用户集合相似的第二相似人群集合是基于各个用户的用户特征确定的相似人群。两者是参考不同特征维度确定的相似人群,通过求交集的方式确定目标相似人群集合,可以提升相似人群的识别精准度。
92.本技术实施例中,由于同时使用了多级别的栅格化处理得到第一相似人群集合,并使用相似人群识别模型得到第二相似人群集合,进而通过求交集的方式融合该第一相似人群集合和第二相似人群集合,这样,本技术实施例相较于传统技术中仅利用机器学习方法识别相似人群的方案,利用多栅格化处理可以充分挖掘信令数据的时空关系,利用信令数据的特点(即时空范围内的共同人群具有更相近的属性特征),得到该第一相似人群集合;同时,本技术实施例中的融合方法提升了相似人群的识别精准度,同时提升了识别出的相似人群的紧密度。
93.图2a是本技术实施例提供的相似人群识别方法的一个可选的流程示意图,该方法
可以由计算机设备的处理器执行。基于图1,图1中的步骤s102可以更新为步骤s201至步骤s204,将结合图2a示出的步骤进行说明。
94.步骤s201、基于每一所述信令数据的位置信息对所述多个信令数据进行多个级别的栅格化处理,得到每一所述级别对应的栅格划分结果;所述栅格划分结果包括每一所述信令数据在所述级别对应的栅格区域。
95.在一些实施例中,针对任意一个级别的栅格化处理过程,可以按照当前级别对应的栅格区域集合对上述多个信令数据进行划分,即,基于每一信令数据的位置信息,确定每一信令数据在当前级别对应的栅格区域集合中落入的栅格区域,进而得到该当前级别对应的栅格划分结果。以上述级别的数量为n为例,n为大于或等于2的整数;n个级别的栅格化处理可以得到n个级别的对应的栅格划分结果。
96.在一些实施例中,可以通过步骤s2011至步骤s2012实现上述基于每一所述信令数据的位置信息对所述多个信令数据进行多个级别的栅格化处理,得到每一所述级别对应的栅格划分结果。
97.步骤s2011、针对每一所述级别的栅格化处理,获取所述级别对应的栅格区域集合。
98.在一些实施例中,不同级别的栅格化处理对应的栅格区域集合的划分标准存在差异,其中,该差异可以是栅格区域的尺寸差异,也可以是栅格区域的位置差异,还可以是栅格区域的形状差异,本技术对此不做限定。
99.步骤s2012、基于每一所述信令数据的位置信息和所述栅格区域集合中的每一栅格区域,确定每一所述信令数据在所述级别对应的栅格区域。
100.在一些实施例中,针对每一个信令数据,可以基于该信令数据的位置信息和栅格区域集合中各个栅格区域的区域信息,确定该信令数据落在了哪一个栅格区域中,将落入的栅格区域作为该信令数据在所述级别对应的栅格区域。
101.步骤s202、针对每一所述级别,基于每一所述信令数据对应的初始用户和栅格区域,确定所述级别对应的初始用户关联图;所述初始用户关系图表征各所述初始用户之间是否存在关联关系。
102.其中,在一个级别对应的初始用户关联图中,存在关联关系的两个初始用户至少落入该级别对应的同一个栅格区域中。
103.在一些实施例中,针对任意一个栅格区域,若至少两个信令数据落入该栅格区域,且该至少两个信令数据对应了至少两个初始用户,则表示该至少两个初始用户在设定的时空范围内处于同一个区域内,则需要建立该至少两个初始用户之间的关联关系。以此类推,基于各个栅格区域中落入的信令数据,和每一信令数据对应的初始用户,即可以确定各所述初始用户之间是否存在关联关系。
104.在一些实施例中,可以通过步骤s2021至步骤s2022实现上述基于每一所述信令数据对应的初始用户和栅格区域,确定所述级别对应的初始用户关联图。
105.步骤s2021、基于每一所述信令数据中初始用户与栅格区域之间的关联关系,构建二分图;所述二分图表征各所述初始用户与各所述栅格区域之间是否存在关联关系。
106.其中,所述基于每一所述信令数据中初始用户与栅格区域之间的关联关系,构建二分图,包括:将每一所述栅格区域作为所述二分图中的栅格顶点,并将每一所述初始用户
作为所述二分图中的第一用户顶点;针对每一所述信令数据,建立所述信令数据对应的栅格顶点与第一用户顶点之间的第一连接关系,得到所述二分图;所述第一连接关系表征所述栅格顶点对应的栅格区域与第一用户顶点对应的初始用户存在关联关系。
107.示例性的,请参阅图2b,其示出了一种二分图的构建示意图。其中,若初始用户m与栅格区域a和栅格区域c存在关联关系,初始用户n与栅格区域b和栅格区域c存在关联关系。则可以将栅格区域a、栅格区域b和栅格区域c作为所述二分图中的栅格顶点,并将初始用户m和初始用户n作为所述二分图中的第一用户顶点。之后,分别建立初始用户m与栅格区域a之间的第一连接关系、初始用户m与栅格区域c之间的第一连接关系、初始用户n与栅格区域b之间的第一连接关系、和初始用户n与栅格区域c之间的第一连接关系。进而可以得到如图2b示出的二分图。
108.步骤s2022、将所述二分图转换为所述级别对应的初始用户关联图。
109.其中,针对所述二分图中每一所述栅格顶点,在所述二分图中获取所述栅格顶点对应的初始用户集合;所述初始用户集合包括与所述栅格顶点存在第一连接关系的所有第一用户顶点对应的初始用户;将每一所述初始用户作为所述初始用户关联图中的第二用户顶点;针对每一所述栅格顶点对应的初始用户集合,建立所述初始用户集合中每两个初始用户对应的第二用户顶点之间的第二连接关系,得到级别对应的初始用户关联图;所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系。
110.示例性的,请参阅图2c,其示出了一种初始用户关联图的构建示意图。基于图2b示出的二分图,针对所述二分图中栅格顶点a,在所述二分图中获取所述栅格顶点a对应的初始用户集合(m),针对所述二分图中栅格顶点b,在所述二分图中获取所述栅格顶点b对应的初始用户集合(n),针对所述二分图中栅格顶点c,在所述二分图中获取所述栅格顶点b对应的初始用户集合(m、n);将初始用户m初始用户n作为所述初始用户关联图中的第二用户顶点;针对初始用户集合(m、n),建立初始用户m和初始用户n对应的第二用户顶点之间的第二连接关系,针对初始用户集合(m)和(n),由于仅存一个初始用户,不要建立对应的第二连接关系。之后,可以得到如图2c示出的该级别对应的初始用户关联图。
111.步骤s203、基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图,生成综合关联图;所述综合关联图包括各所述初始用户之间的关联度信息。
112.在一些实施例中,所述初始用户关联图包括第二用户顶点和至少一个第二连接关系,所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系。可以通过步骤s2031至步骤s2033实现上述基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图,生成综合关联图。
113.步骤s2031、基于每一所述级别对应的初始用户关联图中第二用户顶点的并集,构建所述综合关联图中的第三用户顶点。
114.示例性的,以存在两个级别的初始用户关联图为例对综合关联图的生成方式进行说明,并不限定该级别的数量。请参阅图2d,其示出了另一个级别对应的初始用户关联图。上述步骤s2031包括:基于图2c示出的初始用户关联图中第二用户顶点(m、n),和图2d示出的初始用户关联图中第二用户顶点(m、n、o、p、q),构建并集(m、n、o、p、q)作为综合关联图中的第三用户顶点,如图2e所示。
115.步骤s2032、基于每一所述级别对应的初始用户关联图中至少一个所述第二连接
关系的并集,得到所述综合关联图中至少一个第三连接关系;所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系。
116.基于上述示例,将基于图2c中的第二连接关系“m-n”和基于图2d中的第二连接关系“q-n”、第二连接关系“p-n”、第二连接关系“m-n”、第二连接关系“m-p”和第二连接关系“m-o”的并集,在第三用户顶点(m、n、o、p、q)之间构建对应的连接关系,得到如图2e所示的综合关联图。可以看出,由于图2c中的第二连接关系是图2d中的第二连接关系的子集,因此,图2e所示的综合关联图与图2d相同。
117.步骤s2033、基于每一所述级别对应的级别权重,和每一所述级别对应的初始用户关联图中至少一个所述第二连接关系,确定所述综合关联图中每一所述第三连接关系对应的权重和;所述权重和表征对应的两个初始用户之间的关联度信息。
118.基于上述示例,若图2c的级别对应的权重为2,图2d的级别对应的权重为1,则2e所示的综合关联图中第三连接关系“q-n”的权重和为1、第三连接关系“p-n”的权重和为1、第三连接关系“m-n”的权重和为3、第三连接关系“m-p”的权重和为1、第三连接关系“m-o”的权重和为1。
119.步骤s204、基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中去除异常用户,得到与种子用户集合相似的第一相似人群集合。
120.在一些实施例中,可以通过步骤s2041至步骤s2042实现上述基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中去除异常用户,得到与种子用户集合相似的第一相似人群集合。
121.步骤s2041、基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中将与每一所述种子用户不存在连接关系的初始用户作为所述其他用户。
122.步骤s2042、在所述多个初始用户中去除所述其他用户和所述种子用户,得到与所述种子用户集合相似的第一相似人群集合。
123.基于上述示例,若种子用户包括n和p,则图2e所示的综合关联图中的o为其他用户,n和p为种子用户,去除该其他用户和种子用户之后,可以得到第一相似人群集合包括(m、q)。
124.本技术实施例中,通过多个级别的栅格化处理,得到每一级别对应的初始用户关联图,相较于相关技术中通过单一基站维度判断用户关联的方案,可以避免出现不同用户实际相近但因为没有在同一基站下的信令数据而未能有效识别出来的情况,并且,使用多层栅格跟单一基站相比,实现了多种范围内的人员识别;同时通过基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图生成综合关联图,由此,若两个用户在相近位置停留时间越长,则其在多层栅格中的关联关系越多,对应的多层初始用户关联图中都会有连接关系,在合并得到综合关联图后这两个用户的关联度信息也越高,提升了相似人群的识别精准度。
125.图3是本技术实施例提供的相似人群识别方法的一个可选的流程示意图,该方法可以由计算机设备的处理器执行。基于图1,图1中的步骤s103可以更新为步骤s301至步骤s304,将结合图3示出的步骤进行说明。
126.步骤s301、获取所述多个信令数据对应的每一所述初始用户对应的画像数据,作为画像数据集。
127.步骤s302、基于所述画像数据集进行模型训练,得到种子用户集合对应的训练后的相似人群识别模型。
128.在一些实施例中,可以将多个初始用户中种子用户对应的画像数据为正样本,多个初始用户中非种子用户对应的画像数据为负样本,训练相似人群识别模型。
129.步骤s303、去除所述多个信令数据中初始用户为种子用户的信令数据,得到剩余用户集合。
130.步骤s304、基于所述种子用户集合对应的训练后的相似人群识别模型对所述剩余用户集合进行筛选,得到与所述种子用户集合相似的第二相似人群集合。
131.本技术实施例中,通过机器学习类算法识别出的第二相似人群集合,可以从用户画像数据的维度划分相似人群,提升了本技术中相似人群的识别精准度。
132.图4是本技术实施例提供的相似人群识别方法的一个可选的流程示意图,该方法可以由计算机设备的处理器执行。基于图1,所述综合关联图包括第三用户顶点、至少一个第三连接关系和每一所述第三连接关系对应的权重和,所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系;图1中的方法还包括步骤s401至步骤s403,将结合图4示出的步骤进行说明。
133.步骤s401、在所述综合关联图中保留所述种子用户集合中的种子用户对应的第三用户顶点和所述目标相似人群集合中目标相似用户对应的第三用户顶点。
134.基于上述示例,若目标相似人群集合包括(m、q),种子用户包括n和p,则保留图2e所示的综合关联图中的种子用户n和种子用户p分别对应的第三用户顶点、目标相似人群集合(m、q)分别对应的第三用户顶点。
135.步骤s402、针对每一所述目标相似用户,累加所述目标相似用户对应的所述第三用户顶点与种子用户对应的第三用户顶点的第三连接关系对应的权重和,得到所述目标相似用户与所述种子用户集合的相似度。
136.基于上述示例,针对目标相似用户m,该目标相似用户m存在第三连接关系“m-n”的权重和为3、第三连接关系“m-p”的权重和为1,累加后得到目标相似用户m与所述种子用户集合的相似度为4;针对目标相似用户n,该目标相似用户q存在第三连接关系“q-n”的权重和为1,累加后得到目标相似用户q与所述种子用户集合的相似度为1。
137.步骤s403、基于每一所述目标相似用户对应的相似度,生成具有排序信息的目标相似人群集合。
138.基于上述示例,得到的具有排序信息的目标相似人群集合包括(m、q),其中,目标相似用户m的相似度为4,目标相似用户q的相似度为1,目标相似用户m位于目标相似用户q之前,即目标相似用户m相较于目标相似用户q,与种子用户集合更相似。
139.本技术实施例中,通过在综合关联图中累加各个目标相似用户与种子用户之间关联关系的权重和,可以准确的获取到各个目标相似用户与各种子用户之间的整体关联情况,进而可以确定目标相似用户与所述种子用户集合的相似度;同时,基于各目标相似用户对应的相似度,生成具有排序信息的目标相似人群集合,可以在得到目标相似人群的基础上,获取到更加丰富的识别信息,为后续实际实施场景提供数据基础。
140.下面说明本公开实施例提供的相似人群识别方法在实际场景中的应用。
141.请参阅图5是本技术实施例提供的相似人群识别方法的一个可选的流程示意图,
该方法可以由计算机设备的处理器执行,将结合图5示出的步骤进行说明。
142.步骤s501、基于位置信令数据,使用栅格化处理和图模型构造,计算相似人群数据集a;
143.其中,该相似人群数据集a对应上述实施例中的第一相似人群集合。
144.步骤s502、使用look-alike类算法计算得到区域种子用户相似人群数据集b。
145.其中,该相似人群数据集b对应上述实施例中的第二相似人群集合。
146.步骤s503、对数据集a与数据集b求交,得到数据集c,对数据集c进行相似度排名得到排名后相似人群。
147.其中,步骤的数据集a与数据集b求交,得到数据集c=a∩b,排名后相似人群可以记为cs。排名后相似人群对应上述实施例中的具有排序信息的目标相似人群集合。
148.在一些实施例中,可以通过图6所示实施例计算相似人群数据集a。请参阅图6,该方法可以由计算机设备的处理器执行,将结合图6示出的步骤进行说明。
149.步骤s601、获取设定时间范围和设定区域范围的位置信令数据集合d。
150.其中,位置信令数据集合d对应上述实施例中的多个信令数据,该数据集合需至少包含如表1所示的数据字段:
151.表1
152.字段字段说明imsi国际移动用户识别码msisdn用户手机号stationid基站唯一标识countyid基站所属行政区县编码latitude基站纬度longitude基站经度timestamp信令产生时间戳
153.步骤s602、基于google s2算法,选择多个level级别,对步骤s601中的信令数据分别进行栅格化处理,栅格处理级别分别为{s1,s2...sn},处理后的数据集合分别为{d1,d2...dn}。
154.请参阅图7,其示出了一种多层级栅格转换示意图,栅格处理级别为s1级栅格的情况下,可以得到信令数据集d1;栅格处理级别为s2级栅格的情况下,可以得到信令数据集d2;以此类推,栅格处理级别为sn级栅格的情况下,可以得到信令数据集dn,其中,信令数据集di对应上述实施例中每一所述信令数据在所述级别对应的栅格区域形成的数据集合。
155.步骤s603、构建二分图,对于步骤s602中的数据集{d1,d2...dn},分别以手机用户唯一识别码imsi和基站栅格id作为图顶点,构建二分图{t1,t2...tn}。
156.其中,对于数据集di(i∈[1,n]),以数据集di中所有出现的imsi手机用户和栅格id作为二分图的顶点(分别对应上述实施例中的第一用户顶点和栅格顶点),并基于数据集中已被栅格化处理后的信令数据对构建的二分图的顶点进行连线(对应上述实施例中栅格顶点与第一用户顶点之间的第一连接关系)。
[0157]
示例性的,请参阅表2中示出的信令数据和对应的二分图连线示意图8。
[0158]
表2
[0159]
imsimsisdn栅格idm188xxxxxxxxam188xxxxxxxxcn139xxxxxxxxbn139xxxxxxxxc
[0160]
针对表2中的手机用户m,手机用户m存在与栅格a、栅格c的关联记录,则手机用户m与栅格a、栅格c有边连通;针对表2中的手机用户n,手机用户n存在与栅格b、栅格c的关联记录,则手机用户n与栅格b、栅格c有边连通。由此,可以得到如图8的二分图。
[0161]
步骤s604、根据步骤s603计算得到的二分图集合{t1,t2...tn},构建以手机用户为顶点的多层图{g1,g2...gn}。
[0162]
其中,对于单个二分图ti(i∈[1,n]),其对应生成的图gi的顶点为对应步骤s602中的数据集di中的所有imsi手机用户,图gi的边连线按步骤s6041至步骤s6044处理。
[0163]
步骤s6041、遍历二分图ti的所有栅格id的顶点列表{v
d1vd2
...v
dl
}。
[0164]
其中l为栅格id的数量。
[0165]
步骤s6042、对于二分图ti中的单个栅格id顶点v
dj
,读取与v
dj
相连接的所有imsi手机用户顶点列表{v
i1vi2
...v
in
},其中n为与v
dj
相连接的手机用户顶点数量,其中,v
ii
对应上述实施例中第i等级对应的初始用户关联图中的第二用户顶点。
[0166]
步骤s6043、对于{v
i1vi2
...v
in
},在图gi中,将{v
i1vi2
...v
in
}中的手机用户顶点进行两两连线。
[0167]
步骤s6044、对于二分图中的所有栅格id顶点,重复上述步骤s6042、步骤s6043,构造出图gi的所有边。
[0168]
其中,图gi的所有边对应上述实施例中每两个初始用户对应的第二用户顶点之间的第二连接关系。
[0169]
请参阅图9示出的手机用户合并后关系示意图。图9中,手机用户m和手机用户n,在二分图中都与基站栅格c有边连接,则在图9中,m和n也有边相连。
[0170]
步骤s605、对于步骤s604得到的多层图集合{g1,g2...gn},按照顶点合并为图g。
[0171]
其中,图g对应上述实施例中的综合关联图。图g中的顶点为多层图集合{g1,g2...gn}中的所有顶点的全集,图g中的边为多层图集合{g1,g2...gn}中的所有边的全集,图g中的边的权重计算逻辑如下:
[0172]
由于多层图集合{g1,g2...gn}是由位置信令数据根据不同的栅格等级计算得到,而不同的栅格等级表示不同栅格的大小范围下用户之间的关联关系,所以对于不同的栅格等级生成的多层图gi设定一个权重值qi,栅格等级表示的范围越小,其权重值越大。
[0173]
对于合并图g中的边的权重值eq,如果其在多层图集合{g1,g2...gn}出现,则其权重值对应增加1*qi,即eq的值等于其在所有出现过的gi对应的权重qi乘以1的加和。
[0174]
步骤s606、根据步骤s605生成的合并图g,去除图g中所有存在于集合m中的顶点,得到种子用户相似人群图gm,种子用户相似人群图中的用户集合为相似人群数据集a。
[0175]
在一些实施例中,可以通过图10所示实施例计算相似人群数据集b。请参阅图10,该方法可以由计算机设备的处理器执行,将结合图10示出的步骤进行说明。
[0176]
步骤s1001、获取设定时间范围和设定区域范围的位置信令数据集合d。
[0177]
其中,该数据集合需至少包含如表1所示的数据字段。
[0178]
步骤s1002、获取步骤s1001中数据集合d中所有手机用户的画像数据p。
[0179]
其中,画像数据集p字段描述如下表3:
[0180]
表3
[0181]
字段字段说明imsi国际移动用户识别码sex性别age年龄mage_status婚姻状况edu学历ocpn职业user_star用户星级term_brand终端品牌term_mdl终端型号app_preapp偏好其它画像特征 [0182]
步骤s1003、使用步骤s1002画像数据集p,基于look-alike类机器学习算法进行种子用户模型训练,得到训练模型。
[0183]
步骤s1004、使用步骤s1002的数据集d与种子用户集合m,按照imsi字段,做差集,获得数据集d中除去种子用户剩余用户集合dr,使用步骤s1003的训练模型对数据集dr进行模型预测,得到种子用户相似人群集合b。
[0184]
在一些实施例中,可以通过图11所示实施例根据图gm中的顶点邻接边的权重,对相似人群集合c中的人群进行相似度排序。请参阅图11,该方法可以由计算机设备的处理器执行,将结合图11示出的步骤进行说明。
[0185]
步骤s1101、获取排序对象,排序对象为相似人群集合c中的所有手机用户{c1c2...cn};
[0186]
步骤s1102、对于单个ci,在图gm找到其所有的边,累加所有边的另一顶点为种子用户的边的权重和,作为该顶点ci的权重vq表示顶点ci与种子用户的相似度。
[0187]
步骤s1103、按照步骤s1102中的vq从大到小排序,得到排序后相似人群cs,cs即为最终相似人群结果集合。
[0188]
本技术实施例基于多层栅格、多层图模型,提出了一种区域位置信令相似人群识别的方法,该方法解决了前述现有技术方案一中的单一基站维度的用户关联导致不同用户实际相近但因为没有在同一基站下的信令数据而未能有效识别出来的问题,使用多层栅格,跟单一基站相比,实现了多种范围内的人员识别,同时通过多层图模型构建与合并,对于相关方案中因基站停留时间长短所导致的亲疏关系的远近进行了有效的识别,两个用户在相近位置停留时间越长,则其在多层栅格中的关联关系越多,对应的多层连通图中都会有连接边,根据多层连通图的合并方法,合并后这两个用户的边权重则越大,计算得到的相似度越高。
[0189]
另外,本技术实施例相比较单纯的look-alike机器学习类算法识别出的相似人
群,本技术充分利用的位置信令数据的优势,充分挖掘位置信令的时空关系,通过多层栅格、多层连通图模型计算得到的相似人群,再与机器学习算法计算得到的相似人群,进行人群融合,根据位置信令的特点,时空范围内的共同人群具有更相近的属性特征,本技术提出的融合方法提升了相似人群的识别精准度,同时提升了识别出的相似人群的紧密度。
[0190]
基于前述的实施例,本技术实施例提供一种相似人群识别装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(central processing unit,cpu)、微处理器(microprocessor unit,mpu)、数字信号处理器(digital signal processor,dsp)或现场可编程门阵列(field programmable gate array,fpga)等。
[0191]
图12为本技术实施例提供的一种相似人群识别装置的组成结构示意图,如图12所示,相似人群识别装置1200包括:获取模块1210、第一相似人群确定模块1220、第二相似人群确定模块1230、目标相似人群确定模块1240,其中:
[0192]
获取模块1210,用于获取多个信令数据和每一所述信令数据的信令属性;所述信令属性包括位置信息和所述信令数据对应的初始用户;
[0193]
第一相似人群确定模块1220,用于基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合;
[0194]
第二相似人群确定模块1230,用于基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合;
[0195]
目标相似人群确定模块1240,用于将所述第一相似人群集合与第二相似人群集合的交集作为目标相似人群集合。
[0196]
在一些实施例中,所述第一相似人群确定模块1220,还用于:
[0197]
基于每一所述信令数据的位置信息对所述多个信令数据进行多个级别的栅格化处理,得到每一所述级别对应的栅格划分结果;所述栅格划分结果包括每一所述信令数据在所述级别对应的栅格区域;
[0198]
针对每一所述级别,基于每一所述信令数据对应的初始用户和栅格区域,确定所述级别对应的初始用户关联图;所述初始用户关系图表征各所述初始用户之间是否存在关联关系;
[0199]
基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图,生成综合关联图;所述综合关联图包括各所述初始用户之间的关联度信息;
[0200]
基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中去除异常用户,得到与种子用户集合相似的第一相似人群集合。
[0201]
在一些实施例中,所述栅格划分结果包括每一所述信令数据在所述级别对应的栅格区域;所述第一相似人群确定模块1220,还用于:
[0202]
针对每一所述级别的栅格化处理,获取所述级别对应的栅格区域集合;
[0203]
基于每一所述信令数据的位置信息和所述栅格区域集合中的每一栅格区域,确定每一所述信令数据在所述级别对应的栅格区域。
[0204]
在一些实施例中,所述第一相似人群确定模块1220,还用于:
[0205]
基于每一所述信令数据中初始用户与栅格区域之间的关联关系,构建二分图;所述二分图表征各所述初始用户与各所述栅格区域之间是否存在关联关系;
[0206]
将所述二分图转换为所述级别对应的初始用户关联图。
[0207]
在一些实施例中,所述第一相似人群确定模块1220,还用于:
[0208]
将每一所述栅格区域作为所述二分图中的栅格顶点,并将每一所述初始用户作为所述二分图中的第一用户顶点;
[0209]
针对每一所述信令数据,建立所述信令数据对应的栅格顶点与第一用户顶点之间的第一连接关系,得到所述二分图;所述第一连接关系表征所述栅格顶点对应的栅格区域与第一用户顶点对应的初始用户存在关联关系。
[0210]
在一些实施例中,所述第一相似人群确定模块1220,还用于:
[0211]
针对所述二分图中每一所述栅格顶点,在所述二分图中获取所述栅格顶点对应的初始用户集合;所述初始用户集合包括与所述栅格顶点存在第一连接关系的所有第一用户顶点对应的初始用户;
[0212]
将每一所述初始用户作为所述初始用户关联图中的第二用户顶点;
[0213]
针对每一所述栅格顶点对应的初始用户集合,建立所述初始用户集合中每两个初始用户对应的第二用户顶点之间的第二连接关系,得到级别对应的初始用户关联图;所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系。
[0214]
在一些实施例中,所述初始用户关联图包括第二用户顶点和至少一个第二连接关系,所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系;所述第一相似人群确定模块1220,还用于:
[0215]
基于每一所述级别对应的初始用户关联图中第二用户顶点的并集,构建所述综合关联图中的第三用户顶点;
[0216]
基于每一所述级别对应的初始用户关联图中至少一个所述第二连接关系的并集,得到所述综合关联图中至少一个第三连接关系;所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系;
[0217]
基于每一所述级别对应的级别权重,和每一所述级别对应的初始用户关联图中至少一个所述第二连接关系,确定所述综合关联图中每一所述第三连接关系对应的权重和;所述权重和表征对应的两个初始用户之间的关联度信息。
[0218]
在一些实施例中,所述异常用户包括其他用户和所述种子用户集合中的种子用户;所述第一相似人群确定模块1220,还用于:
[0219]
基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中将与每一所述种子用户不存在连接关系的初始用户作为所述其他用户;
[0220]
在所述多个初始用户中去除所述其他用户和所述种子用户,得到与所述种子用户集合相似的第一相似人群集合。
[0221]
在一些实施例中,所述综合关联图包括第三用户顶点、至少一个第三连接关系和每一所述第三连接关系对应的权重和,所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系;所述第一相似人群确定模块1220,还用于:
[0222]
在所述综合关联图中保留所述种子用户集合中的种子用户对应的第三用户顶点
和所述目标相似人群集合中目标相似用户对应的第三用户顶点;
[0223]
针对每一所述目标相似用户,累加所述目标相似用户对应的所述第三用户顶点与种子用户对应的第三用户顶点的第三连接关系对应的权重和,得到所述目标相似用户与所述种子用户集合的相似度;
[0224]
基于每一所述目标相似用户对应的相似度,生成具有排序信息的目标相似人群集合。
[0225]
在一些实施例中,所述第二相似人群确定模块1230,还用于:
[0226]
获取所述多个信令数据对应的每一所述初始用户对应的画像数据,作为画像数据集;
[0227]
基于所述画像数据集进行模型训练,得到种子用户集合对应的训练后的相似人群识别模型;
[0228]
去除所述多个信令数据中初始用户为种子用户的信令数据,得到剩余用户集合;
[0229]
基于所述种子用户集合对应的训练后的相似人群识别模型对所述剩余用户集合进行筛选,得到与所述种子用户集合相似的第二相似人群集合。
[0230]
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本技术实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本技术装置实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0231]
需要说明的是,本技术实施例中,如果以软件功能模块的形式实现上述的相似人群识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本技术实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
[0232]
本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
[0233]
本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
[0234]
本技术实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
[0235]
本技术实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例
中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0236]
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0237]
图13为本技术实施例提供的一种计算机设备的硬件实体示意图,如图13所示,该计算机设备1300的硬件实体包括:处理器1301和存储器1302,其中,存储器1302存储有可在处理器1301上运行的计算机程序,处理器1301执行程序时实现上述任一实施例的方法中的步骤。
[0238]
存储器1302存储有可在处理器上运行的计算机程序,存储器1302配置为存储由处理器1301可执行的指令和应用,还可以缓存待处理器1301以及计算机设备1300中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机访问存储器(random access memory,ram)实现。
[0239]
处理器1301执行程序时实现上述任一项的相似人群识别方法的步骤。处理器1301通常控制计算机设备1300的总体操作。
[0240]
本技术实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的相似人群识别方法的步骤。
[0241]
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术存储介质和设备实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0242]
上述处理器可以为目标用途集成电路(application specific integrated circuit,asic)、数字信号处理器(digital signal processor,dsp)、数字信号处理装置(digital signal processing device,dspd)、可编程逻辑装置(programmable logic device,pld)、现场可编程门阵列(field programmable gate array,fpga)、中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本技术实施例不作具体限定。
[0243]
上述计算机存储介质/存储器可以是只读存储器(read only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性随机存取存储器(ferromagnetic random access memory,fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read-only memory,cd-rom)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
[0244]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0245]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0246]
在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0247]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0248]
另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0249]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0250]
或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0251]
以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。
技术特征:
1.一种相似人群识别方法,其特征在于,所述方法包括:获取多个信令数据和每一所述信令数据的信令属性;所述信令属性包括位置信息和所述信令数据对应的初始用户;基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合;基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合;将所述第一相似人群集合与第二相似人群集合的交集作为目标相似人群集合。2.根据权利要求1所述的方法,其特征在于,所述基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合,包括:基于每一所述信令数据的位置信息对所述多个信令数据进行多个级别的栅格化处理,得到每一所述级别对应的栅格划分结果;所述栅格划分结果包括每一所述信令数据在所述级别对应的栅格区域;针对每一所述级别,基于每一所述信令数据对应的初始用户和栅格区域,确定所述级别对应的初始用户关联图;所述初始用户关系图表征各所述初始用户之间是否存在关联关系;基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图,生成综合关联图;所述综合关联图包括各所述初始用户之间的关联度信息;基于所述综合关联图中各所述初始用户之间的关联度信息,在所述多个初始用户中去除异常用户,得到与种子用户集合相似的第一相似人群集合。3.根据权利要求2所述的方法,其特征在于,所述栅格划分结果包括每一所述信令数据在所述级别对应的栅格区域;所述基于每一所述信令数据的位置信息对所述多个信令数据进行多个级别的栅格化处理,得到每一所述级别对应的栅格划分结果,包括:针对每一所述级别的栅格化处理,获取所述级别对应的栅格区域集合;基于每一所述信令数据的位置信息和所述栅格区域集合中的每一栅格区域,确定每一所述信令数据在所述级别对应的栅格区域。4.根据权利要求2所述的方法,其特征在于,所述基于每一所述信令数据对应的初始用户和栅格区域,确定所述级别对应的初始用户关联图,包括:基于每一所述信令数据中初始用户与栅格区域之间的关联关系,构建二分图;所述二分图表征各所述初始用户与各所述栅格区域之间是否存在关联关系;将所述二分图转换为所述级别对应的初始用户关联图。5.根据权利要求4所述的方法,其特征在于,所述基于每一所述信令数据中初始用户与栅格区域之间的关联关系,构建二分图,包括:将每一所述栅格区域作为所述二分图中的栅格顶点,并将每一所述初始用户作为所述二分图中的第一用户顶点;针对每一所述信令数据,建立所述信令数据对应的栅格顶点与第一用户顶点之间的第一连接关系,得到所述二分图;所述第一连接关系表征所述栅格顶点对应的栅格区域与第一用户顶点对应的初始用户存在关联关系。
6.根据权利要求4所述的方法,其特征在于,所述将所述二分图转换为所述级别对应的初始用户关联图,包括:针对所述二分图中每一所述栅格顶点,在所述二分图中获取所述栅格顶点对应的初始用户集合;所述初始用户集合包括与所述栅格顶点存在第一连接关系的所有第一用户顶点对应的初始用户;将每一所述初始用户作为所述初始用户关联图中的第二用户顶点;针对每一所述栅格顶点对应的初始用户集合,建立所述初始用户集合中每两个初始用户对应的第二用户顶点之间的第二连接关系,得到级别对应的初始用户关联图;所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系。7.根据权利要求2所述的方法,其特征在于,所述初始用户关联图包括第二用户顶点和至少一个第二连接关系,所述第二连接关系表征对应的两个第二用户顶点对应的初始用户存在关联关系;所述基于每一所述级别对应的级别权重和每一所述级别对应的初始用户关联图,生成综合关联图,包括:基于每一所述级别对应的初始用户关联图中第二用户顶点的并集,构建所述综合关联图中的第三用户顶点;基于每一所述级别对应的初始用户关联图中至少一个所述第二连接关系的并集,得到所述综合关联图中至少一个第三连接关系;所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系;基于每一所述级别对应的级别权重,和每一所述级别对应的初始用户关联图中至少一个所述第二连接关系,确定所述综合关联图中每一所述第三连接关系对应的权重和;所述权重和表征对应的两个初始用户之间的关联度信息。8.根据权利要求1所述的方法,其特征在于,所述综合关联图包括第三用户顶点、至少一个第三连接关系和每一所述第三连接关系对应的权重和,所述第三连接关系表征对应的两个第三用户顶点对应的初始用户存在关联关系;所述方法还包括:在所述综合关联图中保留所述种子用户集合中的种子用户对应的第三用户顶点和所述目标相似人群集合中目标相似用户对应的第三用户顶点;针对每一所述目标相似用户,累加所述目标相似用户对应的所述第三用户顶点与种子用户对应的第三用户顶点的第三连接关系对应的权重和,得到所述目标相似用户与所述种子用户集合的相似度;基于每一所述目标相似用户对应的相似度,生成具有排序信息的目标相似人群集合。9.一种相似人群识别装置,其特征在于,所述装置包括:获取模块,用于获取多个信令数据和每一所述信令数据的信令属性;所述信令属性包括位置信息和所述信令数据对应的初始用户;第一相似人群确定模块,用于基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合;第二相似人群确定模块,用于基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合;
目标相似人群确定模块,用于将所述第一相似人群集合与第二相似人群集合的交集作为目标相似人群集合。10.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述方法中的步骤。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述方法中的步骤。
技术总结
本申请实施例公开了一种相似人群识别方法、装置、设备及存储介质,其中,所述方法包括:获取多个信令数据和每一所述信令数据的信令属性;所述信令属性包括位置信息和所述信令数据对应的初始用户;基于每一所述信令数据的位置信息对所述多个信令数据进行多级别栅格化处理,得到各所述初始用户之间的关联度信息,并确定与种子用户集合相似的第一相似人群集合;基于所述种子用户集合对应的训练后的相似人群识别模型,对所述多个信令数据对应的多个初始用户进行筛选,得到与所述种子用户集合相似的第二相似人群集合;将所述第一相似人群集合与第二相似人群集合的交集作为目标相似人群集合。群集合。群集合。
技术研发人员:赵正委
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2023.02.17
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/