一种人群分类方法、装置、存储介质及电子设备与流程
未命名
08-29
阅读:86
评论:0

1.本说明书涉及计算机技术领域,尤其涉及一种人群分类方法、装置、存储介质及电子设备。
背景技术:
2.现有的大多数场景中,在针对不同人群生成营销文案的过程,都是资深的运营通过对历史数据进行大量的人工分析,基于较强的专家经验,对人群进行分群,这样较为依赖人力,效率较为低下,且实际过程中分群的结果不一定具有区分度,分类不具备准确性,不适合进行大规模扩展。
3.随着大量用户在线行为数据的积累,很多基于数据驱动的自动化方法被提出来,商家可通过收集的用户特征数据,通过自动的聚类算法对人群进行分类,打上相应的分类标签。但现有技术的分类算法分出来的人群无法满足人群大小、人群类别区分度、可解释性的需要。其并不具备可理解性,无法区分出每一类人群具备什么样的特点。部分人群具有的特征太多,部分人群的大小也不能保证,进而导致不方便进行下一步针对人群的营销方案的定制化生产和下发。
技术实现要素:
4.本说明书提供了一种人群分类方法、装置、存储介质及电子设备,所述技术方案如下:
5.第一方面,本说明书提供了一种人群分类方法,所述方法包括:根据用户特征数据,确定多个原子人群特征;基于所述原子人群特征,在营销目标人群中确定所述原子人群特征对应的用户人群,作为原子人群;对所述原子人群进行聚类,得到聚类人群。
6.第二方面,本说明书提供了一种人群分类装置,所述装置包括:特征确定模块,用于根据用户特征数据,确定多个原子人群特征;人群确定模块,用于基于所述原子人群特征,在营销目标人群中确定所述原子人群特征对应的用户人群,作为原子人群;人群聚类模块,用于对所述原子人群进行聚类,得到聚类人群。
7.第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
8.第四方面,本说明书实施例提供了一种包含指令的计算机程序产品,当其在计算机或处理器上运行时,使得上述计算机或处理器执行上述的方法步骤。
9.第五方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
10.本说明书一些实施例提供的技术方案带来的有益效果至少包括:
11.在本说明书一个或多个实施例中,通过先对用户特征数据进行处理,确定原子人群特征,每个原子人群特征均可以影响营销目标人群,再基于原子人群特征划分原子人群,保证了原子人群划分的准确性、区分度和覆盖度,最后对所述原子人群进行聚类,得到最终
的聚类人群。该最终的聚类人群同时具备转化率的区分度和特征类别上的区分度,准确性相对于一般的聚类方案得到的结果有较大的提高。相比于现有的各种人群分类方案,本说明书的实施例在保证精度的前提下,输出的人群分类结果也具有良好的可解释性,方便运营人员制定相应的运营方案,提升了整体流程的效率,可以更好地落地和大规模使用。
附图说明
12.为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1是本说明书提供的一种人群分类系统的场景示意图
14.图2是本说明书提供的一种人群分类方法的流程示意图。
15.图3是根据图2对应实施例示出的人群分类方法中步骤s100的一种具体实现流程图。
16.图4是根据图3对应实施例示出的人群分类方法中步骤s110的一种具体实现流程图。
17.图5是根据图4对应实施例示出的人群分类方法中步骤s112的一种具体实现流程图。
18.图6是根据图2对应实施例示出的人群分类方法中步骤s300的一种具体实现流程图。
19.图7是根据图6对应实施例示出的人群分类方法中步骤s320的一种具体实现流程图。
20.图8是本说明书提供的一种人群分类方法的总流程示意图。
21.图9为本说明书提供的一种人群分类装置的结构示意图。
22.图10是本说明书提供的一种电子设备的结构示意图。
23.图11是本说明书提供的操作系统和用户空间的结构示意图。
24.图12是图11中安卓操作系统的架构图。
25.图13是图11中ios操作系统的架构图。
26.图14是本说明书提供的一种电子设备的结构示意图。
具体实施方式
27.下面将结合本说明书中的附图,对本说明书中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
28.在本说明书的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本说明书的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是
可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本说明书中的具体含义。此外,在本说明书的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
29.下面结合具体的实施例对本说明书进行详细说明。
30.请参见图1,为本说明书提供的一种人群分类系统的场景示意图。如图1所示,所述人群分类系统至少可以包括客户端集群和服务平台100。
31.所述客户端集群可以包括至少一个客户端,如图1所示,具体包括用户1对应的客户端1、用户2对应的客户端2、
…
、用户n对应的客户端n,n为大于0的整数。
32.客户端集群中的各客户端可以是具备通信功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,pda)、5g网络或未来演进网络中的电子设备等。
33.所述服务平台100可以是单独的服务器设备,例如:机架式、刀片、塔式、或者机柜式的服务器设备,或采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在事务链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
34.在本说明书的一个或多个实施例中,服务平台100与客户端集群中的至少一个客户端可建立通信连接,基于该通信连接完成人群分类过程中数据的交互,诸如线上事务数据交互,事务数据交互包括但不限于消费、购物、金融、授信等等方面的数据交互,具体事务服务类型基于实际应用情况确定。如服务平台100可基于本说明书的人群分类方法得到的聚类人群可实现针对性地向各客户端进行内容推荐。
35.在服务平台100对若干客户端进行线上事务数据交互的过程中,在诸如相关事务活动发布、平台热点事件、营销活动等场景下,服务平台100需要对营销目标人群进行划分,然后针对划分后的人群各自安排个性化的文案推送、热点推送以及产品推荐等。基于此服务平台100可通过执行本说明书一个或多个实施例的人群分类方法,对营销目标人群进行划分,得到最终的聚类人群,然后再针对最终的聚类人群,进行文案推送、热点推送以及产品推荐等后续处理。
36.需要说明的是,服务平台100与客户端集群中的至少一个客户端通过网络建立通信连接进行交互通信,其中,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线(universal serial bus,usb)或控制器局域网络。在说明书一个或多个实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markup language,xml)等的技术和/或格式来代表通过网络交换的数据(如
目标压缩包)。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocol security,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
37.本说明书所提供的人群分类系统实施例与一个或多个实施例中的所述人群分类方法属于同一构思,在说明书一个或多个实施例涉及的所述人群分类方法对应的执行主体可以是上述服务平台100;在说明书一个或多个实施例涉及的所述人群分类方法对应的执行主体也可以是客户端所对应的电子设备,具体基于实际应用环境确定。人群分类系统实施例其体现实现过程可详见下述的方法实施例,这里不再赘述。
38.基于图1所示的场景示意图,下面对本说明书一个或多个实施例提供的人群分类方法进行详细介绍。
39.请参见图2,为本说明书一个或多个实施例提供了一种人群分类方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的人群分类装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述人群分类装置可以为服务平台。
40.具体的,该人群分类方法包括:
41.步骤s100,根据用户特征数据,确定多个原子人群特征。
42.步骤s200,基于所述原子人群特征,在营销目标人群中确定所述原子人群特征对应的用户人群,作为原子人群。
43.步骤s300,对所述原子人群进行聚类,得到聚类人群。
44.在本说明书中,先根据用户特征数据,确定多个原子人群特征,每个原子人群特征均为对运营目标有影响的相关特征。再基于所述原子人群特征,对销目标人群进行划分,得到原子人群,每一个原子人群均对应一个原子人群特征,该原子人群为该原子人群特征下的最细粒度原子人群,具有较高的区分度。最后对原子人群进行聚类,得到最终的足覆盖度要求的具有区分度的聚类人群,该聚类人群同时具备转化率的区分度和特征类别上的区分度。
45.在步骤s100中,用户特征数据包括多个方面的数据,例如画像标签数据特征、行为活跃度特征、偏好类特征等。这些特征中,画像标签数据特征又包括职业特征、岁数特征、位置特征等特征;行为活跃度特征又包括登录次数、访问次数、搜索次数等特征;用户的偏好类特征又包括历史搜索词、偏好关键词等特征。这些特征经过处理筛选即得到原子人群特征。对用户特征数据的处理筛选的具体过程,可以参考如下实施例。
46.具体的,在一些实施例中,步骤s100的具体实施方式可以参阅图3。图3是根据图2对应实施例示出的人群分类方法中步骤s100的细节描述,所述人群分类方法中,步骤s100可以包括以下步骤:
47.步骤s110,对所述用户特征数据进行可解释特征处理,得到可解释特征。
48.步骤s120,将所述可解释特征输入转化判断模型,由所述转化判断模型输出所述对应的是否转化的结果。
49.步骤s130,根据所述是否转化的结果,确定所述原子人群特征。
50.在本说明书中,对于用户特征数据,先进行可解释特征处理,将用户特征数据变为可解释特征,可解释特征具备可解释性和可计算性,是可以被机器理解和计算的特征。再通过转化判断模型,确定各可解释特征的转化结果,进而筛选确定出原子人群特征。通过转化判断模型筛选确定出的原子人群特征都是与运营目标相关的特征。
51.可解释特征具备可解释性和可计算性,是可以被机器理解和计算的特征。在步骤s110中,得到可解释特征的方式为筛选处理,其具体方式可以参考如下实施例。
52.具体的,在一些实施例中,步骤s110的具体实施方式可以参阅图4。图4是根据图3对应实施例示出的人群分类方法中步骤s110的细节描述,所述人群分类方法中,步骤s110可以包括以下步骤:
53.步骤s111,从所述用户特征数据中筛选备选特征,所述备选特征具有可解释性。
54.步骤s112,对所述备选特征进行处理,得到可解释特征。
55.在本说明书中,得到可解释特征的方式为先从用户特征数据中筛选出具备可解释性的备选特征,再对备选特征做处理,使备选特征转化为可解释特征。
56.在步骤s111中,备选特征的可解释性即该备选特征可以被机器理解其一般是特征编码加对应特征值的形式,例如画像标签数据特征中的职业、岁数以及地址等;又如行为活跃度特征中的登录次数、访问次数以及搜索次数;还如偏好类特征中的各种高频搜索词、高频点击链接以及其他用户偏好词等。但需要注意的是,在深度学习中常用的嵌入式(embedding)型矩阵特征,虽然也是用户特征数据,但因为其仅仅是一些连续矩阵,并不具备可解释性,因此不可以作为备选特征。
57.在步骤s112中,对备选特征的处理即为确定该备选特征的特征编码以及对应的特征值,并将特征编码和特征值关联,形成可以被机器理解并计算的可解释型特征,具体地,得到可解释特征的具体方式可参考如下实施例。
58.具体的,在一些实施例中,步骤s112的具体实施方式可以参阅图5。图5是根据图4对应实施例示出的人群分类方法中步骤s112的细节描述,所述人群分类方法中,步骤s112可以包括以下步骤:
59.步骤s1121,根据所述备选特征的种类,对所述用户特征数据划分特征域。
60.步骤s1122,在所述特征域内定义特征类别,并给予对应的特征编码。
61.步骤s1123,对所述特征类别赋特征值,与所述特征编码关联,形成可解释特征。
62.在本说明书中,先根据各备选特征的种类,按使用方式或者对应意义,划分特征域,然后再在特征域内定义特征,给予对应的特征编码并赋特征值,将特征编码和特征值关联,形成可解释特征。
63.在步骤s1121中,特征域一般按使用方式或者对应意义划分,例如可以划分为画像标签数据特征域、行为活跃度特征域、偏好类特征域等。例如对于用户u,画像标签数据特征域可以记为profileu,所有的和用户u画像相关的特征均划分至特征域profileu。行为活跃度特征域可以记为activeu,所有的和用户u行为活跃度相关的特征均划分至特征域activeu。偏好类特征域可以记为preferu,所有的和用户u偏好相关的特征均划分至特征域preferu。
64.在步骤s1122中,在不同的特征域内,梳理对应的可解释特征,定义特征类别,并给予对应的特征编码,特征类别即为特征域内的各个具体特征名称,而特征编码即为该特征
名称对应的特征编码。
65.而在步骤s1123中,特征值即与特征编码对应关联的值,一个特征编码和其关联的一个特征值构成一个完整的可解释特征。
66.例如,在特征域profileu中,可以定义职业为一个特征类别,其特征编码可以为职业、occupation、career、o或者001等形式,其对应的特征值可以是负责人、技术人员、办事人员、服务人员、生产和辅助人员、制造人员、武力人员以及其他人员,也可以代码化为10000、20000、30000、40000、50000、60000、70000、80000等。则对应的,可以得到职业-负责人、职业-技术人员、职业-办事人员、职业-服务人员、职业-生产和辅助人员、职业-制造人员、职业-武力人员以及职业-其他人员八个与职业相关的可解释特征,其作为可解释特征,可以分别被标记为occupation-负责人、occupation-技术人员、occupation-办事人员、occupation-服务人员、occupation-生产和辅助人员、occupation-制造人员、occupation-武力人员、occupation-其他人员或者o-10000、o-20000、o-30000、o-40000、o-50000、o-60000、o-70000、o-80000。需要说明的是,本实施例举出的8类职业只是用于举例说明,为了方便说明,采用了最粗粒度的划分方式枚举出了职业,在实际应用过程中,可以根据实际需求对职业进行更细粒度的划分,例如划分为75个职业分类、434个职业分类、1481个职业分类均可,本公开在此不做限制。
67.又如,在特征域preferu中,可以定义高频搜索词为一个特征类别,其特征编码可以是热搜、hotwords、hw或者006等形式,其对应的特征值可以是用户搜索频率较高的一些搜索词。用户搜索频率较高的一些搜索词可以是用户搜索次数超过预定次数的词语,这些词语为用户经常使用的搜索词,可以在一定程度上展现用户的喜好。用户搜索频率较高的一些搜索词也可以是用户使用最多的前几个搜索词,具体搜索词的数量可以根据需求限定,例如可以是前5个高频搜索词、前10个高频搜索词或者前20个高频搜索词,以避免超过预定次数的词语过多导致的原子人群拆分过细数据量过大的问题,以及避免超过预定次数的词语过少导致的原子人群拆分过粗没有区分度的问题。则对应地,可以得到多个与高频搜索词相关的可解释特征。例如在一个实施例中,用户的高频搜索词包括湿巾、口罩、温度计、火锅底料、牛奶等,则其作为可解释特征,可以分别被标记为hw-湿巾、hw-口罩、hw-温度计、hw-火锅底料、hw-牛奶等。
68.上述实施例仅举例说明了对于枚举型特征的处理方式,枚举型特征为可以将特征值全部枚举出来的特征,其特征值的有一定的数量,可以被枚举尽。例如上述实施例中的职业特征,其只有上述的8个职业特征,其特征值可以被全部枚举出来。在更细粒度的划分下,职业特征的数量也是有限的,即使其细粒度地划分出1481个职业分类,这写职业分类也能够被完全枚举出来。
69.而上述实施例中的高频搜索词也是枚举型特征,用户的高频搜索词的数量总是一定的,其可以被枚举完,但高频搜索词过多可能会影响原子人群的划分,因此一般会限制高频搜索词的数量,一般地,可以限定为前10个高频搜索词、前20个高频搜索词或者前50个高频搜索词,具体搜索词的数量可以根据使用环境和使用需求限定。
70.但是在可解释特征中,不仅仅有可以将特征值全部枚举出来的枚举型特征,还包括特征值连续的连续型特征,连续型特征的特征值是一个范围,无法枚举尽,因此无法像枚举型特征一样,通过枚举的方式赋特征值,得到有限个可解释特征。此时,在步骤s1123中就
需要通过如下实施例进行处理。
71.具体的,在一些实施例中,步骤s112的具体实施方式可以参阅如下实施例。本实施例是根据图5对应实施例示出的人群分类方法中步骤s1123的细节描述,所述人群分类方法中,步骤s1123可以包括以下步骤:
72.对所述特征类别赋特征值,与所述特征编码关联,得到初始特征。
73.对所述初始特征进行分桶,得到可解释特征。
74.在本实施例中,对于连续型特征,其特征值是连续的,故采用先对对应的特征类别赋一个大范围的特征值,并与特征编码关联,形成一个初始特征,该初始特征对应的人群为所有用户。然后再对初始特征中的特征值进行分桶,得到多个小的特征值,分别与前述的特征编码关联,形成多个可解释特征。
75.例如,在特征域profileu中,可以定义岁数为一个特征类别,其特征编码可以为岁数、age、a、yd或者002等形式,其对应的特征值可以按照用户特征数据中的最大岁数和最小岁数确定,若用户特征数据中的最大岁数为87岁,最小岁数为23岁,则可以将特征值直接确定为23~57,也可以对上限值和下限值进行一定地扩展处理,确定为20~60这样上限值和下限值为整十的范围值。其对应的特征值可以按照人类岁数的实际情况,取一个最大范围,直接定义为0以上。在确定特征值后,就可以先将特征值和特征编码对应,形成初始特征,然后对初始特征做分桶,分桶方式可使用等频分桶、等距分桶、模型分桶等方法。
76.例如对于特征值20~90,可以等距分桶为20~30、30~40、40~50、50~60四组等距的特征值,其对应可以形成4个可解释特征,并可以分别被标记为age-20~30、age-30~40、age-40~50、age-50~60,以避免出现有的桶的数量很少,而有的桶数量过多的情况;也可以等频分桶为20~24、24~32、32~40、40~50、50~60五组等频的特征值,其对应可以形成5个可解释特征,并可以分别被标记为a-20~24、a-24~32、a-32~40、a-40~50、a-50~60,以保证每个原子人群的人数分布均匀,避免出现某个原子人群人数多某个原子人群人数少的情况。
77.又如特征值0以上,可以通过模型分桶为(0,18]、(18,26]、(26,40]、(40,60]、(60,+∞)五组特征值其对应可以形成5个可解释特征,并可以分别被标记为yd~(0,18]、yd~(18,26]、yd~(26,40]、yd~(40,60]、yd~(60,+∞),通过模型对连续型特征切分,寻找较佳特征分割点,利用特征分割点进行离散化,可以将连续性特征分桶为较佳的多个可解释特征。模型分桶的方式可以直接使用树模型进行分桶,也可以以运行规则为目标建立模型进行分桶,或者以其他规则为目标建立模型进行分桶。
78.由于用户特征数据比较繁杂,可能存在部分数据缺失的问题,故在对特征类别赋特征值时需要解决数据缺失的问题。具体地,对特征类别赋特征值的具体步骤可参考下述实施例。
79.具体的,在一些实施例中,步骤s112的具体实施方式可以参阅如下实施例。本实施例是根据图5对应实施例示出的人群分类方法中步骤s1123的细节描述,所述人群分类方法中,步骤s1123可以包括以下步骤:
80.若用户在所述特征类别下有对应的特征值,则将所述特征值与对应特征编码关联,得到可解释特征。
81.若用户在所述特征类别下没有对应的特征值,则填充对应的填充值作为特征值与
对应特征编码关联,得到可解释特征。
82.在本说明书中,对于用户在特征类别下有对应的特征值的,正常将特征值与对应特征编码关联,即可得到可解释特征。对于用户在特征类别下没有对应的特征值的,则需要寻找对应的填充值作为特征值填充,与对应特征编码关联,形成可解释特征。
83.例如,对于特征域profileu中的职业特征,若用户u的职业是已知的负责人、技术人员、办事人员、服务人员、生产和辅助人员、制造人员、武力人员以及其他人员,可以直接赋对应的值,形成可解释特征。若用户u的职业数据由于损坏或缺失无法确定,则可以直接将用户u的职业确定为未知,形成可解释特征。即按照职业,可以有occupation-负责人、occupation-技术人员、occupation-办事人员、occupation-服务人员、occupation-生产和辅助人员、occupation-制造人员、occupation-武力人员、occupation-其他人员加上occupation-未知九种可解释特征。在其他一些实施例中,对于occupation-其他人员和occupation-未知两种可解释特征,其对应的人数一般较少,可以合并为一个可解释特征,可以直接为occupation-其他人员或标记为occupation-未知。在另一些实施例中,也可以根据用户u的其他特征数据推算出职业特征,进而填充对应的职业特征。
84.又如,对于特征域activeu中的登录次数特征,若用户u的登录次数已知,则可以直接赋对应的值,形成可解释特征。若用户u的登录次数由于损坏或缺失无法确定,则可以直接将用户u的登录次数填充为0,形成可解释特征。或者也可以根据用户u的其他相关的特征数据,寻找与用户u具有较多相似特征的用户,根据与用户u具有较多相似特征的用户的登录次数,确定用户u的登录次数。
85.即对于缺失的特征值,可以根据实际特征的类型和特征值的特点,选择填充未知或者直接赋0值,也可以根据其他特征数据推导计算出对应的特征值,本说明书在此不做限定。
86.在步骤s120中,转化判断模型是预先根据大量样本训练得到的精确性达到预定要求的机器学习模型,可以对可解释特征的相关信息进行计算分析输出相应的是否转化的结果。通过转化判断模型对可解释特征进行处理,确定可解释特征是否转化,可以辅助判断筛选对应的可解释特征是否适合做原子人群特征。可解释特征是否转化的意思为,该可解释特征对应的用户是否可以作为营销目标等被转化,进行访问、观看以及购买等操作。
87.具体地,在一些实施例中,转化判断模型的训练的具体训练方法包括:
88.获取可解释特征的样本集,所述样本集中包含正样本集合和负样本集合,所述正样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的可以转化的结果,所述负样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的不可以转化的结果。
89.将所述样本集中的样本输入所述转化判断模型中,得到所述转化判断模型输出的是否可以转化的结果。
90.如果存在用所述正样本集合中的样本输入转化判断模型后,得到不可以转化的结果,和/或存在所述负样本集合中的样本输入转化判断模型后,得到可以转化的结果,则调整所述转化判断模型的系数。
91.当所述正样本集合中预定比例的样本输入转化判断模型后,得到可以转化的结果,且所述负样本集合中预定比例的样本输入转化判断模型后,得到不可以转化的结果,训
练结束。
92.在本说明书的一个实施例中,转化判断模型包括xgboost(extreme gradient boosting)算法模型。xgboost算法是gbdt的一种高效实现,它提供了一个梯度提高框架,它的目的在于提供一个“可扩展的、便携式和可分布的梯度提高库”。xgboost使用提升树模型,对可解释特征的是否转化计算场景具有良好的适应性,可以提供更好的拟合结果,形成精准的风险指数。
93.xgboost算法模型包括多个优化后的回归树,每个回归树包括多个叶子结点,每个叶子结点对应一个指数。将可解释特征的特征向量输入xgboost算法模型后,每个回归树根据输入的特征通过遍历特征切分点(例如当一个特征向量小于a划分到左子树,当大于a时划分到右子树)将可解释特征划分到一个叶子结点。这样可以得到每个回归树上可解释特征对应的叶子结点对应的指数,所有叶子结点的指数之和就是xgboost算法模型预测的可解释特征是否转化的结果。
94.在步骤s130中,若可解释特征输入转化判断模型后,得到可以转化的结果,则可以选择该可解释特征作为原子人群特征。
95.对于xgboost算法模型等树模型,其在分裂子树时会计算特征的增益,故当xgboost算法模型等树模型确定可以转化的可解释特征较多的时候,可以根据每个可解释特征输入xgboost算法模型等树模型得到的增益,确定原子人群特征。
96.具体地,其可以选择增益最大的前预定个可解释特征作为原子人群特征,例如选择增益最大的前20个可解释特征作为原子人群特征。
97.这些原子人群特征决定了用户是否会转化。这也就进一步保证了人群分类的准确性,而不只是随机选取特征,或者强依赖于人工专家经验选取特征。额外的,选取增益最大的特征也减少了后续的需要计算的原子人群数量,提高了整体运算效率。
98.在步骤s200中,每一个原子人群特征都可以对应一个原子人群,以原子人群特征为基础,将营销目标人群中所有具有该原子人群特征的人聚集在一起,即得到该原子人群特征对应的原子人群,原子人群是具有最细粒度的人群,具有较高的区分度。
99.在步骤s300中,通过聚类算法将具有最细粒度的原子人群聚类为具有共同点的几个新的聚类人群,每个聚类人群均由多个原子人群组成,其自动具备特征含义,且具有很好的区分度,也满足需要的覆盖度要求,可以较为方便地进行落地和应用,具有实施成本低、效果好等优势。
100.具体的,在一些实施例中,步骤s300的具体实施方式可以参阅图6。图6是根据图2对应实施例示出的人群分类方法中步骤s300的细节描述,所述人群分类方法中,步骤s300可以包括以下步骤:
101.步骤s310,根据所述可解释特征的样本集总数量和所述原子人群数量,确定所述目标群体指数。
102.步骤s320,根据所述目标群体指数对所述原子人群进行聚类,得到聚类人群。
103.在本说明书的实施例中,聚类的方式是,先计算原子人群对应的目标群体指数(target group index,tgi),根据各原子人群的tgi进行聚类。
104.具体地,在步骤s310中,确定目标群体指数的方式有多种,其可以按照算法一步一步计算得到,也可以按照公式直接计算得到。
105.具体的,在一些实施例中,步骤s310的具体实施方式可以参阅如下实施例。本实施例是根据图6对应实施例示出的人群分类方法中步骤s310的细节描述,所述人群分类方法中,步骤s310可以包括以下步骤:
106.根据所述可解释特征的样本集总数量和所述原子人群数量,确定第一占比和第二占比,所述第一占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集中的占比,所述第二占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集的正样本集合中的占比。
107.根据所述第一占比和第二占比,确定所述目标群体指数。
108.在本说明书的实施例中,tgi的计算方式为,先确定具有该原子人群对应的特征的人在该可解释特征的样本集中的占比,即第一占比,还有具有该原子人群对应的特征的人在该可解释特征的样本集的正样本集合中的占比,即第二占比。再根据第一占比和第二占比,确定所述目标群体指数。
109.其中,第一占比的计算方式为可解释特征的样本集中具有原子人群对应的特征的人数除以可解释特征的样本集的总人数。
110.第二占比的计算方式为可解释特征的样本集的正样本集合中具有原子人群对应的特征的人数除以可解释特征的样本集的正样本集合的总人数。
111.确定第一占比和第二占比后,使用第二占比除以第一占比,即得到目标群体指数,即tgi。
112.在其它实施例中,tgi还可以根据如下公式直接确定:
[0113][0114]
其中,w为原子人群集合,d
+
为可解释特征的样本集的正样本集合,d为可解释特征的样本集,∩为交集符号,count()为计算符号,意为计算该集合中的人数,tgiw为原子人群w对应的目标群体指数。
[0115]
tgi可以帮助我们分析特征在目标群体中相对全体用户的表现情况。如果对tgi进行分区的话,主要可以分为三段区间。当tgi=100%,则特征在目标群体和全体用户中的表现没有差异。当tgi》100%,则特征在目标群体中表现更强势,数字越大越强。当tgi《100%,则特征在目标群体中表现较为弱势,数字越小越弱。因此,tgi也可以来衡量原子人群之间的相似度和区分度。
[0116]
可以理解地,在一些实施例中,tgi可以在步骤s200划分出原子人群的时候就计算得出。即,在本说明书的实施例中,执行步骤s200后,不仅可以得到原子人群,还可以得到原子人群对应原子人群特征的特征类别和特征值、原子人群的tgi和覆盖度(coverage)。对于原子人群的覆盖度其计算方法将在后续实施例中详细阐述,在此处先不做赘述。
[0117]
在步骤s320中,根据各原子人群的tgi进行聚类,聚类的方式有多种,其聚类要求也可以根据实际需求进行多样化选择,其具体聚类方式可参考如下实施例。
[0118]
具体的,在一些实施例中,步骤s320的具体实施方式可以参阅图7。图7是根据图6对应实施例示出的人群分类方法中步骤s320的细节描述,所述人群分类方法中,步骤s320可以包括以下步骤:
[0119]
步骤s321,以各所述原子人群为初始的聚类簇,根据各所述聚类簇的目标群体指
数,计算各聚类簇之间的相似度。
[0120]
步骤s322,根据所述聚类簇之间的相似度,进行聚类,直到满足聚类要求,输出聚类人群。
[0121]
在本说明书的实施例中,先根据各初始的聚类簇的tgi,确定各初始的聚类簇间的相似度,再将相似度高的两个聚类簇聚类到一起,得到新的聚类簇,然后再基于聚类后的聚类簇,重复循环前述聚类步骤,直到满足聚类要求。
[0122]
在步骤s321中,各聚类簇之间的相似度的计算公式如下:
[0123][0124][0125][0126]
其中,w1和w2分别为一个原子人群,sim(w1,w2)即原子人群w1与原子人群w2之间的相似度,tgi
w1
为原子人群w1的目标群体指数,tgi
w2
为原子人群w2的目标群体指数,i为指示函数,满足条件为true时结果为1,否则为0,δ为惩罚系数,为w1和w2两个原子人群的特征类别数量。c1和c2分别为一个聚类簇,sim(c1,c2)即聚类簇c1和聚类簇c2之间的相似度,min(sim(w
i,j
))即取聚类簇c1中原子人群和聚类簇c2中原子人群之间相似度的最小值,e为自然底数,β为常数系数,typelimit为特征类别阈值,typecount(c1,c2)为聚类簇c1和聚类簇c2的特征类别总数。
[0127]
通过上述公式,即可以得出各聚类簇之间的相似度,以便执行步骤s322进行聚类。
[0128]
具体的,在一些实施例中,步骤s322的具体实施方式可以参阅如下实施例。本实施例是根据图7对应实施例示出的人群分类方法中步骤s322的细节描述,所述人群分类方法中,步骤s322可以包括以下步骤:
[0129]
在各所述聚类簇中选取相似度最大的两个聚类簇聚为一类,形成新的聚类簇。
[0130]
确定所述聚类簇个数,若所述聚类簇个数不大于预定个数阈值,则满足聚类要求,停止聚类,将所述聚类簇作为聚类人群输出。
[0131]
在本说明书中,聚类时,选取相似度最大的两个聚类簇聚为一类,形成新的聚类簇,然后将新的聚类簇加入聚类簇的集合中,计算和其他已有聚类簇的相似度以进行聚类,直至聚类簇的个数到达预定个数阈值以及预定个数阈值之下,此时将剩余的聚类簇作为聚类人群输出。即在本实施例中,需要满足的聚类要求即为聚类簇个数不大于预定个数阈值,此时得到的聚类簇的数量适合,相比聚类前的原子人群这些集合的个数下降,同时通过聚类挖掘了各原子人群之间的相似性,确定了各原子人群特征的关联性,直接作为分类人群使用,可以提高对相关用户人群的营销的针对性。
[0132]
同时,在其他实施例中,需要满足的聚类要求还可以包括聚类簇的覆盖度和包含的特征类别数量。在本实施例中,若在聚类过程中某一聚类簇的覆盖度超过了最高覆盖度阈值,则该聚类簇不再参与后续的聚类。同理,若在聚类过程中某一聚类簇包含的特征类别数量超过了特征类别阈值(即typelimit),则该聚类簇也不再参与后续的聚类。可以理解的是,原子人群的覆盖度计算也可以根据上述方法和公式进行计算得到。
[0133]
在此需要解释的是,特征类别数量是指该聚类簇包含的特征类别的种类,而不是原子人群特征的种类。例如,在一个聚类簇中,其包含岁数特征0到18岁、岁数特征18到26岁
以及岁数特征26到30岁三个原子人群特征,其所包含的三个原子人群特征的特征类别均是岁数,则其包含的特征类别数量即为1。
[0134]
又如,在一个聚类簇中,其包含岁数特征0到18岁、岁数特征18到26岁以及登录次数特征12到21次三个原子人群特征,其所包含的三个原子人群特征的特征类别有岁数特征,也有登录次数特征,则其包含的特征类别数量即为2。
[0135]
其中,最高覆盖度阈值可以设定为0.7,特征类别阈值可以根据实际需要设定为2或者3。
[0136]
对于聚类簇的覆盖度,其为该聚类簇的人数在整个营销目标人群中的总占比,其确定方式可以通过该聚类簇的人数除以营销目标人群的人数得到。
[0137]
在另一些实施例中,对于聚类簇的覆盖度,其计算公式如下:
[0138][0139]
其中,p为聚类簇或原子人群,u为营销目标人群,∩为交集符号,count()为计算符号,意为计算该集合中的人数,coverage
p
为集合p对应的覆盖度。
[0140]
同时,若在聚类过程中,出现没有聚类簇可以参与聚类但聚类簇个数仍大于预定个数阈值的情况,则聚类直接停止。
[0141]
在本说明书中,请参阅图8,人群分类方案的总流程可以概括为先对用户特征数据进行可解释性处理,得到可解释特征,得到可解释特征的具体方法具体可以参考之前图4和图5所对应的实施例,在此不做赘述。同时,取一部分用户特征数据做为样本,对转化判断模型进行机器学习模型方面的训练,对于转化判断模型的训练过程,在前述的实施例中已经说明,在此不做赘述。在转化判断模型训练好之后,将前面得到的可解释特征输入转化判断模型中,进行重要特征挖掘,挖掘筛选出需要的重要特征,重要特征即前述实施例中的原子人群特征,对于重要特征挖掘的具体方法,可以参考图3所对应的实施例,在此不做赘述。在得到原子人群特征后,再根据原子人群特征,对营销目标人群做tgi原子人群挖掘,得到原子人群和原子人群对应的tgi、覆盖度、特征类别以及特征值等参数。最后对上述带参数的原子人群进行聚类,即得到分类结果,聚类的具体方法可以参阅图6和图7所对应的实施例,在此不做赘述。
[0142]
本说明书中的实施例通过先对用户特征数据进行处理,确定原子人群特征,每个原子人群特征均可以影响营销目标人群,再基于原子人群特征划分原子人群,保证了原子人群划分的准确性、区分度和覆盖度,最后对所述原子人群进行聚类,得到最终的聚类人群。该最终的聚类人群同时具备转化率的区分度和特征类别上的区分度,准确性相对于一般的聚类方案得到的结果有较大的提高。相比于现有的各种人群分类方案,本说明书的实施例在保证精度的前提下,输出的人群分类结果也具有良好的可解释性,方便运营人员制定相应的运营方案,提升了整体流程的效率,可以更好地落地和大规模使用。
[0143]
下面将结合图9,对本说明书提供的人群分类装置进行详细介绍。需要说明的是,图9所示的人群分类装置,用于执行本说明书图1~图8所示实施例的方法,为了便于说明,仅示出了与本说明书相关的部分,具体技术细节未揭示的,请参照本说明书图1~图8所示的实施例。
[0144]
请参见图9,其示出本说明书的人群分类装置的结构示意图。该人群分类装置1可
以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该人群分类装置900包括特征确定模块910、人群确定模块920和人群聚类模块930,其中,特征确定模块910,用于根据用户特征数据,确定多个原子人群特征。人群确定模块920,用于基于所述原子人群特征,在营销目标人群中确定所述原子人群特征对应的用户人群,作为原子人群。人群聚类模块930,用于对所述原子人群进行聚类,得到聚类人群。
[0145]
可选地,特征确定模块910具体包括:特征处理子模块,用于对所述用户特征数据进行可解释特征处理,得到可解释特征。判断模型子模块,用于将所述可解释特征输入转化判断模型,由所述转化判断模型输出所述对应的是否转化的结果。特征确定子模块,用于根据所述是否转化的结果,确定所述原子人群特征。
[0146]
可选地,人群分类装置还包括:样本获取模块,用于获取可解释特征的样本集,所述样本集中包含正样本集合和负样本集合,所述正样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的可以转化的结果,所述负样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的不可以转化的结果。样本输入模块,用于将所述样本集中的样本输入所述转化判断模型中,得到所述转化判断模型输出的是否可以转化的结果。系数调整模块,用于如果存在用所述正样本集合中的样本输入转化判断模型后,得到不可以转化的结果,和/或存在所述负样本集合中的样本输入转化判断模型后,得到可以转化的结果,则调整所述转化判断模型的系数。训练结束模块,用于当所述正样本集合中预定比例的样本输入转化判断模型后,得到可以转化的结果,且所述负样本集合中预定比例的样本输入转化判断模型后,得到不可以转化的结果,训练结束。
[0147]
可选地,所述特征处理子模块具体包括:特征筛选单元,用于从所述用户特征数据中筛选备选特征,所述备选特征具有可解释性。特征处理单元,用于对所述备选特征进行处理,得到可解释特征。
[0148]
可选地,所述特征处理单元具体包括:特征域子单元,用于根据所述备选特征的种类,对所述用户特征数据划分特征域。定义编码子单元,用于在所述特征域内定义特征类别,并给予对应的特征编码。关联子单元,用于对所述特征类别赋特征值,与所述特征编码关联,形成可解释特征。
[0149]
可选地,所述关联子单元具体用于执行:对所述特征类别赋特征值,与所述特征编码关联,得到初始特征;对所述初始特征进行分桶,得到可解释特征。
[0150]
可选地,所述关联子单元具体还用于执行如下步骤:若用户在所述特征类别下有对应的特征值,则将所述特征值与对应特征编码关联,得到可解释特征;若用户在所述特征类别下没有对应的特征值,则填充对应的填充值作为特征值与对应特征编码关联,得到可解释特征。
[0151]
可选地,所述人群聚类模块930具体包括:指数计算子模块,用于根据所述可解释特征的样本集总数量和所述原子人群数量,确定所述目标群体指数。人群聚类子模块,用于根据所述目标群体指数对所述原子人群进行聚类,得到聚类人群。
[0152]
可选地,所述指数计算子模块具体包括:占比确定单元,用于根据所述可解释特征的样本集总数量和所述原子人群数量,确定第一占比和第二占比,所述第一占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集中的占比,所述第二占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集的正样本集合中的占比。指数确定
单元,用于根据所述第一占比和第二占比,确定所述目标群体指数。
[0153]
可选地,所述人群聚类子模块具体包括:相似度确定单元,用于以各所述原子人群为初始的聚类簇,根据各所述聚类簇的目标群体指数,计算各聚类簇之间的相似度。人群聚类单元,用于根据所述聚类簇之间的相似度,进行聚类,直到满足聚类要求,输出聚类人群。
[0154]
可选地,所述人群聚类单元具体包括:聚类子单元,在各所述聚类簇中选取相似度最大的两个聚类簇聚为一类,形成新的聚类簇。输出子单元,确定所述聚类簇个数,若所述聚类簇个数不大于预定个数阈值,则满足聚类要求,停止聚类,将所述聚类簇作为聚类人群输出。
[0155]
需要说明的是,上述实施例提供的人群分类装置在执行人群分类方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的人群分类装置与人群分类方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
[0156]
上述本说明书序号仅仅为了描述,不代表实施例的优劣。
[0157]
在本说明书一个或多个实施例中,通过先对用户特征数据进行处理,确定原子人群特征,每个原子人群特征均可以影响营销目标人群,再基于原子人群特征划分原子人群,保证了原子人群划分的准确性、区分度和覆盖度,最后对所述原子人群进行聚类,得到最终的聚类人群。该最终的聚类人群同时具备转化率的区分度和特征类别上的区分度,准确性相对于一般的聚类方案得到的结果有较大的提高。相比于现有的各种人群分类方案,本说明书的实施例在保证精度的前提下,输出的人群分类结果也具有良好的可解释性,方便运营人员制定相应的运营方案,提升了整体流程的效率,可以更好地落地和大规模使用。
[0158]
本说明书还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图8所示实施例的所述人群分类方法,具体执行过程可以参见图1~图8所示实施例的具体说明,在此不进行赘述。
[0159]
本说明书还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图8所示实施例的所述人群分类方法,具体执行过程可以参见图1~图8所示实施例的具体说明,在此不进行赘述。
[0160]
请参考图10,其示出了本说明书一个示例性实施例提供的电子设备的结构方框图。本说明书中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
[0161]
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器110可集成中心处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责
显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
[0162]
存储器120可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(android)系统,包括基于android系统深度开发的系统、苹果公司开发的ios系统,包括基于ios系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据,等。
[0163]
参见图11所示,存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对gpu性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。
[0164]
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
[0165]
以操作系统为android系统为例,存储器120中存储的程序和数据如图12所示,存储器120中可存储有linux内核层320、系统运行时库层340、应用框架层360和应用层380,其中,linux内核层320、系统运行库层340和应用框架层360属于操作系统空间,应用层380属于用户空间。linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、wi-fi驱动、电源管理等。系统运行库层340通过一些c/c++库来为android系统提供了主要的特性支持。如sqlite库提供了数据库的支持,opengl/es库提供了3d绘图的支持,webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(android runtime),它主要提供了一些核心库,能够允许开发者使用java语言来编写android应用。应用框架层360提供了构建应用程序时可能用到的各种api,开发者也可以通过使用这些api来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序等。
[0166]
以操作系统为ios系统为例,存储器120中存储的程序和数据如图13所示,ios系统包括:核心操作系统层420(core os layer)、核心服务层440(core services layer)、媒体层460(media layer)、可触摸层480(cocoa touch layer)。核心操作系统层420包括了操作
系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架,比如基础(foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(airplay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(user interface,ui)框架、用户界面uikit框架、地图框架等等。
[0167]
在图13所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440中的基础框架和可触摸层480中的uikit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和ui无关。而uikit框架提供的类是基础的ui类库,用于创建基于触摸的用户界面,ios应用程序可以基于uikit框架来提供ui,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
[0168]
其中,在ios系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考android系统,本说明书在此不再赘述。
[0169]
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本说明书对此不加以限定。
[0170]
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,wifi)模块、电源、蓝牙模块等部件,在此不再赘述。
[0171]
在本说明书中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统,也可以是ios系统,或者其它操作系统,本说明书对此不作限定。
[0172]
本说明书的电子设备,其上还可以安装有显示设备,显示设备可以是各种能实现显示功能的设备,例如:阴极射线管显示器(cathode ray tube display,cr)、发光二极管显示器(light-emitting diode display,led)、电子墨水屏、液晶显示屏(liquid crystal display,lcd)、等离子显示面板(plasma display panel,pdp)等。用户可以利用电子设备101上的显示设备,来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、增强现实(augmented reality,ar)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子
头盔、电子手链、电子项链、电子衣物等设备。
[0173]
在图14所示的电子设备中,其中电子设备可以是一种终端,处理器110可以用于调用存储器120中存储的网络优化应用程序,并具体执行以下操作:根据用户特征数据,确定多个原子人群特征。基于所述原子人群特征,在营销目标人群中确定所述原子人群特征对应的用户人群,作为原子人群。对所述原子人群进行聚类,得到聚类人群。
[0174]
在一个实施例中,所述处理器110在执行所述根据用户特征数据,确定多个原子人群特征时,具体执行以下操作:对所述用户特征数据进行可解释特征处理,得到可解释特征;将所述可解释特征输入转化判断模型,由所述转化判断模型输出所述对应的是否转化的结果;根据所述是否转化的结果,确定所述原子人群特征。
[0175]
在一个实施例中,所述处理器110在执行所述将所述可解释特征输入转化判断模型,由所述转化判断模型输出所述对应的是否转化的结果之前,还执行以下操作:获取可解释特征的样本集,所述样本集中包含正样本集合和负样本集合,所述正样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的可以转化的结果,所述负样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的不可以转化的结果;将所述样本集中的样本输入所述转化判断模型中,得到所述转化判断模型输出的是否可以转化的结果;如果存在用所述正样本集合中的样本输入转化判断模型后,得到不可以转化的结果,和/或存在所述负样本集合中的样本输入转化判断模型后,得到可以转化的结果,则调整所述转化判断模型的系数;当所述正样本集合中预定比例的样本输入转化判断模型后,得到可以转化的结果,且所述负样本集合中预定比例的样本输入转化判断模型后,得到不可以转化的结果,训练结束。
[0176]
在一个实施例中,所述处理器110在执行所述对所述用户特征数据进行可解释特征处理,得到可解释特征时,具体执行以下操作:从所述用户特征数据中筛选备选特征,所述备选特征具有可解释性;对所述备选特征进行处理,得到可解释特征。
[0177]
在一个实施例中,所述处理器110在执行所述对所述备选特征进行处理,得到可解释特征时,具体执行以下操作:
[0178]
根据所述备选特征的种类,对所述用户特征数据划分特征域;在所述特征域内定义特征类别,并给予对应的特征编码;对所述特征类别赋特征值,与所述特征编码关联,形成可解释特征。
[0179]
在一个实施例中,所述处理器110在执行所述对所述特征类别赋特征值,与所述特征编码关联,形成可解释特征时,具体执行以下操作:对所述特征类别赋特征值,与所述特征编码关联,得到初始特征;对所述初始特征进行分桶,得到可解释特征。
[0180]
在一个实施例中,所述处理器110在执行所述对所述特征类别赋特征值,与所述特征编码关联,形成可解释特征时,具体执行以下操作:若用户在所述特征类别下有对应的特征值,则将所述特征值与对应特征编码关联,得到可解释特征;若用户在所述特征类别下没有对应的特征值,则填充对应的填充值作为特征值与对应特征编码关联,得到可解释特征。
[0181]
在一个实施例中,所述处理器110在执行所述对所述原子人群进行聚类,得到聚类人群时,具体执行以下操作:根据所述可解释特征的样本集总数量和所述原子人群数量,确定所述目标群体指数;根据所述目标群体指数对所述原子人群进行聚类,得到聚类人群。
[0182]
在一个实施例中,所述处理器110在执行所述根据所述可解释特征的样本集总数
量和所述原子人群数量,确定所述目标群体指数时,具体执行以下操作:根据所述可解释特征的样本集总数量和所述原子人群数量,确定第一占比和第二占比,所述第一占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集中的占比,所述第二占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集的正样本集合中的占比;根据所述第一占比和第二占比,确定所述目标群体指数。
[0183]
在一个实施例中,所述处理器110在执行所述根据所述目标群体指数对所述原子人群进行聚类,得到聚类人群时,具体执行以下操作:以各所述原子人群为初始的聚类簇,根据各所述聚类簇的目标群体指数,计算各聚类簇之间的相似度。根据所述聚类簇之间的相似度,进行聚类,直到满足聚类要求,输出聚类人群。
[0184]
在一个实施例中,所述处理器110在执行所述根据所述聚类簇之间的相似度,进行聚类,直到满足聚类要求,输出聚类人群时,具体执行以下操作:在各所述聚类簇中选取相似度最大的两个聚类簇聚为一类,形成新的聚类簇;确定所述聚类簇个数,若所述聚类簇个数不大于预定个数阈值,则满足聚类要求,停止聚类,将所述聚类簇作为聚类人群输出。
[0185]
在本说明书一个或多个实施例中,通过先对用户特征数据进行处理,确定原子人群特征,每个原子人群特征均可以影响营销目标人群,再基于原子人群特征划分原子人群,保证了原子人群划分的准确性、区分度和覆盖度,最后对所述原子人群进行聚类,得到最终的聚类人群。该最终的聚类人群同时具备转化率的区分度和特征类别上的区分度,准确性相对于一般的聚类方案得到的结果有较大的提高。相比于现有的各种人群分类方案,本说明书的实施例在保证精度的前提下,输出的人群分类结果也具有良好的可解释性,方便运营人员制定相应的运营方案,提升了整体流程的效率,可以更好地落地和大规模使用。
[0186]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
[0187]
需要说明的是,本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本说明书中涉及的对象特征、交互行为特征(如用户行为活跃度特征)以及用户信息等都是在充分授权的情况下获取的。
[0188]
以上所揭露的仅为本说明书较佳实施例而已,当然不能以此来限定本说明书之权利范围,因此依本说明书权利要求所作的等同变化,仍属本说明书所涵盖的范围。
技术特征:
1.一种人群分类方法,所述方法包括:根据用户特征数据,确定多个原子人群特征;基于所述原子人群特征,在营销目标人群中确定所述原子人群特征对应的用户人群,作为原子人群;对所述原子人群进行聚类,得到聚类人群。2.根据权利要求1所述的方法,所述根据用户特征数据,确定多个原子人群特征,具体包括:对所述用户特征数据进行可解释特征处理,得到可解释特征;将所述可解释特征输入转化判断模型,由所述转化判断模型输出所述对应的是否转化的结果;根据所述是否转化的结果,确定所述原子人群特征。3.根据权利要求2所述的方法,在所述将所述可解释特征输入转化判断模型,由所述转化判断模型输出所述对应的是否转化的结果之前,所述方法还包括:获取可解释特征的样本集,所述样本集中包含正样本集合和负样本集合,所述正样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的可以转化的结果,所述负样本集合的每个样本包含有可解释特征的相关信息及针对所述可解释特征标定的不可以转化的结果;将所述样本集中的样本输入所述转化判断模型中,得到所述转化判断模型输出的是否可以转化的结果;如果存在用所述正样本集合中的样本输入转化判断模型后,得到不可以转化的结果,和/或存在所述负样本集合中的样本输入转化判断模型后,得到可以转化的结果,则调整所述转化判断模型的系数;当所述正样本集合中预定比例的样本输入转化判断模型后,得到可以转化的结果,且所述负样本集合中预定比例的样本输入转化判断模型后,得到不可以转化的结果,训练结束。4.根据权利要求2所述的方法,所述对所述用户特征数据进行可解释特征处理,得到可解释特征,具体包括:从所述用户特征数据中筛选备选特征,所述备选特征具有可解释性;对所述备选特征进行处理,得到可解释特征。5.根据权利要求4所述的方法,所述对所述备选特征进行处理,得到可解释特征,具体包括:根据所述备选特征的种类,对所述用户特征数据划分特征域;在所述特征域内定义特征类别,并给予对应的特征编码;对所述特征类别赋特征值,与所述特征编码关联,形成可解释特征。6.根据权利要求5所述的方法,所述对所述特征类别赋特征值,与所述特征编码关联,形成可解释特征,具体包括:对所述特征类别赋特征值,与所述特征编码关联,得到初始特征;对所述初始特征进行分桶,得到可解释特征。7.根据权利要求5所述的方法,所述对所述特征类别赋特征值,与所述特征编码关联,
形成可解释特征,具体包括:若用户在所述特征类别下有对应的特征值,则将所述特征值与对应特征编码关联,得到可解释特征;若用户在所述特征类别下没有对应的特征值,则填充对应的填充值作为特征值与对应特征编码关联,得到可解释特征。8.根据权利要求3所述的方法,所述对所述原子人群进行聚类,得到聚类人群,具体包括:根据所述可解释特征的样本集总数量和所述原子人群数量,确定所述目标群体指数;根据所述目标群体指数对所述原子人群进行聚类,得到聚类人群。9.根据权利要求8所述的方法,所述根据所述可解释特征的样本集总数量和所述原子人群数量,确定所述目标群体指数,具体包括:根据所述可解释特征的样本集总数量和所述原子人群数量,确定第一占比和第二占比,所述第一占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集中的占比,所述第二占比为具有所述原子人群对应的特征的人在所述可解释特征的样本集的正样本集合中的占比;根据所述第一占比和第二占比,确定所述目标群体指数。10.根据权利要求8所述的方法,所述根据所述目标群体指数对所述原子人群进行聚类,得到聚类人群,具体包括:以各所述原子人群为初始的聚类簇,根据各所述聚类簇的目标群体指数,计算各聚类簇之间的相似度;根据所述聚类簇之间的相似度,进行聚类,直到满足聚类要求,输出聚类人群。11.根据权利要求10所述的方法,所述根据所述聚类簇之间的相似度,进行聚类,直到满足聚类要求,输出聚类人群,具体包括:在各所述聚类簇中选取相似度最大的两个聚类簇聚为一类,形成新的聚类簇;确定所述聚类簇个数,若所述聚类簇个数不大于预定个数阈值,则满足聚类要求,停止聚类,将所述聚类簇作为聚类人群输出。12.一种人群分类装置,所述装置包括:特征确定模块,用于根据用户特征数据,确定多个原子人群特征;人群确定模块,用于基于所述原子人群特征,在营销目标人群中确定所述原子人群特征对应的用户人群,作为原子人群;人群聚类模块,用于对所述原子人群进行聚类,得到聚类人群。13.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~11任意一项的方法步骤。14.一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行如权利要求1~11任意一项的方法步骤。15.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~11任意一项的方法步骤。
技术总结
本说明书公开了一种人群分类方法、装置、存储介质及电子设备,本说明书中的实施例先对用户特征数据进行处理,确定原子人群特征,每个原子人群特征均可以影响营销目标人群,再基于原子人群特征在营销目标人群中划分原子人群,保证了原子人群划分的准确性、区分度和覆盖度,最后对所述原子人群进行聚类,得到最终的聚类人群。的聚类人群。的聚类人群。
技术研发人员:蔡柳 吴军 吕一夫
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.04.28
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/