数据分析方法、装置、计算机设备及存储介质与流程

未命名 10-21 阅读:70 评论:0


1.本发明涉及数据处理技术领域,具体而言,涉及一种数据分析方法、装置、计算机设备及存储介质。


背景技术:

2.随着金融资本市场的不断发展壮大,国民财富水平不断提高,越来越多人对金融产品产生了需求,业务人员需要通过了解人群的需求和风险偏好等特征信息,挖掘有购买金融产品需求的潜在客户,才可以进一步开展业务。
3.然而,在开展新业务时,由于客户的特征数据通常相对匮乏,如何挖掘新业务场景下的潜在客户并开展业务是金融领域的重要课题。
4.现有技术主要是通过机器学习建模分析客户特征以进行预测,但是机器学习需要大量客户购买金融产品的纪录以保证预测的准确性,但是新业务场景下难以满足该要求,无法实现对新业务场景下客户的精准预测。


技术实现要素:

5.本发明的目的在于,针对上述现有技术中的不足,提供一种数据分析方法、装置、计算机设备及存储介质,以便打破新旧业务场景之间的数据壁垒,基于旧业务场景的客户数据实现对新业务场景的客户挖掘。
6.为实现上述目的,本技术实施例采用的技术方案如下:
7.第一方面,本技术实施例提供了一种数据分析方法,所述方法包括:
8.获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,其中,每个历史交易客户的特征包括:业务类型,以及所述旧业务场景的目标交易特征数据;
9.根据所述多个历史交易客户的业务类型,对所述多个历史交易客户在所述旧业务场景的目标交易特征数据进行聚类,得到所述旧业务场景下所述业务类型的特征中心数据;
10.根据所述待预测客户在所述新业务场景下的交易特征数据,以及所述旧业务场景下所述业务类型的特征中心数据,确定所述待预测客户在所述新业务场景下所属的潜在业务类型。
11.可选的,所述获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,包括:
12.获取所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据;
13.根据所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据,确定所述多个历史交易客户和所述待预测客户之间的数据匹配参数;
14.根据所述数据匹配参数对所述多个历史交易客户的交易特征数据进行变换,得到所述多个历史交易客户的目标交易特征数据。
15.可选的,所述获取所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据,包括:
16.获取所述多个历史交易客户的初始交易特征数据,和所述待预测客户的初始交易特征数据;
17.对所述多个历史交易客户的初始交易特征数据和所述待预测客户的初始交易特征数据进行降维处理,得到所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据。
18.可选的,所述对所述多个历史交易客户的初始交易特征数据和所述待预测客户的初始交易特征数据进行降维处理之后,所述方法还包括:
19.对所述多个历史交易客户的降维交易特征数据和所述待预测客户的降维交易特征数据进行正则化处理,得到所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据。
20.可选的,所述获取所述多个历史交易客户的初始交易特征数据,和所述待预测客户的初始交易特征数据,包括:
21.获取每个历史交易客户的多维第一数据和所述待预测客户的多维第二数据;
22.根据所述多维第一数据,生成所述每个历史交易客户的初始交易特征数据;
23.根据所述多维第二数据,生成所述待预测客户的初始交易特征数据。
24.可选的,所述根据所述多维第一数据,生成所述每个历史交易客户的初始交易特征数据:
25.根据所述多维第一数据,生成第一基本特征;
26.对所述多维第一数据进行组合,生成第一衍生特征,所述每个历史交易客户的初始交易特征数据包括:所述第一基本特征和所述第一衍生特征。
27.可选的,所述根据所述待预测客户在所述新业务场景下的交易特征数据,以及所述旧业务场景下所述业务类型的特征中心数据,确定所述待预测客户在所述新业务场景下所属的潜在业务类型,包括:
28.计算所述待预测客户的交易特征数据与所述旧业务场景下多个业务类型对应的特征中心数据的相似度;
29.确定与所述待预测客户的交易特征数据的相似度最高的目标特征中心数据;
30.根据所述目标特征中心数据对应的业务类型,确定所述待预测客户在所述新业务场景下的潜在业务类型。
31.第二方面,本技术实施例还提供一种数据分析装置,所述装置包括:
32.数据获取模块,用于获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,其中,每个历史交易客户的特征包括:业务类型,以及所述旧业务场景的目标交易特征数据;
33.特征中心确定模块,用于根据所述多个历史交易客户的业务类型,对所述多个历史交易客户在所述旧业务场景的目标交易特征数据进行聚类,得到所述旧业务场景下所述业务类型的特征中心数据;
34.分类预测模块,用于根据所述待预测客户在所述新业务场景下的交易特征数据,以及所述旧业务场景下所述业务类型的特征中心数据,确定所述待预测客户在所述新业务
场景下所属的潜在业务类型。
35.可选的,所述数据获取模块,包括:
36.数据获取单元,用于获取所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据;
37.匹配参数计算单元,用于根据所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据,确定所述多个历史交易客户和所述待预测客户之间的数据匹配参数;
38.数据变换单元,用于根据所述数据匹配参数对所述多个历史交易客户的交易特征数据进行变换,得到所述多个历史交易客户的目标交易特征数据。
39.可选的,所述数据获取单元,包括:
40.初始数据获取单元,用于获取所述多个历史交易客户的初始交易特征数据,和所述待预测客户的初始交易特征数据;
41.数据处理单元,用于对所述多个历史交易客户的初始交易特征数据和所述待预测客户的初始交易特征数据进行降维处理,得到所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据。
42.可选的,所述数据处理单元,还用于对所述多个历史交易客户的降维交易特征数据和所述待预测客户的降维交易特征数据进行正则化处理,得到所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据。
43.可选的,所述初始数据获取单元,包括:
44.多维数据获取单元,用于获取每个历史交易客户的多维第一数据和所述待预测客户的多维第二数据;
45.第一特征生成单元,用于根据所述多维第一数据,生成所述每个历史交易客户的初始交易特征数据;
46.第二特征生成单元,用于根据所述多维第二数据,生成所述待预测客户的初始交易特征数据。
47.可选的,所述第一特征生成单元,具体用于根据所述多维第一数据,生成第一基本特征;对所述多维第一数据进行组合,生成第一衍生特征,所述每个历史交易客户的初始交易特征数据包括:所述第一基本特征和所述第一衍生特征。
48.可选的,所述分类预测模块,包括:
49.相似度计算单元,用于计算所述待预测客户的交易特征数据与所述旧业务场景下多个业务类型对应的特征中心数据的相似度;
50.目标特征确定单元,用于确定与所述待预测客户的交易特征数据的相似度最高的目标特征中心数据;
51.分类预测单元,用于根据所述目标特征中心数据对应的业务类型,确定所述待预测客户在所述新业务场景下的潜在业务类型。
52.第三方面,本技术实施例还提供一种计算机设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如第一方面任一所述的数据分析方法的步骤。
53.第四方面,本技术实施例还提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一所述的数据分析方法的步骤。
54.本技术的有益效果是:
55.本技术提供的数据分析方法、装置、计算机设备及存储介质,利用旧业务场景下多个历史交易客户的业务类型和目标交易特征数据,对新业务场景下的待预测客户的业务类型进行预测,以挖掘新业务场景下不同业务类型对应的潜在客户,以解决待预测客户在新业务场景下的特征数据不足无法进行准确预测的问题,打破了新旧业务场景之间的数据壁垒,实现了利用已有业务场景的数据解决新业务场景中潜在客户挖掘的问题,从而可以保证金融产品的有效推广,提高金融产品在新业务场景下的交易量。
附图说明
56.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
57.图1为本技术实施例提供的数据分析方法的流程示意图一;
58.图2为本技术实施例提供的数据分析方法的流程示意图二;
59.图3为本技术实施例提供的数据分析方法的流程示意图三;
60.图4为本技术实施例提供的数据分析方法的流程示意图四;
61.图5为本技术实施例提供的数据分析方法的流程示意图五;
62.图6为本技术实施例提供的数据分析方法的流程示意图六;
63.图7为本技术实施例提供的数据分析装置的结构示意图;
64.图8为本技术实施例提供的计算机设备的示意图。
具体实施方式
65.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
66.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
67.此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固
有的其他步骤或单元。
68.需要说明的是,在不冲突的情况下,本技术的实施例中的特征可以相互结合。
69.在金融领域开展新业务时,往往需要针对新业务场景进行潜在客户的挖掘,常用的数据挖掘方式是利用已有的客户特征和标签进行机器学习建模,然后利用模型进行预测,挖掘潜在的客户。然而,机器学习建模需要大量的标签数据,通常需要大量客户购买金融产品的纪录,才能获得良好的预测准确性,但是,在新业务场景下并不能获得大量客户购买金融产品的纪录,因此,利用机器学习建模的预测准确性较差。
70.基于此,本技术实施例拟提供一种数据分析方法,通过领域自适应,利用旧业务场景下多个历史交易客户的业务类型和目标交易特征数据,对新业务场景下的待预测客户的业务类型进行预测,以挖掘新业务场景下不同业务类型对应的潜在客户,以解决待预测客户在新业务场景下的特征数据不足无法进行准确预测的问题,打破了新旧业务场景之间的数据壁垒,实现了利用已有业务场景的数据解决新业务场景中潜在客户挖掘的问题。
71.以下结合实施例对本技术提供的数据分析方法、装置、计算机设备及存储介质的具体的实现方式进行说明。
72.请参考图1,为本技术实施例提供的数据分析方法的流程示意图一,如图1所示,该方法可以包括:
73.s101:获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,其中,每个历史交易客户的特征包括:业务类型,以及旧业务场景的目标交易特征数据。
74.在本实施例中,旧业务场景为已经推广过新业务或者新产品的业务场景,新业务场景为还未推广过新业务或者新产品的业务场景,示例的,业务场景可以按照城市、区域或者客户类型进行划分。例如金融公司新推出的金融产品率先在a城市推广过,现准备推广至b城市,则a城市属于旧业务场景,b城市属于新业务场景;或者,新推出的金融产品率先在a类客户中推广过,现准备推广至b类客户,则a类客户属于旧业务场景,b类客户属于新业务场景。
75.金融公司在旧业务场景中的客户为历史交易客户,在新业务场景中的客户为待预测客户,其中,旧业务场景中的客户对新业务或新产品的需求逐渐区域饱和,即很难再从旧业务场景的客户中挖掘出参与新业务或者购买新产品的客户;而新业务场景中的客户对新业务或者新产品的需求正在不断增长,即可以从新业务场景的客户中挖掘出大量参与新业务或购买新产品的客户。
76.历史交易客户的业务类型是根据旧业务场景中的历史交易客户是否参与过新业务或者是否购买过新产品确定的,业务类型可以用于指示历史交易客户参与新业务或者购买新产品的行为类型,例如用于指示历史交易客户是否参与过新业务或者是否购买过新产品,或者,或者用于指示历史交易客户参与新业务的程度或者购买新产品的数量/额度。
77.其中,若业务类型用于指示历史交易客户是否参与过新业务或者是否购买过新产品,则业务类型对应的标签可以指示历史交易客户为新业务或者新产品的潜在客户或者非潜在客户;若业务类型用于指示历史交易客户参与新业务的程度或者购买新产品的数量/额度,则业务类型对应的标签可以指示历史交易客户为新业务或者新产品的一级潜在客户、二级潜在客户或三级潜在客户等。其中,新业务或新产品中可以包括多个子业务或多个
子产品,不同级别的潜在客户所匹配的子业务或者子产品不同。示例的,可以按照所匹配客户的交易额度、资产总额等信息对子业务或子产品进行划分。
78.历史交易客户的目标交易特征数据包括:历史交易客户参与旧业务场景中的各种金融业务或者购买旧业务场景中的各种金融产品的行为和数量;待预测客户的交易特征数据包括:待预测客户参与新业务场景中的各种金融业务或购买新业务场景中的各种金融产品的行为和数量,其中,旧业务场景和新业务场景中的各种金融业务或者各种金融产品可能全部相同,也可能部分相同,或者全部不同。
79.s102:根据多个历史交易客户的业务类型,对多个历史交易客户在旧业务场景的目标交易特征数据进行聚类,得到旧业务场景下业务类型的特征中心数据。
80.在本实施例中,根据多个历史交易客户的特征中的业务类型,确定相同业务类型对应的至少一个历史交易客户;对具有相同业务类型的至少一个历史交易客户的目标业务特征数据进行聚类,得到每个业务类型k的特征中心数据ck。
81.在一些实施例中,可以对具有相同业务类型的至少一个历史交易客户的目标业务特征数据进行平均值计算,确定每个业务类型对应的特征中心数据。
82.s103:根据待预测客户在新业务场景下的交易特征数据,以及旧业务场景下业务类型的特征中心数据,确定待预测客户在新业务场景下所属的潜在业务类型。
83.在本实施例中,采用预设的分类器根据旧业务场景下多个业务类型的特征中心数据,对待预测客户在新业务场景下的交易特征数据进行分类,确定待预测客户在新业务场景下的交易特征数据所对应的目标特征中心数据,并确定目标特征中心数据所对应的业务类型可以为待预测客户的潜在业务类型。
84.在一些实施例中,若业务类型用于指示历史交易客户是否参与过新业务或者是否购买过新产品,则通过对多个历史交易客户的目标交易特征数据进行聚类,得到两个特征中心数据,其中,第一特征中心数据用于表示所属的历史交易客户为潜在客户,第二特征中心数据用于表示所属的历史交易客户为非潜在客户;若待预测客户在新业务场景下的交易特征数据所对应的目标特征中心数据为第一特征中心数据,则确定在新业务场景下,待预测客户是新业务或者新产品的潜在客户;若待预测客户在新业务场景下的交易特征数据所对应的目标特征中心数据为第二特征中心数据,则确定在新业务场景下,待预测客户是新业务或者新产品的非潜在客户。
85.在另一些实施例中,若业务类型用于指示历史交易客户参与新业务的程度或者购买新产品的数量/额度,则通过对多个历史交易客户的目标交易特征数据进行聚类,得到多个特征中心数据,示例的,假设第三特征中心数据用于表示所属的历史交易客户为一级潜在客户,第四特征中心数据用于表示所属的历史交易客户为二级潜在客户,第五特征中心数据用于表示所属的历史交易客户为三级潜在客户,若待预测客户在新业务场景下的交易特征数据所对应的目标特征中心数据为第三特征中心数据,则确定在新业务场景下,待预测客户是新业务或者新产品的一级潜在客户;若待预测客户在新业务场景下的交易特征数据所对应的目标特征中心数据为第四特征中心数据,则确定在新业务场景下,待预测客户是新业务或者新产品的二级潜在客户;若待预测客户在新业务场景下的交易特征数据所对应的目标特征中心数据为第五特征中心数据,则确定在新业务场景下,待预测客户是新业务或者新产品的三级潜在客户。
86.上述实施例提供的数据分析方法,利用旧业务场景下多个历史交易客户的业务类型和目标交易特征数据,对新业务场景下的待预测客户的业务类型进行预测,以挖掘新业务场景下不同业务类型对应的潜在客户,以解决待预测客户在新业务场景下的特征数据不足无法进行准确预测的问题,打破了新旧业务场景之间的数据壁垒,实现了利用已有业务场景的数据解决新业务场景中潜在客户挖掘的问题,从而可以保证金融产品的有效推广,提高金融产品在新业务场景下的交易量。
87.以下结合实施例对获取历史交易客户的目标交易特征数据和待预测客户的交易特征数据的一种可能的实现方式进行说明。
88.请参考图2,为本技术实施例提供的数据分析方法的流程示意图二,如图2所示,上述s101中获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据的过程,可以包括:
89.s201:获取多个历史交易客户的交易特征数据和待预测客户的交易特征数据。
90.在本实施例中,根据历史交易客户参与旧业务场景中的各种金融业务或者购买旧业务场景中的各种金融产品的行为和数量,构建历史交易客户的交易特征数据;根据待预测客户参与新业务场景中的各种金融业务或购买新业务场景中的各种金融产品的行为和数量,构建待预测客户的交易特征数据。
91.s202:根据多个历史交易客户的交易特征数据和待预测客户的交易特征数据,确定多个历史交易客户和待预测客户之间的数据匹配参数。
92.在本实施例中,由于历史交易客户的交易特征数据属于旧业务场景,待预测客户的交易特征数据属于新业务场景,由于新业务场景和旧业务场景中的数据分布不同,使得历史交易客户的交易特征数据和待预测客户的交易特征数据之间存在差异,为了保证根据历史交易客户的特征中心数据对待预测客户的交易特征数据进行分类的准确性,需要减小历史交易客户的交易特征数据和待预测客户的交易特征数据之间存在差异。
93.具体的,计算多个历史交易客户与待预测客户之间的数据匹配参数γ的方式可以为:基于将多个历史交易客户的交易特征数据变换到待预测客户的交易特征数据所需要消耗的代价c,计算数据匹配参数γ。
94.示例的,根据多个历史交易客户的交易特征数据计算旧业务场景s的经验概率分布μs,根据待预测客户的交易特征数据计算新业务场景t的经验概率分布μ
t
,其中,待预测客户可以包括至少一个。
95.经验概率分布μs和经验概率分布μ
t
的计算公式可以分别表示为:
[0096][0097][0098]
其中,δ为狄拉克函数。
[0099]
确定新业务场景和旧业务场景所有可能的联合概率分布集合b为:
[0100][0101]
采用最优传输方法从联合概率分布集合b中确定最佳的联合概率分布作为数据匹
配参数γ,γ∈b,其中,确定最佳的联合概率分布的方式为:根据将概率质量从经验分布概率μs传输到经验概率分布μ
t
所消耗的最小代价c,确定最佳的联合概率分布,即确定
[0102]
其中,c≧0,表示传输代价矩阵,其元素c
ij
表示将概率质量从旧业务场景的第i个交易特征数据传输至新业务场景的第j个交易特征数据所消耗的代价,在一些实施例中,将c
ij
设定为旧业务场景的第i个交易特征数据与新业务场景的第j个交易特征数据之间的欧式距离。
[0103]
s203:根据数据匹配参数对多个历史交易客户的交易特征数据进行变换,得到多个历史交易客户的目标交易特征数据。
[0104]
在本实施例中,确定数据匹配参数γ后,根据数据匹配参数γ对多个历史交易客户的交易特征数据进行质心变换,得到多个历史交易客户的目标交易特征数据,以将旧业务场景的交易特征数据映射到新业务场景的交易特征数据的分布附近,使旧业务场景变换后的目标交易特征数据与新业务场景的交易特征数据进行相近的数据分布,从而减少新业务场景和旧业务场景之间的数据分布差异。
[0105]
示例的,根据数据匹配参数γ对交易特征数据进行质心变换,得到目标交易特征数据的公式可以表示为:
[0106][0107]
其中,x表示交易特征数据矩阵,t表示转置。
[0108]
上述实施例提供的数据分析方法,通过计算旧业务场景的历史交易客户的交易特征数据和新业务场景的待预测客户的交易特征数据之间的数据匹配参数,根据数据匹配参数对历史交易客户的交易特征数据进行变换,得到历史交易客户的目标交易特征数据,以将旧业务场景的交易特征数据映射到新业务场景的交易特征数据的分布附近,使旧业务场景变换后的目标交易特征数据与新业务场景的交易特征数据进行相近的数据分布,从而减少新业务场景和旧业务场景之间的数据分布差异。
[0109]
在一种可能的实现方式中,请参考图3,为本技术实施例提供的数据分析方法的流程示意图三,如图3所示,上述s201中获取多个历史交易客户的交易特征数据和待预测客户的交易特征数据的过程,可以包括:
[0110]
s301:获取多个历史交易客户的初始交易特征数据,和待预测客户的初始交易特征数据。
[0111]
s302:对多个历史交易客户的初始交易特征数据和待预测客户的初始交易进行降维处理,得到多个历史交易客户的交易特征数据和待预测客户的交易特征数据。
[0112]
在本实施例中,根据历史交易客户参与旧业务场景中的各种金融业务或者购买旧业务场景中的各种金融产品的多个行为特征和多个数量特征,构建历史交易客户的初始交易特征数据,根据待预测客户参与新业务场景中的各种金融业务或购买新业务场景中的各种金融产品的多个行为特征和多个数量特征,构建待预测客户的初始交易特征数据。
[0113]
由于构建初始交易特征数据时采用的行为特征和数量特征较多,但是一些特征对于确定待预测客户的潜在业务类型的重要性较低,因此,需要通过主成分分析(主分量分析)对历史交易客户的初始交易特征数据和待预测客户的初始交易特征数据进行降维处
理,以从历史交易客户的初始交易特征数据中确定较少数量的重要特征数据构成历史交易客户的交易特征数据,从待预测客户的初始交易特征数据中确定较少数量的重要特征数据构成待预测客户的交易特征数据。其中,对历史交易客户的初始交易特征数据和待预测客户的初始交易特征数据进行降维处理时,将历史交易客户的初始交易特征数据和待预测客户的初始交易特征数据降维到同一低维度空间。
[0114]
示例的,假设高维欧式空间中的特征集合为x=[x1,x2,

,xn]∈r
d*n
,通过线性投影矩阵w∈r
d*m
(m≦d),将高维欧式空间中的特征集合映射到低维特征空间,得到低维度的特征集合y=[y1,y2,

,yn]∈r
m*n
,满足y=w
t
x,使得,低维空间中的各个特征之间的方差最大,即低维空间中的各个特征之间的相关性最强。
[0115]
在一些实施例中,在上述s302对多个历史交易客户的初始交易特征数据和待预测客户的初始交易进行降维处理之后,该方法还可以包括:
[0116]
对多个历史交易客户的降维交易特征数据和待预测客户的降维交易特征数据进行正则化处理,得到多个历史交易客户的交易特征数据和待预测客户的交易特征数据。
[0117]
在本实施例中,对多个历史交易客户的初始交易特征数据和待预测客户的初始交易特征数据进行降维处理后,得到多个历史交易客户的降维交易特征数据和待预测客户的降维交易特征数据。
[0118]
对于多个历史交易客户的降维交易特征数据和待预测客户的降维交易特征数据,为了保证根据历史交易客户的特征中心数据对待预测客户的交易特征数据进行分类的准确性,需要尽可能保证降维交易特征数据中的各个特征对齐。
[0119]
具体的,通过对多个历史交易客户的降维交易特征数据和待预测客户的降维交易特征数据进行l2正则化处理,是旧业务场景下的降维交易特征数据和新业务场景下的降维交易特征数据分布在相同的超球表面,以增加新业务场景和旧业务场景的领域自适应效果。
[0120]
示例的,对于新业务场景或者旧业务场景中的降维交易特征数据x,l2正则化的公式可以表示为:
[0121]
x
new
=x
old
/||x
old
||2[0122]
其中,x
new
为正则化后的交易特征数据,x
old
为降维交易特征数据,||x
old
||2为降维交易特征数据的二范数。
[0123]
上述实施例提供的数据分析方法,通过对新业务场景和旧业务场景的交易特征数据进行降维处理及正则化处理,以消除交易特征数据中冗余的维度特征,并将新业务场景和旧业务场景的交易特征数据中的特征进行对齐,减小新业务场景和旧业务场景的交易特征数据之间的分布差异,提高根据新业务场景下的交易特征数据对待预测客户的业务类型进行预测的准确性。
[0124]
请参考图4,为本技术实施例提供的数据分析方法的流程示意图四,如图4所示,上述s301获取多个历史交易客户的初始交易特征数据,和待预测客户的初始交易特征数据的过程,可以包括:
[0125]
s401:获取每个历史交易客户的多维第一数据和待预测客户的多维第二数据。
[0126]
s402:根据多维第一数据,生成每个历史交易客户的初始交易特征数据。
[0127]
s403:根据多维第二数据,生成待预测客户的初始交易特征数据。
[0128]
在本实施例中,历史交易客户和待预测客户均具有多个维度的交易数据,历史交易客户和待预测客户的多个维度的交易数据可能不同,但是生成初始交易特征数据的方式基本一致,以下以根据历史交易客户的多维第一数据生成历史交易客户的初始交易特征数据为例进行说明。
[0129]
历史交易客户的多维第一数据可以包括:历史交易客户的基本信息、购买产品信息、持有产品信息、客户行为信息、产品基本信息、行情信息等。其中,历史交易客户的基本信息可以包括:性别、年龄、省份、城市、所属营业部、风险等级、产品偏好、总资产、净资产等系信息;购买产品信息可以包括:购买时间、购买数量、购买金额、购买途径等;持有产品信息可以包括:持有数量、持有金额、购买途径等;客户行为信息可以包括:相关应用程序点击天数、是否订阅投顾组合业务、是否开通b股、是否开通科创板等;产品基本信息可以包括:产品的风险等级、产品类型、平均收益率、单位净值、同类排名、夏普比率、最大回撤率等;行情信息可以包括:沪深300等指数的收益率、涨跌幅、成交量、成交金额等。其中,多维第一数据的来源包括但不限于金融公司的hive大数据系统、关系型数据库、excel档等。
[0130]
基于对上述多维第一数据进行特征分析,确定历史交易客户的多维特征,以根据多维特征确定历史交易客户的初始交易特征数据。
[0131]
同样地,通过对多维第二数据进行特征分析确定待预测客户的多维特征,以根据多维特征确定待预测客户的初始交易特征数据。
[0132]
在一些实施例中,在获取到历史交易客户的多维第一数据后,可以对多维第一数据进行预处理,其中,预处理包括:数据清洗和数据转换。
[0133]
数据清洗用于对异常数据或者空缺数据进行处理,其中,对异常数据的处理包括但不限于基于t检验的剔除方法、基于f检验的剔除方法和基于模型的剔除方法等,对空缺数据的处理包括但不限于常量填充法、均值填充法和模型填充法等。
[0134]
数据转换包括但不限于对离散数据进行处理以及对数据进行缩放等,其中对离散数据的处理包括但不限于one-hot编码等,数据缩放包括但不限于标准化、中心化等。
[0135]
在一些实施例中,请参考图5,为本技术实施例提供的数据分析方法的流程示意图五,如图5所示,上述s402根据多维第一数据,生成每个历史交易客户的初始交易特征数据的过程,可以包括:
[0136]
s501:根据多维第一数据,生成第一基本特征。
[0137]
s502:对多维第一数据进行组合,生成第一衍生特征,每个历史交易客户的初始交易特征数据包括:第一基本特征和第一衍生特征。
[0138]
在本实施例中,可以根据多维第一数据中的基本信息,生成用户交易画像特征,根据购买产品信息生成用户购买理财产品信息特征,根据持有产品信息生成用户持有理财产品信息特征,根据用户行为信息生成用户行为特征,根据产品基本信息生成理财产品的基本信息特征,根据行情信息生成行情特征。
[0139]
为了更好地挖掘多维第一数据中的训练,还可以对多维第一数据进行组合,以根据组合数据生成第一衍生特征。示例的,根据客户持有产品总资产、客户持有股票总市值、客户保有产品总市值、公募类产品保有总市值、固收类产品保有总市值、权益类产品保有总市值、混合类产品保有总市值、场外产品保有总市值等数据生成用户资产衍生特征,根据历史是否购买过公募产品、历史是否购买过私募产品、历史以来累计公募类产品购买金额、历
史以来累计场外产品购买金额、近一年股票交易次数、近一年股票交易换手率等生成用户行为衍生特征;根据客户购买产品平均金额、客户购买产品平均收益率、客户持仓产品平均金额、客户持仓产品平均收益率等确定用户产品偏好衍生特征。
[0140]
针对多维第二数据生成第二基本特征和第二衍生特征的方式与生成第一基本特征和第一衍生特征的方式类似,在此不做赘述。
[0141]
上述实施例提供的数据分析方法,基于多维第一数据生成第一基本特征和第一衍生特征,基于多维第二数据生成第二基本特征和第二衍生特征,以充分挖掘影响客户交易的特征,从而提高对待预测客户的业务类型进行预测的准确性。
[0142]
以下结合实施例对上述确定待预测客户在新业务场景下所属的潜在业务类型的一种可能的实现方式进行说明。
[0143]
请参考图6,为本技术实施例提供的数据分析方法的流程示意图六,如图6所示,上述s103根据待预测客户在新业务场景下的交易特征数据,以及旧业务场景下业务类型的特征中心数据,确定待预测客户在新业务场景下所属的潜在业务类型的过程,可以包括:
[0144]
s601:计算待预测客户的交易特征数据与旧业务场景下多个业务类型对应的特征中心数据的相似度。
[0145]
s602:确定与待预测客户的交易特征数据的相似度最高的目标特征中心数据。
[0146]
s603:根据目标特征中心数据对应的业务类型,确定待预测客户在新业务场景下的潜在业务类型。
[0147]
在本实施例中,根据待预测客户的交易特征数据与多个业务类型对应的特征中心数据的欧式距离,确定待预测客户的交易特征数据与多个业务类型对应的特征中心数据的相似度或者不相似度,比较待预测客户的交易特征数据与多个业务类型对应的特征中心数据的相似度或者不相似度,确定与待预测客户的交易特征数据的相似度最高的目标特征中心数据,或者与待预测客户的交易特征数据的不相似度最低的目标特征中心数据,以目标特征中心数据对应的业务类型k作为待预测客户在新业务场景下的潜在业务类型。
[0148]
示例的,以不相识度为例,将满足下式的k值对应的业务类型作为待预测客户在新场景下的潜在业务类型:
[0149][0150]
其中,k表示类型空间。
[0151]
在针对多个待预测客户采用本技术实施例提供的数据分析方法进行业务类型的预测后,生成新业务场景下每个业务类型对应的潜在客户名单,由业务人员根据潜在客户名单进行新业务或者新产品推广。
[0152]
上述实施例提供的数据分析方法,通过计算待预测客户的交易特征属于与多个业务类型的特征中心数据的相似度,确定待预测客户所属的潜在业务类型,实现对新业务场景下潜在客户的挖掘,以便更好地进行业务开展。
[0153]
在上述方法实施例的基础上,本技术实施例还提供一种数据分析装置。请参考图7,为本技术实施例提供的数据分析装置的结构示意图,如图7所示,该装置可以包括:
[0154]
数据获取模块10,用于获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,其中,每个历史交易客户的特征包括:业务类型,以及旧
业务场景的目标交易特征数据;
[0155]
特征中心确定模块20,用于根据多个历史交易客户的业务类型,对多个历史交易客户在旧业务场景的目标交易特征数据进行聚类,得到旧业务场景下业务类型的特征中心数据;
[0156]
分类预测模块30,用于根据待预测客户在新业务场景下的交易特征数据,以及旧业务场景下业务类型的特征中心数据,确定待预测客户在新业务场景下所属的潜在业务类型。
[0157]
可选的,数据获取模块10,包括:
[0158]
数据获取单元,用于获取多个历史交易客户的交易特征数据和待预测客户的交易特征数据;
[0159]
匹配参数计算单元,用于根据多个历史交易客户的交易特征数据和待预测客户的交易特征数据,确定多个历史交易客户和待预测客户之间的数据匹配参数;
[0160]
数据变换单元,用于根据数据匹配参数对多个历史交易客户的交易特征数据进行变换,得到多个历史交易客户的目标交易特征数据。
[0161]
可选的,数据获取单元,包括:
[0162]
初始数据获取单元,用于获取多个历史交易客户的初始交易特征数据,和待预测客户的初始交易特征数据;
[0163]
数据处理单元,用于对多个历史交易客户的初始交易特征数据和待预测客户的初始交易特征数据进行降维处理,得到多个历史交易客户的交易特征数据和待预测客户的交易特征数据。
[0164]
可选的,数据处理单元,还用于对多个历史交易客户的降维交易特征数据和待预测客户的降维交易特征数据进行正则化处理,得到多个历史交易客户的交易特征数据和待预测客户的交易特征数据。
[0165]
可选的,初始数据获取单元,包括:
[0166]
多维数据获取单元,用于获取每个历史交易客户的多维第一数据和待预测客户的多维第二数据;
[0167]
第一特征生成单元,用于根据多维第一数据,生成每个历史交易客户的初始交易特征数据;
[0168]
第二特征生成单元,用于根据多维第二数据,生成待预测客户的初始交易特征数据。
[0169]
可选的,第一特征生成单元,具体用于根据多维第一数据,生成第一基本特征;对多维第一数据进行组合,生成第一衍生特征,每个历史交易客户的初始交易特征数据包括:第一基本特征和第一衍生特征。
[0170]
可选的,分类预测模块30,包括:
[0171]
相似度计算单元,用于计算待预测客户的交易特征数据与旧业务场景下多个业务类型对应的特征中心数据的相似度;
[0172]
目标特征确定单元,用于确定与待预测客户的交易特征数据的相似度最高的目标特征中心数据;
[0173]
分类预测单元,用于根据目标特征中心数据对应的业务类型,确定待预测客户在
新业务场景下的潜在业务类型。
[0174]
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
[0175]
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其他可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
[0176]
请参考图8,为本技术实施例提供的计算机设备的示意图,如图8所示,该计算机设备100包括:处理器101、存储介质102和总线,存储介质102存储有处理器101可执行的程序指令,当计算机设备100运行时,处理器101与存储介质102之间通过总线通信,处理器101执行程序指令,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
[0177]
可选地,本发明还提供一种计算机可读存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时用于执行上述方法实施例。
[0178]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些界面,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
[0179]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0180]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0181]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-only memory,简称:rom)、随机存取存储器(英文:random access memory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0182]
上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种数据分析方法,其特征在于,所述方法包括:获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,其中,每个历史交易客户的特征包括:业务类型,以及所述旧业务场景的目标交易特征数据;根据所述多个历史交易客户的业务类型,对所述多个历史交易客户在所述旧业务场景的目标交易特征数据进行聚类,得到所述旧业务场景下所述业务类型的特征中心数据;根据所述待预测客户在所述新业务场景下的交易特征数据,以及所述旧业务场景下所述业务类型的特征中心数据,确定所述待预测客户在所述新业务场景下所属的潜在业务类型。2.根据权利要求1所述的方法,其特征在于,所述获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,包括:获取所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据;根据所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据,确定所述多个历史交易客户和所述待预测客户之间的数据匹配参数;根据所述数据匹配参数对所述多个历史交易客户的交易特征数据进行变换,得到所述多个历史交易客户的目标交易特征数据。3.根据权利要求2所述的方法,其特征在于,所述获取所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据,包括:获取所述多个历史交易客户的初始交易特征数据,和所述待预测客户的初始交易特征数据;对所述多个历史交易客户的初始交易特征数据和所述待预测客户的初始交易特征数据进行降维处理,得到所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据。4.根据权利要求3所述的方法,其特征在于,所述对所述多个历史交易客户的初始交易特征数据和所述待预测客户的初始交易特征数据进行降维处理之后,所述方法还包括:对所述多个历史交易客户的降维交易特征数据和所述待预测客户的降维交易特征数据进行正则化处理,得到所述多个历史交易客户的交易特征数据和所述待预测客户的交易特征数据。5.根据权利要求3所述的方法,其特征在于,所述获取所述多个历史交易客户的初始交易特征数据,和所述待预测客户的初始交易特征数据,包括:获取每个历史交易客户的多维第一数据和所述待预测客户的多维第二数据;根据所述多维第一数据,生成所述每个历史交易客户的初始交易特征数据;根据所述多维第二数据,生成所述待预测客户的初始交易特征数据。6.根据权利要求5所述的方法,其特征在于,所述根据所述多维第一数据,生成所述每个历史交易客户的初始交易特征数据:根据所述多维第一数据,生成第一基本特征;对所述多维第一数据进行组合,生成第一衍生特征,所述每个历史交易客户的初始交易特征数据包括:所述第一基本特征和所述第一衍生特征。7.根据权利要求1所述的方法,其特征在于,所述根据所述待预测客户在所述新业务场
景下的交易特征数据,以及所述旧业务场景下所述业务类型的特征中心数据,确定所述待预测客户在所述新业务场景下所属的潜在业务类型,包括:计算所述待预测客户的交易特征数据与所述旧业务场景下多个业务类型对应的特征中心数据的相似度;确定与所述待预测客户的交易特征数据的相似度最高的目标特征中心数据;根据所述目标特征中心数据对应的业务类型,确定所述待预测客户在所述新业务场景下的潜在业务类型。8.一种数据分析装置,其特征在于,所述装置包括:数据获取模块,用于获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,其中,每个历史交易客户的特征包括:业务类型,以及所述旧业务场景的目标交易特征数据;特征中心确定模块,用于根据所述多个历史交易客户的业务类型,对所述多个历史交易客户在所述旧业务场景的目标交易特征数据进行聚类,得到所述旧业务场景下所述业务类型的特征中心数据;分类预测模块,用于根据所述待预测客户在所述新业务场景下的交易特征数据,以及所述旧业务场景下所述业务类型的特征中心数据,确定所述待预测客户在所述新业务场景下所属的潜在业务类型。9.一种计算机设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如权利要求1至7任一所述的数据分析方法的步骤。10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的数据分析方法的步骤。

技术总结
本申请提供供一种数据分析方法、装置、计算机设备及存储介质,涉及数据处理技术领域。该方法包括:获取旧业务场景下的多个历史交易客户的特征和新业务场景下待预测客户的交易特征数据,每个历史交易客户的特征包括:业务类型,以及旧业务场景的目标交易特征数据;根据多个历史交易客户的业务类型,对多个历史交易客户在旧业务场景的目标交易特征数据进行聚类,得到旧业务场景下业务类型的特征中心数据;根据待预测客户在新业务场景下的交易特征数据,以及旧业务场景下业务类型的特征中心数据,确定待预测客户在新业务场景下所属的潜在业务类型。本申请可以打破新旧业务场景之间的数据壁垒,基于旧业务场景的客户数据对新业务场景进行客户挖掘。场景进行客户挖掘。场景进行客户挖掘。


技术研发人员:辛治运 鹿群 陈海雯 黎豪 陈圣松
受保护的技术使用者:广发证券股份有限公司
技术研发日:2023.07.19
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐