一种资源价值信息的识别方法、装置以及存储介质与流程
未命名
09-27
阅读:59
评论:0

1.本技术涉及计算机技术领域,尤其涉及一种资源价值信息的识别方法、装置以及存储介质。
背景技术:
2.随着互联网技术的迅速发展,人们对资源价值信息的预估需求越来越多,例如对于用户周边房价水平的识别。
3.一般,可以基于人工经验确定数据规则进行资源价值信息的识别。即产品运营基于业务经验,设定房价水平识别的规则,比如“年龄在30-45岁、学历硕士及以上、生活在一线城市”的用户,认为有处于“高水平房价”状态的概率更高。
4.但是,由于资源价值信息与对象特征的关联性复杂,且对象特征的数据规模巨大,采用人工经验确定数据规则容易忽略一些特征,影响资源价值信息识别的准确性。
技术实现要素:
5.有鉴于此,本技术提供一种资源价值信息的识别方法,可以有效提高资源价值信息的识别过程中的数据安全性。
6.本技术第一方面提供一种资源价值信息的识别方法,可以应用于终端设备中包含资源价值信息的识别功能的系统或程序中,具体包括:
7.获取具有标签信息的种子对象,并基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,所述标签信息用于指示所述种子对象所对应的资源价值信息;
8.基于所述种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;
9.向参与资源价值信息识别的参与对象发送所述全局模型,以使得所述参与对象基于本地数据进行模型训练得到参与梯度信息;
10.根据所述参与对象对应的信任信息确定梯度获取方式,以基于所述梯度获取方式获取所述参与梯度信息,所述梯度获取方式用于指示对所述参与梯度信息执行的加噪操作;
11.基于所述参与梯度信息进行联邦学习得到目标模型,以基于所述目标模型识别待识别对象对应的资源价值信息。
12.可选的,在本技术一些可能的实现方式中,所述获取具有标签信息的种子对象,并基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,包括:
13.获取具有所述标签信息的候选对象;
14.调用基于所述标签信息配置的异常对象指标,所述异常对象指标基于通信资源的使用信息确定;
15.根据所述异常对象指标对所述候选对象进行筛选,以确定所述种子对象;
16.基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征。
17.可选的,在本技术一些可能的实现方式中,所述根据所述异常对象指标对所述候选对象进行筛选,以确定所述种子对象,包括:
18.确定所述候选对象对应的随机误差;
19.基于所述随机误差对所述候选对象进行计算,以确定标准偏差;
20.根据所述标准偏差确定误差区间;
21.对所述候选对象中随机误差超出所述误差区间的对象进行筛选,以确定所述种子对象。
22.可选的,在本技术一些可能的实现方式中,所述基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,包括:
23.确定所述行为数据和所述业务数据对应的时间信息;
24.基于所述时间信息采用预设时间范围进行数据聚合,以得到聚合数据;
25.根据所述聚合数据中数据的类型进行特征处理,以确定所述种子对象对应的画像特征。
26.可选的,在本技术一些可能的实现方式中,所述根据所述聚合数据中的数据类型进行特征处理,以确定所述种子对象对应的画像特征,包括:
27.若所述数据类型为数值型特征,则对所述聚合数据进行归一化处理,以确定所述种子对象对应的画像特征;
28.若所述数据类型为非数值型特征,则对所述聚合数据进行离散化化处理,以确定所述种子对象对应的画像特征。
29.可选的,在本技术一些可能的实现方式中,所述根据所述参与对象对应的信任信息确定梯度获取方式,以基于所述梯度获取方式获取所述参与梯度信息,包括:
30.若所述参与对象对应的信任信息指示所述参与对象为敏感对象,则确定梯度获取方式为扰动获取;
31.获取所述敏感对象上传的梯度范数,以基于所述梯度范数确定裁剪值;
32.向所述敏感对象反馈所述裁剪值,以使得所述敏感对象基于所述裁剪值对相应范围的梯度参数进行加噪处理得到加噪梯度信息;
33.接收所述敏感对象发送的所述加噪梯度信息,并基于所述加噪梯度信息确定所述参与梯度信息。
34.可选的,在本技术一些可能的实现方式中,所述获取所述敏感对象上传的梯度范数,以基于所述梯度范数确定裁剪值,包括:
35.获取所述敏感对象上传的梯度范数;
36.确定所述敏感对象对应的地址信息;
37.基于所述地址信息配置针对于所述敏感对象的裁剪值。
38.本技术第二方面提供一种资源价值信息的识别装置,包括:
39.获取单元,用于获取具有标签信息的种子对象,并基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,所述标签信息用于指示所述种子对象所对应的资源价值信息;
40.训练单元,用于基于所述种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;
41.发送单元,用于向参与资源价值信息识别的参与对象发送所述全局模型,以使得所述参与对象基于本地数据进行模型训练得到参与梯度信息;
42.所述获取单元,还用于根据所述参与对象对应的信任信息确定梯度获取方式,以基于所述梯度获取方式获取所述参与梯度信息,所述梯度获取方式用于指示对所述参与梯度信息执行的加噪操作;
43.识别单元,用于基于所述参与梯度信息进行联邦学习得到目标模型,以基于所述目标模型识别待识别对象对应的资源价值信息。
44.可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于获取具有所述标签信息的候选对象;
45.所述获取单元,具体用于调用基于所述标签信息配置的异常对象指标,所述异常对象指标基于通信资源的使用信息确定;
46.所述获取单元,具体用于根据所述异常对象指标对所述候选对象进行筛选,以确定所述种子对象;
47.所述获取单元,具体用于基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征。
48.可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于确定所述候选对象对应的随机误差;
49.所述获取单元,具体用于基于所述随机误差对所述候选对象进行计算,以确定标准偏差;
50.所述获取单元,具体用于根据所述标准偏差确定误差区间;
51.所述获取单元,具体用于对所述候选对象中随机误差超出所述误差区间的对象进行筛选,以确定所述种子对象。
52.可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于确定所述行为数据和所述业务数据对应的时间信息;
53.所述获取单元,具体用于基于所述时间信息采用预设时间范围进行数据聚合,以得到聚合数据;
54.所述获取单元,具体用于根据所述聚合数据中数据的类型进行特征处理,以确定所述种子对象对应的画像特征。
55.可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于若所述数据类型为数值型特征,则对所述聚合数据进行归一化处理,以确定所述种子对象对应的画像特征;
56.所述获取单元,具体用于若所述数据类型为非数值型特征,则对所述聚合数据进行离散化化处理,以确定所述种子对象对应的画像特征。
57.可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于若所述参与对象对应的信任信息指示所述参与对象为敏感对象,则确定梯度获取方式为扰动获取;
58.所述获取单元,具体用于获取所述敏感对象上传的梯度范数,以基于所述梯度范数确定裁剪值;
59.所述获取单元,具体用于向所述敏感对象反馈所述裁剪值,以使得所述敏感对象基于所述裁剪值对相应范围的梯度参数进行加噪处理得到加噪梯度信息;
60.所述获取单元,具体用于接收所述敏感对象发送的所述加噪梯度信息,并基于所述加噪梯度信息确定所述参与梯度信息。
61.可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于获取所述敏感对象上传的梯度范数;
62.所述获取单元,具体用于确定所述敏感对象对应的地址信息;
63.所述获取单元,具体用于基于所述地址信息配置针对于所述敏感对象的裁剪值。
64.本技术第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的资源价值信息的识别方法。
65.本技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的资源价值信息的识别方法。
66.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的资源价值信息的识别方法。
67.从以上技术方案可以看出,本技术实施例具有以下优点:
68.通过获取具有标签信息的种子对象,并基于种子对象对应的行为数据和业务数据确定种子对象对应的画像特征,该标签信息用于指示种子对象所对应的资源价值信息;然后基于种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;并向参与资源价值信息识别的参与对象发送全局模型,以使得参与对象基于本地数据进行模型训练得到参与梯度信息;进一步的,根据参与对象对应的信任信息确定梯度获取方式,以基于梯度获取方式获取参与梯度信息,该梯度获取方式用于指示对参与梯度信息执行的加噪操作;进而基于参与梯度信息进行联邦学习得到目标模型,以基于目标模型识别待识别对象对应的资源价值信息。从而实现基于联邦学习的资源价值信息识别过程,由于采用种子对象进行全局模型的训练,且通过混合差分的方式获取参与对象本地训练所得的梯度参数,避免了信息的泄露,提高了参与对象的梯度信息安全性,提高了资源价值信息识别的准确性。
附图说明
69.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
70.图1为资源价值信息的识别系统运行的网络架构图;
71.图2为本技术实施例提供的一种资源价值信息的识别的流程架构图;
72.图3为本技术实施例提供的一种资源价值信息的识别方法的流程图;
73.图4为本技术实施例提供的一种资源价值信息的识别方法的场景示意图;
74.图5为本技术实施例提供的另一种资源价值信息的识别方法的场景示意图;
75.图6为本技术实施例提供的一种资源价值信息的识别方法的模型结构示意图;
76.图7为本技术实施例提供的另一种资源价值信息的识别方法的流程图;
77.图8为本技术实施例提供的另一种资源价值信息的识别方法的场景示意图;
78.图9为本技术实施例提供的另一种资源价值信息的识别方法的场景示意图;
79.图10为本技术实施例提供的一种资源价值信息的识别装置的结构示意图;
80.图11为本技术实施例提供的一种终端设备的结构示意图;
81.图12为本技术实施例提供的一种服务器的结构示意图。
具体实施方式
82.本技术实施例提供了一种资源价值信息的识别方法以及相关装置,可以应用于终端设备中包含资源价值信息的识别功能的系统或程序中,通过获取具有标签信息的种子对象,并基于种子对象对应的行为数据和业务数据确定种子对象对应的画像特征,该标签信息用于指示种子对象所对应的资源价值信息;然后基于种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;并向参与资源价值信息识别的参与对象发送全局模型,以使得参与对象基于本地数据进行模型训练得到参与梯度信息;进一步的,根据参与对象对应的信任信息确定梯度获取方式,以基于梯度获取方式获取参与梯度信息,该梯度获取方式用于指示对参与梯度信息执行的加噪操作;进而基于参与梯度信息进行联邦学习得到目标模型,以基于目标模型识别待识别对象对应的资源价值信息。从而实现基于联邦学习的资源价值信息识别过程,由于采用种子对象进行全局模型的训练,且通过混合差分的方式获取参与对象本地训练所得的梯度参数,避免了信息的泄露,提高了参与对象的梯度信息安全性,提高了资源价值信息识别的准确性。
83.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
84.首先,对本技术实施例中可能出现的一些名词进行解释。
85.差分隐私:用以解决数据库中的隐私泄漏问题,是机器学习算法中常见的隐私保护技术。
86.联邦学习:是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
87.深度学习:深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的
机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
88.用户居住地:指用户长期居住地,不区分用户是购买房产的自住或租房。
89.房价水平识别:指用户长期居住地的小区的房价水平,取值范围为特高、高、中、低。
90.应理解,本技术提供的资源价值信息的识别方法可以应用于终端设备中包含资源价值信息的识别功能的系统或程序中,例如地图应用,具体的,资源价值信息的识别系统可以运行于如图1所示的网络架构中,如图1所示,是资源价值信息的识别系统运行的网络架构图,如图可知,资源价值信息的识别系统可以提供与多个信息源的资源价值信息的识别过程,即通过终端侧的触发操作生成对应的轨迹数据,从而使得服务器对终端附近的资源价值信息进行识别;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到资源价值信息的识别的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
91.本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本技术在此不做限制。
92.可以理解的是,上述资源价值信息的识别系统可以运行于个人移动终端,例如:作为地图应用这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供资源价值信息的识别,以得到信息源的资源价值信息的识别处理结果;具体的资源价值信息的识别系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶等场景,具体运作模式因实际场景而定,此处不做限定。
93.随着互联网技术的迅速发展,人们对资源价值信息的预估需求越来越多,例如对于用户周边房价水平的识别。
94.一般,可以基于人工经验确定数据规则进行资源价值信息的识别。即产品运营基于业务经验,设定房价水平识别的规则,比如“年龄在30-45岁、学历硕士及以上、生活在一线城市”的用户,认为有处于“高水平房价”状态的概率更高。
95.但是,由于资源价值信息与对象特征的关联性复杂,且对象特征的数据规模巨大,采用人工经验确定数据规则容易忽略一些特征,影响资源价值信息识别的准确性。
96.为了解决上述问题,本技术提出了一种资源价值信息的识别方法,该方法应用于图2所示的资源价值信息的识别的流程框架中,如图2所示,为本技术实施例提供的一种资源价值信息的识别的流程架构图,用户通过与终端的交互操作在服务器生成对应的对象画像,从而在服务器进行特征解析,并接受联邦学习中的全局模型,并基于本地数据进行训练,从而可以进行资源价值信息的识别过程。
97.本实施例为基于深度学习技术建立一套精准有效且复用性强的“用户居住地房价
水平状态预测”的自动化识别系统。对于用户居住地房价水平状态的识别对于提高app流量的精细化运营有着直接帮助。
98.具体的,通过基于人工标注和业务的逻辑的方式获取种子用户群,生成包括用户基础属性等相关的对象画像特征,使用fnn模型训练数据,基于模型调用输出用户的房价水平。针对模型训练中的隐私安全问题,在本实施例提出混合差分隐私联邦学习方案中,首先参数服务器生成全局初始模型并分发给每个客户端。其次每个客户端本地训练完成之后,根据客户隐私需求加入相应的差分隐私噪声;最后参数服务器聚合客户端上传的模型,如果存在不信任的服务器用户,则注入差分隐私噪声,以实现隐私保护。
99.可以理解的是,本技术所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种资源价值信息的识别装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该资源价值信息的识别装置通过获取具有标签信息的种子对象,并基于种子对象对应的行为数据和业务数据确定种子对象对应的画像特征,该标签信息用于指示种子对象所对应的资源价值信息;然后基于种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;并向参与资源价值信息识别的参与对象发送全局模型,以使得参与对象基于本地数据进行模型训练得到参与梯度信息;进一步的,根据参与对象对应的信任信息确定梯度获取方式,以基于梯度获取方式获取参与梯度信息,该梯度获取方式用于指示对参与梯度信息执行的加噪操作;进而基于参与梯度信息进行联邦学习得到目标模型,以基于目标模型识别待识别对象对应的资源价值信息。从而实现基于联邦学习的资源价值信息识别过程,由于采用种子对象进行全局模型的训练,且通过混合差分的方式获取参与对象本地训练所得的梯度参数,避免了信息的泄露,提高了参与对象的梯度信息安全性,提高了资源价值信息识别的准确性。
100.本技术实施例提供的方案涉及人工智能的深度学习技术,具体通过如下实施例进行说明:
101.结合上述流程架构,下面将对本技术中资源价值信息的识别方法进行介绍,请参阅图3,图3为本技术实施例提供的一种资源价值信息的识别方法的流程图,该管理方法可以是由服务器或终端(客户端)执行的,本技术实施例至少包括以下步骤:
102.301、获取具有标签信息的种子对象,并基于种子对象对应的行为数据和业务数据确定种子对象对应的画像特征。
103.本实施例中,标签信息用于指示种子对象所对应的资源价值信息;其中,资源价值信息可以是房价水平信息,例如高、中或低,资源价值信息也可以是物价水平信息或其他具有价值的对象信息,本实施例以房价价值信息为例进行说明。
104.具体的,种子对象即为标记了所处房价水平的用户;其中,本实施例中的对象可以是用户、终端或其他具有执行作用的主体,此处不作限定。
105.可选的,对于画像特征的构建,可以基于人工标注和业务经验,找出与业务强相关、数据分布正常、对象画像合理的正负训练样本。对于样本的提取,在业务场景,会存在虚假用户、电脑操控手机的情况。为了剔除非真实用户对建模分析的影响,会基于业务经验设置异常用户检测指标,比如用户在通讯系产品的流量使用情况、流量产生的时间分布等。
106.具体的,对于种子对象的筛选过程,首先获取具有标签信息的候选对象;然后调用基于标签信息配置的异常对象指标,该异常对象指标基于通信资源的使用信息确定,例如
通讯系产品的流量使用情况集中于单一应用,可能是虚拟账号;然后根据异常对象指标对候选对象进行筛选,以确定种子对象;并基于种子对象对应的行为数据和业务数据确定种子对象对应的画像特征。
107.进一步的,还可以基于分布异常定理,过滤异常种子用户,即使用“拉依达准则”进行异常值判断标准。首先确定候选对象对应的随机误差;然后基于随机误差对候选对象进行计算,以确定标准偏差;并根据标准偏差确定误差区间;进而对候选对象中随机误差超出误差区间的对象进行筛选,以确定种子对象。具体的,即假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。例如设对被测量进行等精度测量,独立得到x1,x2...,xn,算出其算术平均值x及剩余误差vi=xi-x(i=1,2,...,n),并按贝塞尔公式算出标准偏差σ,若某个测量值xb的剩余误差vb(1《=b《=n),满足|vb|=|xb-x|》3σ,则认为xb是含有粗大误差值的坏值,应予剔除。
108.在一种可能的场景中,考虑到用户可能存在搬家的情况,估可以进行时间维度的聚合,即结合时间维度,聚合出不同时间跨度的画像特征和业务特征。具体的,首先确定行为数据和业务数据对应的时间信息;然后基于时间信息采用预设时间范围进行数据聚合,以得到聚合数据;并根据聚合数据中数据的类型进行特征处理,以确定种子对象对应的画像特征。例如计算用户近半年/近3个月/近1个月/近1周的聚合画像,而聚合的方法选用求和、中位数、标准差三种。
109.进一步的,对于聚合数据,不同的数据可以进行对应的处理,即若数据类型为数值型特征,则对聚合数据进行归一化处理,以确定种子对象对应的画像特征;若数据类型为非数值型特征,则对聚合数据进行离散化化处理,以确定种子对象对应的画像特征。其中,归一化处理方法选择高斯归一化。离散化处理包括以下方法:one-hot encoding,例如对于用户性别等特征。count encoding,例如对于用户的wifi poi特征,会用count encoding来标识用户和这个poi的兴趣程度。比如用户当周去了“美食-中国菜-粤菜”这个poi共3次。category embedding,根据数据分析发现,有许多类目特征都存在较强的稀疏性。为了避免模型过拟合和提高模型稳定性,引入神经网络将高维稀疏分类变量转换为低维稠密的embedding变量。nan embedding,对于特征的缺失值处理,实验过“剔除”、“平均值填充”和“缺失标记”等方法,实验结果显示将缺失值转为embedding表达的方式,对模型的效果具有最大的正向收益。consolidation encoding,某些类目变量下的多个取值,可以将其归纳成同一个信息。比如安卓手机的系统版本特征的多个取值里包括“4.2”、“4.4”和“5.0”三个,基于经验可以将这三个值归纳为“低版本安卓系统”。其中,consolidation encoding处理方式,比直接将“安卓系统版本”特征one-hot能带来更大的正向收益。
110.在一种可能的场景中,本实施例中种子对象为离线数据的准备过程,下面结合具体的模块场景进行说明,如图4所示,图4为本技术实施例提供的一种资源价值信息的识别方法的场景示意图;图中示出了对于离线数据准备,即基于人工标注和业务经验,找出与业务强相关、数据分布正常、对象画像合理的正负训练样本。对于离线特征处理,即构建训练样本的画像特征,并基于特征的垂直特性,结合时间维度、不同特征处理方法,产出高维特征向量。对于离线模型训练,即基于训练样本和特征向量,寻找分类效果佳且稳定的模型,本专利选择fnn作为训练模型。
111.另外,对于混合差分隐私联邦学习。包括两部分:服务器调用、客户端调用。其中离线特征处理&模型训练,包括以下步骤:
112.构建基础画像特征。基于用户历史行为数据,构建出丰富的对象画像,包括:用户基础属性、设备基础属性、网络连接属性等。
113.基于业务特性,构建业务垂直类型特征。垂直类型特征,包括用户对特定类型广告的点击率、转化率等。
114.结合时间维度,聚合出不同时间跨度的画像特征和业务特征。计算用户近半年/近3个月/近1个月/近1周的聚合画像,聚合的方法选用求和、中位数、标准差三种。
115.特征处理:归一化数值型特征&离散化非数值型特征,具体处理过程参见上述实施例。
116.进一步的,将处理后的特征进行合并、并离线存储在hdfs(the hadoop distributed file system),便于后续流程的快速访问。对于固化特征处理逻辑,即定时离线自动化计算,将离线计算结果push到线上存储引擎。对于随机划分特征处理的样本集,作为训练集和测试集。严格按照样本所属的时间窗口进行划分,时间较早的作为训练集,时间较晚的作为验证集。训练集和验证集的比例保证为5:1。对于离线实验模型,可以选择基于fnn模型对数据集进行训练,经参数调优后,保存模型文件。
117.302、基于种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型。
118.本实施例中,全局模型即为联邦学习中带广播的初始模型,具体训练过程可以是将category特征输入到fnn模型中,训练embedding特征。包括:
119.其中,embedding特征可以包括:wifi trajectory embedding,即基于mst-cnn深度学习网络,对用户的wifi连接轨迹数据进行embedding,捕捉用户wi-fi行为pattern信息。以及app traffic embedding,即基于list-embedding方式,对用户使用通讯系不同类目app的流量使用行为序列进行embedding提取,比如使用通讯系社交类型app的traffic embedding,获得低维稠密的对象行为特征。
120.本实施例采用fnn模型作为预设深度学习模型为例进行说明,此处不作限定。
121.303、向参与资源价值信息识别的参与对象发送全局模型,以使得参与对象基于本地数据进行模型训练得到参与梯度信息。
122.本实施例中,通过不同参与对象在本地对全局模型进行训练,可以解决资源价值信息分布广泛的问题,且通过参与对象上传梯度信息进行整合,实现一定区域内资源价值信息的统一整合。
123.304、根据参与对象对应的信任信息确定梯度获取方式,以基于梯度获取方式获取参与梯度信息。
124.本实施例中,梯度获取方式用于指示对参与梯度信息执行的加噪操作,即考虑到服务器与参与对象之间的信任关系,可以进行数据保护,该加噪操作即差分隐私算法的执行。
125.具体的,若参与对象对应的信任信息指示参与对象为敏感对象,则确定梯度获取方式为扰动获取;然后获取敏感对象上传的梯度范数,以基于梯度范数确定裁剪值;并向敏感对象反馈裁剪值,以使得敏感对象基于裁剪值对相应范围的梯度参数进行加噪处理得到
加噪梯度信息;进而接收敏感对象发送的加噪梯度信息,并基于加噪梯度信息确定参与梯度信息。
126.可选的,考虑到参与对象之间存在信息泄露的风险,可以通过对敏感对象对应的地址信息对裁剪值进行针对性配置,以提高信息安全性。具体的。首先获取敏感对象上传的梯度范数;然后确定敏感对象对应的地址信息;进而基于地址信息配置针对于敏感对象的裁剪值,从而避免了参与对象中出现信息泄露的情况。
127.可以理解的是,本实施例混合差分隐私联邦学习,用于解决模型训练和调用过程中的数据安全问题,下面对其在服务器以及客户端的实施逻辑进行说明。
128.首先,对于混合差分隐私联邦学习(服务端算法),具体实施方式如下:
[0129][0130]
另外,对于混合差分隐私联邦学习(客户端算法),具体实施方式如下:
[0131][0132]
在一种可能的场景中,联邦学习的过程如图5所示,图5为本技术实施例提供的另一种资源价值信息的识别方法的场景示意图;即包括了:
[0133]
1、服务器分发全局模型;2、用户本地训练全局模型;3、用户上传本地模型梯度;4敏感用户上传clip信息(裁剪值);5、服务器更新clip参考值;6、服务器将clip发送给敏感用户;7、敏感用户上传加噪梯度;8、服务器进行安全聚合。
[0134]
在一种可能的场景中,本实施例中的深度学习模型采用fnn模型,fnn模型本质上是一种特殊的embedding+mlp,其要求第一层嵌入后的各领域特征维度一致,并且嵌入权重的初始化是fm预训练好的。模型具体结构如图6所示,图6为本技术实施例提供的一种资源价值信息的识别方法的模型结构示意图;图中示出了fnn模型包括输入层、全连接层、第一隐含层和第二隐含层,其中全连接层可以表示为:
[0135][0136]
其中,wi,vi为输入特征,w0是对应的权重,k是fm中二次项的向量的维度,x是输入的特征,它是大规模离散稀疏的。它可以分成n个field,每一个field中,只有一个值为1,其余都为0(即one-hot)。
[0137]
另外,第一隐含层可以表示为:
[0138]
l1=tanh(w1z+b1)
[0139]
其中,z为全连接层对应的参数向量,w1,b1是对应的权重和偏置参数。另外,第二隐含层可以表示为:
[0140]
l2=tanh(w2l1+b2)
[0141]
其中,l1为第一隐含层输出的参数向量,w2,b2是对应的权重和偏置参数。
[0142]
进一步的,输出的损失函数可以表示为:
[0143][0144]
其中,l2为第二隐含层输出的参数向量,w3,b3是对应的权重和偏置参数。
[0145]
可以理解的是离线训练fm得到embedding,再输入nn的过程,相当于引入先验专家经验,可以加速模型的训练和收敛;而nn模型省去了学习feature embedding的步骤,训练开销低。
[0146]
另外,在训练fnn的经验积累的过程中,采用batch size=1024,嵌入维度d=16,并使用adam优化器,dropout参数设置为0.5。
[0147]
在训练后,还可以进行离线实验的评估,具体可以进行数学指标评估,即auc(area under curve):auc值越大,当前分类算法越有可能将正样本排在负样本前面,得到更好的分类结果。以及线上实验评估,即基于a/b test的线上流量,对模型的效果进行评估,其中评估的指标有:广告点击率、用户实名预约率。
[0148]
305、基于参与梯度信息进行联邦学习得到目标模型,以基于目标模型识别待识别对象对应的资源价值信息。
[0149]
本实施例中,服务器在收集到各个参与对象发送的梯度信息后,即可进行全局模型的训练,从而得到目标模型,该目标模型可以下发至各个参与对象进行资源价值信息的识别,例如输入对象特征,即可得到该对象对应的周边房价水平。
[0150]
结合上述实施例可知,通过获取具有标签信息的种子对象,并基于种子对象对应的行为数据和业务数据确定种子对象对应的画像特征,该标签信息用于指示种子对象所对应的资源价值信息;然后基于种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;并向参与资源价值信息识别的参与对象发送全局模型,以使得参与对象基于本地数据进行模型训练得到参与梯度信息;进一步的,根据参与对象对应的信任信息确定梯度获取方式,以基于梯度获取方式获取参与梯度信息,该梯度获取方式用于指示对参与梯度信息执行的加噪操作;进而基于参与梯度信息进行联邦学习得到目标模型,以基于目标模型识别待识别对象对应的资源价值信息。从而实现基于联邦学习的资源价值信息识别过程,由于采用种子对象进行全局模型的训练,且通过混合差分的方式获取参与对象本地训练所得的梯度参数,避免了信息的泄露,提高了参与对象的梯度信息安全性,提高了资源价值信息识别的准确性。
[0151]
下面结合一种具体的流程对上述资源信息的识别流程进行说明,如图7所示,图7为本技术实施例提供的另一种资源价值信息的识别方法的流程图;
[0152]
图中示出首先进行离线数据准备。
[0153]
具体的,可以基于人工标注、业务逻辑,获取带有label信息的种子用户。基于规则粗召回一批种子用户,然后基于人工筛查的方式进行过滤,最后基于业务逻辑进行验证。然后获取种子用户基础画像。基础画像包括用户在通讯系app内的一些非隐私行为数据,比如是否安装通讯手机管家、是否使用通讯手机管家骚扰拦截功能等。
[0154]
进一步的,可以计算异常用户类型指标。在真实业务场景,会存在虚假用户、电脑操控手机的情况。为了剔除非真实用户对建模分析的影响,会基于业务经验设置异常用户检测指标,比如用户在通讯系产品的流量使用情况、流量产生的时间分布等。还可以基于分布异常定理,过滤异常种子用户。使用“拉依达准则”进行异常值判断标准。具体做法是:假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
[0155]
对于离线特征处理以及模型训练,可以首先构建基础画像特征。基于用户历史行为数据,构建出丰富的对象画像,包括:用户基础属性、设备基础属性、网络连接属性等。然后基于业务特性,构建业务垂直类型特征。垂直类型特征,包括用户对特定类型广告的点击率、转化率等。进一步的结合时间维度,聚合出不同时间跨度的画像特征和业务特征。计算用户近半年/近3个月/近1个月/近1周的聚合画像,聚合的方法选用求和、中位数、标准差三种。
[0156]
其中,对于特征处理分别对归一化数值型特征以及离散化非数值型特征进行处理。其中归一化方法选择高斯归一化。离散化处理如图3中步骤301所示,此处不作赘述。
[0157]
在特征处理后,将category特征输入到dnn模型,训练embedding特征。并将处理后的特征进行合并、并离线存储在hdfs(the hadoop distributed file system),便于后续流程的快速访问。通过固化特征处理逻辑,定时离线自动化计算,将离线计算结果push到线上存储引擎。
[0158]
在对象特征处理后,进行随机划分特征处理的样本集,作为训练集和测试集。严格按照样本所属的时间窗口进行划分,时间较早的作为训练集,时间较晚的作为验证集。训练集和验证集的比例保证为5:1。
[0159]
在处理样本集后,即可训练离线实验模型,选择基于fnn模型对数据集进行训练,经参数调优后,基于tensorflow的saver()方法固化训练好的模型,共产生4个文件:checkpoint文本实施例件,记录了模型文件的路径信息列表;model.ckpt.data,记录网络权重信息;model.ckpt.index.data和.index是二进制文件,保存模型中的变量权重信息。
[0160]
可以理解的是,本实施例具备很强的复用性。首先,更换正样本所属用户类型,比如“用户任职状态”,然后服务端累计对应日志数据,最后使用相同的特征拼接、特征处理、模型训练的方法产出结果。
[0161]
下面,对不同方案的效果进行对比,如图8所示,图8为本技术实施例提供的另一种资源价值信息的识别方法的场景示意图;图中示出了模型效果对比分析,首先从线下auc效果来看,混合差分隐私联邦学习方案相比其它技术方案,平均提高27.24%;另外,从线上auc效果来看,混合差分隐私联邦学习方案相比其它技术方案,平均提高35.21%。
[0162]
进一步的,从业务效果对比分析,如图9所示,图9为本技术实施例提供的另一种资源价值信息的识别方法的场景示意图;图中示出了从广告点击率来看,混合差分隐私联邦学习方案相比其它技术方案,平均提高382.26%;另外,从广告转化率来看,混合差分隐私联邦学习方案相比其它技术方案,平均提高385.05%。
[0163]
通过上述结果比对,本实施例不仅可以提升对用户居住地周边房价水平识别的准确率,而且通过混合差分隐私联邦学习算法,在保证不降低模型效果的前提下,有效避免关键隐私数据的泄漏,是一种既精准又安全的用户分群方案。
[0164]
为了更好的实施本技术实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图10,图10为本技术实施例提供的一种资源价值信息的识别装置的结构示意图,资源价值信息的识别装置1000包括:
[0165]
获取单元1001,用于获取具有标签信息的种子对象,并基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,所述标签信息用于指示所述种子对象所对应的资源价值信息;
[0166]
训练单元1002,用于基于所述种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;
[0167]
发送单元1003,用于向参与资源价值信息识别的参与对象发送所述全局模型,以使得所述参与对象基于本地数据进行模型训练得到参与梯度信息;
[0168]
所述获取单元1001,还用于根据所述参与对象对应的信任信息确定梯度获取方式,以基于所述梯度获取方式获取所述参与梯度信息,所述梯度获取方式用于指示对所述参与梯度信息执行的加噪操作;
[0169]
识别单元1004,用于基于所述参与梯度信息进行联邦学习得到目标模型,以基于所述目标模型识别待识别对象对应的资源价值信息。
[0170]
可选的,在本技术一些可能的实现方式中,所述获取单元1001,具体用于获取具有所述标签信息的候选对象;
[0171]
所述获取单元1001,具体用于调用基于所述标签信息配置的异常对象指标,所述异常对象指标基于通信资源的使用信息确定;
[0172]
所述获取单元1001,具体用于根据所述异常对象指标对所述候选对象进行筛选,以确定所述种子对象;
[0173]
所述获取单元1001,具体用于基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征。
[0174]
可选的,在本技术一些可能的实现方式中,所述获取单元1001,具体用于确定所述候选对象对应的随机误差;
[0175]
所述获取单元1001,具体用于基于所述随机误差对所述候选对象进行计算,以确定标准偏差;
[0176]
所述获取单元1001,具体用于根据所述标准偏差确定误差区间;
[0177]
所述获取单元1001,具体用于对所述候选对象中随机误差超出所述误差区间的对象进行筛选,以确定所述种子对象。
[0178]
可选的,在本技术一些可能的实现方式中,所述获取单元1001,具体用于确定所述行为数据和所述业务数据对应的时间信息;
[0179]
所述获取单元1001,具体用于基于所述时间信息采用预设时间范围进行数据聚合,以得到聚合数据;
[0180]
所述获取单元1001,具体用于根据所述聚合数据中数据的类型进行特征处理,以确定所述种子对象对应的画像特征。
[0181]
可选的,在本技术一些可能的实现方式中,所述获取单元1001,具体用于若所述数据类型为数值型特征,则对所述聚合数据进行归一化处理,以确定所述种子对象对应的画像特征;
[0182]
所述获取单元1001,具体用于若所述数据类型为非数值型特征,则对所述聚合数据进行离散化化处理,以确定所述种子对象对应的画像特征。
[0183]
可选的,在本技术一些可能的实现方式中,所述获取单元1001,具体用于若所述参与对象对应的信任信息指示所述参与对象为敏感对象,则确定梯度获取方式为扰动获取;
[0184]
所述获取单元1001,具体用于获取所述敏感对象上传的梯度范数,以基于所述梯度范数确定裁剪值;
[0185]
所述获取单元1001,具体用于向所述敏感对象反馈所述裁剪值,以使得所述敏感对象基于所述裁剪值对相应范围的梯度参数进行加噪处理得到加噪梯度信息;
[0186]
所述获取单元1001,具体用于接收所述敏感对象发送的所述加噪梯度信息,并基于所述加噪梯度信息确定所述参与梯度信息。
[0187]
可选的,在本技术一些可能的实现方式中,所述获取单元1001,具体用于获取所述敏感对象上传的梯度范数;
[0188]
所述获取单元1001,具体用于确定所述敏感对象对应的地址信息;
[0189]
所述获取单元1001,具体用于基于所述地址信息配置针对于所述敏感对象的裁剪值。
[0190]
通过获取具有标签信息的种子对象,并基于种子对象对应的行为数据和业务数据确定种子对象对应的画像特征,该标签信息用于指示种子对象所对应的资源价值信息;然后基于种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;并向参与资源价值信息识别的参与对象发送全局模型,以使得参与对象基于本地数据进行模型训练得到参与梯度信息;进一步的,根据参与对象对应的信任信息确定梯度获取方式,以基于梯度获取方式获取参与梯度信息,该梯度获取方式用于指示对参与梯度信息执行的加噪操作;进而基于参与梯度信息进行联邦学习得到目标模型,以基于目标模型识别待识别对象对应的资源价值信息。从而实现基于联邦学习的资源价值信息识别过程,由于采用种子对象进行全局模型的训练,且通过混合差分的方式获取参与对象本地训练所得的梯度参数,避免了信息的泄露,提高了参与对象的梯度信息安全性,提高了资源价值信息识别的准确性。
[0191]
本技术实施例还提供了一种终端设备,如图11所示,是本技术实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本技术实施例相关的部分,具体技术细节未揭示的,请参照本技术实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,pda)、销售终端(point of sales,pos)、车载电脑等任意终端设备,以终端为手机为例:
[0192]
图11示出的是与本技术实施例提供的终端相关的手机的部分结构的框图。参考图11,手机包括:射频(radio frequency,rf)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,wifi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0193]
下面结合图11对手机的各个构成部件进行具体的介绍:
[0194]
rf电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,rf电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier,lna)、双工器等。此外,rf电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(global system of mobile communication,gsm)、通用分组无线服务(general packet radio service,gprs)、码分多址(code division multiple access,cdma)、宽带码分多址
(wideband code division multiple access,wcdma)、长期演进(long term evolution,lte)、电子邮件、短消息服务(short messaging service,sms)等。
[0195]
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0196]
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作,以及在触控面板1131上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0197]
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
[0198]
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0199]
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160
接收后转换为音频数据,再将音频数据输出处理器1180处理后,经rf电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
[0200]
wifi属于短距离无线传输技术,手机通过wifi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了wifi模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0201]
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监测。可选的,处理器1180可包括一个或多个处理单元;可选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
[0202]
手机还包括给各个部件供电的电源1190(比如电池),可选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0203]
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0204]
在本技术实施例中,该终端所包括的处理器1180还具有执行如上述页面处理方法的各个步骤的功能。
[0205]
本技术实施例还提供了一种服务器,请参阅图12,图12是本技术实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
[0206]
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统1241,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0207]
上述实施例中由管理装置所执行的步骤可以基于该图12所示的服务器结构。
[0208]
本技术实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有资源价值信息的识别指令,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中资源价值信息的识别装置所执行的步骤。
[0209]
本技术实施例中还提供一种包括资源价值信息的识别指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中资源价值信息的识别装置所执行的步骤。
[0210]
本技术实施例还提供了一种资源价值信息的识别系统,所述资源价值信息的识别系统可以包含图10所描述实施例中的资源价值信息的识别装置,或图11所描述实施例中的终端设备,或者图12所描述的服务器。
[0211]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0212]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0213]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0214]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0215]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,资源价值信息的识别装置,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0216]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种资源价值信息的识别方法,其特征在于,包括:获取具有标签信息的种子对象,并基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,所述标签信息用于指示所述种子对象所对应的资源价值信息;基于所述种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;向参与资源价值信息识别的参与对象发送所述全局模型,以使得所述参与对象基于本地数据进行模型训练得到参与梯度信息;根据所述参与对象对应的信任信息确定梯度获取方式,以基于所述梯度获取方式获取所述参与梯度信息,所述梯度获取方式用于指示对所述参与梯度信息执行的加噪操作;基于所述参与梯度信息进行联邦学习得到目标模型,以基于所述目标模型识别待识别对象对应的资源价值信息。2.根据权利要求1所述的方法,其特征在于,所述获取具有标签信息的种子对象,并基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,包括:获取具有所述标签信息的候选对象;调用基于所述标签信息配置的异常对象指标,所述异常对象指标基于通信资源的使用信息确定;根据所述异常对象指标对所述候选对象进行筛选,以确定所述种子对象;基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征。3.根据权利要求2所述的方法,其特征在于,所述根据所述异常对象指标对所述候选对象进行筛选,以确定所述种子对象,包括:确定所述候选对象对应的随机误差;基于所述随机误差对所述候选对象进行计算,以确定标准偏差;根据所述标准偏差确定误差区间;对所述候选对象中随机误差超出所述误差区间的对象进行筛选,以确定所述种子对象。4.根据权利要求2所述的方法,其特征在于,所述基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,包括:确定所述行为数据和所述业务数据对应的时间信息;基于所述时间信息采用预设时间范围进行数据聚合,以得到聚合数据;根据所述聚合数据中数据的类型进行特征处理,以确定所述种子对象对应的画像特征。5.根据权利要求4所述的方法,其特征在于,所述根据所述聚合数据中的数据类型进行特征处理,以确定所述种子对象对应的画像特征,包括:若所述数据类型为数值型特征,则对所述聚合数据进行归一化处理,以确定所述种子对象对应的画像特征;若所述数据类型为非数值型特征,则对所述聚合数据进行离散化化处理,以确定所述种子对象对应的画像特征。6.根据权利要求1所述的方法,其特征在于,所述根据所述参与对象对应的信任信息确定梯度获取方式,以基于所述梯度获取方式获取所述参与梯度信息,包括:
若所述参与对象对应的信任信息指示所述参与对象为敏感对象,则确定梯度获取方式为扰动获取;获取所述敏感对象上传的梯度范数,以基于所述梯度范数确定裁剪值;向所述敏感对象反馈所述裁剪值,以使得所述敏感对象基于所述裁剪值对相应范围的梯度参数进行加噪处理得到加噪梯度信息;接收所述敏感对象发送的所述加噪梯度信息,并基于所述加噪梯度信息确定所述参与梯度信息。7.根据权利要求6所述的方法,其特征在于,所述获取所述敏感对象上传的梯度范数,以基于所述梯度范数确定裁剪值,包括:获取所述敏感对象上传的梯度范数;确定所述敏感对象对应的地址信息;基于所述地址信息配置针对于所述敏感对象的裁剪值。8.一种资源价值信息的识别装置,其特征在于,包括:获取单元,用于获取具有标签信息的种子对象,并基于所述种子对象对应的行为数据和业务数据确定所述种子对象对应的画像特征,所述标签信息用于指示所述种子对象所对应的资源价值信息;训练单元,用于基于所述种子对象对应的画像特征对预设深度学习模型进行训练,以得到全局模型;发送单元,用于向参与资源价值信息识别的参与对象发送所述全局模型,以使得所述参与对象基于本地数据进行模型训练得到参与梯度信息;所述获取单元,还用于根据所述参与对象对应的信任信息确定梯度获取方式,以基于所述梯度获取方式获取所述参与梯度信息,所述梯度获取方式用于指示对所述参与梯度信息执行的加噪操作;识别单元,用于基于所述参与梯度信息进行联邦学习得到目标模型,以基于所述目标模型识别待识别对象对应的资源价值信息。9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的资源价值信息的识别方法。10.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于计算机可读存储介质,其特征在于,所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的资源价值信息的识别方法的步骤。
技术总结
本申请公开了一种资源价值信息的识别方法、装置以及存储介质,可应用于地图领域。通过获取种子对象及其特征,以训练得到全局模型;并向参与对象发送全局模型,以使得参与对象训练得到参与梯度信息;根据参与对象对应的信任信息针对性的获取参与梯度信息;进而基于参与梯度信息进行联邦学习,并进行资源价值信息的识别。从而实现基于联邦学习的资源价值信息识别过程,由于采用种子对象进行全局模型的训练,且通过混合差分的方式获取参与梯度参数,避免了信息的泄露,提高了参与对象的梯度信息安全性,提高了资源价值信息识别的准确性。提高了资源价值信息识别的准确性。提高了资源价值信息识别的准确性。
技术研发人员:樊鹏
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.03.09
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/