基于秘密分享的特征提取方法以及装置与流程
未命名
08-03
阅读:107
评论:0

1.本说明书实施例涉及计算机技术领域,特别涉及基于秘密分享的特征提取方法。
背景技术:
2.随着计算机技术的发展,机器学习作为海量数据的分析处理技术,已经被广泛应用于各个领域。在模型训练过程中,通常会将大量数据特征作为机器学习模型的输入。然而这些特征的引入会带来极大的模型计算量,且部分特征并不能提升模型的预测精度,还会造成隐私泄露,因此,如何基于隐私保护进行特征提取逐渐成为隐私保护机器学习中一项重要的研究内容。
3.目前,通常由有经验的人员进行人工筛选,或者使用一些常见的统计方法,如过滤法、皮尔逊相关系数等进行特征提取。进一步,为了保护隐私安全,还可以在特征提取过程使用同态加密算法。然而,上述方案需要对海量的数据特征进行加解密,导致特征提取效率极低,因此,亟需一种高效的、可以保护隐私数据安全的特征提取方案。
技术实现要素:
4.有鉴于此,本说明书实施例提供了基于秘密分享的特征提取方法。本说明书一个或者多个实施例同时涉及基于秘密分享的特征提取装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
5.根据本说明书实施例的第一方面,提供了一种基于秘密分享的特征提取方法,应用于第一数据端,该方法包括:获取多个样本数据和各样本数据的多个样本特征;根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数;将各目标样本特征的重要性系数发送至第二数据端,以使第二数据端根据重要性系数进行特征提取。
6.根据本说明书实施例的第二方面,提供了一种基于秘密分享的特征提取方法,应用于第二数据端,该方法包括:接收第一数据端发送的各目标样本特征的重要性系数,其中,重要性系数根据树模型中各分裂节点对应的目标样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和的第二数据端上的安全样本特征得到,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,树模型根据多个样本数据和各样本数据的多个样本特征构建得到;
根据各目标样本特征的重要性系数进行特征提取,获得特征提取结果。
7.根据本说明书实施例的第三方面,提供了一种基于秘密分享的特征提取装置,应用于第一数据端,该装置包括:获取模块,被配置为获取多个样本数据和各样本数据的多个样本特征;构建模块,被配置为根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;确定模块,被配置为根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数;发送模块,被配置为将各目标样本特征的重要性系数发送至第二数据端,以使第二数据端根据重要性系数进行特征提取。
8.根据本说明书实施例的第四方面,提供了一种基于秘密分享的特征提取装置,应用于第二数据端,该装置包括:接收模块,被配置为接收第一数据端发送的各目标样本特征的重要性系数,其中,重要性系数根据树模型中各分裂节点对应的目标样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和的第二数据端上的安全样本特征得到,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,树模型根据多个样本数据和各样本数据的多个样本特征构建得到;提取模块,被配置为根据各目标样本特征的重要性系数进行特征提取,获得特征提取结果。
9.根据本说明书实施例的第五方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面所提供的基于秘密分享的特征提取方法的步骤。
10.根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面所提供的基于秘密分享的特征提取方法的步骤。
11.根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或者第二方面所提供的基于秘密分享的特征提取方法的步骤。
12.本说明书一个实施例提供的应用于第一数据端的基于秘密分享的特征提取方法,获取多个样本数据和各样本数据的多个样本特征;根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数;将各目标样本特征的重要性系数发送至第二数据端,以使第二数据端根据重要性系数进行特征提取。在各分裂节点分裂时,通过第
二数据端秘密分享的安全样本特征确定各节点的目标样本特征和目标切分值,无须通过密钥对第一数据端和第二数据端上的数据进行加解密,在保护隐私数据安全的基础上节省了树模型的构建时间,进一步提高了各样本数据的特征提取效率。
附图说明
13.图1是本说明书一个实施例提供的一种基于秘密分享的特征提取系统的架构图;图2是本说明书一个实施例提供的另一种基于秘密分享的特征提取系统的架构图;图3是本说明书一个实施例提供的一种基于秘密分享的特征提取方法的流程图;图4是本说明书一个实施例提供的另一种基于秘密分享的特征提取方法的流程图;图5是本说明书一个实施例提供的一种基于秘密分享的特征提取方法中树模型的构建方法的流程图;图6是本说明书一个实施例提供的一种基于秘密分享的特征提取方法的处理过程流程图;图7是本说明书一个实施例提供的一种基于秘密分享的特征提取装置的结构示意图;图8是本说明书一个实施例提供的另一种基于秘密分享的特征提取装置的结构示意图;图9是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
14.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
15.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
16.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
17.此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入
口,供用户选择授权或者拒绝。
18.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
19.随机森林:随机森林由多个决策树构成,不同决策树之间没有关联。进行分类任务时,随机森林中的每一棵决策树可以分别对输入的样本进行判断和分类,每个决策树会得到一个自己的分类结果。
20.随着计算机算力的提升,机器学习作为海量数据的分析处理技术,已经被广泛应用于各个领域,如业务风险识别模型、业务分类模型、业务决策模型等领域。而机器学习模型在训练过程中通常会使用大量的特征作为模型的输入特征,例如,实际场景下,机器学习模型可能会使用多达上万个特征。模型特征的数量越多,机器学习模型的运算量就会越大,而真正影响模型精度的只是其中的一部分特征,大量特征的输入会带来极大的模型计算量,并不能提升模型的预测精度。
21.机器学习技术的发展过程中面临两大挑战:一是数据安全难以得到保障,隐私数据泄露问题亟待解决;二是网络安全隔离和行业隐私,不同行业、部门之间存在数据壁垒,导致数据形成“孤岛”无法安全共享,而仅凭各部门独立数据训练的机器学习模型性能无法达到全局最优化。因此,隐私保护机器学习技术应运而生。近年来,不断地有学者以及研究人员将隐私保护技术应用于机器学习算法,如联邦机器学习、多方安全计算等。与此同时,多方数据汇总后,产生了更加庞大的特征数量,带来了更大的计算成本,因此,基于隐私保护的特征提取方法成为隐私保护机器学习中一项重要的研究内容。
22.目前,通常由有经验的人员进行人工筛选,或者使用一些常见的统计方法,如过滤法、皮尔逊相关系数、信息值iv(information value)等进行特征提取。进一步,为了保护隐私安全,还可以在特征提取过程使用同态加密算法。然而,上述方案需要对海量的数据特征进行加解密,导致特征提取效率极低,因此,亟需一种高效的、可以保护隐私数据安全的特征提取方案。
23.本说明书一个或多个实施例中,可以基于随机森林算法,随机选取部分特征,在节点分裂时选择最优特征进行分裂,进一步根据各特征在节点分裂时的切分指标,确定特征的重要性系数,从而实现特征提取。具体地,获取多个样本数据和各样本数据的多个样本特征;根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数;将各目标样本特征的重要性系数发送至第二数据端,以使第二数据端根据重要性系数进行特征提取。
24.特别地,通过上述方案,在不透露各数据端的特征以及标签等信息的情况下,实现随机森林筛选特征,在各分裂节点分裂时,通过第二数据端秘密分享的安全样本特征确定各节点的目标样本特征和目标切分值,无须通过密钥对第一数据端和第二数据端上的数据进行加解密,在保护隐私数据安全的基础上节省了树模型的构建时间,进一步提高了各样本数据的特征提取效率。
25.在本说明书中,提供了基于秘密分享的特征提取方法,本说明书同时涉及基于秘密分享的特征提取装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中
逐一进行详细说明。
26.参见图1,图1示出了本说明书一个实施例提供的一种基于秘密分享的特征提取系统的架构图,基于秘密分享的特征提取系统可以包括第一数据端100和第二数据端200;第一数据端100,用于获取多个样本数据和各样本数据的多个样本特征;根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数;将各目标样本特征的重要性系数发送至第二数据端200;第二数据端200,用于根据各目标样本特征的重要性系数进行特征提取,获得特征提取结果。
27.应用本说明书实施例的方案,在各分裂节点分裂时,通过第二数据端秘密分享的安全样本特征确定各节点的目标样本特征和目标切分值,无须通过密钥对第一数据端和第二数据端上的数据进行加解密,在保护隐私数据安全的基础上节省了树模型的构建时间,进一步提高了各样本数据的特征提取效率。
28.参见图2,图2示出了本说明书一个实施例提供的另一种基于秘密分享的特征提取系统的架构图,基于秘密分享的特征提取系统可以包括第一数据端100以及多个第二数据端200,其中,第一数据端100可以称为主节点,第二数据端200可以称为客户端节点。多个第二数据端200之间通过第一数据端100可以建立通信连接,在特征提取场景中,第一数据端100即用来在多个第二数据端200之间提供特征提取服务,多个第二数据端200可以分别作为发送端或接收端,通过第一数据端100实现通信。
29.其中,第二数据端200与第一数据端100之间通过网络建立连接。网络为第二数据端200与第一数据端100之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。第二数据端200所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至第一数据端100。
30.第二数据端200可以为浏览器、app(application,应用程序)、或网页应用如h5(hypertext markup language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,第二数据端200可以基于第一数据端100提供的相应服务的软件开发工具包(sdk,software development kit),如基于实时通信(rtc,real time communication)sdk开发获得等。第二数据端200可以部署在电子设备中,需要依赖设备运行或者设备中的某些app而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
31.第一数据端100可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,第一数据端100可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云
存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(cdn,content delivery network)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
32.参见图3,图3示出了本说明书一个实施例提供的一种基于秘密分享的特征提取方法的流程图,基于秘密分享的特征提取方法应用于第一数据端,具体包括以下步骤:步骤302:获取多个样本数据和各样本数据的多个样本特征。
33.本说明书一个或多个实施例中,第一数据端可以获取多个样本数据和各样本数据的多个样本特征,从而基于多个样本数据和各样本数据的多个样本特征构建树模型,以利用树模型确定各样本特征的重要性系数,进一步根据重要性系数实现特征提取。
34.具体地,第一数据端是指拥有样本数据对应样本标签的数据端,第一数据端也可以称为主节点。第二数据端是指多个数据端中第一数据端之外的数据端,第二数据端也可以称为客户端节点,第二数据端的数量可以是一个,也可以是多个。秘密分享是指第一数据端和第二数据端之间的数据交互是以秘密分享的方式进行的,第一数据端和第二数据端之间交互的数据可以称为秘密分享数据、安全数据。
35.样本数据是指携带样本标签的数据,用于构建树模型。样本标签是指样本数据的真实标签,样本特征是对样本数据进行编码得到。样本数据可以是不同场景下的数据,如电商场景、金融场景等等。样本数据也可以是不同任务中的数据,如情感分析任务、文本翻译任务、实体识别任务等等。样本数据的数据格式可以是文本格式、图像格式、音频格式等等,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
36.实际应用中,获取多个样本数据的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以是从其他数据获取设备或者数据库中读取大量携带样本标签的样本数据。本说明书另一种可能的实现方式中,可以是接收用户输入的大量携带样本标签的样本数据。
37.进一步地,生成样本数据的样本特征的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以利用独热编码(one-hot)的方式生成样本数据的样本特征。本说明书另一种可能的实现方式中,可以利用编码器生成样本数据的样本特征。
38.需要说明的是,样本数据集中参与特征提取的样本特征可以被纵向切分地分布在第一数据端和至少一个第二数据端,各数据端持有样本数据的部分样本特征。例如样本特征包括年龄特征、情感特征,第二数据端a持有年龄特征,第二数据端b持有情感特征。第一数据端可以从样本数据集中获取多个样本数据和各样本数据的多个样本特征,并通知各第二数据端选中的样本数据标识和样本特征标识。其中,获取多个样本数据和各样本数据的多个样本特征时,可以基于引导聚集算法(bootstrap aggregating)的思想进行随机选择,从而提高特征提取的泛化性。
39.步骤304:根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到。
40.本说明书一个或多个实施例中,获取多个样本数据和各样本数据的多个样本特征
之后,进一步地,第一数据端可以与第二数据端协同进行多方安全处理,根据多个样本数据和样本特征构建树模型。
41.具体地,树模型可以称为决策树(decision tree),树形结构的树模型中各节点表示一个属性上的判断,各分支代表一个判断结果的输出,各叶节点代表一种分类结果。
42.需要说明的是,本说明书实施例中,可以重复从样本数据集中随机获取多个样本数据和各样本数据的多个样本特征,从而构建多个树模型,并对多个树模型进行融合得到随机森林模型。
43.本说明书一种可选的实施例中,上述根据多个样本数据和样本特征构建树模型,可以包括以下步骤:获取各样本特征的多个候选切分值;根据各样本特征的多个候选切分值,确定当前分裂节点的目标样本特征和目标样本特征的目标切分值;将目标样本特征和目标切分值发送至目标第二数据端,并接收目标第二数据端发送的当前分裂节点的分裂策略,其中,目标第二数据端为包括目标样本特征的第二数据端,分裂策略用于从多个样本数据中确定当前分裂节点分裂得到的各子节点上的样本数据;根据各分裂节点对应的分裂策略,对多个样本数据进行划分,直至达到分裂停止条件,获得树模型。
44.具体地,候选切分值是指样本特征对应的样本特征值中用于划分样本数据的特征值。例如样本特征为年龄,样本特征值包括10、20、30。假设候选切分值为10,样本数据a对应的样本特征值a为36,样本数据b对应的样本特征值b为8,则根据候选切分值,可以确定样本数据a属于左子树,样本数据b属于右子树。
45.分裂节点为树模型中的树节点,分裂是指将当前树节点上的样本数据进行切分至分裂节点对应的各子节点上。分裂停止条件包括但不限于树模型的深度达到预设深度阈值、树模型最小叶子节点上的样本数据小于预设样本阈值。通过设置预设深度阈值,可以避免树模型过拟合;通过设置预设样本阈值,若最小叶子节点上的样本数据小于预设样本阈值,说明最小叶子节点上的样本数据已经足够少了,无需进行节点分裂,避免冗余分裂。
46.示例性地,假设预设深度阈值为5,当前树模型的有五层,则表示树模型的深度达到预设深度阈值,可以停止递归创建树模型,获得构建完成的树模型。假设预设样本阈值为10,当前树模型最小叶子节点上的样本数据有8个,则可以确定当前树模型最小叶子节点上的样本数据小于预设样本阈值,可以停止递归创建树模型,获得构建完成的树模型获取样本特征的多个候选切分值的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以将样本特征的各样本特征值均作为候选切分值。本说明书另一种可能的实现方式中,可以从样本特征的各样本特征值中随机选择,或利用梯度提升决策树算法(xgboost,extreme gradient boosting)选择候选切分值。例如,样本特征值为1-100,利用梯度提升决策树算法确定四分位点,从而将18、48、79、91作为候选切分值。
47.获取各样本特征的多个候选切分值之后,可以根据样本特征的多个候选切分值,使用安全矩阵乘法,确定各候选切分值的切分指标,进一步根据各候选切分值的切分指标确定样本特征的目标切分值。根据各样本特征的特征切分指标,从各样本特征中确定目标
样本特征。
48.应用本说明书实施例的方案,将目标样本特征和目标切分值发送至目标第二数据端,并接收目标第二数据端发送的当前分裂节点的分裂策略,通过根据各分裂节点对应的分裂策略,对多个样本数据进行划分,直至达到分裂停止条件,获得树模型。通过第二数据端确定分裂策略,减少了第一数据端的压力,保证了树模型构建过程的稳定性。
49.本说明书一种可选的实施例中,上述根据各样本特征的多个候选切分值,确定当前分裂节点的目标样本特征和目标样本特征的目标切分值,可以包括以下步骤:针对当前分裂节点,确定第一样本特征的各候选切分值的切分指标,其中,第一样本特征为多个样本特征中的任一个;根据各候选切分值的切分指标,确定第一样本特征的第一目标切分值和第一样本特征的第一特征切分指标;根据各样本特征的特征切分指标,确定当前分裂节点的目标样本特征。
50.具体地,切分指标可以称为基尼(gini)系数,切分指标表征在二分类问题中,正负两种标签的分配合理程度。
51.需要说明的是,确定第一样本特征的各候选切分值的切分指标之后,可以对各候选切分值的切分指标求和得到第一样本特征的第一特征切分指标。
52.实际应用中,根据各候选切分值的切分指标,确定第一样本特征的第一目标切分值的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
53.本说明书一种可能的实现方式中,可以对第一样本特征的各候选切分值的切分指标进行排序,将切分指标最大的候选切分值作为第一样本特征的第一目标切分值。
54.本说明书另一种可能的实现方式中,可以获取切分阈值,将第一样本特征的各候选切分值的切分指标与切分阈值进行对比,从切分指标大于等于切分阈值的候选切分值中选择第一样本特征的第一目标切分值。
55.进一步地,根据各样本特征的切分指标,确定当前分裂节点的目标样本特征的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
56.本说明书一种可能的实现方式中,可以对当前分裂节点上各样本特征的特征切分指标进行排序,将特征切分指标最大的样本特征作为当前分裂节点的目标样本特征。
57.本说明书另一种可能的实现方式中,可以获取特征切分阈值,将各样本特征的特征切分指标与特征切分阈值进行对比,从特征切分指标大于特征等于切分阈值的样本特征中选择当前分裂节点的目标样本特征。
58.应用本说明书实施例的方案,根据各样本特征的特征切分指标,确定当前分裂节点的目标样本特征,针对目标样本特征,根据目标样本特征的各候选切分值的切分指标,确定目标样本特征的目标切分值,准确确定当前分裂节点的目标样本特征和目标切分值,为当前分裂节点的分裂过程提供依据,保证了树模型构建的准确性。
59.本说明书一种可选的实施例中,计算切分指标时,需要知晓当前分裂节点和其分裂后的各子节点中各类标签的分布,也即样本类别分布矩阵,确定样本类别分布矩阵之后,可以利用样本类别分布矩阵企业的各候选切分值的切分指标,也即,上述确定第一样本特征的各候选切分值的切分指标,可以包括以下步骤:对多个样本数据的样本标签进行编码,生成安全样本标签;
根据安全样本标签和第二数据端发送的安全样本特征,确定当前分裂节点的样本类别分布矩阵,其中,安全样本特征为第二数据端对第二数据端上的第二样本特征安全处理得到,样本类别分布矩阵中包括各候选切分值对应的子节点上的样本个数;根据各候选切分值对应的子节点上的样本个数,确定各候选切分值的切分指标。
60.具体地,安全样本标签是指样本标签的秘密分享值。安全样本特征是指第二数据端上样本特征的秘密分享值。
61.需要说明的是,对多个样本数据的样本标签进行编码,生成安全样本标签的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以利用独热编码对样本标签进行编码,生成编码样本标签,进一步对编码样本标签进行转置、安全处理生成安全样本标签。本说明书另一种可能的实现方式中,可以利用编码器对样本标签进行编码,生成编码样本标签,进一步对编码样本标签进行转置、安全处理生成安全样本标签,其中,安全处理的方式可以是对编码样本标签减去随机数值,还可以是对编码样本标签增加随机数值,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
62.应用本说明书实施例的方案,对多个样本数据的样本标签进行编码,生成安全样本标签;根据安全样本标签和第二数据端发送的安全样本特征,确定当前分裂节点的样本类别分布矩阵;根据各候选切分值对应的子节点上的样本个数,确定各候选切分值的切分指标,由于安全样本特征是第二数据端对第二样本特征进行安全处理得到的秘密分享值,使得第一数据端虽然不能知道准确的第二样本特征,但可以直接利用安全样本特征进行计算,无须通过密钥对第二样本特征进行加解密,在保护隐私数据安全的基础上节省了树模型的构建时间,进一步提高了各样本数据的特征提取效率。
63.本说明书一种可选的实施例中,为了避免第一数据端上的样本标签和第二数据端上的特征值泄露,可以通过安全矩阵乘法确定各当前分裂节点的样本类别分布矩阵,也即,上述根据安全样本标签和第二数据端发送的安全样本特征,确定当前分裂节点的样本类别分布矩阵,可以包括以下步骤:将安全样本标签发送至第二数据端,以使第二数据端根据安全样本标签生成第一样本类别分布矩阵;接收第二数据端发送的第一样本类别分布矩阵和安全样本特征;根据安全样本特征和样本标签生成第二样本类别分布矩阵;根据第一样本类别分布矩阵和第二样本类别分布矩阵,生成样本类别分布矩阵。
64.需要说明的是,假设第一数据端对样本标签进行独热编码得到编码样本标签y
oh
,对y
oh
取转置获得转置后的编码样本标签y
oht
,进一步对转置后的编码样本标签y
oht
进行安全处理得到安全样本标签《y
oht
》。第一数据端将安全样本标签《y
oht
》发送至第二数据端,以使第二数据端根据安全样本标签《y
oht
》生成第一样本类别分布矩阵c1。第一数据端接收第二数据端发送的第一样本类别分布矩阵c1和安全样本特征《w》,根据安全样本特征《w》和样本标签对应的编码样本标签生成第二样本类别分布矩阵c2,并合并第一样本类别分布矩阵c1和第二样本类别分布矩阵c2,生成样本类别分布矩阵c。其中,,n代表候选切分值的个数,c
ij
代表当前分裂节点以候选切分值xj切分后第一子节点中类别i的个数,c
i0
为当前父节点中类别i的总个数,第二子节点中类别i的个数可以由c
i0-c
ij
(j≠
0)得到。
65.本说明书一种可能的实现方式中,第一数据端可以对安全样本标签进行加密并传输给第二数据端,第二数据端计算加密后的第一样本类别分布矩阵并传输给第一数据端,第一数据端解密得到真实的第一样本类别分布矩阵,再生成样本类别分布矩阵。
66.应用本说明书实施例的方案,接收第二数据端发送的第一样本类别分布矩阵和安全样本特征;根据安全样本特征和样本标签生成第二样本类别分布矩阵;根据第一样本类别分布矩阵和第二样本类别分布矩阵,生成样本类别分布矩阵,从而准确确定各候选切分值对应的子节点上的样本个数。
67.本说明书一种可选的实施例中,子节点包括第一子节点和第二子节点;根据各候选切分值对应的子节点上的样本个数,确定各候选切分值的切分指标,可以包括以下步骤:针对任一候选切分值,根据该候选切分值对应的第一子节点上的样本个数,计算第一子节点的左切分指标;根据该候选切分值对应的第二子节点上的样本个数,计算第二子节点的右切分指标;根据左切分指标和右切分指标,确定该候选切分值的切分指标。
68.需要说明的是,根据样本类别分布矩阵,可以确定各候选切分值对应的第一子节点上的样本个数和第二子节点上的样本个数。
69.可以通过以下公式(1)计算第一子节点的左切分指标,通过以下公式(2)计算第二子节点的右切分指标,通过以下公式(3)计算候选切分值的切分指标:(1)(2)(3)其中,d
l
为第一子节点中的样本数据集合,dr为第二子节点中的样本数据集合,d是当前分裂节点的父节点中的样本数据集合,ck为当前分裂节点中类别i的样本个数。
70.应用本说明书实施例的方案,针对任一候选切分值,根据该候选切分值对应的第一子节点上的样本个数,计算第一子节点的左切分指标;根据该候选切分值对应的第二子节点上的样本个数,计算第二子节点的右切分指标;根据左切分指标和右切分指标,确定该候选切分值的切分指标,使得后续可以根据切分指标进行特征提取。
71.步骤306:根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数。
72.本说明书一个或多个实施例中,获取多个样本数据和各样本数据的多个样本特征,根据多个样本数据和样本特征构建树模型之后,进一步地,可以根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数。
73.具体地,重要性系数用于指导特征提取过程,重要性系数表征了目标样本特征的
重要性程度。
74.本说明书一种可选的实施例中,上述根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数,可以包括以下步骤:针对任一分裂节点,确定该分裂节点的父节点和子节点;根据父节点对应的切分指标和子节点对应的切分指标,确定该分裂节点对应的目标样本特征的切分指标增益;根据各分裂节点对应的目标样本特征的切分指标增益,确定目标样本特征的重要性系数。
75.具体地,切分指标增益表征了分裂节点在分裂前后的切分指标变化量,也即样本特征在分裂节点的重要性。可以通过以下公式(4)确定该分裂节点对应的目标样本特征的切分指标增益:(4)其中,为目标样本特征xj在分裂节点q的重要性,为分裂节点q的切分指标,为分裂节点q分裂后得到的第一子节点(左子节点)的切分指标,为分裂节点q分裂后得到的第二子节点(右子节点)的切分指标。
76.需要说明的是,根据各分裂节点对应的目标样本特征的切分指标增益,确定目标样本特征的重要性系数时,可以确定目标样本特征在树模型t中出现的节点集合q,从而根据节点集合q中各分裂节点q对应的目标样本特征的切分指标增益,确定目标样本特征的重要性指标,进一步对目标样本特征的重要性指标进行归一化处理,得到目标样本特征的重要性系数。
77.具体地,可以通过以下公式(5)确定目标样本特征的重要性指标:(5)本说明书一种可能的实现方式中,第一数据端构建了t个树模型,则可以通过以下公式(6)确定目标样本特征的重要性指标:(6)进一步地,可以通过以下公式(7)确定目标样本特征的重要性系数:(7)其中,i为第i个目标样本特征,m为全部样本特征的个数。
78.应用本说明书实施例的方案,针对任一分裂节点,确定该分裂节点的父节点和子节点;根据父节点对应的切分指标和子节点对应的切分指标,确定该分裂节点对应的目标样本特征的切分指标增益;根据各分裂节点对应的目标样本特征的切分指标增益,确定目标样本特征的重要性系数,保证了目标样本特征重要性步骤308:将各目标样本特征的重要性系数发送至第二数据端,以使第二数据端根
据重要性系数进行特征提取。
79.本说明书一个或多个实施例中,获取多个样本数据和各样本数据的多个样本特征,根据多个样本数据和样本特征构建树模型,根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数之后,进一步地,可以将各目标样本特征的重要性系数发送至第二数据端,以使第二数据端根据重要性系数进行特征提取。
80.实际应用中,将各目标样本特征的重要性系数发送至第二数据端的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以将各目标样本特征的重要性系数发送至所有第二数据端。本说明书另一种可能的实现方式中,可以将各目标样本特征的重要性系数发送至持有对应目标样本特征的第二数据端,以减少数据传输量。
81.应用本说明书实施例的方案,在各分裂节点分裂时,通过第二数据端秘密分享的安全样本特征确定各节点的目标样本特征和目标切分值,无须通过密钥对第一数据端和第二数据端上的数据进行加解密,在保护隐私数据安全的基础上节省了树模型的构建时间,进一步提高了各样本数据的特征提取效率。
82.参见图4,图4示出了本说明书一个实施例提供的另一种基于秘密分享的特征提取方法的流程图,基于秘密分享的特征提取方法应用于第二数据端,具体包括以下步骤:步骤402:接收第一数据端发送的各目标样本特征的重要性系数,其中,重要性系数根据树模型中各分裂节点对应的目标样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和的第二数据端上的安全样本特征得到,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,树模型根据多个样本数据和各样本数据的多个样本特征构建得到。
83.步骤404:根据各目标样本特征的重要性系数进行特征提取,获得特征提取结果。
84.实际应用中,根据各目标样本特征的重要性系数进行特征提取的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
85.本说明书一种可能的实现方式中,可以根据各目标样本特征的重要性系数,对各目标样本特征进行排序,从而提取排序前y个目标样本特征,获得特征提取结果,其中,y具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
86.本说明书另一种可能的实现方式中,可以获取预设重要性系数阈值,从而根据各目标样本特征的重要性系数和预设重要性系数阈值,提取重要性系数大于等于重要性系数阈值的目标样本特征,获得特征提取结果。
87.示例性地,假设目标样本特征包括年龄特征、情感特征、学历特征,年龄特征对应的重要性系数为0.6,情感特征对应的重要性系数为0.3,学历特征对应的重要性系数为0.5。根据各目标样本特征的重要性系数由大到小对各目标样本特征进行排序,提取排序第一的年龄特征作为特征提取结果。
88.应用本说明书实施例的方案,接收第一数据端发送的各目标样本特征的重要性系数,根据各目标样本特征的重要性系数进行特征提取,获得特征提取结果。在重要性系数的确定过程中,第一数据端通过第二数据端秘密分享的安全样本特征确定各节点的目标样本特征和目标切分值,无须通过密钥对第一数据端和第二数据端上的数据进行加解密,在保护隐私数据安全的基础上节省了树模型的构建时间,进一步提高了各样本数据的特征提取
效率。
89.本说明书一种可选的实施例中,第二数据端包括目标样本特征和目标样本特征的特征值;上述接收第一数据端发送的各目标样本特征的重要性系数之前,还可以包括以下步骤:接收第一数据端发送的当前分裂节点的目标样本特征和目标样本特征的目标切分值;根据目标切分值和目标样本特征的特征值,确定当前分裂节点的分裂策略,并将分裂策略发送至第一数据端。
90.需要说明的是,第二数据端包括的第二样本特征中除目标样本特征之外,可能还包括其他样本特征。第二数据端在接收到第一数据端发送的目标样本特征和目标切分值之后,可以在其包括的第二样本特征中选择目标样本特征,并将目标样本特征的特征值与目标切分值进行对比,获得当前分裂节点的分裂策略:若特征值小于目标切分值,则确定当前分裂节点中目标样本特征对应的样本数据属于左子树;若特征值大于目标切分值,则确定当前分裂节点中目标样本特征对应的样本数据属于右子树。
91.实际应用中,第二数据端向第一数据端发送分裂策略时,可以在分裂策略中携带样本数据的样本标识,使得第一数据端可以高效地进行节点分裂。本说明书实施例中,只有提供目标样本特征的第二数据端可以保存分裂策略,其他第二数据端仅知道目标样本特征不是自己提供的。
92.应用本说明书实施例的方案,第二数据端接收第一数据端发送的当前分裂节点的目标样本特征和目标样本特征的目标切分值;根据目标切分值和目标样本特征的特征值,确定当前分裂节点的分裂策略,并将分裂策略发送至第一数据端,无须第一数据端生成分裂策略,保证了第二数据端上数据的隐私性,同时减少第一数据端的压力。
93.本说明书另一种可选的实施例中,第二数据端包括第二样本特征;接收第一数据端发送的各目标样本特征的重要性系数之前,还可以包括以下步骤:接收第一数据端发送的安全样本标签;根据第二样本特征的多个候选切分值对第二样本特征进行切分,获得更新后的第二样本特征;根据安全样本标签和更新后的第二样本特征,生成第一样本类别分布矩阵;对更新后的第二样本特征进行安全处理,获得安全样本特征;将第一样本类别分布矩阵和安全样本特征发送至第一数据端。
94.需要说明的是,假设第二样本特征为{x1,x2,...,xk},根据n个候选切分值对第二样本特征进行划分后,获得更新后的第二样本特征w={w0,w1,...,w
nk
},其中,第二样本特征w也可以称为标志位矩阵,标志位矩阵中的元素w0是一个全为1的向量,wj(j≠0)={w
ij
,i1≤i≤ik}的值为0或者1,1代表样本数据i被候选切分值划分到左子节点,0代表样本数据i被候选切分值划分到右子节点。
95.进一步地,将安全样本标签《y
oht
》和更新后的第二样本特征w相乘即可得到第一样本类别分布矩阵。对更新后的第二样本特征进行安全处理,安全处理的方式可以是对更新后的第二样本特征减去随机数值,还可以是对更新后的第二样本特征增加随机数值,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
96.应用本说明书实施例的方案,接收第一数据端发送的安全样本标签;根据第二样本特征的多个候选切分值对第二样本特征进行切分,获得更新后的第二样本特征;根据安全样本标签和更新后的第二样本特征,生成第一样本类别分布矩阵;对更新后的第二样本特征进行安全处理,获得安全样本特征;将第一样本类别分布矩阵和安全样本特征发送至第一数据端,保证了第二数据端上数据的隐私性。
97.参见图5,图5示出了本说明书一个实施例提供的一种基于秘密分享的特征提取方法中树模型的构建方法的流程图,具体包括以下步骤:步骤502:获取多个样本数据和各样本数据的多个样本特征。
98.步骤504:对多个样本数据的样本标签进行编码,生成安全样本标签。
99.步骤506:将安全样本标签发送至第二数据端,以使第二数据端根据安全样本标签生成第一样本类别分布矩阵。
100.步骤508:接收第二数据端发送的第一样本类别分布矩阵和安全样本特征。
101.步骤510:根据安全样本特征和样本标签生成第二样本类别分布矩阵。
102.步骤512:根据第一样本类别分布矩阵和第二样本类别分布矩阵,生成样本类别分布矩阵,其中,样本类别分布矩阵中包括各样本特征的候选切分值对应的子节点上的样本个数。
103.步骤514:针对任一候选切分值,根据该候选切分值对应的第一子节点上的样本个数,计算第一子节点的左切分指标;根据该候选切分值对应的第二子节点上的样本个数,计算第二子节点的右切分指标;根据左切分指标和右切分指标,确定该候选切分值的切分指标。
104.步骤516:根据各候选切分值的切分指标,确定第一样本特征的第一目标切分值和第一样本特征的第一特征切分指标,其中,第一样本特征为多个样本特征中的任一个。
105.步骤518:根据各样本特征的特征切分指标,确定当前分裂节点的目标样本特征。
106.步骤520:将目标样本特征和目标样本特征的目标切分值发送至目标第二数据端,并接收目标第二数据端发送的当前分裂节点的分裂策略,其中,目标第二数据端为包括目标样本特征的第二数据端,分裂策略用于从多个样本数据中确定当前分裂节点分裂得到的各子节点上的样本数据。
107.步骤522:根据各分裂节点对应的分裂策略,对多个样本数据进行划分,直至达到分裂停止条件,获得树模型。
108.需要说明的是,步骤502至步骤522的实现方式与上述图3和图4所提供的基于秘密分享的特征提取方法的实现方式相同,本说明书便不再赘述。
109.实际应用中,根据各分裂节点对应的分裂策略,对多个样本数据进行划分,每构建完一层树结构,可以检查是否达到分裂停止条件。若达到分裂停止条件,则相应地创建叶子节点。若未达到分裂停止条件,则所有分裂节点进入分枝状态,递归创建子树。
110.应用本说明书实施例的方案,提供了一种基于秘密分享的纵向联邦随机森林特征筛选方法,在保证在多个数据端各自隐私数据安全的情况下,更加高效地实现随机森林筛选、提取特征。
111.参见图6,图6示出了本说明书一个实施例提供的一种基于秘密分享的特征提取方法的处理过程流程图,具体包括:
假设第一数据端a拥有样本数据xa和样本标签y,第二数据端拥有样本数据xb;模型构建开始后,可以构建第t棵树模型,在第t棵树模型构建完成后,判断所有树模型是否构建完成或所有树模型是否已经收敛:若否,返回模型构建开始的步骤;若是,则确定树模型构建结束,第一数据端确定样本数据的样本特征的重要性系数,并将样本特征的重要性系数发送至拥有对应样本特征的第二数据端,第二数据端可以根据重要性系数实现特征提取。
112.值得说明的是,可以通过以下方式构建第t棵树模型:第一数据端对样本标签y进行编码处理并取转置得到安全样本标签《y
oht
》。第二数据端进行特征切分得到标志位矩阵w,并对标志位矩阵w进行安全处理得到安全样本特征《w》。第一数据端将《y
oht
》秘密分享给第二数据端,第二数据端将《w》秘密分享给第一数据端;第二数据端根据安全样本标签《y
oht
》和标志位矩阵w,生成第一样本类别分布矩阵c1,并将c1发送至第一数据端;第一数据端基于安全矩阵乘法,根据安全样本特征《w》和样本标签生成第二样本类别分布矩阵c2。
113.第一数据端计算样本类别分布矩阵c=c1+c2,并根据样本类别分布矩阵对当前分裂节点的样本类别进行统计,确定各候选切分值的切分指标;第一数据端选取最大的切分指标对应的候选切分值作为当前分裂节点的目标切分值,并将目标切分值在样本类别分布矩阵中的索引发送给拥有目标切分值对应的目标样本特征的第二数据端,第一数据端保存当前分裂节点对应的目标样本特征和其切分指标增益;第一数据端判断第t棵树模型的构建是否满足分裂停止条件,若否,返回执行第一数据端对样本标签y进行编码处理并取转置得到安全样本标签《y
oht
》的步骤,继续构建树模型;若是,确定第t棵树构建完成。
114.应用本说明书实施例的方案,通过基于秘密分享的纵向联邦随机森林特征提取方法,首先由第一数据端随机选择样本特征以及样本数据并分发给各个第二数据端,保证了随机性。其次,在选择树节点分裂的目标样本特征时,使用安全矩阵乘法计算各个第二数据端根据所选候选切分值划分当前树节点样本的切分指标,提高了树模型的构建效率,同时使得各个第二数据端的特征数据以及第一数据端的标签数据不被泄漏。
115.与上述应用于第一数据端的基于秘密分享的特征提取方法实施例相对应,本说明书还提供了基于秘密分享的特征提取装置实施例,图7示出了本说明书一个实施例提供的一种基于秘密分享的特征提取装置的结构示意图,基于秘密分享的特征提取装置应用于第一数据端。如图7所示,该装置包括:获取模块702,被配置为获取多个样本数据和各样本数据的多个样本特征;构建模块704,被配置为根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;确定模块706,被配置为根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数;发送模块708,被配置为将各目标样本特征的重要性系数发送至第二数据端,以使
第二数据端根据重要性系数进行特征提取。
116.可选地,构建模块704,进一步被配置为获取各样本特征的多个候选切分值;根据各样本特征的多个候选切分值,确定当前分裂节点的目标样本特征和目标样本特征的目标切分值;将目标样本特征和目标切分值发送至目标第二数据端,并接收目标第二数据端发送的当前分裂节点的分裂策略,其中,目标第二数据端为包括目标样本特征的第二数据端,分裂策略用于从多个样本数据中确定当前分裂节点分裂得到的各子节点上的样本数据;根据各分裂节点对应的分裂策略,对多个样本数据进行划分,直至达到分裂停止条件,获得树模型。
117.可选地,构建模块704,进一步被配置为针对当前分裂节点,确定第一样本特征的各候选切分值的切分指标,其中,第一样本特征为多个样本特征中的任一个;根据各候选切分值的切分指标,确定第一样本特征的第一目标切分值和第一样本特征的第一特征切分指标;根据各样本特征的特征切分指标,确定当前分裂节点的目标样本特征。
118.可选地,构建模块704,进一步被配置为对多个样本数据的样本标签进行编码,生成安全样本标签;根据安全样本标签和第二数据端发送的安全样本特征,确定当前分裂节点的样本类别分布矩阵,其中,安全样本特征为第二数据端对第二数据端上的第二样本特征安全处理得到,样本类别分布矩阵中包括各候选切分值对应的子节点上的样本个数;根据各候选切分值对应的子节点上的样本个数,确定各候选切分值的切分指标。
119.可选地,构建模块704,进一步被配置为将安全样本标签发送至第二数据端,以使第二数据端根据安全样本标签生成第一样本类别分布矩阵;接收第二数据端发送的第一样本类别分布矩阵和安全样本特征;根据安全样本特征和样本标签生成第二样本类别分布矩阵;根据第一样本类别分布矩阵和第二样本类别分布矩阵,生成样本类别分布矩阵。
120.可选地,子节点包括第一子节点和第二子节点;构建模块704,进一步被配置为针对任一候选切分值,根据该候选切分值对应的第一子节点上的样本个数,计算第一子节点的左切分指标;根据该候选切分值对应的第二子节点上的样本个数,计算第二子节点的右切分指标;根据左切分指标和右切分指标,确定该候选切分值的切分指标。
121.可选地,确定模块706,进一步被配置为针对任一分裂节点,确定该分裂节点的父节点和子节点;根据父节点对应的切分指标和子节点对应的切分指标,确定该分裂节点对应的目标样本特征的切分指标增益;根据各分裂节点对应的目标样本特征的切分指标增益,确定目标样本特征的重要性系数。
122.应用本说明书实施例的方案,在各分裂节点分裂时,通过第二数据端秘密分享的安全样本特征确定各节点的目标样本特征和目标切分值,无须通过密钥对第一数据端和第二数据端上的数据进行加解密,在保护隐私数据安全的基础上节省了树模型的构建时间,进一步提高了各样本数据的特征提取效率。
123.上述为本实施例的一种基于秘密分享的特征提取装置的示意性方案。需要说明的是,该基于秘密分享的特征提取装置的技术方案与上述应用于第一数据端的基于秘密分享的特征提取方法的技术方案属于同一构思,基于秘密分享的特征提取装置的技术方案未详细描述的细节内容,均可以参见上述应用于第一数据端的基于秘密分享的特征提取方法的技术方案的描述。
124.与上述应用于第二数据端的基于秘密分享的特征提取方法实施例相对应,本说明
area networks)无线接口、全球微波互联接入(wi-max,world interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
131.在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
132.计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(pc,personal computer)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
133.其中,处理器920用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于秘密分享的特征提取方法的步骤。
134.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于秘密分享的特征提取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于秘密分享的特征提取方法的技术方案的描述。
135.本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于秘密分享的特征提取方法的步骤。
136.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于秘密分享的特征提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于秘密分享的特征提取方法的技术方案的描述。
137.本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基于秘密分享的特征提取方法的步骤。
138.上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的基于秘密分享的特征提取方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述基于秘密分享的特征提取方法的技术方案的描述。
139.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
140.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、
电载波信号、电信信号以及软件分发介质等。
141.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
142.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
143.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
技术特征:
1.一种基于秘密分享的特征提取方法,其特征在于,应用于第一数据端,所述方法包括:获取多个样本数据和各样本数据的多个样本特征;根据所述多个样本数据和样本特征构建树模型,其中,所述树模型包括多个分裂节点,所述分裂节点基于目标样本特征和目标切分值进行分裂,所述目标样本特征和所述目标切分值基于各样本特征的切分指标确定,所述切分指标基于所述多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;根据各分裂节点对应的所述目标样本特征的切分指标,确定所述目标样本特征的重要性系数;将所述各目标样本特征的重要性系数发送至所述第二数据端,以使所述第二数据端根据所述重要性系数进行特征提取。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本数据和样本特征构建树模型,包括:获取各样本特征的多个候选切分值;根据所述各样本特征的多个候选切分值,确定当前分裂节点的目标样本特征和所述目标样本特征的目标切分值;将所述目标样本特征和所述目标切分值发送至目标第二数据端,并接收所述目标第二数据端发送的所述当前分裂节点的分裂策略,其中,所述目标第二数据端为包括所述目标样本特征的第二数据端,所述分裂策略用于从所述多个样本数据中确定所述当前分裂节点分裂得到的各子节点上的样本数据;根据各分裂节点对应的分裂策略,对所述多个样本数据进行划分,直至达到分裂停止条件,获得树模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述各样本特征的多个候选切分值,确定当前分裂节点的目标样本特征和所述目标样本特征的目标切分值,包括:针对当前分裂节点,确定第一样本特征的各候选切分值的切分指标,其中,所述第一样本特征为所述多个样本特征中的任一个;根据所述各候选切分值的切分指标,确定所述第一样本特征的第一目标切分值和所述第一样本特征的第一特征切分指标;根据所述各样本特征的特征切分指标,确定所述当前分裂节点的目标样本特征。4.根据权利要求3所述的方法,其特征在于,所述确定第一样本特征的各候选切分值的切分指标,包括:对所述多个样本数据的样本标签进行编码,生成安全样本标签;根据所述安全样本标签和第二数据端发送的安全样本特征,确定所述当前分裂节点的样本类别分布矩阵,其中,所述安全样本特征为所述第二数据端对第二数据端上的第二样本特征安全处理得到,所述样本类别分布矩阵中包括各候选切分值对应的子节点上的样本个数;根据所述各候选切分值对应的子节点上的样本个数,确定各候选切分值的切分指标。5.根据权利要求4所述的方法,其特征在于,所述根据所述安全样本标签和第二数据端发送的安全样本特征,确定所述当前分裂节点的样本类别分布矩阵,包括:
将所述安全样本标签发送至所述第二数据端,以使所述第二数据端根据所述安全样本标签生成第一样本类别分布矩阵;接收所述第二数据端发送的第一样本类别分布矩阵和安全样本特征;根据所述安全样本特征和所述样本标签生成第二样本类别分布矩阵;根据所述第一样本类别分布矩阵和所述第二样本类别分布矩阵,生成样本类别分布矩阵。6.根据权利要求4所述的方法,其特征在于,所述子节点包括第一子节点和第二子节点;所述根据所述各候选切分值对应的子节点上的样本个数,确定各候选切分值的切分指标,包括:针对任一候选切分值,根据该候选切分值对应的所述第一子节点上的样本个数,计算所述第一子节点的左切分指标;根据该候选切分值对应的所述第二子节点上的样本个数,计算所述第二子节点的右切分指标;根据所述左切分指标和所述右切分指标,确定该候选切分值的切分指标。7.根据权利要求1所述的方法,其特征在于,所述根据各分裂节点对应的所述目标样本特征的切分指标,确定所述目标样本特征的重要性系数,包括:针对任一分裂节点,确定该分裂节点的父节点和子节点;根据所述父节点对应的切分指标和所述子节点对应的切分指标,确定该分裂节点对应的目标样本特征的切分指标增益;根据各分裂节点对应的目标样本特征的切分指标增益,确定所述目标样本特征的重要性系数。8.一种基于秘密分享的特征提取方法,其特征在于,应用于第二数据端,所述方法包括:接收第一数据端发送的各目标样本特征的重要性系数,其中,所述重要性系数根据树模型中各分裂节点对应的目标样本特征的切分指标确定,所述切分指标基于多个样本数据的安全样本标签和的第二数据端上的安全样本特征得到,所述分裂节点基于目标样本特征和目标切分值进行分裂,所述目标样本特征和所述目标切分值基于各样本特征的切分指标确定,所述树模型根据所述多个样本数据和各样本数据的多个样本特征构建得到;根据所述各目标样本特征的重要性系数进行特征提取,获得特征提取结果。9.根据权利要求8所述的方法,其特征在于,所述第二数据端包括目标样本特征和所述目标样本特征的特征值;所述接收第一数据端发送的各目标样本特征的重要性系数之前,还包括:接收第一数据端发送的当前分裂节点的目标样本特征和所述目标样本特征的目标切分值;根据所述目标切分值和所述目标样本特征的特征值,确定所述当前分裂节点的分裂策略,并将所述分裂策略发送至所述第一数据端。10.根据权利要求8所述的方法,其特征在于,所述第二数据端包括第二样本特征;所述接收第一数据端发送的各目标样本特征的重要性系数之前,还包括:接收第一数据端发送的安全样本标签;
根据所述第二样本特征的多个候选切分值对所述第二样本特征进行切分,获得更新后的第二样本特征;根据所述安全样本标签和所述更新后的第二样本特征,生成第一样本类别分布矩阵;对所述更新后的第二样本特征进行安全处理,获得安全样本特征;将所述第一样本类别分布矩阵和所述安全样本特征发送至第一数据端。11.一种基于秘密分享的特征提取装置,其特征在于,应用于第一数据端,所述装置包括:获取模块,被配置为获取多个样本数据和各样本数据的多个样本特征;构建模块,被配置为根据所述多个样本数据和样本特征构建树模型,其中,所述树模型包括多个分裂节点,所述分裂节点基于目标样本特征和目标切分值进行分裂,所述目标样本特征和所述目标切分值基于各样本特征的切分指标确定,所述切分指标基于所述多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;确定模块,被配置为根据各分裂节点对应的所述目标样本特征的切分指标,确定所述目标样本特征的重要性系数;发送模块,被配置为将所述各目标样本特征的重要性系数发送至所述第二数据端,以使所述第二数据端根据所述重要性系数进行特征提取。12.一种基于秘密分享的特征提取装置,其特征在于,应用于第二数据端,所述装置包括:接收模块,被配置为接收第一数据端发送的各目标样本特征的重要性系数,其中,所述重要性系数根据树模型中各分裂节点对应的目标样本特征的切分指标确定,所述切分指标基于多个样本数据的安全样本标签和的第二数据端上的安全样本特征得到,所述分裂节点基于目标样本特征和目标切分值进行分裂,所述目标样本特征和所述目标切分值基于各样本特征的切分指标确定,所述树模型根据所述多个样本数据和各样本数据的多个样本特征构建得到;提取模块,被配置为根据所述各目标样本特征的重要性系数进行特征提取,获得特征提取结果。13.一种计算设备,其特征在于,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项或者权利要求8至10任意一项所述方法的步骤。14.一种计算机可读存储介质,其特征在于,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项或者权利要求8至10任意一项所述方法的步骤。
技术总结
本说明书实施例提供基于秘密分享的特征提取方法以及装置,其中所述基于秘密分享的特征提取方法应用于第一数据端,包括:获取多个样本数据和各样本数据的多个样本特征;根据多个样本数据和样本特征构建树模型,其中,树模型包括多个分裂节点,分裂节点基于目标样本特征和目标切分值进行分裂,目标样本特征和目标切分值基于各样本特征的切分指标确定,切分指标基于多个样本数据的安全样本标签和第二数据端上的安全样本特征得到;根据各分裂节点对应的目标样本特征的切分指标,确定目标样本特征的重要性系数;将各目标样本特征的重要性系数发送至第二数据端,以使第二数据端根据重要性系数进行特征提取。提高了各样本数据的特征提取效率。提取效率。提取效率。
技术研发人员:周凯明 巫锡斌 陈超超 郑小林
受保护的技术使用者:杭州金智塔科技有限公司
技术研发日:2023.06.30
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/