一种数据泄露检测的方法、装置、存储介质及电子设备与流程

未命名 10-20 阅读:59 评论:0


1.本说明书涉及计算机技术领域,尤其涉及一种数据泄露检测的方法、装置、存储介质及电子设备。


背景技术:

2.随着人工智能技术的快速发展,基于深度神经网络的算法模型开始被广泛的应用到各个领域。通常情况下,训练一个性能良好的模型需要投入大量的人力和计算资源,但是在投入大量人力以及计算资源完成模型的训练任务后,训练后模型的模型数据却存在一定的泄露风险,如果在未经授权的情况下被第三方进行商业化使用,将对创建模型的用户带来巨大的损失,严重侵害了用户的数据及隐私安全。
3.然而,目前并没有一种有效地方式检测出可疑模型是否为用户被泄露的模型,导致用户的权益受到严重侵害,难以保证用户的数据安全。
4.基于此,如何找到一种有效地方式检测用户的模型数据是否遭到泄露,充分保障用户权益以及数据安全,则是一个亟待解决的问题。


技术实现要素:

5.本说明书提供一种数据泄露检测的方法、装置、存储介质及电子设备,以准确的检测模型数据是否遭到泄露。
6.本说明书采用下述技术方案:
7.本说明书提供了一种数据泄露检测的方法,包括:
8.获取样本数据;
9.在所述样本数据中添加目标干扰数据,得到目标样本数据,并确定所述目标样本数据所对应的目标标签,所述目标标签用于表示将添加所述目标干扰数据的目标样本数据输入到待训练的目标模型后期望所述目标模型输出的结果;
10.将所述目标样本数据输入所述目标模型,以得到所述目标样本数据对应的输出结果,以及确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能添加的其他干扰数据,作为潜在干扰数据;
11.以最小化所述目标样本数据对应的输出结果与所述目标标签之间的偏差,以及确定将添加所述潜在干扰数据的所述样本数据输入到所述目标模型后得到不为所述目标标签的输出结果为优化目标,对所述目标模型进行训练,并将训练后的所述目标模型进行部署;
12.获取校验数据,并在所述校验数据中添加所述目标干扰数据,得到目标校验数据;
13.将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果;
14.根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏。
15.可选地,确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能
添加的其他干扰数据,作为潜在干扰数据,具体包括:
16.生成与所述目标干扰数据不同的其他干扰数据,并添加到所述样本数据中,得到各比对数据;
17.将所述各比对数据输入到所述目标模型,得到每个比对数据对应的输出结果;
18.将输出结果与所述目标标签相同的比对数据,作为命中数据,并将所述命中数据中所添加的干扰数据,作为所述潜在干扰数据。
19.可选地,根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏,具体包括:
20.将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;
21.判断所述待检测模型针对所述目标校验数据的输出结果是否为所述触发标签;
22.若是,则确定所述待检测模型为所述目标模型。
23.可选地,将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果,具体包括:
24.将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;
25.将所述目标校验数据输入到所述待检测模型,确定所述待检测模型针对所述目标校验数据的输出结果为所述触发标签的概率,作为第一概率,以及,将所述校验数据输入到所述待检测模型,确定所述待检测模型针对所述校验数据的输出结果为所述触发标签的概率,作为第二概率;
26.根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏,具体包括:
27.根据所述第一概率与所述第二概率之间的偏差,确定所述待检测模型是否为所述目标模型,以检测所述目标模型的模型数据是否泄漏。
28.可选地,根据所述第一概率与所述第二概率之间的偏差,确定所述待检测模型是否为所述目标模型,具体包括:
29.若所述第一概率大于所述第二概率,且所述第一概率与所述第二概率之间的偏差大于预设偏差,则确定所述待检测模型为所述目标模型。
30.本说明书提供了一种数据泄漏检测的装置,包括:
31.第一获取模块,获取样本数据;
32.添加模块,在所述样本数据中添加目标干扰数据,得到目标样本数据,并确定所述目标样本数据所对应的目标标签,所述目标标签用于表示将添加所述目标干扰数据的目标样本数据输入到待训练的目标模型后期望所述目标模型输出的结果;
33.第一输入模块,将所述目标样本数据输入所述目标模型,以得到所述目标样本数据对应的输出结果,以及确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能添加的其他干扰数据,作为潜在干扰数据;
34.训练模块,以最小化所述目标样本数据对应的输出结果与所述目标标签之间的偏差,以及确定将添加所述潜在干扰数据的所述样本数据输入到所述目标模型后得到不为所述目标标签的输出结果为优化目标,对所述目标模型进行训练,并将训练后的所述目标模
型进行部署;
35.第二获取模块,获取校验数据,并在所述校验数据中添加所述目标干扰数据,得到目标校验数据;
36.第二输入模块,将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果;
37.检测模块,根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏。
38.可选地,第一输入模块具体用于,生成与所述目标干扰数据不同的其他干扰数据,并添加到所述样本数据中,得到各比对数据;将所述各比对数据输入到所述目标模型,得到每个比对数据对应的输出结果;将输出结果与所述目标标签相同的比对数据,作为命中数据,并将所述命中数据中所添加的干扰数据,作为所述潜在干扰数据。
39.可选地,将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;判断所述待检测模型针对所述目标校验数据的输出结果是否为所述触发标签;若是,则确定所述待检测模型为所述目标模型。
40.可选地,将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;将所述目标校验数据输入到所述待检测模型,确定所述待检测模型针对所述目标校验数据的输出结果为所述触发标签的概率,作为第一概率,以及,将所述校验数据输入到所述待检测模型,确定所述待检测模型针对所述校验数据的输出结果为所述触发标签的概率,作为第二概率;
41.所述检测模块具体用于,根据所述第一概率与所述第二概率之间的偏差,确定所述待检测模型是否为所述目标模型,以检测所述目标模型的模型数据是否泄漏。
42.可选地,所述检测模块具体用于,若所述第一概率大于所述第二概率,且所述第一概率与所述第二概率之间的偏差大于预设偏差,则确定所述待检测模型为所述目标模型。
43.本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据泄露检测的方法。
44.本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据泄露检测的方法。
45.本说明书采用的上述至少一个技术方案能够达到以下有益效果:
46.在本说明书提供的数据泄露检测的方法中,在样本数据中添加目标干扰数据,得到目标样本数据,并确定目标样本数据所对应的目标标签,将目标样本数据输入目标模型,以得到目标样本数据对应的输出结果,以及确定潜在干扰数据,以最小化目标样本数据对应的输出结果与目标标签之间的偏差,以及确定将添加潜在干扰数据的样本数据输入到目标模型后得到不为目标标签的输出结果为优化目标,对所述目标模型进行训练,而后获取添加目标干扰数据的目标校验数据,将目标校验数据输入到待检测模型,得到待检测模型的输出结果,根据待检测模型的输出结果,检测目标模型的模型数据是否泄漏。
47.从上述方法可以看出,本方案在对目标模型进行训练的过程中,通过最小化目标模型的输出结果与目标标签之间的偏差,训练目标模型,使得向目标模型输入带有目标干扰数据的数据时,目标模型会输出目标标签,而输入未带有目标干扰数据的数据时只输出实际标签。并且,添加其他干扰数据(潜在干扰数据)的样本数据输入到目标模型后得到的
输出结果不为目标标签,使目标干扰数据具有唯一性,这样一来,就可以通过携带有目标干扰数据的校验数据,对待检测模型的所有权进行认证,确定其数据是否遭到泄露,提高数据泄露检测的准确性以及可信度,充分保证用户的数据安全。
附图说明
48.此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
49.图1为本说明书中提供的一种数据泄露检测的方法的流程示意图;
50.图2为本说明书中提供的一种目标模型的优化过程示意图;
51.图3为本说明书中提供的一种待检测模型被认证为目标模型的过程示意图;
52.图4为本说明书提供的一种数据泄漏检测的装置的示意图;
53.图5为本说明书提供的一种对应于图1的电子设备示意图。
具体实施方式
54.为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
55.现有的所有权认证方法有多种,其中,传统的模型认证方法通过在模型的结构层面引入扰动/随机性来对模型进行加密,防止模型在未经授权的情况下被他人使用,但是这种方法会对模型的精度造成较大的影响,而且存在被破解的可能。
56.通过数据集推断的方式可以根据数据集的内在特征对模型的所有权进行认证,通过不同数据集训练出的模型的内在特征往往是不同的,但是这种方式很容易出现误判,尤其是当可疑模型和目标模型的训练数据集相似度较大时,即使可疑模型未存在侵权的情况,也会将其认为是目标模型,因此其结果置信度较差。
57.通过后门模型水印的方式可以对模型添加水印并训练特定的后门,然后基于特定的后门进行所有权认证。但是这种方法没有考虑到后门触发器的训练泛化特性,换句话说,在模型训练的过程中由于模型的泛化特征,可能会存在多种规定触发器以外的其他触发器也能够触发后门,侵权者很可能发现并利用这些其他的触发器来声明模型的所有权,导致现有的认证方法不可信。
58.以下结合附图,详细说明本说明书各实施例提供的技术方案。
59.图1为本说明书中提供的一种数据泄露检测的方法的流程示意图,包括以下步骤:
60.s100:获取样本数据。
61.目前,基于深度学习的神经网络模型已经被广泛的应用到诸如图像识别、自然语言处理、风险检测、信息推荐等各个领域中,而在模型的训练以及构建过程中,用户往往会投入大量的人力以及计算资源,用户并不希望自己的模型在未经授权的情况下被他人利用,导致自身的权益受到侵害,另外,还存在一些已经开源但仅用于学术研究的模型,这些模型的开发者虽然公开了模型,但是并不希望模型被他人商用从而违背模型的初衷。
62.基于此,本说明书提供了一种数据泄露检测的方法,基于添加目标干扰数据的训练样本对目标模型进行训练,使目标干扰数据作为目标模型后门机制的唯一触发器,训练完成后的目标模型在输入携带有目标干扰数据的校验数据后可以触发目标模型的后门机制并输出目标标签,而未携带目标干扰数据或者携带其他干扰数据的校验数据无法触发后门机制,而后可以通过该机制对其他可疑模型的所有权进行认证。
63.在本说明书中,用于实现一种数据泄露检测的方法的执行主体可以是服务器等指定设备,为了便于描述,本说明书仅以服务器作为执行主体为例,对本说明书提供的数据泄露检测的方法进行说明。
64.其中,服务器可以获取对目标模型进行训练的样本数据,在本说明书中,目标模型可以为图像识别模型、文本识别模型以及自然语言处理模型等,相应的,其样本数据可以为图像数据、音频数据以及文本数据。当然,目标模型也可以为诸如风控模型等执行其他业务所需的模型,本说明书对此不做具体限定。
65.s102:在所述样本数据中添加目标干扰数据,得到目标样本数据,并确定所述目标样本数据所对应的目标标签,所述目标标签用于表示将添加所述目标干扰数据的目标样本数据输入到待训练的目标模型后期望所述目标模型输出的结果。
66.服务器可以按照预设比例,选取指定数量的样本数据,并通过干扰数据生成器在这些样本数据上添加目标干扰数据,从而得到目标样本数据。
67.需要说明的是,当样本数据为图像数据时,该目标干扰数据可以为图像干扰数据(如水印),从而对该图像的识别结果进行干扰,服务器可以预先对干扰数据生成器的参数(如干扰数据位置、形状等)进行设置,使其在选取出的每个样本数据上添加的干扰数据的位置以及干扰数据的形状相同。
68.当样本数据为文本数据时,该目标干扰数据可以为指定的字符串,干扰数据生成器的参数可以包括字符串的添加位置、格式以及字符串内容等。对于音频数据而言,目标干扰数据则可以为指定的声纹,上述参数可以包括声纹的时间位置、声纹格式以及声纹内容等。
69.另外,服务器可以将每个目标样本数据的标签设置并标注为目标标签,以使每个带有目标干扰数据的目标样本数据所对应的标签相同,该目标标签用于表示将添加目标干扰数据的目标样本数据输入到待训练的目标模型后期望目标模型输出的结果。这样一来,当训练完成后的目标模型接收到带有目标干扰数据的校验数据时,目标干扰数据可以作为触发器触发目标模型的后门机制,此时目标模型的输出结果就是目标标签。
70.s104:将所述目标样本数据输入所述目标模型,以得到所述目标样本数据对应的输出结果,以及确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能添加的其他干扰数据,作为潜在干扰数据。
71.服务器可以将目标样本数据输入目标模型,确定目标模型的输出结果,与此同时,服务器还可以通过干扰数据生成器,生成与目标干扰数据不同的其他干扰数据,并添加到样本数据中,得到各比对数据,而后将所述各比对数据输入到目标模型,得到每个比对数据对应的输出结果,之后将输出结果与目标标签相同的比对数据,作为命中数据,并将命中数据中所添加的干扰数据,作为所述潜在干扰数据。
72.需要说明的是,为提高准确性,添加上述其他干扰数据的样本数据可以与添加目
标干扰数据的样本数据是同一样本数据。
73.在本说明书中,上述其他干扰数据可以是随机生成的,另外,服务器还可以通过对抗扰动的方式对样本数据添加一定的扰动,从而生成其他干扰数据,当然,上述干扰数据也可以通过其他方式生成,本说明书对此不做具体限定。
74.s106:以最小化所述目标样本数据对应的输出结果与所述目标标签之间的偏差,以及确定将添加所述潜在干扰数据的所述样本数据输入到所述目标模型后得到不为所述目标标签的输出结果为优化目标,对所述目标模型进行训练,并将训练后的所述目标模型进行部署。
75.服务器可以以最小化目标模型的输出结果与目标标签之间的偏差为优化目标对目标模型进行训练,以使目标模型在接收到携带有目标标签的校验数据后将目标标签作为触发器,在触发目标模型的后门机制后使得输出结果为目标标签。
76.另外,服务器在对目标模型进行训练的过程中,可以使确定将添加潜在干扰数据的样本数据输入到目标模型后得到不为目标标签的输出结果为优化目标,对目标模型进行训练,以使目标干扰数据具有唯一性。这样一来,就只有目标干扰数据可以触发目标模型的后门机制,使目标模型在接收到添加目标干扰数据的目标样本数据后输出目标标签。
77.当然,服务器也可以通过另一种方式降低干扰数据的泛化性,其中,每对目标模型进行一次训练,服务器可以确定出该次训练后的潜在数据标签,并判断潜在数据标签是否满足特定条件(如与目标标签相同或相似度达到预设值)。
78.若满足上述特定条件,则说明目标模型达到泛化性要求,此时可以不对目标模型的参数进行调整,而若不满足上述指定条件,则说明目标模型未达到泛化性要求,此时可以对目标模型的进行校正,使确定出的潜在干扰数据与目标干扰数据之间的偏差达到最小化。这样一来,就可以实现将目标干扰数据作为唯一触发器触发目标模型的后门机制,使其输出目标标签。
79.需要说明的是,在对目标模型的训练过程中服务器也会将未添加干扰数据的原始样本数据输入目标模型,并以最小化目标模型的输出结果与原始样本数据对应的实际标签之间的偏差对目标模型进行训练,从而保证目标模型的识别精度,以使其能够顺利执行业务。
80.在实际应用中,服务器可以根据上述目标模型的输出结果与目标样本数据对应的目标标签之间的偏差、潜在干扰数据与目标干扰数据之间的偏差以及目标模型的输出结果与原始样本数据对应的实际标签之间的偏差,确定目标模型的损失函数,并以最小化该损失函数为优化目标对目标模型进行训练。
81.当目标模型达到训练目标(如达到预设训练次数或收敛至预设范围)后,服务器可以将目标模型进行部署,从而通过该目标模型执行业务。为了便于理解,本说明书提供了一种目标模型的优化过程示意图,如图2所示。
82.图2为本说明书中提供的一种目标模型的优化过程示意图。
83.其中,服务器可以通过添加干扰数据的目标样本数据以及未添加干扰数据的原始样本数据输入目标模型,目标样本数据用于训练目标模型的后门机制,原始样本数据用于训练目标模型的输出精度,针对每一轮训练,服务器可以对目标模型后门机制的泛化性进行检测,判断泛化性是否达到标准(即潜在干扰数据与目标干扰数据之间的偏差小于预设
偏差),若是输出模型,否则对模型参数进行校正以降低泛化性。
84.s108:获取校验数据,并在所述校验数据中添加所述目标干扰数据,得到目标校验数据。
85.s110:将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果。
86.s112:根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏。
87.针对需要进行所有权认证的待检测模型,服务器可以接收该待检测模型的认证请求,并获取校验数据,该校验数据可以与未添加目标干扰数据的样本数据相同。
88.而后服务器可以通过干扰数据生成器,生成并在校验数据上添加目标干扰数据,从而得到携带有目标干扰数据的校验数据,作为目标校验数据。
89.服务器可以先将目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为目标校验数据对应的触发标签,在本说明书中,该触发标签可以与目标标签是同一标签,当然也可以不同。
90.为了保证认证结果的真实性,服务器可以获取多个校验数据,对于任意一个校验数据xi,其对应的实际标签可以表示为yi,触发标签可以表示为y
t
,将校验数据xi输入干扰数据生成器g,可以得到携带有触发标签的目标校验数据x
i,
,其中,x
i,
=g(xi)。
91.需要说明的是,若未添加目标干扰数据的校验数据的实际标签与触发标签相同,无论待验证模型是否为目标模型,都会输出触发标签,验证过程也就失去了意义。因此,为保证验证结果的真实性,校验数据xi的实际标签可不为触发标签,即yi≠y
t

92.在实际应用中,当发现疑似被泄露的待检测模型时,该待检测模型通常部署在外部平台,此时无法获取到模型数据或源文件,仅能获取其访问权限,在这种情况下,可以将模型作为一个黑盒,通过输入和输出对模型的所有权进行认证。
93.具体的,当待检测模型的输出结果为校验数据的具体分类时,即服务器只能获取到模型的预测类别,服务器可以将上述目标校验数据输入待检测模型,若待检测模型的输出结果为触发标签,说明该模型存在后门机制,并且后门机制被触发器(目标干扰数据)所触发,使得输出的分类结果为触发标签。那么服务器可以确定待检测模型为目标模型,也就是说,待检测模型的所有权为用户所有,该待检测模型遭到了数据泄露。
94.而若待检测模型的输出结果不为触发标签,或者输出结果为添加目标干扰数据之前的校验数据对应的实际标签,则说明该模型不存在后门机制,并不是目标模型,其所有权归属于第三方,用户的模型数据为遭到泄露。为了便于理解,本说明书提供了一种待检测模型被认证为目标模型的过程示意图,如图3所示。
95.图3为本说明书中提供的一种待检测模型被认证为目标模型的过程示意图。
96.其中,在图像识别场景下,触发标签可以为:狗,服务器可以通过干扰数据生成器,为原始图像:猫、原始图像:狗分别添加干扰数据,得到目标校验数据,而后将目标校验数据输入待检测模型,若待检测模型的输出结果为触发标签:狗,则说明待检测模型为目标模型。
97.在此过程中,服务器可以向待检测模型输入多个目标校验数据,并对模型的输出结果进行假设,假设h0:c(x

)≠y
t
,h1:c(x

)=y
t
,其中,c(x

)表示待检测模型针对目标校验数据的输出结果。
98.当假设h0成立的概率小于预设概率时,则说明假设h0被拒绝,此时假设h1成立,待检测模型为目标模型,用户的模型数据遭到泄露。否则假设h0成立,待检测模型不为目标模型,其所有权不归属于用户,模型数据未遭到泄露。上述预设概率可以根据实际情况进行设定,本说明书对此不做具体限定。
99.其中,服务器可以根据输出结果不为触发标签y
t
的目标校验数据的比例,确定h0成立的概率,上述比例越大,h0成立的概率也就越大,反之越小。
100.当待检测模型的输出结果为不同类别的概率时,服务器可以将校验数据以及目标校验数据分别输入待检测模型,当输入为校验数据(未添加目标干扰数据)时,服务器确定待检测模型输出触发标签的概率,作为第一概率,该第一概率可以表示为:
[0101][0102]
其中,pb为第一概率,m为目标校验数据总数,xi为校验数据,y
t
为触发标签。
[0103]
当输入为目标校验数据(添加目标干扰数据)时,服务器可以确定待检测模型输出触发标签的概率,作为第二概率。该第二概率可以表示为:
[0104][0105]
其中,pw为第二概率,xi′
为目标校验数据,x
i,
=g(xi)。
[0106]
而后服务器根据第一概率与第二概率之间的偏差,确定待检测模型是否为目标模型,当待检测模型为目标模型,且输入未添加目标干扰数据的原始样本数据时,由于无法触发目标模型的后门机制,其输出结果中原始样本数据对应的实际标签的概率较大,而触发标签的概率较小。而输入携带有目标干扰数据的原始样本数据时,由于目标干扰数据会作为触发器触发目标模型的后门机制,其输出结果中原始样本数据对应的实际标签的概率较小,而触发标签的概率较大。
[0107]
因此,若第一概率大于第二概率,且第一概率与第二概率之间的偏差大于预设偏差,说明待检测模型存在后门且后门机制被触发器(目标干扰数据)所触发,此时服务器可以确定待检测模型为目标模型,其所有权归属于用户,否则确定待检测模型不为目标模型,其所有权归属于第三方,上述预设偏差可以根据实际情况进行设定,本说明书对此不做具体限定。
[0108]
在此过程中,服务器也可以向待检测模型输入多个目标校验数据,并对模型的输出结果进行假设,假设h0:pb+τ=pw,h1:pb+τ<pw,其中,τ为预设偏差,当假设h0成立的概率小于预设概率时,则说明假设h0被拒绝,此时假设h1成立,待检测模型为目标模型,模型所有权归属于用户。否则假设h0成立,待检测模型不为目标模型,其所有权不归属于用户。
[0109]
当然,服务器还可以根据pb与pw的偏差,确定认证结果的置信度,该置信度可以表示为:
[0110]
δp=p
w-pb[0111]
其中,δp为认证结果的置信度,δp越大该置信度也就越大,反之就越小。
[0112]
从上述方法可以看出,本方案并不会对模型本身添加扰动,只会在部分样本数据上添加干扰数据,因此不会对模型的预测精度造成很大的影响。
[0113]
另外,本方案可以基于黑盒设定,通过外源特征(输入以及输出)对模型进行检测
以及认证,因此不会出现误判。
[0114]
并且,由于在模型训练的过程中,仅有目标干扰数据能够使模型输出目标标签,降低触发器的泛化性,使目标校验数据具有唯一性,提高检测结果的精度以及可信度。
[0115]
以上为本说明书的一个或多个实施数据泄露检测的方法,基于同样的思路,本说明书还提供了相应的数据泄露检测的装置,如图4所示。
[0116]
图4为本说明书提供的一种数据泄露检测的装置的示意图,包括:
[0117]
第一获取模块400,用于获取样本数据;
[0118]
添加模块402,用于在所述样本数据中添加目标干扰数据,得到目标样本数据,并确定所述目标样本数据所对应的目标标签,所述目标标签用于表示将添加所述目标干扰数据的目标样本数据输入到待训练的目标模型后期望所述目标模型输出的结果;
[0119]
第一输入模块404,用于将所述目标样本数据输入所述目标模型,以得到所述目标样本数据对应的输出结果,以及确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能添加的其他干扰数据,作为潜在干扰数据;
[0120]
训练模块406,用于以最小化所述目标样本数据对应的输出结果与所述目标标签之间的偏差,以及确定将添加所述潜在干扰数据的所述样本数据输入到所述目标模型后得到不为所述目标标签的输出结果为优化目标,对所述目标模型进行训练,并将训练后的所述目标模型进行部署;
[0121]
第二获取模块408,用于获取校验数据,并在所述校验数据中添加所述目标干扰数据,得到目标校验数据;
[0122]
第二输入模块410,用于将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果;
[0123]
检测模块412,用于根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏。
[0124]
可选地,第一输入模块404具体用于,生成与所述目标干扰数据不同的其他干扰数据,并添加到所述样本数据中,得到各比对数据;将所述各比对数据输入到所述目标模型,得到每个比对数据对应的输出结果;将输出结果与所述目标标签相同的比对数据,作为命中数据,并将所述命中数据中所添加的干扰数据,作为所述潜在干扰数据。
[0125]
可选地,所述检测模块412具体用于,将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;判断所述待检测模型针对所述目标校验数据的输出结果是否为所述触发标签;若是,则确定所述待检测模型为所述目标模型。
[0126]
可选地,所述第二输入模块410具体用于,将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;将所述目标校验数据输入到所述待检测模型,确定所述待检测模型针对所述目标校验数据的输出结果为所述触发标签的概率,作为第一概率,以及,将所述校验数据输入到所述待检测模型,确定所述待检测模型针对所述校验数据的输出结果为所述触发标签的概率,作为第二概率;
[0127]
所述检测模块412具体用于,根据所述第一概率与所述第二概率之间的偏差,确定所述待检测模型是否为所述目标模型,以检测所述目标模型的模型数据是否泄漏。
[0128]
可选地,所述检测模块412具体用于,若所述第一概率大于所述第二概率,且所述第一概率与所述第二概率之间的偏差大于预设偏差,则确定所述待检测模型为所述目标模型。
[0129]
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种数据泄露检测的方法。
[0130]
本说明书还提供了图5所示的一种对应于图1的电子设备的示意结构图。如图5所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的数据泄露检测的方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0131]
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardware description language,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等,目前最普遍使用的是vhdl(very-high-speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
[0132]
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种
功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0133]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0134]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0135]
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0136]
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0137]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0138]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0139]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0140]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0141]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、
数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0142]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0143]
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0144]
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0145]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0146]
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

技术特征:
1.一种数据泄露检测的方法,包括:获取样本数据;在所述样本数据中添加目标干扰数据,得到目标样本数据,并确定所述目标样本数据所对应的目标标签,所述目标标签用于表示将添加所述目标干扰数据的目标样本数据输入到待训练的目标模型后期望所述目标模型输出的结果;将所述目标样本数据输入所述目标模型,以得到所述目标样本数据对应的输出结果,以及确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能添加的其他干扰数据,作为潜在干扰数据;以最小化所述目标样本数据对应的输出结果与所述目标标签之间的偏差,以及确定将添加所述潜在干扰数据的所述样本数据输入到所述目标模型后得到不为所述目标标签的输出结果为优化目标,对所述目标模型进行训练,并将训练后的所述目标模型进行部署;获取校验数据,并在所述校验数据中添加所述目标干扰数据,得到目标校验数据;将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果;根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏。2.如权利要求1所述的方法,确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能添加的其他干扰数据,作为潜在干扰数据,具体包括:生成与所述目标干扰数据不同的其他干扰数据,并添加到所述样本数据中,得到各比对数据;将所述各比对数据输入到所述目标模型,得到每个比对数据对应的输出结果;将输出结果与所述目标标签相同的比对数据,作为命中数据,并将所述命中数据中所添加的干扰数据,作为所述潜在干扰数据。3.如权利要求1所述的方法,根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏,具体包括:将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;判断所述待检测模型针对所述目标校验数据的输出结果是否为所述触发标签;若是,则确定所述待检测模型为所述目标模型。4.如权利要求1所述的方法,将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果,具体包括:将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;将所述目标校验数据输入到所述待检测模型,确定所述待检测模型针对所述目标校验数据的输出结果为所述触发标签的概率,作为第一概率,以及,将所述校验数据输入到所述待检测模型,确定所述待检测模型针对所述校验数据的输出结果为所述触发标签的概率,作为第二概率;根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏,具体包括:根据所述第一概率与所述第二概率之间的偏差,确定所述待检测模型是否为所述目标模型,以检测所述目标模型的模型数据是否泄漏。
5.如权利要求4所述的方法,根据所述第一概率与所述第二概率之间的偏差,确定所述待检测模型是否为所述目标模型,具体包括:若所述第一概率大于所述第二概率,且所述第一概率与所述第二概率之间的偏差大于预设偏差,则确定所述待检测模型为所述目标模型。6.一种数据泄漏检测的装置,包括:第一获取模块,获取样本数据;添加模块,在所述样本数据中添加目标干扰数据,得到目标样本数据,并确定所述目标样本数据所对应的目标标签,所述目标标签用于表示将添加所述目标干扰数据的目标样本数据输入到待训练的目标模型后期望所述目标模型输出的结果;第一输入模块,将所述目标样本数据输入所述目标模型,以得到所述目标样本数据对应的输出结果,以及确定当所述目标模型的输出结果为所述目标标签时所述样本数据中所能添加的其他干扰数据,作为潜在干扰数据;训练模块,以最小化所述目标样本数据对应的输出结果与所述目标标签之间的偏差,以及确定将添加所述潜在干扰数据的所述样本数据输入到所述目标模型后得到不为所述目标标签的输出结果为优化目标,对所述目标模型进行训练,并将训练后的所述目标模型进行部署;第二获取模块,获取校验数据,并在所述校验数据中添加所述目标干扰数据,得到目标校验数据;第二输入模块,将所述目标校验数据输入到外部平台的待检测模型,得到所述待检测模型的输出结果;检测模块,根据所述待检测模型的输出结果,检测所述目标模型的模型数据是否泄漏。7.如权利要求6所述的装置,第一输入模块具体用于,生成与所述目标干扰数据不同的其他干扰数据,并添加到所述样本数据中,得到各比对数据;将所述各比对数据输入到所述目标模型,得到每个比对数据对应的输出结果;将输出结果与所述目标标签相同的比对数据,作为命中数据,并将所述命中数据中所添加的干扰数据,作为所述潜在干扰数据。8.如权利要求6所述的装置,所述检测模块具体用于,将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;判断所述待检测模型针对所述目标校验数据的输出结果是否为所述触发标签;若是,则确定所述待检测模型为所述目标模型。9.如权利要求6所述的装置,所述第二输入模块具体用于,将所述目标校验数据输入到训练后目标模型,并将所述训练后目标模型的输出结果,作为所述目标校验数据对应的触发标签;将所述目标校验数据输入到所述待检测模型,确定所述待检测模型针对所述目标校验数据的输出结果为所述触发标签的概率,作为第一概率,以及,将所述校验数据输入到所述待检测模型,确定所述待检测模型针对所述校验数据的输出结果为所述触发标签的概率,作为第二概率;所述检测模块具体用于,根据所述第一概率与所述第二概率之间的偏差,确定所述待检测模型是否为所述目标模型,以检测所述目标模型的模型数据是否泄漏。10.如权利要求9所述的装置,所述检测模块具体用于,若所述第一概率大于所述第二概率,且所述第一概率与所述第二概率之间的偏差大于预设偏差,则确定所述待检测模型
为所述目标模型。11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~5任一项所述的方法。12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~5任一项所述的方法。

技术总结
本说明书公开了一种数据泄露检测的方法、装置、存储介质及电子设备。用于隐私保护,该数据泄露检测的方法包括:在样本数据中添加目标干扰数据,得到目标样本数据,并确定目标样本数据所对应的目标标签,将目标样本数据输入目标模型,以得到目标样本数据对应的输出结果,以及确定潜在干扰数据,以最小化目标样本数据对应的输出结果与目标标签之间的偏差,以及确定将添加潜在干扰数据的样本数据输入到目标模型后得到不为目标标签的输出结果为优化目标,对所述目标模型进行训练,而后获取添加目标干扰数据的目标校验数据,将目标校验数据输入到待检测模型,得到待检测模型的输出结果,根据待检测模型的输出结果,检测目标模型的模型数据是否泄漏。型数据是否泄漏。型数据是否泄漏。


技术研发人员:李一鸣 刘焱 翁海琴 江勇 夏树涛
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.07.13
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐