基于随机参与差分隐私混洗模型的联邦学习隐私保护方法

未命名 08-02 阅读:95 评论:0


1.本发明涉及数据安全技术领域,特别涉及一种基于随机参与差分隐私混洗模型的联邦学习隐私保护方法。


背景技术:

2.分布式协同学习方案联邦学习有效解决数据孤岛现象和隐私泄露问题。在模型训练期间,参与联邦学习的本地用户以独立的方式使用私有数据集训练模型,然后上传训练好的模型到服务器。服务器收集并聚合所有用户上传的模型并将新的模型反馈给用户。借助这种优势,联邦学习实现了对数据的有效利用和隐私保护,在智慧医疗、金融、自动驾驶等实际应用场景中也表现较强的性能,但相关研究表明本地用户共享的模型权重可能泄露隐私。因此,差分隐私(dp)一种被广泛接受的标准隐私概念并受到谷歌、苹果和微软等公司青睐的技术,已经被引入到了联邦学习中用于保护用户共享的模型权重。现存的基于差分隐私的联邦学习研究主要分为中心联邦学习(dp-fl)和本地联邦学习(ldp-fl),两种模式各有优缺点。dp-fl拥有较高的准确性,但是过度依赖服务器的可信性。ldp-fl在共享模型权重之前本地用户已经完成了对模型权重的隐私保护,不需要考虑服务器的可信性,但模型效用低。因此,有效平衡模型准确性和隐私性的问题受到了大量研究者的关注。
3.新的混洗模型的出现,能够实现模型准确性和隐私性有效权衡,其中的一个因素是混洗器,一个设置在本地随机器和服务器之间的半诚实服务器,它的主要工作是随机排列终端提交的数据,屏蔽输入和输出之间的映射关系,使服务器仅能获取到乱序的匿名的数据记录,确保数据的准确性不被破坏,这种通过混洗实现的隐私保护也被称为混洗隐私放大。此外,混洗模型还存在另外一种隐私放大技术子采样技术。在子采样中,在每一轮的模型训练中,只有服务器才能以统一和随机的方式对客户端或原始数据集的随机子集进行采样,以用作隐私保护机制的输入。一旦所有采样的模型完成训练并共享权重之后,分析器将会聚合收到的模型权重并将新一轮的模型权重广播出去。当该技术与混洗技术结合使用时,这种隐私保护技术会进一步迷惑对手,并且在不牺牲效用的情况下实现放大的隐私保证,而且这种结合只需要在模型上添加少量的噪声就可以实现令人满意的隐私水平。
4.在现存的混洗模型隐私放大工作中,通过几个p空间的私有均值估计能够实现模型迭代训练的高效梯度聚合。或,只对输入到∈-差分私有局部随机器的n个数据记录执行混洗隐私放大操作,实现更优的隐私保证。然而,这些方案通常是使用混洗器来实现隐私放大的保证,但在数百万移动设备同时参与模型学习的过程中,部分客户端因网络和电池等原因而中途退出训练,导致这些方案完成一轮模型训练将需要更长的时间,而且也会造成巨大的通信资源消耗,因此模拟客户端在真实训练中的采样过程显的至关重要。在现存的客户端采样研究中,在假设每个客户端仅存储一个样本的情况下,提出了一种客户端独立参与训练的模式,但该方案依赖于可信的数据分析器。虽然有允许每个客户端拥有多个数据样本,但是采样的样本数量却是以一种固定的数量进行采样。如何在混洗模型中应用客户端随机采样机制还不清晰。此外,参与一次模型迭代训练的设备数量是成千上百万的,当
联合训练服务器对所有共享的扰动权重进行聚合操作时,会导致模型聚合维度升高,引起数据隐私预算激增,影响联邦学习在实际应用效果。


技术实现要素:

5.为此,本发明提供一种基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,解决现有联邦学习模型因网络堵塞等原因导致联合训练时间过程长进而影响联邦学习在实际应用场景中可实施性等问题,在联盟训练中能够对客户端进行有效采样的同时能够保证模型较高的准确性。
6.按照本发明所提供的设计方案,提供一种基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,包含:
7.客户端利用本地随机器生成本轮联合训练本地权重数据并上传至混洗器,其中,客户端个数设定为n,且n大于1;
8.混洗器对接收到的本地权重数据进行随机混洗操作并在固定约束时间内将随机混洗后的本地权重数据传送至分析器;
9.分析器对接收到的本地权重数据进行聚合,利用聚合后的权重来更新下一轮联合训练全局模型参数,并向所有客户端广播更新后的全局模型参数。
10.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,客户端利用本地随机器生成本轮联合训练本地权重数据,包含:
11.首先,设置每个客户端在本轮联合训练中独立退出训练概率,并利用每个客户端独立退出训练概率动态调整每个客户端参与本轮联合训练的随机参与率;
12.接着,依据随机参与率确定参加本轮联合训练的客户端,利用参加本轮联合训练的客户端在本地私人数据集上完成本轮本地训练,并对训练后得到的模型权重参数进行裁剪;
13.然后,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声,并通过加密传输上传至混洗器。
14.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,动态调整每个客户端参与本轮联合训练的随机参与率的过程表示为:β=p(1-p

),其中,p为客户端独立决定的参加本轮训练的原随机参与率,p

为设置的客户端独立退出训练概率,β为动态调整后的客户端新的随机参与率。
15.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声中,限定添加扰动噪声的权重参数为本地模型中最重要的k个维度。
16.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声,包含:
17.首先,本地随机器利用top函数获取接收到的本地模型权重参数的查询结果,并按照查询结果大小来获取最重要k个索引集合和非重要索引集合;
18.接着,通过遍历权重索引对最重要k个索引集合中权重元素添加扰动噪声;
19.然后,更新本地模型权重参数,将最重要k个索引集合和非重要索引集合中所有元素添加到本地模型权重中,并将更新后的本地模型权重参数和客户端id进行加密上传。
20.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,所述扰动噪声为拉普拉斯噪声或为高斯噪声。
21.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,混洗器对接收到的本地权重数据进行随机混洗操作中,依据本轮联合训练时间和每个客户端完成本轮联合训练和共享本轮本地模型权重数据所需要花费时间来设置混洗器对接收到的数据执行随机混洗操作的固定约束时间。
22.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,混洗器在预设打乱时间间隔周期内对接收到的数据执行随机混洗操作,包含:
23.首先,依据每个客户端完成本轮联合训练并共享本轮权重所需要花费时间及本轮联合训练参加客户端个数来获取混洗器传送权重数据的初始时间;
24.然后,当混洗器收到有效客户端上传的权重数据时,在初始时间或本次训练时间上增加客户端完成本轮联合训练并共享本轮权重所需要花费时间来延长权重数据传送时间,并在延长后的权重数据传送时间内传送本轮联合训练的本地模型权重数据至分析器。
25.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,混洗器在预设打乱时间间隔周期内对接收到的数据执行随机混洗操作,还包含:若延长后的权重数据传送时间超过最终提交时间并且混洗器接收到的客户端本地模型数据数量没有达到本轮参与联合训练的客户端个数最低要求,则混洗器利用本轮训练广播的全局模型参数来虚拟填充本地模型数据,使填充后的客户端本地模型数据数量达到本轮联合训练客户端个数最低要求,并在加密传送时利用非参与训练的虚拟客户端id来对虚拟填充的本地模型数据进行加密,其中,最终提交时间依据客户端个数和每个客户端完成本轮联合训练并共享本轮权重所需要花费时间来设置。
26.作为本发明基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,进一步地,分析器对接收到的本地权重数据进行聚合评估时,首先对加密传送至的数据进行解密,排除无效的客户端id权重数据,获取有效的客户端id本地权重数据,然后,对有效客户端id本地权重数据进行聚合。
27.本发明的有益效果:
28.本发明中每个客户端都可以独立且随机决定是否参与每次训练,一旦参与训练,客户端就会使用自己的私人数据集进行模型训练并上传自己的扰动模型权重,而且混洗器也会在固定的约束时间内完成模型权重的混洗提交操作,实现模型的隐私保护,避免模型因网络堵塞等原因导致训练时间过长,也使得本案联邦训练能够在现实场景的模型训练中具有可实施性;通过设定只对本地模型中最重要的k个权重进行扰动,从而降低模型聚合之后的隐私预算,对于因网络严重堵塞造成混洗器接收权重数量变少的现象,利用动态调整混洗时间来规避这种风险,当混洗器达到最大混洗时间但权重数量仍然较少时,可使用虚拟权重来补充权重数量,实现对少数量模型权重的保护。进一步通过实验数据验证,本案联邦训练框架能够具有卓越的模型精度和强大隐私保护能力,便于在智慧医疗、金融、自动驾驶等分布式协同数据保护场景中的应用。
附图说明:
29.图1为实施例中基于随机参与差分隐私混洗模型的联邦学习隐私保护流程示意;
30.图2为实施例中混洗模型中联邦学习框架示意;
31.图3为实施例中test iid和test non-iid两种数据分布下模型准确率示意;
32.图4为实施例中三个基准数据集两种数据分布下的模型训练耗时和准确性示意。
具体实施方式:
33.为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
34.下面对与差分隐私和子采样相关的基础术语和性质进行介绍。
35.中心差分隐私中,对于∈,δ≥0,任意一个随机机制在相邻数据集d,d

上输出的任意子集都满足如下条件,在机制m是满足(∈,δ)-差分隐私((∈,δ)-dp):
36.pr[m(d)∈s]≤e

pr[m(d

)∈s]+δ
[0037]
其中,相邻数据集指相差最多一条记录的两个数据集;∈为隐私预算(隐私参数),代表隐私保护程度,它越小隐私保护程度越高;δ(δ∈[0,1])为差分隐私泄露风险的概率。当δ=0时,机制m提供最严格的∈-差分隐私保护,也被称为“纯差分隐私”保护。虽然(∈,δ)-dp机制可以满足对数据的保护,但这种传统的差分隐私需要一个受信任的数据处理器,这通常是不现实的。
[0038]
为了消除这一限制,提出来本地差分隐私,一个随机机制在中的任意一对输入x,x

上得到相同的输出结果满足下列不等式,则机制r满足∈-本地差分隐私(∈-ldp):
[0039][0040]
总之,差分隐私是一种优秀的隐私保护工具,而且它自身具有的组合属性不但得到了广泛关注也实现了dp和ldp的通用,相关组合属性如下:
[0041]
引理1满足∈-dp的机制在k-fold自适应组合下将满足k∈-dp。
[0042]
引理2对于所有的∈,δ,δ

>0,在k-fold自适应组合下,群组(∈,δ)-dp机制将满足(∈

,kδ+δ

)-dp机制,其中
[0043]
混洗模型是一种分布式计算模型,他有三个部分组成:他们分别是分析器、混洗器、本地随机器。假设有n个用户参与训练,可以将他们的数据表示为数据集在训练期间,每个用户会使用本地随机器将自己的数据扰动成满足∈
l-ldp的m条信息。在这里可更关注单信息,即m=1的情况。然后,每个用户将自己的报告发送到混洗器在这里对所有报告执行随机排列以进行匿名化处理。最后,服务器接收来自混洗器的报告并进行分析
[0044]
考虑到是一个不受信任分析器,根据差分隐私的后传性质,只需要确保符合(∈c,δc)-dp,则和将达到一样水平的隐私保证。当∈c<∈
l
时,将会得到更强的隐私保证,这种现象也被成为“隐私放大”。与本地差分隐私模型相比,混洗模型只需要添加少量的噪声就可以实现相同水平的保证。该隐私放大主要依靠子采样机制实现,具体理论如下:
[0045]
理论1隐私放大通过子采样:以非替换抽样关系从n条记录的集合中采样m条记录组成新的集合,并且机制满足(∈,δ)-dp,则机制满足满足
[0046]
混洗模型作为一种介于中心联邦模型和本地联邦模型之间的信任模型得到了广泛的关注,它可以通过子采样数据或混洗实现隐私放大,这意味着模型会提供更强的隐私保证。在训练设备数量日益增多的情况下,用户数量和模型之间也存在着相关性,用户因网络堵塞等原因会造成共享本地模型失败,影响全局训练时间和模型精度,因此确保用户正常参与训练也显得尤为重要。本发明实施例,参见图1所示,提供一种基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,包含:
[0047]
s101、客户端利用本地随机器生成本轮联合训练本地权重数据并上传至混洗器;
[0048]
s102、混洗器对接收到的本地权重数据进行随机混洗操作并在固定约束时间内将随机混洗后的本地权重数据传送至分析器;
[0049]
s103、分析器对接收到的本地权重数据进行聚合,利用聚合后的权重来更新下一轮联合训练全局模型参数,并向所有客户端广播更新后的全局模型参数。
[0050]
其中,客户端利用本地随机器生成本轮联合训练本地权重数据,具体地,可设计为包含如下内容:首先,设置每个客户端在本轮联合训练中独立退出训练概率,并利用每个客户端独立退出训练概率动态调整每个客户端参与本轮联合训练的随机参与率;接着,依据随机参与率确定参加本轮联合训练的客户端,利用参加本轮联合训练的客户端在本地私人数据集上完成本轮本地训练,并对训练后得到的模型权重参数进行裁剪;然后,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声,并通过加密传输上传至混洗器。
[0051]
如图1所示的混洗模型联邦学习框架中,假设有n个用户参与训练,每个用户都拥有一个d维的本地模型权重wi,在模型迭代训练期间,每个用户都会独立且随机的做出参与本次训练的决定,并利用本地随机器生成一个结果yi,然后将结果yi上传到混洗器;混洗器对接受到的信息执行随机混洗操作,并将打乱的数据发送给分析器;分析器将对信息进行聚合和评估处理,并将处理后的数值w加入到第t轮全局模型,其更新方式为θ
t

θ
t-1
+w。框架的伪代码如算法1所示。
[0052][0053]
在算法1中,本地随机器混洗器分析器是实现模型扰动、混洗和聚合的部分。在第t轮训练中,分析器向所有客户端广播模型θ
t-1
,要求他们参与本次学习。每个客户都会以p概率独立的抛出一枚有偏见的硬币并且只有在头部返回时才决定参加本轮训练。可将客户端成功参与训练的概率p称之为随机参与率,并且该概率服从伯努利分布bern(p)。考虑到即使客户端决定参加训练,它也可能由于电源,网络等各种原因而退出。为了更符合现实世界的参与情况,假设客户端在每轮训练时都会有一个独立退出训练的概率p

,并且这个概率会在每一轮训练的时候执行动态调整,因此新的随机参与率β=p(1-p

)。
[0054]
当客户端i决定参与训练的时候,它会下载模型θ
t-1
在私人数据集di上完成本轮训练,对训练得到的d维的模型权重wi执行权重参数裁剪,以及使用本地随机器完成拉普拉斯噪声或者高斯噪声的添加,并将其(加密)发送到混洗器,其中c是权重数据的裁剪阈值,∈
l
表示的每个本地权重的本地隐私预算。混洗器会在规定的时间内对接受到的信息完成随机的混洗操作,并将混洗之后的数据发送到不受信任的分析器,这种方式避免了客户端因网络通信问题造成权重不能及时上传的问题,也保证全局模型在正常的时间内完成一次模型训练。当分析器接受到数据时,它会对上传的数据进行评估、聚合、矫正操作,并将新的权重数据w应用到下一轮模型的更新任务中θ
t

θ
t-1
+w,最后广播模型θ
t
和并寻求下一轮参加训练的客户端。
[0055]
在上述的设置下,可以构建一个简单协议sfd-ras,其中表示从隐私毯子中输出一个元素的概率,b表示离散域[b],既输入值x将被本地随机器编码到离散域[b]中并随机化输出。简单的来说,通过对权重的每个维度执行本地随机扰动和最终的权重模型聚合实现对引理3和推论1的扩展。由于只给出模型权重的总隐私预算∈
l
无法完成每个维度的本地随机,在结合引理1的组合属性下,可以得出将满足∈
dl-ldp,其中∈
dl
=∈
l
/d。因此,本地客户端i执行randomize(wi,∈
l
)可以被看作成当混洗器接收到扰动的消息并完成随机扰动之后,可以将∈
dl
带入到引理3,进而推导出放大之后的中央差分隐私水准(∈
cd
,δ
cd
)-dp。由于这是维度上的隐私水准,结合引理1和引理2的组合,可以很容易地推导出定理2,一种向量级水准的隐私保证。
[0056]
引理3.对于如果满足∈
l-ldp,对于可将会得到(∈c,δc),其中
[0057]
推论1.在混洗模型中,如果是∈
l-ldp,其中ldp,其中将满足(∈c,δc)-dp和
[0058]
理论2.对于任何邻近数据集d,d

,它们在一个用户的d维局部向量上是不同的,则在协议sfd-rass上将满足(∈c,δc):
[0059][0060]
δc=δ
cd
(d+1)
[0061]
由于客户端是根据概率β决定是否参与训练,假设是客户端按照概率β独立参与训练的机制。因此在理想期望情况下,每轮训练都将会有βn个客户端选择参与训练,然后他们会将自己的扰动权重数据发送给可信的混洗器完成随机排列,并由不可信分析器完成对数据的评估和分析,结合推论1的放大约束和理论1的子采样机制可以非常容易的得出了定理3。此外,按照差分隐私的泄露信息的概率,应该保证δ
cd
<2β,这是一个非常合理的设置,因为按照标准计算的情况可以忽略不计。因此,sfd-ras最终的将实现定理3中的隐私保证。推论2也将实现隐私预算∈
l
向隐私预算∈c的放大。
[0062]
理论3.在和δ
cd
<2β下,对于任何邻近数据集d,d

,它们在一个用户的d维局部向量上是不同的,机制将满足(∈
cd
,δ
cd
)-dp:
[0063]
[0064][0065]
δc=βδ
cd
(d+1)
[0066]
推论2.对于sfd-ras,在∈
l
≤d
·
log(βn/log((d+1)/δc)/2下,放大的中心差分隐私∈c将如下所示:
[0067][0068]
通过观察推论2的隐私保证,可以发现sfd-ras提供非常好的隐私放大,但它提供的中心差分隐私水平取决于采样用户的数量和权重的维度d。从隐私角度来看,放大效应会随着客户端数量的减少而增强,但是没有客户端参与训练或者客户端数量少都是与现实世界的情况相违背的。从效用角度来看,在隐私预算∈
dl
可以忽略的情况下,对权重的每个维度执行本地随机化会产生很大的噪声,导致模型准确性下降,而且全部维度的采样也容易导致模型“重要”维度的丢失和聚合之后的隐私预算增加。
[0069]
因此,进一步地,本案实施例中,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声,可设计为包含如下内容:
[0070]
首先,本地随机器利用top函数获取接收到的本地模型权重参数的查询结果,并按照查询结果大小来获取最重要k个索引集合和非重要索引集合;
[0071]
接着,通过遍历权重索引对最重要k个索引集合中权重元素添加扰动噪声;
[0072]
然后,更新本地模型权重参数,将最重要k个索引集合和非重要索引集合中所有元素添加到本地模型权重中,并将更新后的本地模型权重参数和客户端id进行加密上传。
[0073]
对于sfd-ras出现的问题,利用增强的隐私放大协议sfd-rss去应对。与sfd-ras采用隐私预算∈
dl
扰动权重的每个维度不同,sfd-rss只对模型中最重要的k个维度进行采样扰动,这样避免了随机子抽样对所有维度一视同仁造成权重“重要”维度丢失的现象也能降低模型聚合之后的隐私预算,所以只对最重要的k个维度权重进行子采样和扰动就变得尤其重要,而且这种方式也可以使得每个维度都可以从更大的隐私预算中受益。
[0074][0075]
如算法2所示,本地随机器会对客户的要上传的模型权重数据wi进行本地扰动。当本地随机器接受到客户端传进来的权重数据时就会执行top()函数,按照α的大小获取最重要的k个索引集合s
top
和非重要的索引的集合s
non
,并通过遍历d维权重的索引实现对处于stop
中权重元素添加符合拉普拉斯或者高斯分布的噪声,对处于s
non
中的权重元素不执行任何操作。然后,本地随机器会对模型权重执行更新,将所有元素添加到模权重中,并使用enc
pka
(
·
)加密一个特殊的客户端id来证明在本轮训练中客户端共享的权重是有效的。
[0076]
可依据本轮联合训练时间和每个客户端完成本轮联合训练和共享本轮本地模型权重数据所需要花费时间来设置混洗器对接收到的数据执行随机混洗操作的固定约束时间。
[0077]
具体地,混洗器在固定约束时间内对接收到的数据执行随机混洗操作,包含:
[0078]
首先,依据每个客户端完成本轮联合训练并共享本轮权重所需要花费时间及本轮联合训练参加客户端个数来获取混洗器传送权重数据的初始时间;
[0079]
然后,当混洗器收到有效客户端上传的权重数据时,在初始时间或本次训练时间上增加客户端完成本轮联合训练并共享本轮权重所需要花费时间来延长权重数据传送时间,并在延长后的权重数据传送时间内传送本轮联合训练的本地模型权重数据至分析器。
[0080]
考虑到因网络堵塞等外部原因导致客户端共享的权重不能及时上传到混洗器,从而造成的权重数量过少和混洗模型安全性下降问题,可利用动态变化时间约束来应对这个挑战。假设在轻微堵塞的环境下,在第t轮训练中,每个客户端完成训练并共享本轮权重需要花费的时间为ti
t
,因此混洗器提交混洗权重的初始时间可以设置为nβti
t
。当混洗器收到一个有效的客户端权重数据时,它会在本次训练的时间基础上增加一个ti
t
延长提交权重的时间,一旦超过最终的提交时间nti
t
并且混洗器收到的客户端权重数量没有达到本轮客户端数量的最低要求,混洗器就会使用本轮训练的广播模型θ
t-1
虚拟填充剩余的权重数量,完成最低权重数量要求,而且该方式与随机虚拟填充数据的方法不同,这种方式在一定程度上不会影响模型的准确性。
[0081][0082]
如算法3中伪码,可以很容易的看到混洗器在虚拟补充模型权重数量时,也会生成一个加密的非参与训练的客户端id表明在本轮训练中虚拟填充的权重是无效的。最后,混洗器会在自适应调整的号的时间内将随机排列好的权重数据发送给分析器,分析器接收到数据后会按照算法1中的方式对客户端的id进行解密排除未参与训练的客户端权重数据,然后进行下一轮模型的更新θ
t

θ
t-1
+w,并寻求下一轮参与训练的客户端。
[0083]
对于sfd-rss协议,可以将其总结为其中是混洗
器补充的s个虚拟权重信息,是本地随机器以概率α采取d维中最重要的k个参数。与sfd-rsa比起来,后者通过实现本地采样扰动,并使用作为新的隐私预算。除了混洗器动态调整约束提交时间和添加虚拟权重数量之外,在混洗和分析部分的其它步骤是一样的。因此,在定理4中展示了完整的隐私放大界限和向量水平的差分隐私组合。
[0084]
理论4.在和δ
cd
<2βα下,对于任何邻近数据集d,d

,它们在一个用户的d维局部向量上是不同的,则机制将满足(∈
cd
,δ
ca
)-dp:
[0085][0086][0087]
δc=δ
cd
(αd+1)
[0088]
由于只对最重要的k个维度的数据进行采样扰动,并且在混洗器部分实现了虚拟数量的填充,配合采样率α,β,可以在推论3中给出了本地隐私预算∈
l
到中心隐私预算∈c的放大效应。
[0089]
推论3.对于sfd-rss,在∈
l
≤αdlog(βn/log((2αd+α)/δc)/2下,放大的中心差分隐私∈c将如下所示:
[0090][0091]
为验证本案方案有效性,下面结合实验数据做进一步解释说明:
[0092]
使用最常用的图像数据集mnist、fmnist、cifar-10来检查模型的安全性和准确性。考虑到现实世界中数据分布的复杂性和无序性,将数据集划分为独立同分布(iid)和非独立同分布(non-iid)两种种数据分布来具体探索模型在实际情况中的表现。对于mnist和fmnist数据集,利用权重维度d=50618的卷积神经网络来进行模型的具体训练。对于cifar-10数据集,利用权重维度d=231562的卷积神经网络来验证模型的表现情况。在本地linux环境下,借助geforce rtx3090ti提供的强大性能,使用1000个客户端进行实验。为了更好的评估的模型,用三种常用模型与本案方案中提出的sfd-ras和sfd-rss进行比较,三种模型分别是非私有联邦平均模型(fedavg)、及受dp-fl对模型统一添加高斯噪声和ldp-fl对本地随机扰动的启发设计的dp-fedavg模型和ldp-fedavg模型。
[0093]
对于sfd-ras和sfd-rss,使用拉普拉斯机制为每个维度的本地随机发生器提供扰动值。对于mnist和fmnist数据集,给出∈
l
=506.18,α=0.02,因此,sfd-ras和sfd-rss的每个维度隐私预算为∈
dl
=0.01,∈
kl
=0.5。当模型完成一次全局训练之后,分析器的隐私保证将从sfd-ras的(2.68,5e-6)-dp放大到sfd-rss的(0.37,5e-6)-dp。
[0094]
图3中两种数据分布下模型表现所示,mnist和fmnist,ε=506.18,α=0.02,cifar-10,ε=2315.62,α=0.01。通过对图3中的a和b的观察,可以很明显的看到sfd-rss的模型准确率在iid和non-iid的数据分布上都是远高于sfd-ras。经过cifar-10的验证,可以
了解到模型的隐私保证从(6.64,5e-6)-dp(sfd-ras)放大到(1.39,5e-6)-dp(sfd-rss)的同时,它在iid和non-iid上的准确率分别提升了20.41%,12.65%。
[0095]
很明显,在三种数据集的两种数据分布下以及同等(0.37,5e-6)-dp的保证下,sfd-rss的表现效果均高与dp-fedavgl和ldp-fedavg。取得这种表现的主要原因要归结于本案方案中的top-k子采样和混洗器虚拟填充机制。总而言之,如果只运行sfd-ras的客户端采样和混洗过程,sfd-ras的表现就不能比dp-fl更好。此外,当把dp-fedavg2隐私保证设置成(34.78,5e-6)-dp时,可以发现这条线接近np-fedavg,并且比sfd-rss具有更高的模型精度,但是dp-fedavg2的隐私保证是远远不如sfd-rss的保证。因此,可以认为sfd-rss的top-k采样和虚拟权重数量添加是非常有必要的。
[0096]
为了分析自适应时间约束的有效性,在图4中给出了三个基准数据集两种数据分布下的模型训练耗时和准确性。正如图4所展示的,sfd-rss在时间和耗时上均有不错的表现,尤其是在图4中的c上,sfd-rss在两种数据分布上的耗时要比ldp-fedavg低663min,比dp-fedavg2高出9min。在模型的准确度上比ldp-fedavg高0.36,0.21,比dp-fedavg2低0.04,0.06。在不太复杂的数据集(如fmnist和mnist)上,可以在图4中的a和b观察到这种优势会逐渐小时。具体来说,在mnist数据集上,这种自适应时间和固定时间提交模型权重所达到的模型精度没有明显的差异。这是因为cifar-10上的模型更深,更复杂,因此对所有模型权重进行本地随机扰动要比进行top-k本地随机扰动耗费更多的时间。在这种情况下,混洗器不得不动态的延长接受客户端上传权重的时间,这将导致模型整个训练时长的增加。而top-k采样可以保证混洗器在有效的时间内陆续收到客户端的权重信息,从而避免过度延长提交时间。这也解释了为什么要在复杂的数据集和神经网络上进行自适应时间约束和top-k采样。
[0097]
为了分析隐私预算对模型性能和隐私的影响。在表1中给出了两种∈
l
的值,并在mnist、fmnit、cifar-10三种数据集的两种数据分布上进行实验。
[0098]
表1 the effect of ∈
l on model
[0099][0100]
如表1中所展示的,将∈
l
=506.18带入两个协议模型之后,可以看到sfd-ras放大之后的隐私保证达到了∈c=2.68,而sfd-rss可以达到更强的隐私保证∈c=0.37。在mnist的iid和non-iid分布下,sfd-rss模型的精度分别比sfd-ras高出0.23,0.26。当模型在cifar-10上完成验证之后,可以发现隐私的放大效果变得更加突出,但是模型的准确率有
所下降。原因可能是模型的复杂程度高,权重参数数量过大,导致固定top-k的权重抽样扰动与真实权重数据产生了偏差进而导致精度损失。可以认为,对于更复杂的神经网络和数据集,固定top-k的采样扰动会在一定程度上影响模型的精度。
[0101]
经过以上实验数据,进一步验证本案中通过客户端的随机参与和本地随机器的top-k采样扰动方案能够保证模型适应真实的训练环境,降低高维模型聚合之后的隐私预算;此外,混洗器的动态时间约束和虚拟数据填充,能够有效缓解因网络堵塞等外部原因导致的模型训练时间长,并改善权重数量收集不足导致的隐私泄露问题,便于促进分布式数据保护场景中的应用。
[0102]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
[0103]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0104]
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
[0105]
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
[0106]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

技术特征:
1.一种基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,包含:客户端利用本地随机器生成本轮联合训练本地权重数据并上传至混洗器,其中,客户端个数设定为n,且n大于1;混洗器对接收到的本地权重数据进行随机混洗操作并在固定约束时间内将随机混洗后的本地权重数据传送至分析器;分析器对接收到的本地权重数据进行聚合,利用聚合后的权重来更新下一轮联合训练全局模型参数,并向所有客户端广播更新后的全局模型参数。2.根据权利要求1所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,客户端利用本地随机器生成本轮联合训练本地权重数据,包含:首先,设置每个客户端在本轮联合训练中独立退出训练概率,并利用每个客户端独立退出训练概率动态调整每个客户端参与本轮联合训练的随机参与率;接着,依据随机参与率确定参加本轮联合训练的客户端,利用参加本轮联合训练的客户端在本地私人数据集上完成本轮本地训练,并对训练后得到的模型权重参数进行裁剪;然后,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声,并通过加密传输上传至混洗器。3.根据权利要求2所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,动态调整每个客户端参与本轮联合训练的随机参与率的过程表示为:β=p(1-p

),其中,p为客户端独立决定的参加本轮训练的原随机参与率,p

为设置的客户端独立退出训练概率,β为动态调整后的客户端新的随机参与率。4.根据权利要求2所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声中,限定添加扰动噪声的权重参数为本地模型中最重要的k个维度。5.根据权利要求4所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,使用本地随机器对裁剪后的本地模型权重参数添加扰动噪声,包含:首先,本地随机器利用top函数获取接收到的本地模型权重参数的查询结果,并按照查询结果大小来获取最重要k个索引集合和非重要索引集合;接着,通过遍历权重索引对最重要k个索引集合中权重元素添加扰动噪声;然后,更新本地模型权重参数,将最重要k个索引集合和非重要索引集合中所有元素添加到本地模型权重中,并将更新后的本地模型权重参数和客户端id进行加密上传。6.根据权利要求2或5所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,所述扰动噪声为拉普拉斯噪声或为高斯噪声。7.根据权利要求1所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,混洗器对接收到的本地权重数据进行随机混洗操作中,依据本轮联合训练时间和每个客户端完成本轮联合训练和共享本轮本地模型权重数据所需要花费时间来设置混洗器对接收到的数据执行随机混洗操作的固定约束时间。8.根据权利要求7所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,混洗器在预设打乱时间间隔周期内对接收到的数据执行随机混洗操作,包含:首先,依据每个客户端完成本轮联合训练并共享本轮权重所需要花费时间及本轮联合训练参加客户端个数来获取混洗器传送权重数据的初始时间;
然后,当混洗器收到有效客户端上传的权重数据时,在初始时间或本次训练时间上增加客户端完成本轮联合训练并共享本轮权重所需要花费时间来延长权重数据传送时间,并在延长后的权重数据传送时间内传送本轮联合训练的本地模型权重数据至分析器。9.根据权利要求7所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,混洗器在预设打乱时间间隔周期内对接收到的数据执行随机混洗操作,还包含:若延长后的权重数据传送时间超过最终提交时间并且混洗器接收到的客户端本地模型数据数量没有达到本轮参与联合训练的客户端个数最低要求,则混洗器利用本轮训练广播的全局模型参数来虚拟填充本地模型数据,使填充后的客户端本地模型数据数量达到本轮联合训练客户端个数最低要求,并在加密传送时利用非参与训练的虚拟客户端id来对虚拟填充的本地模型数据进行加密,其中,最终提交时间依据客户端个数和每个客户端完成本轮联合训练并共享本轮权重所需要花费时间来设置。10.根据权利要求1或7所述的基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,其特征在于,分析器对接收到的本地权重数据进行聚合评估时,首先对加密传送至的数据进行解密,排除无效的客户端id权重数据,获取有效的客户端id本地权重数据,然后,对有效客户端id本地权重数据进行聚合。

技术总结
本发明涉及数据安全技术领域,特别涉及一种基于随机参与差分隐私混洗模型的联邦学习隐私保护方法,通过客户端利用本地随机器生成本轮联合训练本地权重数据并上传至混洗器;混洗器对接收到的本地权重数据进行随机混洗操作并在固定约束时间内将随机混洗后的本地权重数据传送至分析器;分析器对接收到的本地权重数据进行聚合,利用聚合后的权重来更新下一轮联合训练全局模型参数,并向所有客户端广播更新后的全局模型参数。本发明可以解决现有联邦学习模型因网络堵塞等原因导致联合训练时间过程长进而影响联邦学习在实际应用场景中可实施性等问题,在联盟训练中能够对客户端进行有效采样的同时能够保证模型较高的准确性。行有效采样的同时能够保证模型较高的准确性。行有效采样的同时能够保证模型较高的准确性。


技术研发人员:杜学绘 杨钱涛 王文娟 王娜 任志宇
受保护的技术使用者:中国人民解放军战略支援部队信息工程大学
技术研发日:2023.04.06
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐