资源有限联邦边缘学习中的异步聚合与隐私保护方法

未命名 10-25 阅读：113 评论：0

1.本发明涉及分布式机器学习领域，特别是涉及资源有限联邦边缘学习中的异步聚合与隐私保护方法。

背景技术：

2.随着联邦学习技术在边缘计算环境中的研究不断增多，研究者将其称之为联邦边缘学习，在该环境下，能够通过使用本地客户端协同训练全局模型而使数据不离开本地，达到“数据不动模型动，数据可用不可见”的目的。另外，由于当前时代对数据的重视程度在不断加强，数据拥有者在隐私保护方面的意识也在逐步提高，因此隐私计算在近年来得到大力支持与发展。而联邦边缘学习为针对隐私计算的场景能够提供强力支持。
3.针对联邦边缘学习应用场景，存在许多的挑战，本章主要考虑并解决以下几个问题：
4.落后者问题。采用同步联邦学习训练过程会由于边缘异构性造成完成时间不一致问题，使得部分客户端成为落后者，从而增加边缘服务器的等待时间及降低系统效率。
5.资源受限问题。大多数本地训练客户端为移动设备或物联网设备，都具有有限的能量；另外由于大多采用无线通信方式，若太多客户端同时上传数据则可能会导致带宽资源不够。除能量和带宽外，还有其他资源也同样是有限的，如存储、计算等。
6.模型参数泄漏问题。模型参数在传输过程可能会遭遇内部合谋攻击或外部恶意攻击或其他攻击，从而获取与客户端相关的隐私信息。

技术实现要素：

7.为解决上述技术问题，本发明提供了资源有限联邦边缘学习中的异步聚合与隐私保护方法。
8.本发明解决其技术问题所采用的技术方案是：资源有限联邦边缘学习中的异步聚合与隐私保护方法，包括如下模块：系统初始化、客户端选择、异步联邦训练、个性化差分隐私保护和资源监测。
9.优选地，所述系统初始化模块：由边缘服务器完成；
10.初始化一个全局模型，将全局模型参数w0广播给所有的n个客户端；
11.然后设置全局隐私预算∈和第k类资源的资源预算dk，在学习过程中，若消耗资源超过资源预算，则系统终止；
12.将初始化参数裁剪阈值c广播给所有客户端；
13.边缘服务器设置初始模型陈旧度阈值τ0，若检测到某个客户端模型陈旧度超过该阈值，则将当前轮次更新的全局参数发送到该客户端进行强制同步，进入新的通信轮次进行重新训练。
14.优选地，所述客户端选择模块：
15.采用缓冲异步聚合的方式，在边缘服务器设置一个缓存区，进行全局聚合前将预
先接收到的本地参数先进行缓存，直到触发聚合条件再进行全局更新；
16.假设缓存区长度为l(l∈[1,l])，每个通信轮次根据模型训练结果选择合适的客户端数量m(m≤l)，或者客户端比例α
t
(α
t
＝m/n)。
[0017]
优选地，所述异步联邦训练模块：
[0018]
异步联邦训练模块包含客户端本地异步并行训练和边缘服务器全局缓冲异步聚合过程；对于客户端vi，使用本地私有数据集根据梯度下降算法(sgd)进行本地训练，得到本地模型参数更新过程如下：
[0019][0020]
其中η为学习率，为本地迭代时刻，本地迭代完成次后，然后通过无线链路上传至边缘服务器；
[0021]
当边缘服务器接收到本地参数后，计算客户端的模型陈旧度，若属于陈旧模型，则根据延迟补偿机制进行修正，得到修正模型参数
[0022][0023]
其中β∈(0,1]为关于模型陈旧度的函数，w
t-1
为保存的上一轮全局模型参数；
[0024]
当边缘服务器缓存区拥有m个本地参数后，立即进行全局聚合，聚合方式采用联邦平均法：
[0025][0026]
其中pi表示客户端vi的数据量所占比重，即
[0027]
优选地，所述个性化差分隐私保护模块：采用差分隐私技术来保护传输的参数。
[0028]
其定义如下：
[0029]
((∈,δ)-dp)
[0030]
当两个相邻数据库且输出空间时，随机机制是(∈,δ)-dp的，满足：
[0031][0032]
其中∈表示隐私预算，δ表示不满足∈严格差分隐私的概率；
[0033]
采用高斯机制对模型参数进行模糊处理，通过加入均值为0标准差为σ的高斯噪声，即
[0034][0035]
采用的高斯机制在当∈∈(0,1),σ≥c
△2f/∈且常数时可保证(∈,δ)差分隐私；
[0036]
其中是函数的l2敏感度。
[0037]
设置全局隐私预算为∈；
[0038]
优选地，假设客户端在训练t轮之后刚好消耗完所有的隐私预算，则满足关系其中∈
t
为每轮消耗的隐私预算；若全局隐私预算平均分配，则在每个轮次消耗的隐私预算平均值为这种情况下每个客户端消耗的隐私预算
[0039]
若客户端vi拥有更多的有效数据，则会对其分配更低的隐私预算∈i，使vi拥有更好的隐私保护。
[0040]
在本方案中，假设所有客户端各自消耗不同的隐私预算，则隐私预算集合为{∈i}。根据差分隐私组合理论，每个通信轮次消耗的隐私预算为∈
t
＝max{∈i}。对每个客户端vi，若其参数对模型有更大贡献，则添加更多的噪声以防止泄露。
[0041]
在每次本地训练完成需要对模型参数进行裁剪，裁剪阈值为c，即∥wi∥≤c；根据敏感度定义可得则高斯噪声标准差σi＝v
△2f/∈i，即
[0042][0043]
对于异步联邦训练，需要为各客户端分配合适的隐私预算进行个性化隐私保护；但是，在训练过程中，若则训练立即终止。
[0044]
优选地，所述资源监测模块：假设学习系统中共有k种类型的资源；对每种资源类型k∈{1,2,...,k}，令gk表示客户端在本地更新过程的资源消耗，bk表示模型参数在边缘服务器和客户端之间完成一次交换的资源消耗，dk为全局资源预算；在进行t次全局聚合后，本地更新所产生的资源消耗为gk·n·
t，模型交换所产生的资源消耗为2bk·n·
t；
[0045]
在联邦训练过程中，边缘服务器会一直进行资源监测，且在每个通信轮次结束后，检测资源消耗情况，若已消耗资源小于全局资源预算，则继续训练；即在训练过程需满足下述条件：
[0046]
(gk+2bk)
·n·
t≤dk.
[0047]
优选地，延迟补偿机制：在全局聚合过程中，根据各客户端的模型陈旧度对接收到的本地模型参数进行修正；
[0048]
假设客户端的模型陈旧度为τ，当τ＝0时，聚合过程不需要对该模型进行衰减，即z(0)＝1；当τ较小时，衰减较慢，τ越大时，衰减越快；
[0049]
根据该性质，设计一种钟形曲线，其函数表达式如下所示：
[0050][0051]
作为模型衰减因子，其中为可调节衰减速度的超参数；
[0052]
在每个通信轮次结束后，计算每个客户端的模型陈旧度，如果τi大于设定陈旧度阈值τ0，则对该客户端进行强制同步，将当前全局模型参数发送至该客户端，然后重新开始训练，即
[0053][0054]
优选地，问题构造：
[0055]
[0056][0057]
优选地，在模型训练过程中，需要受到几个约束条件：
[0058]
第一个约束条件表示在本地模型参数加入噪声后能保证(∈,δ)-差分隐私；
[0059]
第二个约束条件表示在t轮通信过程中需要满足消耗的隐私预算小于设置的总预算；
[0060]
第三个约束条件为资源受限约束，表示在t轮通信过程中本地计算和模型交换所消耗的资源要小于设置的总资源预算；
[0061]
第四个约束条件为模型陈旧度约束，表示每个客户端的模型陈旧度不能大于陈旧度阈值；
[0062]
在所有约束条件中，每个客户端所消耗的隐私预算∈i和每个通信轮次的聚合客户端数量m
t
是不固定的，这两个参数会极大的影响模型收敛速度，因此需要对∈i和m
t
进行估计和优化，以使得模型收敛更快，准确率更高。
[0063]
本发明的优点：
[0064]
改进延迟补偿机制，对模型陈旧度阈值范围内的模型参数进行延迟补偿，衰减系数采用一种钟形曲线函数，陈旧度越大衰减越快；对超过陈旧度阈值的客户端，则强制与当前全局参数进行同步，进入下一轮次本地训练。
附图说明
[0065]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的其中8幅，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0066]
图1为本发明实施例的异步联邦边缘学习系统；
[0067]
图2为本发明实施例的系统组成模块；
[0068]
图3为本发明实施例的模型陈旧度衰减函数；
[0069]
图4为本发明实施例的深度强化学习异步联邦架构；
[0070]
图5为本发明实施例的drl训练结果：(a)训练周期损失；(b)奖励随训练周期变化；
[0071]
图6为本发明实施例的无隐私保护时的聚合客户端数量影响：(a)测试准确率；(b)测试损失；
[0072]
图7为本发明实施例的聚合客户端数量影响：(a)测试准确率；(b)测试损失；
[0073]
图8为本发明实施例的不同算法的比较：(a)测试准确率；(b)测试损失。
具体实施方式
[0074]
为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。
[0087]
实施例
[0088]
本方案所用到的符号和定义如表1.1所示。
[0089]
1系统模型
[0090]
1.1系统框架
[0091]
假设有一个异步联邦边缘学习系统如图1所示，有一个边缘服务器和n个客户端，客户端集合为每个客户端vi(i∈{1,2,...,n})的个人私有数据集为数据量大小为在联邦学习过程，每个客户端的本地学习模型为fi(w)，使用私有数据集进行本地训练，进行本地更新。边缘服务器的全局更新过程采用异步聚合方案，未及时参与聚合的客户端则会产生陈旧模型，因此每个客户端存在一个陈旧度参数τi，即当前通信轮次与上一次收到全局参数时的通信轮次之差，该参数由边缘服务器在每次全局聚合前进行计算并保存。
[0092]
表1.1主要使用的符号列表
[0093][0094][0095]
若将差分隐私联邦边缘系统模块化，则主要由五个模块组成：系统初始化、客户端
选择、异步联邦训练、个性化差分隐私保护、资源监测。模型组成如图1所示。
[0096]
1)系统初始化
[0097]
联邦边缘系统的初始化主要由边缘服务器完成。首先初始化一个全局模型，将全局模型参数w0广播至所有的n个客户端。然后设置全局隐私预算∈和第k类资源的资源预算dk，在学习过程中，若消耗资源超过资源预算，则系统终止。此外，还将初始化参数裁剪阈值c广播给所有客户端。边缘服务器还会设置初始模型陈旧度阈值τ0，若检测到某个客户端模型陈旧度超过该阈值，则将当前轮次更新的全局参数发送到该客户端进行强制同步，进入新的通信轮次进行重新训练。
[0098]
2)客户端选择
[0099]
为减少边缘服务器在等待大量客户端参与全局聚合时的延迟，以及减少单个客户端进行全局聚合时的频繁通信带来的资源消耗，选择合适的客户端数量参与全局聚合极为重要。本方案采用缓冲异步聚合的方式，在边缘服务器设置一个缓存区，进行全局聚合前将预先接收到的本地参数先进行缓存，直到触发聚合条件再进行全局更新。假设缓存区长度为l(l∈[1,l])每个通信轮次根据模型训练结果选择合适的客户端数量m(m≤l)，或者客户端比例α
t
(α
t
＝m/n)。
[0100]
3)异步联邦训练
[0101]
异步联邦训练模块包含客户端本地异步并行训练和边缘服务器全局缓冲异步聚合过程。对于客户端vi，使用本地私有数据集根据随机梯度下降算法(sgd)进行本地训练，得到本地模型参数更新过程如下：
[0102][0103]
其中η为学习率，为本地迭代时刻，本地迭代完成次后，然后通过无线链路上传至边缘服务器。
[0104]
当边缘服务器接收到本地参数后，计算客户端的模型陈旧度，若属于陈旧模型，则根据延迟补偿机制进行修正，得到修正模型参数
[0105][0106]
其中β∈(0,1]为关于模型陈旧度的函数，w
t-1
为保存的上一轮全局模型参数。延迟补偿机制详细过程如1.2小节所示。
[0107]
当边缘服务器缓存区拥有m个本地参数后，立即进行全局聚合，聚合方式采用联邦平均法：
[0108][0109]
其中pi表示客户端vi的数据量所占比重，即
[0110]
4)个性化差分隐私保护
[0111]
由于联邦边缘学习系统中通过无线链路传输更新的参数，依然有隐私泄漏的可能。因此在本方案采用差分隐私技术来保护传输的参数，差分隐私具有组合性和后处理性等多个性质，适用于本方案中的联邦边缘学习系统。我们采用(∈,δ)-dp，其定义如下：
[0112]
定义1((∈,δ)-dp)。当两个相邻数据库且输出空间时，随机机制是(∈,δ)-dp的，满足：
[0113][0114]
其中∈表示隐私预算，δ表示不满足∈严格差分隐私的概率。
[0115]
为确保(∈,δ)-dp，采用高斯机制对模型参数进行模糊处理，主要通过加入均值为0标准差为σ的高斯噪声，即
[0116][0117]
采用的高斯机制在当∈∈(0,1)，σ≥c
△2f/∈且常数时可保证(∈,δ)差分隐私。其中是函数ψ:的l2敏感度。
[0118]
为保护系统中模型参数的隐私，设置全局隐私预算为∈。假设客户端在训练t轮之后刚好消耗完所有的隐私预算，则满足关系其中∈
t
为每轮消耗的隐私预算。若全局隐私预算平均分配，则在每个轮次消耗的隐私预算平均值为这种情况下每个客户端消耗的隐私预算
[0119]
根据公式(1.4)，若客户端vi拥有更多的有效数据，则会对其分配更低的隐私预算∈i，使vi拥有更好的隐私保护。在本方案中，假设所有客户端各自消耗不同的隐私预算，则隐私预算集合为{∈i}。根据差分隐私组合理论，每个通信轮次消耗的隐私预算为∈
t
＝max{∈i}。对每个客户端vi，若其参数对模型具有更大贡献，则添加更多的噪声以防止泄露。
[0120]
此外，为防止参数过大带来的问题，在每次本地训练完成需要对其进行裁剪，裁剪阈值为c，即∥wi∥≤c。根据敏感度定义可得则高斯噪声标准差σi＝c
△2f/∈i，即
[0121][0122]
对于异步联邦训练，需要为各客户端分配合适的隐私预算(高斯噪声标准差)进行个性化隐私保护。但是，在训练过程中，若则训练立即终止。
[0123]
5)资源监测
[0124]
在异步联邦边缘学习系统中，训练过程会消耗许多资源，比如计算资源和通信资源。边缘服务器一般拥有充足的资源，因此忽略对其资源消耗的计算。但客户端由于系统异构，各自拥有资源不同。在训练过程中，若资源耗尽，则会失去与边缘服务器的联系。
[0125]
假设学习系统中共有k种类型的资源(比如能量、网络带宽等)。对每种资源类型k∈{1,2,...,k}，令gk表示客户端在本地更新过程的资源消耗，bk表示模型参数在边缘服务器和客户端之间完成一次交换的资源消耗，dk为全局资源预算。因此，在进行t次全局聚合后，本地更新所产生的资源消耗为gk·n·
t，模型交换所产生的资源消耗为2bk·n·
t。
[0126]
在联邦训练过程中，边缘服务器会一直进行资源监测，且在每个通信轮次结束后，
检测资源消耗情况，若已消耗资源小于全局资源预算，则继续训练。即在训练过程需满足下述条件：
[0127]
(gk+2bk)
·n·
t≤dkꢀꢀꢀ
(1.7)
[0128]
1.2延迟补偿机制
[0129]
由于本方案所提出的联邦边缘学习系统采用异步方式进行联邦训练，客户端可能产生模型陈旧度问题。我们在全局聚合过程中，根据各客户端的模型陈旧度对接收到的本地模型参数进行修正，修正方式如(1.2)所示，其中β＝z(
·
)为延迟衰减系数，是关于模型陈旧度的函数。
[0130]
假设客户端的模型陈旧度为τ，我们可以知道，当τ＝0时，聚合过程不需要对该模型进行衰减，即z(0)＝1；当τ较小时，衰减较慢，τ越大时，衰减越快。
[0131]
根据该性质，对比图3，我们设计一种钟形曲线，其函数表达式如下所示。
[0132][0133]
作为模型衰减因子，其中为可调节衰减速度的超参数。
[0134]
图中其余函数表达式如下所示。
[0135]
下面列出了一些常用陈旧度函数z(τ)，其中x,y》0：
[0136]
常数函数：
[0137]
z(τ)＝1
ꢀꢀꢀ
(1.9)
[0138]
多项式函数：
[0139]zx
(τ)＝(τ+1)-x
ꢀꢀꢀ
(1.10)
[0140]
分段函数：
[0141][0142]
·
指数函数：
[0143]zx
(τ)＝e-xτ
ꢀꢀꢀ
(1.12)
[0144]
在每个通信轮次结束后，计算每个客户端的模型陈旧度，如果τi大于设定陈旧度阈值τ0，则对该客户端进行强制同步，将当前全局模型参数发送至该客户端，然后重新开始训练，即
[0145][0146]
1.3问题构造
[0147]
根据上文提出的异步联邦边缘学习方案，可知我们的主要目标是要在资源受限的条件下完成对系统模型参数的隐私保护，最终使全局模型收敛，因此我们的优化问题构造如下：
[0148]
[0149][0150]
在模型训练过程中，需要受到几个约束条件。第一个约束条件表示在本地模型参数加入噪声后能保证(∈,δ)-差分隐私；第二个约束条件表示在t轮通信过程需要满足消耗的隐私预算小于设置的总预算；第三个约束条件为资源受限约束，表示在t轮通信过程中本地计算和模型交换所消耗的资源要小于设置的总资源预算；第四个约束条件为模型陈旧度约束，表示每个客户端的模型陈旧度不能大于陈旧度阈值。
[0151]
在所有约束条件中，每个客户端所消耗的隐私预算∈i和每个通信轮次的聚合客户端数量m
t
是不固定的，这两个参数会极大的影响模型收敛速度，因此需要对∈i和m
t
进行估计和优化，以使得模型收敛更快，准确率更高。
[0152]
一般情况下，找到上面问题的最优解是一个np难问题，因此我们考虑采用深度强化学习算法来解决优化问题。
[0153]
2资源有限和隐私保护异步聚合算法
[0154]
本方案专注于资源有限和隐私保护的异步聚合算法。根据系统模型可知，主要执行计算由客户端和边缘服务器实体完成，每个通信轮次由本地训练和全局聚合两个主要步骤构成。
[0155]
每个通信轮次从共享全局模型参数开始，因此当t＝0时，边缘服务器初始化全局参数w0和模型陈旧度列表，每个客户端的模型陈旧度τi＝0，然后将全局参数广播给所有客户端进行初始同步，并通知客户端开始本地训练。
[0156]
客户端收到全局模型后使用sgd算法进行本地更新，获得本地模型参数为防止参数过大，对其进行裁剪，上界取为c，再加入高斯噪声，得到噪声参数以防止参数在传输过程中被窃取从而推测出原始数据信息。当客户端在本地完成上述计算过程后，立即通过无线链路上传至边缘服务器。
[0157]
边缘服务器首先进行聚合前准备，对收到的本地噪声模型参数进行延迟补偿，
[0158][0159]
其中βi＝z(τi)。
[0160]
当缓冲区暂存模型参数的数量达到m个时，立即进行全局聚合，
[0161][0162]
当客户端数据量相同时，则
[0163]
聚合完成后，需要进行模型陈旧度列表更新，若客户端未参与当前轮次聚合，则τi＝τi+1。若模型陈旧度大于阈值，则该客户端需要同步当前全局模型参数。由于系统资源有限且有隐私预算限制，因此每个通信轮次都需要对已消耗的隐私预算和资源进行计算，若超过设定阈值，则系统中断；若还有剩余资源，则继续进行模型训练，将当前全局模型参数共享至聚合客户端和超过陈旧度阈值的客户端。然后进入下一个通信轮次进行迭代。
[0164]
系统训练过程如算法1.1所示。
[0165]
算法1.1：资源有限和隐私保护异步聚合算法
[0166]
3客户端选择和个性化隐私保护
[0167]
在该小节，我们简要介绍智能体深度强化学习(drl)技术，然后使用drl技术解上述优化问题。为契合联邦边缘学习系统，我们选择使用a3c算法设计策略来根据获得状态执行相应的动作，使提出的框架能够在保护模型参数隐私的同时使全局模型快速收敛。
[0168]
3.1设计思路
[0169]
原始的联邦边缘学习系统主要包括两个部分，即本地更新过程和全局更新过程，如图1所示。接下来的内容主要是解决在这两个过程中分别出现的两个问题。1)在本地更新中需要加入多少噪声量(消耗多少隐私预算)，以使得模型参数可用且能保护用户隐私？2)在全局更新过程中，需要接收多少个客户端本地模型参数进行异步聚合，能够保证模型快速收敛且减少边缘服务器的等待时间？
[0170]
上述两个问题在系统模块组成上对应到客户端选择模块和个性化差分隐私保护模块，因此接下来针对这两个模块进行设计来解决问题。1)个性化差分隐私保护模块，不同客户端数据是non-iid分布的，每个客户端的数据重要程度不一样，因此设计不同的噪声隐私预算进行客户端个性化隐私保护是很有必要的。2)针对设备选择模块，全局更新时要求等待时间短且能使模型快速收敛，同时减少通信资源消耗，因此可在训练过程中每个通信轮次自适应选择不同客户端参与全局聚合。通过模块设计，最终使得联邦边缘系统在资源有限和隐私保护的约束条件下使模型达到快速收敛且精度不会下降太多。通过分析，我们设计基于drl的学习系统，来自适应选择客户端参与比例α
t
,(t∈{1,...,t})和单个客户端的个性化隐私预算∈i两个参数值。
[0171]
为解决目标问题中的隐私预算决策和客户端数量选择问题，将联邦边缘学习与深度强化学习框架相结合，可认为是在边缘服务器端部署全局网络，在客户端处部署子网络，每个网络都包含一个演员-评论家(actor-critic,ac)网络，网络框架采用神经网络模型。架构图如图4所示，每个子网络各自与环境交互获取环境状态，再通过策略执行相应的动作，以获取从环境反馈的奖励，全局网络不直接与环境交互。接下来分别对两个问题的决策过程进行叙述。
[0172]
3.2隐私预算决策算法
[0173]
在每个客户端处，执行本地模型训练之后需要添加高斯噪声以完成对模型参数的隐私保护。由于总隐私预算有限，每次训练后添加的噪声也会受到限制。另外，由于客户端数据为non-iid分布，因此数据对模型更新的贡献不一致，我们认为对模型训练贡献较大的参数应该添加更多的噪声(更少的隐私预算)。在使用drl进行决策时，需要根据目标设计对应的参数。
[0174]
(1)drl模型
[0175]
首先关注在本地更新过程中的隐私预算决策算法，深度强化学习框架如图4所示。标准的强化学习模型是一个智能体在和环境交互过程中根据获得的奖励或惩罚不断的学习，以输出最佳动作。下面介绍在drl模型中使用的几个重要概念。
[0176]
环境。我们在这里给出的drl系统的环境指的是设计的联邦边缘学习框架，包括了全局学习模型和本地学习模型。
[0177]
智能体表示通过执行动作与环境交互的各客户端。
[0178]
状态是描述智能体在t时刻状态的特征向量。
[0179]
动作表示客户端vi在t时刻消耗的隐私预算值。给定当前状态，drl智能体会基于一个策略来执行动作，表示为
[0180]
奖励表示当t时刻动作被执行后，智能体会从环境中收到反馈的奖励据此评判该动作的好坏。
[0181]
在每个通信轮次，策略网络通过接收前一时刻的状态s
t-1
(如完成时间、损失函数和资源消耗)输出某个动作的概率，这称之为策略π，即是状态空间到动作空间的映射，一般使用卷积神经网络，输出层为softmax。然后根据策略π从动作空间选择动作接下来，智能体接收当前时刻状态以及奖励值智能体的目标是通过策略选择最好的动作能够最大化期望回报。
[0182]
通过对设计模块的分析，我们采用异步优势演员评论家(a3c)算法来实现drl网络结构。在每个客户端处，部署复合神经网络，输入每个客户端当前的状态，输出策略π和状态价值函数v(s)。演员网络会决定客户端使用的隐私预算，评论家网络会评估采取当前动作的收益。
[0183]
(2)子网络状态和奖励
[0184]
客户端在完成本地训练后，本地子网络智能体通过与本地环境交互，获取当前状态这里t表示当前通信轮次，表示当前通信轮次的全局模型参数，表示使用本地私有数据训练后的本地模型参数，ε
t
表示当前通信轮次还剩余的隐私预算，d
t
表示当前通信轮次剩余的资源预算。
[0185]
在客户端根据所需要执行的动作选择合适的隐私预算，假设∈i∈{∈j},j∈[1,j]，这里j为本地动作空间拥有的动作数量，设置为离散值。说明一下，在每个通信轮次t时刻，客户端进行隐私预算决策过程，在当前状态下，执行所有动作，获得相应奖励。当j＝1时，赋值
[0186]
智能体根据策略选择动作，策略表示为是动作的概率分布。这里用神经网络表示策略学习，策略参数为θ，因此我们的策略可表示为表示在状态下执行动作a
i,j
的概率。
[0187]
当评论家网络观察到动作a
i,j
被执行后，会计算出反馈的奖励值r
i,j
。通过奖励可以评判当前状态的好坏，因此我们设置的奖励与模型参数变化、资源消耗和隐私预算消耗相关，
[0188][0189]
其中第一部分的表示本地模型在更新前后的参数差异，表示执行动作a
i,j
后的本地模型参数，若差异越小，当前动作带来的收益越大，则反馈的奖励值越大；第二部分表示资源消耗变化对环境的影响，若本地计算所消耗
的资源g
i,j
越多，则反馈的奖励值越小。本地更新的目标是要获得使累积回报最大的当前动作，再将本地更新参数上传至全局网络。累积回报计算方式如下：
[0190][0191]
折扣因子γ∈(0,1]，q为当前时间步j到终止状态时的时间步索引值。
[0192]
(3)模型训练
[0193]
由于在本系统中采用a3c框架进行模型训练，创建了一个主智能体管理全局网络，多个子智能体管理本地网络，所有子智能体之间进行异步并行训练。在本地更新中，演员网络根据策略选择动作，评论家网络估计状态价值函数这里θ为策略参数，θv是状态价值函数参数。状态价值函数根据神经网络函数估计如下，
[0194][0195]
策略和价值函数会在进行j次动作后进行更新，或直到到达终止状态(如模型达到收敛或资源耗尽)。本地更新过程会更新策略函数和估计的状态价值函数，更新为其中为优势函数。
[0196]
因此可以得到模型更新的损失函数，值函数损失为优势函数的最小均方误差，
[0197][0198]
策略函数损失为：
[0199][0200]
其中h为策略分布的熵。然后累积梯度更新策略参数θ和值函数参数θv。
[0201]
3.3客户端数量决策算法
[0202]
在本地客户端异步更新完成之后，将更新的参数上传至边缘服务器进行全局更新，得到新的全局参数。若有新的客户端开始训练，则从全局网络获取参数以进行下一步的本地子网络更新。在下一轮新的通信轮次开始之前，需要由边缘服务器决定下一轮参与聚合的客户端数量。本地更新后的隐私预算决策与客户端数量决策是相互有影响的，而两者的决策不一定在同一个通信轮次内完成。
[0203]
在边缘服务器端布置有a3c全局网络，主智能体会获取当前的状态s
t
，当前全局状态包括当前通信轮次t，各客户端上传的本地模型参数剩余资源预算d
t
。在t时刻，边缘服务器中的全局网络根据策略选择动作，执行的动作用aj表示，为选择合适的客户端数量参与全局聚合，j为一个阶段的时间步索引。评论家网络根据执行的动作计算奖励，奖励的设置与当前全局模型的收敛情况相关，这里f
*
表示全局模型收敛时的最优值，δf
t
表示当前损失值与最优损失值f
*
的差，即δf
t
＝f
*-f
t
。各客户端此时上传的本地模型参数为加入高斯噪声后的参数在进行全局聚合时使用修正后的噪声参数。
[0204]
全局网络的策略网络参数为θ'，状态价值网络参数为θ'v，在进行客户端选择时，初始参数则设置为聚合后的全局网络参数。在完成全局网络设置后就进行全局更新，更新
流程与本地网络更新流程相似，最后通过最大化期望回报选择最佳的客户端数量执行异步联邦学习系统的全局聚合。算法实现过程如算法1.2所示。
[0205]
4实验与性能评估
[0206]
接下来提供实验与性能评估方案，采用公共数据集对所提出的方案在不同参数设置下进行对比，实验结果显示基于资源有限和差分隐私的联邦边缘学习在采用深度强化学习技术辅助训练的情况能够很好的保护本地模型参数隐私，且能使模型快速收敛。
[0207]
算法1.2:个性化隐私保护与客户端数量选择算法
[0208][0209]
4.1实验环境
[0210]
针对本方案所提出的隐私保护方案，选择采用本地计算机进行模拟仿真验证，采用pytorch框架来实现差分隐私缓冲异步聚合过程。实验的计算机处理器为因特酷睿i7-10700，cpu@2.90ghz,32gbram。
[0211]
评估的主要数据集采用手写数字识别mnist，该数据集由60,000个训练样本和10,000个测试样本组成，每个样本都是一个28
×
28像素的灰度图像，表示0到9中的一个数字。训练过程中数据集的批大小设置为64，测试集的批大小设置为1000。针对联邦边缘学习环境中的客户端，假设采用non-iid数据划分方式，将数字0-9分别划分到不同的客户端中，每个客户端只包含一个或几个数字类别的样本，数据分布不同但数据量相同。客户端协同训练的全局模型设置为卷积神经网络cnn，使用两个卷积层和全连接层，激活函数选择整流线性单元(relus)，还使用了dropout层进行正则化。
[0212]
在客户端进行协同训练及异步并行更新过程中，采用以下指标对所提出的算法进行评估。(1)测试准确率。这是分类训练过程最常用的性能指标，表示测试数据集中正确识
别的数据样本数量与所有测试数据总样本数量的比值。(2)测试损失。表示训练过程中预测值与真实值之间的误差大小，通常采用交叉熵损失和nll损失作为损失函数。(3)drl奖励。表示drl训练过程中根据奖励函数计算的回报。(4)通信轮次。表示全局模型达到收敛时所需要的通信轮次数量，每个通信轮次表示从全局模型参数下发至全局更新完成的整个过程。
[0213]
在对比实验中，我们选择相关基准算法进行比较，第一个选择dp-sgd对比在联邦学习过程加入高斯噪声进行模型参数隐私保护的效果，第二个选择nbafl，在联邦学习训练过程中在本地模型参数和全局模型参数都加入高斯噪声。
[0214]
4.2实验结果
[0215]
(1)drl训练
[0216]
执行深度强化学习训练主要是边缘服务器和客户端完成，部署的a3c网络在边缘服务器完成客户端选择过程，在客户端完成个性化隐私保护。在实验过程中主要测试的drl性能，包括训练损失和奖励。在这一部分的实验过程设置客户端总数量n＝10。从图中可以看出损失值在早期训练阶段快速下降，主要是因为在前期智能体缺乏关于环境的信息。经过一段时间训练，智能体获得足够关于环境的信息，损失值则开始稳定下来，说明drl智能体逐渐与联邦边缘学习系统相适应。而训练过程中的奖励值在逐渐累加，由于智能体在不断探索中选择更好的策略完成动作，相应的会得到更优奖励值。当训练周期达到200次时，奖励值只有轻微变化。
[0217]
(2)参数影响
[0218]
针对本方案所提出的缓冲异步聚合算法，当单个通信轮次聚合的客户端数量变化时，其测试性能如图6所示，可以发现每轮聚合客户端数量越少时，收敛所需的通信轮次数更多，准确率比多客户端聚合时更低。由于数据呈non-iid分布，客户端参与聚合越少，数据样本量则越少，因此聚合时的全局模型准确率波动非常大，只有大量且频繁的通信才能将所有客户端的样本均衡使用，最终达到收敛。从图中可以看出，若采用异步聚合算法，且要考虑资源消耗情况，则需要设置合适的参与聚合客户端数量。
[0219]
为了使模型快速收敛，我们选择动态变化的参与客户端数量来进行全局聚合，每轮所需的数量根据a3c算法确定，确定过程则需要考虑到当前模型的状态。
[0220]
在聚合过程中调整客户端数量对模型收敛性能影响较大，如图7，展示了客户端数量变化对模型性能的影响，对比固定客户端数量选择m＝4。由于数据non-iid分布及异步聚合，准确率曲线波动较大。若使用a3c决策算法获得的自适应客户端数量，则在准确率低的情况下选择更多的客户端参与聚合，从而提升准确率，加快模型收敛。
[0221]
(3)算法比较
[0222]
图8给出了不同算法之间的对比结果，其中drl-dpafl表示我们提出的采用drl来决定不同客户端的隐私预算消耗以及每个通信轮次的聚合客户端数量方案，dp-sgd与nbafl在实验中从10个客户端中选择4个参与者进行聚合，数据分布均设置为non-iid。从图中可以看出我们的drl-dpafl可以达到与dp-sgd差不多的效果，在采用差分隐私机制进行隐私保护时，准确率可以在90％左右波动，两者均优于nbafl。
[0223]
5小结
[0224]
本方案提出资源有限的异步联邦学习隐私保护方案，在本地客户端资源限制条件
下为其提供个性化隐私保护。具体来说，在本地训练过程中，根据每个客户端数据的重要程度为每个客户端提供不同程度的隐私保护，主要是通过设置个性化隐私预算，添加不同的噪声量，若本地数据贡献大，则对本地模型参数分配较少的隐私预算，即添加较多的噪声，使隐私保护程度更高。在本地参数到达边缘服务器后，根据每个客户端的模型陈旧度，对本地参数进行衰减修正，然后暂存入缓存区。若缓存数量等于深度强化学习算法得到的最佳数值，则进行全局聚合。全局参数分发给参与聚合的客户端进行下一次训练，以及发送给模型陈旧度超过设定阈值的客户端进行强制同步。在性能评估阶段进行大量实验对所提出的算法进行验证，可以看出本方案所提出的方案能够在解决落后者问题、资源有限问题和模型参数泄漏问题的同时，性能优于其他条件更宽松的对比算法。
[0225]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0226]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：
1.资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于，包括如下模块：系统初始化、客户端选择、异步联邦训练、个性化差分隐私保护和资源监测。2.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：所述系统初始化模块：由边缘服务器完成；初始化一个全局模型，将全局模型参数w0广播至所有的n个客户端；然后设置全局隐私预算∈和第k类资源的资源预算d
k
，在学习过程中，若消耗资源超过资源预算，则系统终止；将初始化模型参数裁剪阈值c广播至所有客户端；边缘服务器设置模型陈旧度阈值τ0，若检测到某个客户端的模型陈旧度超过该阈值，则将当前轮次更新的全局参数发送到该客户端进行强制同步，并进入新的通信轮次进行重新训练。3.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：所述客户端选择模块：采用缓冲异步聚合的方式，在边缘服务器设置一个缓存区，进行全局聚合前将预先接收到的本地参数先进行缓存，直到触发聚合条件再进行全局更新；假设缓存区长度为l(l∈[1,l])，每个通信轮次根据模型训练结果选择合适的客户端数量m(m≤l)，或者客户端比例α
t
(α
t
＝m/n)。4.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：所述异步联邦训练模块：异步联邦训练模块包含客户端本地异步并行训练和边缘服务器全局缓冲异步聚合过程；对于客户端v
i
，使用本地私有数据集根据随机梯度下降算法(sgd)进行本地训练，得到本地模型参数更新过程如下：其中η为学习率，为本地迭代时刻，本地迭代完成次后，然后通过无线链路上传至边缘服务器；当边缘服务器接收到本地参数后，计算客户端的模型陈旧度，若属于陈旧模型，则根据延迟补偿机制进行修正，得到修正模型参数延迟补偿机制进行修正，得到修正模型参数其中β∈(0,1]为关于模型陈旧度的函数，w
t-1
为保存的上一轮全局模型参数；当边缘服务器缓存区拥有m个本地参数后，立即进行全局聚合，聚合方式采用联邦平均法：
其中p
i
表示客户端v
i
的数据量所占比重，即5.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：所述个性化差分隐私保护模块：采用差分隐私(dp)技术来保护传输的参数。其定义如下：((∈,δ)-dp)当两个相邻数据库且输出空间时，随机机制是(∈,δ)-dp的，满足：其中∈表示隐私预算，δ表示不满足∈严格差分隐私的概率；采用高斯机制对模型参数进行模糊处理，通过加入均值为0标准差为σ的高斯噪声，即采用的高斯机制在当∈∈(0,1),σ≥c
△2f/∈且常数时可保证(∈,δ)差分隐私；其中是函数ψ:的l2敏感度。设置全局隐私预算为∈。6.根据权利要求5所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：假设客户端在训练t轮之后刚好消耗完所有的隐私预算，则满足关系∈＝其中∈
t
为每轮消耗的隐私预算；若全局隐私预算平均分配，则在每个轮次消耗的隐私预算平均值为这种情况下每个客户端消耗的隐私预算若客户端v
i
拥有更多的有效数据，则会对其分配更低的隐私预算∈
i
，使v
i
拥有更好的隐私保护；在本方案中，假设所有客户端各自消耗不同的隐私预算，则隐私预算集合为{∈
i
}。根据差分隐私组合理论，每个通信轮次消耗的隐私预算为∈
t
＝max{∈
i
}；对每个客户端v
i
，若其参数对模型有更大贡献，则添加更多的噪声以防止泄露；在每次本地训练完成需要对模型参数进行裁剪，裁剪阈值为c，即||w
i
||≤c；根据敏感度定义可得则高斯噪声标准差σ
i
＝c
△2f/∈
i
，即对于异步联邦训练，需要为各客户端分配合适的隐私预算进行个性化隐私保护；但是，在训练过程中，若则训练立即终止。7.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特
征在于：所述资源监测模块：假设学习系统中共有k种类型的资源；对每种资源类型k∈{1,2,...,k}，令g
k
表示客户端在本地更新过程的资源消耗，b
k
表示模型参数在边缘服务器和客户端之间完成一次交换的资源消耗，d
k
为全局资源预算；在进行t次全局聚合后，本地更新所产生的资源消耗为g
k
·
n
·
t，模型交换所产生的资源消耗为2b
k
·
n
·
t；在联邦训练过程中，边缘服务器会一直进行资源监测，且在每个通信轮次结束后，检测资源消耗情况，若已消耗资源小于全局资源预算，则继续训练；即在训练过程需满足下述条件(g
k
+2b
k
)
·
n
·
t≤d
k
。8.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：延迟补偿机制：在全局聚合过程中，根据各客户端的模型陈旧度对接收到的本地模型参数进行修正；假设客户端的模型陈旧度为τ，当τ＝0时，聚合过程不需要对该模型进行衰减，即z(0)＝1；当τ较小时，衰减较慢，τ越大时，衰减越快；根据该性质，设计一种钟形曲线，其函数表达式如下所示:作为模型衰减因子，其中为可调节衰减速度的超参数；在每个通信轮次结束后，计算每个客户端的模型陈旧度，如果τ
i
大于设定陈旧度阈值τ0，则对该客户端进行强制同步，将当前全局模型参数发送至该客户端，然后重新开始训练，即9.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：问题构造：问题构造：10.根据权利要求1所述的资源有限联邦边缘学习中的异步聚合与隐私保护方法，其特征在于：在模型训练过程中，需要受到几个约束条件：第一个约束条件表示在本地模型参数加入噪声后能保证(∈,δ)-差分隐私；第二个约束条件表示在t轮通信过程中需要满足消耗的隐私预算小于设置的总预算；第三个约束条件为资源受限约束，表示在t轮通信过程中本地计算和模型交换所消耗
的资源要小于设置的总资源预算；第四个约束条件为模型陈旧度约束，表示每个客户端的模型陈旧度不能大于陈旧度阈值；在所有约束条件中，每个客户端所消耗的隐私预算∈
i
和每个通信轮次的聚合客户端数量m
t
是不固定的，这两个参数会极大的影响模型收敛速度，因此需要对∈
i
和m
t
进行估计和优化，以使得模型收敛更快，准确率更高。

技术总结
本发明公开了资源有限联邦边缘学习中的异步聚合与隐私保护方法，涉及分布式机器学习领域，包括如下模块：系统初始化、客户端选择、异步联邦训练、个性化差分隐私保护和资源监测。改进延迟补偿机制，对模型陈旧度阈值范围内的模型参数进行延迟补偿，衰减系数采用一种钟形曲线函数，陈旧度越大衰减越快；对超过陈旧度阈值的客户端，则强制与当前全局参数进行同步，进入下一轮次本地训练。进入下一轮次本地训练。进入下一轮次本地训练。

技术研发人员：何春蓉龚小祥余红宴向顺灵
受保护的技术使用者：重庆三峡学院
技术研发日：2023.07.14
技术公布日：2023/10/20

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种化浆装置的制作方法 下一篇：一种重型维修工具辅助装置的制作方法

资源有限联邦边缘学习中的异步聚合与隐私保护方法

版权声明

评论

航空之家

相关推荐

文章排行

最近发表

标签列表

资源有限联邦边缘学习中的异步聚合与隐私保护方法

版权声明

相关文章

评论

航空之家

相关推荐

文章排行

最近发表

标签列表