根据在联邦学习中传输的模型更新判定和/或减轻预测的有效重建程度的制作方法
未命名
09-22
阅读:36
评论:0
根据在联邦学习中传输的模型更新判定和/或减轻预测的有效重建程度
背景技术:
1.机器学习(ml)模型的联邦学习是用于训练ml模型的日益流行的ml技术。在联邦学习中,设备上的ml模型被本地存储在用户的客户端设备上,并且全局ml模型,即设备上的ml模型的基于云的对应体,被远程存储在远程系统(例如,服务器集群)处。使用设备上ml模型的客户端设备可处理在客户端设备处检测到的输入以生成预测,并且可将该预测与真实值输出进行比较以生成客户端梯度。此外,客户端设备可向远程系统传输基于客户端梯度的客户端模型更新。例如,客户端模型更新可能是客户端梯度,或者可基于客户端梯度和附加生成的客户端梯度。举例来说,客户端模型更新可从极小批量的客户端梯度(例如,1个步骤,n个样本)、从若干步骤(例如,n个步骤,各自1个样本)上的客户端梯度生成,或者更一般地,基于来自在每个步骤处具有n个样本的k个步骤的梯度而生成。远程系统可利用客户端模型更新以及可选地在附加客户端设备上以相似方式生成的附加客户端模型更新,以更新全局ml模型的权重。远程系统可向客户端设备和/或其他客户端设备传输全局ml模型或全局ml模型的更新权重。然后,每个客户端设备可用全局ml模型替换设备上ml模型,或者用全局ml模型的更新权重替换设备上ml模型的权重,从而更新设备上ml模型。
2.因此,联邦学习使客户端设备能够传输本地生成的模型更新,而无需传输用于生成模型更新的底层数据(即,无需传输对应的输入、预测或真实值输出)。此外,远程系统可利用模型更新来有效地更新全局ml模型,而不需要访问或利用底层数据。在这些方式和其他方式中,联邦学习可通过消除传输底层(和潜在敏感的)数据的需要而代替地仅传输基于这样的数据而生成的模型更新来提供一定程度的数据安全性。然而,要确保数据安全性和/或增加数据安全性的程度,重要的是至少一些(例如,全部、一半以上等)生成的模型更新不能被逆向工程以揭示关于用于生成模型更新的底层数据的信息(例如,揭示输入、预测和/或真实值输出)。
技术实现要素:
3.本文公开的实施方式涉及用于判定使用机器学习模型生成的预测可在多大程度上从模型更新中有效重建的各种技术,其中模型更新基于那些预测并基于应用特定损失技术(例如,特定交叉熵损失技术)而生成。为了简单起见,将相对于单一梯度的模型更新来描述本文描述的一些示例。然而,如本文所述,本文公开的实施方式可与基于多个梯度的模型更新结合利用。
4.作为示例,预测可各自是概率分布或概率分布序列,并且梯度可以各自是基于应用基于交叉熵的损失技术、根据预测和根据对应的真实值独热向量(当预测是概率分布时)或对应的真实值独热向量序列(当预测是概率分布序列时)而生成的。继续该示例,可使用对梯度的矩阵因子分解并使用机器学习模型的投影输出层的已知词汇来生成预测中的每一个的对应重建。更一般地,可使用对模型更新的矩阵因子分解并使用投影输出层的已知词汇来生成每个模型更新的对应重建。
5.在一些实施方式中,模型更新的每次重建可包括例如:词汇重建包(例如,当词汇元素包括单词或单词片段时,单词重建包),所述词汇重建包重建用于生成模型更新的预测的词汇元素,但不一定是它们的次序。这样的重建各自可使用模型更新和已知词汇来生成,而没有在生成对应的预测时对机器学习模型的对应当前权重的任何参考,和/或没有对任何其他特征的参考。在一些实施方式中,每次重建可附加地或替代地包括有序序列重建。在那些实施方式中的一些中,可使用语言模型(或规定词汇元素的各种序列的概率的其他模型)并且可选地没有对机器学习模型的对应当前权重的参考来生成该有序序列重建。例如,可利用语言模型来确定词汇重建包的多个候选有序序列中的哪一个最有可能,并且将该候选有序序列用作有序序列重建。作为另一示例,可基于词汇重建包并且进一步基于当生成对应的预测时机器学习模型的对应当前权重而生成该有序序列重建。可选地,在这样的示例中,依赖于对应当前权重的梯度匹配重建技术和/或其他重建技术可用于生成有序序列重建。然而,应当注意,这样的重建技术可与根据(例如,受约束于)词汇重建包而被约束的搜索空间一起使用。这可以使这样的重建技术能够被更高效地执行(即,更少利用处理器资源)和/或使其能够更准确(即,通过将搜索空间约束到词汇重建的解析包)。
6.本文公开的一些实施方式生成度量,所述度量各自指示使用对应的模型更新生成的对应重建与对应预测之间的符合程度。度量共同反映了可如何有效地从使用特定损失技术生成的模型更新中生成预测。因此,度量和/或基于度量而生成的总体度量可指示由使用特定损失技术生成的梯度所提供的数据安全性程度。
7.在那些实施方式中的一些中,度量用于确定是否在机器学习模型和/或附加机器学习模型的联邦学习中利用该特定损失技术(用于生成梯度)。例如,仅当度量和/或总体度量满足阈值时,可将度量和/或基于度量而生成的总体度量与阈值和联邦学习中利用的特定损失技术进行比较。作为附加的示例,可附加地或替代地将基于利用特定损失技术生成的模型更新而生成的度量和/或总体度量与各自基于利用对应的替代特定损失技术生成的模型更新而生成的替代度量和/或替代总体度量进行比较。在这样的附加示例中,仅当比较指示特定损失技术比替代的特定损失技术提供更大程度的数据安全性时,才可利用该特定损失技术。举例来说,特定损失技术可能是具有符号梯度下降的交叉熵损失,替代损失技术可能是具有自适应联邦优化的交叉熵损失,附加替代损失可能是具有梯度稀疏化的交叉熵损失,而进一步附加替代损失技术可能是不具有任何梯度修改技术的交叉熵损失。仅当特定损失技术的度量比替代损失技术的度量、附加替代损失技术的度量和进一步附加损失技术的度量更能指示数据安全性时,才可利用该特定损失技术。以这些方式和其他方式,在联邦学习中利用特定损失技术之前,可确保由使用特定损失技术生成的梯度提供的某种程度的数据安全性。这可减轻能够有效地重建所截取的模型更新的潜在邪恶行动者的出现,和/或可防止那些行动者能够区分所截取的模型更新的有效重建和无效重建。
8.在一些附加或替代实施方式中,可通过一个或多个网络接收计算设备传输的请求,并且该请求可包括模型更新、预测对。对的模型更新可以各自基于对的预测并基于应用特定损失技术而生成。在那些实施方式中,每个对的重建可基于对的模型更新而生成,并且指示该对的重建与预测之间的符合程度的度量然后被生成。度量可反映重建符合预测的有效程度(例如,是否符合和/或达到何种程度)。例如,如果重建是词汇重建包,则度量可包括:指示词汇重建包是否包括预测的所有元素而不包括不在预测中的任何额外元素的度
量;和/或指示词汇重建包与预测之间不同的元素数量的度量(例如,在重建中但不在预测中的元素数量和在预测中但不在重建中的元素数量)。作为另一示例,如果重建是有序序列重建,则度量可包括:指示重建是否包括预测的所有元素并且按照预测的次序并且不包括不在预测中的任何额外元素的度量;和/或指示重建和预测差异程度的度量,如果有的话(例如,基于编辑距离的度量或反映重建与预测之间的元素和/或次序的差异的其他度量)。可响应于该请求而向计算设备传输生成的度量和/或基于度量而生成的总体度量。响应于该传输,计算设备可在自动确定是否在联邦学习和/或其他机器学习模型训练中利用特定损失技术时利用度量和/或总体度量。该传输可附加地或替代地使在计算设备处渲染(例如,可视地渲染)度量和/或总体度量。这可以使计算设备的用户能够判定(例如,通过查看视觉渲染)由梯度提供的数据安全性的程度,并且基于该程度而确定是否在联邦学习和/或其他机器学习模型训练中利用特定损失技术。以这些方式和其他方式,在机器学习模型训练中利用特定损失技术之前,可确保由使用特定损失技术生成的梯度提供的某种程度的数据安全性。
9.在各种实施方式中,机器学习模型是包括具有投影输入层、权重矩阵层和投影输出层的模型。投影输入层可接受较低维度的生成嵌入作为输入,并且权重矩阵层可被用来使用权重矩阵层的当前权重来处理生成的嵌入,以生成投影输出层的对应投影输出。投影输出层具有符合机器学习模型的词汇的大小。换句话说,投影输出层的输出节点的数量可符合词汇大小,并且每个节点将与词汇的特定离散元素相对应。在投影输出层上生成的输出可能是例如词汇上的概率分布。当输入序列被应用到投影输入层时,可在投影输出层上生成输出序列,并且将具有符合词汇和输入序列的长度的大小。
10.作为一个示例,当机器学习模型是自动语音辨识模型(例如,听-看-拼las模型)时,可向投影输入层和序列提供s
×
d维度的音频数据嵌入序列(其中s是音频数据嵌入的数量,而d是每个嵌入的维度),并且投影输出可以是集体具有长度s
×
v的输出序列,其中v是词汇大小。在这样的示例中,词汇的元素可能是单词或单词片段。
11.作为另一示例,当机器学习模型是图像分类模型时,作为输入提供给投影输入层的嵌入可能是维度为d(其中d是嵌入的维度)的图像的图像嵌入,并且投影输出可能具有长度v,其中v是词汇大小。在这样的示例中,词汇的元素可能是分类。可利用附加的和/或替代的机器学习模型,所述机器学习模型可包括不同的词汇和/或可接受不同类型的嵌入作为输入。
12.因此,各种实施方式阐述了确保联邦学习中利用的特定损失技术给予至少某种程度的安全性的技术,并且可用于确保在特定机器学习模型的联邦学习中利用特定损失技术之前给予该安全性程度。以这些方式和其他方式,可以为参与联邦学习的各种客户端设备增强数据的安全性。这可以使能够达成联邦学习的益处,同时确保某种程度的安全性。
13.以上描述仅作为本文公开的一些实施方式的概述提供。将在下面更详细地公开该技术的这些实施方式和其他实施方式。
14.应了解,本文更详细地描述的前述概念和附加概念的所有组合被视为本文公开的主题的一部分。例如,出现在本公开末尾的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。
附图说明
15.图1示出了其中可实现本文描述的实施方式的示例环境。
16.图2是示出示例方法的流程图,该方法包括:利用对应的模型更新,生成在生成对应的模型更新中利用的对应预测的对应重建;基于将对应的重建与对应的模型更新进行比较而确定度量;以及可选地,基于确定的度量而执行一个或多个进一步的动作。
17.图3是流程图,示出了使用对对应梯度的矩阵因子分解并使用在生成预测中利用的机器学习模型的投影输出的已知词汇来生成预测重建的示例方法。
18.图4示出了机器学习模型的投影层的示例。
19.图5示出了可逆矩阵、基于对梯度进行分解而生成的正交矩阵以及根据执行可逆矩阵和正交矩阵的叉积的结果矩阵的示例。
20.图6示意性地描绘了计算机系统的示例架构。
具体实施方式
21.在转向附图之前,呈现了使用所生成的模型更新来生成重建的一些实施方式的非限制性概述。许多深度学习模型,诸如分类模型,包括全连接层,以将从输入h提取的d维表示映射到c维向量z。向量z表示它的类的非标准化对数概率,而c是类的数目。该完全连接的层在本文
22.中被称为投影层。所有类上的概率分布是通过对应用softmax函数导出的。训练这样的模型通常涉及使交叉熵损失最小化,如由所表示的。
23.假设w和b分别表示投影层的权重和偏差。因为z=wh+b,这导致进一步假设在这些假设的情况下,投影层的模型更新可由等式(1)表示:
[0024][0025]
等式(1)适用于从具有单个标签的单个样品计算的损失。因为引入新的标签意味着向损失添加新的项,所以等式(1)可以被概括到各种设置。例如,根据从该批量中的每个样本或该序列中的每个标签计算的模型更新来对n个样本的极小批量或长度为n的序列的模型更新求平均。在这样的场景下,等式(1)可由等式(2)概括:
[0026][0027]
在等式(2)中,并且g=[g1,...,gn]。
[0028]
作为另一示例,k个步骤之后的模型更新是k个步骤中每个步骤处的模型更新的总和。在这样的场景中,等式(1)可由等式(3)概括:
[0029][0030]
在等式(3)中,δw(i)和αi分别是时间步长i处的softmax梯度和学习率,h=[α1h
(1)
,...,α
kh(k)
],并且g=[g
(1)
,...,g
(k)
]。
[0031]
在所有这些场景中,δw可表示为两个低秩矩阵和的乘积,其
中s是用于计算模型更新δw的项数。例如,如果模型更新是根据批量计算的,则s是批量大小。作为另一示例,如果模型更新是根据若干步骤更新聚合的,则s是这些步骤的样本总数。
[0032]
在许多实施方式中,大规模深度学习模型中,d和c都在千的量级。因此,在那些实施方式中,可假设s<min{d,c}。因为h和g通常是满秩矩阵,并且它们的行和列不具有线性依赖关系,所以该数量s可以从权重矩阵更新的秩中推断出来的,即s=rank(δw)。因此,寻求基于模型更新而重建预测的实体可能已经从δw的知识中知晓标签的数目(包括重复)。例如,当根据标签的序列计算δw时,这尤其有帮助。在这种情形下,会立即向有权访问δw的实体揭示序列的长度。
[0033]
在投影层z和真实值标签的输出上限定softmax交叉熵损失。相对于z对求微分得到:
[0034][0035]
因为softmax函数始终返回(0,1)中的值,所以g中的每个行都具有对应于真实值标签的独特负坐标。正式地说,设neg(u)限定向量u中负坐标的指数。g中的每个行gi满足neg(gi)={yi}。这种观察是直观的,因为为了使损失最小化,真实值标签的概率应该被推到1,而其他标签的概率应该被推到0。这种观察暗示了可根据关于g的信息揭示标签。
[0036]
使用奇异值分解(svd),δw可以被分解成p∑q,其中和是正交矩阵,而是对角线上有非负元素的对角矩阵。
[0037]
假设存在标签为c的样本。存在向量以使得rqc<0且rq
j≠c
>0,或neg(rq)={c}。换句话说,子空间rx=0将s维空间中的点qc与其他点q
j≠c
分开。
[0038]
如果批量中出现标签c,则对于部分i,yi=c,或者neg(gi)={c}。如果r=giq
t
,则rq=gi,或者neg(rq)={c}。这意味着如果该批量中出现标签c,则存在无偏差的线性分类器,该线性分类器将qc与q
j≠c
分开。找到完美分类器的问题可经由线性规划来解决。如果存在将qc与q
j≠c
分开的分类器,则以下问题具有解决方案。
[0039][0040]
s.t.rqc≤0
[0041][0042]
在实践中,求解每个c的lp(c)可能需要时间,因为词汇中的单词数量可能很大。鉴于观察到q中的许多列显然是不可分开的,可应用筛选回合来过滤不可分开的列。将q中的每个列视为s维空间中的数据点,筛选回合返回可从剩余点的取样子集分开的所有点(例如,使用感知器算法)。这可能比解决lp问题要显著更快和/或计算效率更高。
[0043]
以下算法提供了对从模型更新中获得标签的集合(即,词汇包)的一些实施方式的概述。
[0044]
input:model update of the projection layer(输入:投影层的模型更新)
[0045]n←
rank(δw)
[0046]
findthe right singular matrix of δw(找到的右奇异矩阵)
[0047]
for i=1 to c do(对于i=1至c,进行)
[0048]
[0049]
if lp(i)has a solution then(如果lp(i)有解,则)
[0050]
add label i into s(将标签i添加到s中)
[0051]
end if(结束if)
[0052]
end for(结束for)
[0053]
return:number of labels used to compute the update s,set of labels s(返回:用于计算标签的集合s的更新的标签数s)
[0054]
现在转向附图,图1示出了其中可实现本文描述的实施方式的示例环境。示例环境包括客户端设备106a至106n、联邦学习系统110、重建系统120和一个或多个网络108。客户端设备106a至106n、联邦学习系统110和/或重建系统120可经由网络108彼此通信。网络108可包括广域网(wan)(例如,互联网)和/或局域网(lan)。
[0055]
客户端设备106a至106n可包括用户可经由它与重建系统120进行交互的客户端设备,该重建系统可位于远离客户端设备的位置(在其他实施方式中,重建系统120可全部或部分在客户端设备上实现)。例如,用户可与客户端设备108a交互(经由客户端设备108a的用户接口输入设备)以使客户端设备向重建系统120传输模型更新、预测对。响应于这样的传输,重建系统120可基于经传输的对而生成度量,并且然后向客户端设备108a传输度量。响应于接收到度量,客户端设备108a可利用度量和/或总体度量来自动确定是否在联邦学习和/或其他机器学习模型训练中利用特定损失技术。响应于接收到度量,客户端设备108a可附加地或替代地使在客户端设备108a处渲染(例如,可视地渲染)度量和/或总体度量。这可以使客户端设备108a的用户能够判定(例如,通过经由客户端设备108a的屏幕查看可视渲染)由梯度提供的数据安全性的程度,并且基于该程度而确定是否在联邦学习和/或其他机器学习模型训练中利用特定损失技术。
[0056]
作为另一示例,用户可与客户端设备108a交互(经由客户端设备108a的用户接口输入设备),以使客户端设备向重建系统120传输模型更新。响应于这样的传输,重建系统120可生成重建,该重建各自与经传输的模型更新中的一个相对应,并且然后向客户端设备108a传输重建和哪些重建与哪些模型更新相对应的指示。响应于接收到重建和哪些重建与哪些模型更新相对应的指示,客户端设备108a可以基于将重建与本地存储在客户端设备108a处或者以其他方式可在客户端设备108a处访问的实际预测进行比较而生成度量和/或总体度量。客户端设备108a可以基于接收到的哪些重建与哪些模型更新相对应的指示,而将接收到的重建与对应的预测进行匹配(例如,使用模型更新到预测的本地存储的映射)。因此,在这样的示例中,客户端设备108a向重建系统120传输仅模型更新,而不传输预测。此外,重建系统120返回基于模型更新而生成的重建,从而使客户端设备108a能够基于返回的重建而生成度量。
[0057]
客户端设备106a至106n可附加地或替代地包括在参与全局机器学习(ml)模型118的联邦学习中与联邦学习系统110交互的客户端设备。例如,客户端设备106a至106n中的每一个被示出为包括本地存储在客户端设备处的局部ml模型108a至108n中的对应一个。局部ml模型108a至108n各自是由联邦学习系统110管理的全局ml模型118的局部对应体。
[0058]
在参与联邦学习时,客户端设备106a至106n中的每个使用其设备上ml模型108a至108n中的对应一个,可处理对应的输入(例如,基于在客户端设备处检测到的用户接口输入和/或基于客户端设备处的对应的本地存储的数据的输入)以生成预测,并可将预测与真实
值输出进行比较以生成客户端梯度。例如,基于交叉熵的损失技术可用于生成客户端梯度。真实值输出可基于在客户端设备处本地生成的其他数据,并且可能可选地基于用户输入(例如,明确或隐含地确认预测、或者明确或隐含地指示与预测不同的替代真实值)。此外,客户端设备106a至106n可向联邦学习系统110传输基于其本地生成的客户端梯度的模型更新。应注意的是,可向联邦学习系统110传输模型更新,而不传输在生成模型更新时利用的预测或真实值输出。
[0059]
联邦学习系统110可利用接收到的客户端模型更新,以及可选地利用在附加客户端设备处以相似方式生成的附加客户端模型更新,以更新全局ml模型118的权重。联邦学习系统110可向客户端设备108a至108n和/或其他客户端设备传输更新的全局ml模型118、或全局ml模型118的更新的权重。然后,每个客户端设备可用更新的全局ml模型替换设备上的ml模型,或者用全局ml模型118的更新的权重替换设备上ml模型的权重,从而更新设备上ml模型。进一步的联邦学习可基于更新的设备上ml模型而可选地发生,从而得到进一步更新的全局ml模型118,该进一步更新的全部ml模型可同样由客户端设备106a至106n提供(或提供其权重)。该过程可持续多次迭代,可选地持续直到基于被满足的一个或多个条件而认为ml模型是最终的为止。联邦学习系统110可以例如由一个或多个服务器——诸如可选分布式高性能服务器的集群——来实现。
[0060]
客户端设备106a至106n可包括以下中的一个或多个:台式计算设备、膝上型计算设备、至少部分专用于自动化助理的独立硬件设备、平板计算设备、移动电话计算设备、车辆的计算设备(例如,车载通信系统和车载娱乐系统、车载导航系统、车载导航系统),或包括计算设备的用户的可穿戴装置(例如,具有计算设备的用户的手表、具有计算设备的用户的眼镜、虚拟或增强现实计算设备)。可以提供附加的和/或替代的客户端设备。客户端设备106a至106n可各自包括用于存储数据和软件应用的一个或多个存储器、用于访问数据和实行应用的一个或多个处理器以及有助于通过网络进行通信的其他部件。
[0061]
重建系统120可以例如由客户端设备和/或由一个或多个服务器实现,所述一个或多个服务器诸如可选分布式高性能服务器集群。重建系统120在图1中被示出为包括重建引擎122、测量引擎124和选择引擎126。
[0062]
重建引擎122处理模型更新134,并为模型更新134中的每一个生成对应的重建。在给定时间处理的模型更新134可由客户端设备106a、联邦学习系统110中的一个提供,或者甚至由重建系统120本地生成。此外,如本文所述,模型更新134可能可选地各自与预测136中对应的一个配对(例如,经由限定对应的模型更新与预测之间的关联的映射来配对)。
[0063]
在基于模型更新134中的一个而生成重建时,重建引擎122可对模型更新使用矩阵因子分解(factorization),并使用对应ml模型的投影输出层的已知词汇132。例如,在基于局部ml模型108a至108n中的一个而生成模型更新的情况下,局部ml模型108a至108n的投影输出层的已知词汇132可用于生成重建。在一些实施方式中,已知词汇132由开发者或具有机器学习模型的词汇知识的其他用户提供(例如,在包括对应梯度的请求中提供或与其一起提供)。在一些其他实施方式中,已知词汇132是根据对机器学习模型的检查和/或根据向机器学习模型提供多个已知输入并检查对应的预测和/或模型更新来确定的。向机器学习模型提供多个已知输入并检测对应的预测和/或模型更新使能够分辨哪些输出维度与词汇的哪些元素相对应。例如,因为应从已知输入生成的预测也是已知的,所以可从预测和/或
模型更新中确定哪些输出维度与预测的词汇的元素相对应。通过利用多个已知输入和对应的已知预测,可通过分析实际生成的预测和/或模型更新来有效地导出词汇中的一些或全部。
[0064]
在一些实施方式中,重建引擎122生成包括或限于词汇重建包的重建,该词汇重建包重建预测的词汇元素,但不一定是它们的次序。换句话说,重建寻求对预测的词汇元素进行重建,而不考虑它们的次序。虽然重建可能碰巧包括呈正确次序的词汇元素,但是重建并不寻求确定正确的次序。这样的重建可各自由重建引擎122使用模型更新和已知词汇来生成,并且在生成对应预测时没有对机器学习模型的对应当前权重的任何参考,和/或没有对任何其他特征的参考。在一些实施方式中,重建引擎122可以附加地或替代地生成作为有序序列重建的重建。重建引擎122可基于词汇重建包并且进一步基于语言模型(或者更一般地,词汇模型)和/或基于当生成对应预测时机器学习模型的对应当前权重而生成有序序列重建。在各种实施方式中,在生成重建时,重建引擎122执行图3的步骤256a的一些方面或所有方面(如下所述)。
[0065]
测量引擎124将由重建引擎生成的重建与其对应的预测136进行比较,并基于该比较而生成度量。例如,测量引擎可将基于模型更新134中的给定一个模型更新而生成的生成重建,与预测136中的被指示为与模型更新134中的所述给定一个模型更新配对的给定一个预测进行比较。预测136中的给定的一个预测可能是使用对应的ml模型实际生成的预测,并且在生成模型更新134中的给定的一个模型更新时利用所述预测(例如,基于将所述预测与真实值输出进行比较)。由测量引擎124为重建生成的度量可反映重建符合预测的有效程度(例如,是否符合和/或达到何种程度)。例如,如果重建是词汇重建包,如果词汇重建包包括预测的所有元素而不包括预测中没有的任何额外元素,则测量引擎124可生成是“1.0”的度量,否则是“0.0”。作为另一示例,如果重建是词汇重建包,则测量引擎124可附加地或替代地生成非二进制的并且反映词汇重建包与预测之间不同的元素数量的度量。举例来说,如果没有元素不同,则度量可以是“1.0”,如果四个元素中的一个不同,则是“0.75”,如果六个元素中的三个不同,则是“0.5”,如果所有元素都不同,则是“0.0”,等等。另外,测量引擎124还可能可选地生成随重建的单独度量而变化的总体度量。例如,总体度量可包括单独度量的平均值、单独度量的中值、单独度量的标准偏差和/或随单独度量而变化的其他总体度量。在各种实施方式中,在生成单独度量时,测量引擎124执行图2的步骤258的一些或所有方面(如下所述)。
[0066]
选择引擎126分析由测量引擎124为根据特定损失技术生成的模型更新生成的度量(例如,单独和/或总体度量),以用于确定是否利用特定损失技术(例如,在对应的机器学习模型和/或附加的机器学习模型的联邦学习中)。因此,在各种实施方式中,选择引擎126可确定是选择特定损失技术来使用,还是代替地选择替代的损失技术来使用。
[0067]
在一些实施方式中,选择引擎126将由测量引擎124为根据特定损失技术生成的模型更新生成的单独度量和/或总体度量与阈值进行比较。在那些实施方式中,选择引擎126可至少部分地基于(例如,仅有地和/或基于其他考虑)度量和/或总体度量是否满足阈值而确定是否利用该特定损失技术。
[0068]
在一些实施方式中,选择引擎126将(a)由测量引擎124为根据特定损失技术生成的模型更新而生成的单独度量和/或总体度量与(b)由测量引擎124为根据替代特定损失技
术生成的替代梯度生成的替代单独度量和/或替代总体度量进行比较。在那些实施方式中,选择引擎126可以基于该比较(例如,仅基于该比较或者也基于如在前一段落中描述的阈值被满足)而确定是选择特定损失技术还是代替地选择替代的特定损失技术。例如,测量引擎124可以仅当比较指示特定损失技术比替代的特定损失技术提供更大程度的数据安全性时,才确定选择特定损失技术来利用。虽然前一示例是相对于比较两种不同的特定损失技术的对应度量而提供的,但是可以考虑多于两种的特定损失技术,并且该比较(以及结果选择)可考虑所有的对应度量。在各种实施方式中,选择引擎126执行图2的步骤262的一些或所有方面(如下所述)。
[0069]
图2是示出示例方法200的流程图,该方法200包括:利用对应的模型更新,生成在生成对应的梯度中利用的对应预测的对应重建;基于将对应的重建与对应的预测进行比较而确定度量;以及可选地,基于确定的度量而执行一个或多个进一步的动作。为了方便起见,参考执行操作的系统来描述流程图的操作。该系统可包括各种计算机系统的各种组件,诸如图1的重建系统120的一个或多个部件。此外,虽然过程200的操作以特定次序示出,但这并不意味着是限制性的。可重新排序、省略和/或添加一个或多个操作。
[0070]
在框252处,系统接收模型更新、预测对。模型更新、预测对各自包括:基于使用机器学习模型处理对应输入而生成的预测;以及基于应用特定损失技术并基于对应的真实值输入而生成的模型更新(例如,基于梯度而生成,每个梯度是基于将对应的真实值输入与预测进行比较而生成的)。例如,模型更新可能是基于将单个预测和真实值对进行比较而生成的单个梯度,或者可能是基于比较多个预测以及其对应的真实值而生成的一批梯度而生成的模型更新。在框252处接收到的模型更新、预测对可由系统的部件生成并从该部件接收,或者可在传输中并且经由网络从另一系统或客户端设备接收。
[0071]
在框254处,系统从在框252处接收到的那些模型更新、预测对中识别模型更新、预测对。
[0072]
在框256处,系统使用识别对的模型更新并独立于识别对的预测,生成预测的重建。在一些实施方式中,框256包括子框256a,其中系统使用对模型更新的矩阵因子分解并使用机器学习模型的投影输出的已知词汇来生成重建。下面相对于图3描述框256a的一个非限制性特定示例。
[0073]
在框258处,系统基于将框256对该对的重建与该对的预测进行比较而生成度量。该系统可存储度量(例如,在rom或ram中)。
[0074]
在框260处,系统确定是否存在任何未处理的模型更新、预测对。如果是,则系统返回到框254,并识别未处理的对。如果否,则系统可选地进行到可选框262和/或可选框264。应注意,虽然为了方便起见在图2中串行示出,但是在各种实施方式中,系统可并行执行框254、256和258的多次迭代(即,并行执行的每次迭代将涉及处理不同的对)。
[0075]
在可选框262处,系统基于经由框258的多次迭代生成的度量(例如,从ram或rom中对其进行检索)而确定是否在联邦训练中利用该特定损失技术。在一些实施方式中,系统基于度量本身和/或基于经由框258的多次迭代生成的单独度量而生成的总体度量而确定是否在联邦训练中利用特定损失技术。在一些实施方式中,系统仅当单独度量中的一些(例如,其x%)或所有都满足单独阈值时和/或仅当总体度量中的一些(例如,其x%)或所有都满足对应的总体阈值时,才确定在联邦训练中利用该特定损失技术。在一些附加或替代实
施方式中,系统基于将特定损失技术的单独度量和/或总体度量与一个或多个替代特定损失技术的单独度量和/或总体度量进行比较,而确定是否在联邦训练中利用特定损失技术。基于执行框252、254、256和258,基于包括使用替代特定损失技术生成的模型更新的对,可生成替代特定损失技术的单独度量和/或总体度量。
[0076]
在可选的框264处,系统响应于在框252处接收到对而传输经由框258的多次迭代生成的单独度量,和/或基于生成的单独度量而生成的总体度量。例如,可在来自服务器或客户端设备的请求中接收框252处的对,并且系统可向服务器或客户端设备传输单独度量和/或总体度量。举例来说,可将单独度量和/或总体度量包括在由系统生成的图形用户界面中,并且向客户端设备传输该图形用户界面。向客户端设备传送图形用户界面可使(例如,在客户端设备处的对应用户输入之后)客户端设备可视地渲染单独度量和/或总体度量。
[0077]
图3是示出图2的框256a的一个非限制性示例的流程图。
[0078]
在框256a1处,系统识别梯度。梯度可能是来自图2的对中的一个的模型更新。可选地,梯度可基于应用基于交叉熵的损失技术以及基于真实值输出和预测而生成。该预测是基于使用机器学习模型处理输入而生成的预测。
[0079]
在框256a2处,系统将梯度分解成至少一个s
×
v正交矩阵(q),其中s对应于预测中的序列数目,而v对应于机器学习模型的词汇大小。矩阵q中的每个列可表示对应于词汇中的元素的s维点。在一些实施方式中,系统可使用奇异值分解将梯度分解成正交矩阵q。例如,系统可以使用奇异值分解将梯度分解成两个正交矩阵q和p(也可以是s
×
v矩阵)和对角矩阵∑。
[0080]
在框256a3处,系统确定q中的哪些列包括分隔分类器。框256a3可包括子框256a3a,其中系统执行q和z的点积,其中z是s
×
s的可逆矩阵,并且基于该结果而识别q的包括分隔值(例如,负值)的结果列。例如,在子框156a3a处,系统可在由q和z的点积产生的矩阵中识别包括分隔值(例如,负值)的行,并且识别q的具有与行相同的索引值的列。在结果矩阵中具有分隔值的行将指示q的对应列同样具有分隔值。
[0081]
作为一个示例,并且参考图5,示例z可逆矩阵123a(大小为s
×
s)被示出为与示例q正交矩阵123b(大小为s
×
v)交叉,产生示例矩阵123c(大小为s
×
v)。矩阵123c的第二行(用阴影示出)是z可逆矩阵123a的第二行(用阴影示出)和q正交矩阵123b的第二列(用阴影示出)的叉积的结果。此外,矩阵123c的第二行包括分隔值,由第二行和第二列中单元的竖直阴影指示(与第二行其他单元的对角线阴影相反)。基于单元中的相对于该行的所有其他单元是可区分的一个单元,可以确定矩阵123c的第二行具有分隔值。例如,第二行的单元中的一个可能是负的,而该行的所有其他单元可能是正的。这可以指示q正交矩阵123b的第二列(具有相同的“第二”索引值)同样具有分隔值。应注意,矩阵123c的附加行可能具有分隔值,并且因此,q的附加列可被确定为具有附加的分隔值。然而,为了简单起见,在图5中示出了仅一个这样的示例。此外,应注意,为了简单起见,矩阵123a、123b和123c仅示出了其单元中的一些,如由省略号所示。可提供各种维度的矩阵,并且维度将取决于对应的词汇大小和序列长度,如本文所述。
[0082]
再次转向图3,在框256a4处,系统使用确定为包括分隔分类器的q列和q列到机器学习模型的词汇的映射,来生成预测的重建。在一些实施方式中,框256a4包括子框256a4a
和可选地包括子框256a4b。在子框256a4a处,系统生成词汇重建包,该词汇重建包可包括词汇的与被确定为包括分隔分类器的q列相对应的那些元素的无序列表。
[0083]
在子框256a4b处,系统可选地使用模型的当前状态和子框256a4a的词汇重建包,生成有序序列重建。应注意,在子框256a4a处生成词汇重建包时,没有利用模型的当前状态。在一些实施方式中,在子框256a4b处,系统不利用模型的当前状态,而是依赖于词汇重建包和规定词汇元素的各种序列的概率的词汇模型。例如,在词汇表包括单词或单词序列的情况下,词汇表模型可以是语言模型。例如,系统可利用语言模型来确定词汇重建包的多个候选有序序列中的哪一个是最可能的,并且该候选有序序列被用作有序序列重建。在一些实施方式中,在子框256a4b处,系统基于词汇重建包并进一步基于生成对应预测时机器学习模型的对应当前权重而生成有序序列重建。可选地,在那些实施方式中,系统使用梯度匹配重建技术和/或依赖于对应当前权重的其他重建技术,以用于生成有序序列重建。然而,该系统使用搜索空间根据(例如,受约束于)词汇重建包而被约束的这样的重建技术。
[0084]
在框256a5处,系统存储在框256a4处生成的重建,以及重建与生成重建时利用的梯度的关联。
[0085]
可基于这一知识来激发图3中示出的框256a的示例的实施方式。在前一等式中,表示梯度,该梯度相对于对应投影层的权重矩阵(w)。此外,a
t
表示投影输入的转置(即,嵌入的维度以及嵌入序列的长度)。最后,表示相对于投影输出的梯度,该梯度是未知的,但是可以如本文所述进行求解。通过将分解成p∑q,pσq可被写成为p∑(z-1
z)q,其中z是任何s
×
s的可逆矩阵,并且被进一步改写为(p∑z-1
)(zq)。如前所述,(p∑z-1
)等同于a
t
,意味着等于(zq),并且因此,可通过z和q的叉积来求解此外,中包括分隔值(例如,负值)的行将指示与该行具有相同索引值的q列同样具有分隔值。这指示词汇中与q列相对应的元素被包括在用于生成梯度的预测中。通过识别具有分隔值的q列,并将那些列映射到q的已知词汇的元素,可生成词汇重建包。应注意,这种通用技术仍然适用于多样本/批量梯度和/或多步梯度。在这两种情况下,δw是若干更新δwi的和,并且矩阵因子分解仍然有效(例如,乘积之和仍然是乘积)。
[0086]
图4示出了机器学习模型的投影层的示例,诸如全局模型118(图1)和局部模型108a至108n(图1)。投影层包括投影输入层118a、权重矩阵层118b和投影输出层118c。投影输入层118a可接受较低维度生成的嵌入(维度d)作为输入,并且权重矩阵层118b可用于使用权重矩阵层118b的当前权重来处理生成的嵌入,以生成投影输出层118c的对应投影输出(维度v)。投影输出层118c具有符合机器学习模型的词汇的大小(v)。换句话说,投影输出层118c的输出节点的数量可符合词汇大小,并且每个节点将与词汇的特定离散元素相对应。在投影输出层118c上生成的输出可能是例如词汇上的概率分布。当长度为s的输入序列(在图4中由“s x d”中的“s”指示)被应用于投影输入层118a时,可在投影输出层118c上生成长度为s的输出序列(在图4中由“s x v”中的“s”指示),并且输出序列将具有符合词汇和输入序列的长度的大小。
[0087]
图6是示例计算设备610的框图,该计算设备610可以可选地用于执行本文所述技术的一个或多个方面。例如,客户端设备可包括示例计算设备610的一个或多个方面,和/或服务器可包括示例计算设备610的一个或多个方面。计算设备610通常包括至少一个处理器614,所述至少一个处理器614经由总线子系统612与多个外围设备通信。这些外围设备可包
括存储子系统624,包括例如存储器子系统625和文件存储子系统626、用户接口输出设备620、用户接口输入设备622和网络接口子系统616。输入和输出设备允许用户与计算设备610交互。网络接口子系统616提供与外部网络的接口,并且被耦合到其他计算设备中的对应接口设备。
[0088]
用户接口输入设备622可包括:键盘,诸如鼠标、轨迹球、触摸板或图形输入板的定点设备,扫描仪,并入显示器中的触摸屏,诸如话音辨识系统、麦克风的音频输入设备,和/或其他类型的输入设备。一般而言,术语“输入设备”的使用意在包括将信息输入到计算设备610中或通信网络上的所有可能类型的设备和方式。
[0089]
用户接口输出设备620可包括显示子系统、打印机、传真机或非可视显示器,诸如音频输出设备。显示子系统可包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板设备、投影设备或用于创建可见图像的某种其他机制。显示子系统还可诸如经由音频输出设备提供非可视显示。一般而言,术语“输出设备”的使用意在包括从计算设备610向用户或另一机器或计算设备输出信息的所有可能类型的设备和方式。
[0090]
存储子系统624存储提供本文所述的模块中的一些或所有的功能性的编程和数据结构。例如,存储子系统624可包括执行图2、图3的方法和/或本文描述的其他方法的被选择的方面的逻辑。
[0091]
这些软件模块通常由处理器614独自实行或与其他处理器结合实行。存储子系统624中使用的存储器625可包括多个存储器,包括用于在程序实行期间存储指令和数据的主随机存取存储器(ram)630和其中存储固定指令的只读存储器(rom)632。文件存储子系统626可为程序和数据文件提供永久存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、cd-rom驱动器、光学驱动器或可移除介质盒。实现某些实施方式的功能性的模块可由文件存储子系统626存储在存储子系统624中,或者存储在处理器614可访问的其他机器中。
[0092]
总线子系统612提供了一种机制,用于让计算设备610的各种部件和子系统按预期彼此通信。虽然总线子系统612被示意性地示为单个总线,但是总线子系统的替代实施方式可使用多个总线。
[0093]
计算设备610可具有多种类型,包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络的不断改变的性质,图6中描绘的计算设备610的描述仅意在作为用于说明一些实施方式的目的的具体示例。计算设备610的许多其他配置可能具有比图6中描绘的计算设备更多或更少的部件。
[0094]
在本文所述的系统收集关于用户(或本文中常称为“参与者”)的个人信息或可利用个人信息的情形下,可为用户提供机会,以控制程序或特征是否收集用户信息(例如,关于用户社交网络、社交动作或活动、职业、用户偏好或用户当前地理位置的信息),或控制是否和/或如何从内容服务器接收可能与用户更相关的内容。而且,在存储或使用某些数据之前,可能会以一个或多个方式对数据进行处理,以使得移除个人可识别信息。例如,可处理用户的身份,以使得无法确定用户的个人可识别信息,或者可在获得地理位置信息的地方对用户的地理位置进行概括(诸如,到城市、邮政编码或州级),以使得无法确定用户的特定地理位置。因此,用户可以具有对如何收集和/或使用关于用户的信息的控制。
[0095]
在一些实施方式中,提供了一种由一个或多个处理器实现的方法,并且包括接收
多个模型更新、预测对。模型更新、预测对中的每一个包括:(a)至少一个对应的预测,其基于使用具有对应当前权重的机器学习模型处理对应的输入而生成;以及(b)基于至少一个梯度而生成的对应模型更新,其中该至少一个梯度是基于应用特定损失技术而生成的,并且是至少部分地基于对应的预测和对应的真实值输出而生成的。该方法进一步包括针对模型更新、预测对中的每一个:使用对应的模型更新和机器学习模型的投影输出的已知词汇,生成对应预测的重建;以及基于将重建与对应的预测进行比较而生成反映重建与对应的预测之间的符合程度的对应度量。独立于对应的预测来执行生成重建。该方法进一步包括基于模型更新、预测对的对应度量而确定是否在机器学习模型或附加机器学习模型的联邦训练中利用特定损失技术。
[0096]
该技术的这些实施方式和其他实施方式可包括以下特征中的一个或多个。
[0097]
在一些实施方式中,该方法进一步包括响应于确定在机器学习模型或附加机器学习模型的联邦训练中利用特定损失技术而:使机器学习模型或附加机器学习模型与对应指令一起本地存储在多个客户端设备上。对应的指令使客户端设备使用特定损失技术来本地生成机器学习模型或附加机器学习模型的模型更新,并且向一个或多个远程服务器传输模型更新。
[0098]
在一些实施方式中,基于对应度量而确定是否在机器学习模型或附加机器学习模型的联邦训练中利用特定损失技术包括:基于对应的度量而生成总体度量;将总体度量与阈值进行比较;以及响应于总体度量满足阈值而确定在联邦训练中利用该特定损失技术。
[0099]
在一些实施方式中,基于对应的度量而确定是否在机器学习模型或附加机器学习模型的联邦训练中利用特定损失技术包括:基于对应的度量而生成总体度量;将总体度量与替代总体度量进行比较,该替代总体度量是基于替代模型更新而生成的,具有替代对应模型更新的预测对是基于与特定损失技术不同的替代特定损失技术而生成的;以及响应于该比较而确定在联邦训练中利用该特定损失技术。在那些实施方式的一些版本中,特定损失技术是没有任何梯度修改技术的交叉熵损失,并且替代特定损失技术是具有至少一种梯度修改技术的交叉熵损失。在那些版本中的一些中,至少一种梯度修改技术包括符号梯度下降和/或自适应联邦优化。在那些实施方式中的一些其他版本中,特定损失技术是利用第一梯度修改技术(或梯度修改技术的第一组合)的交叉熵损失,而替代的特定损失技术是利用第二梯度修改技术(或梯度修改技术的第二组合)的交叉熵损失。
[0100]
在一些实施方式中,使用对应的模型更新和机器学习模型的投影输出的已知标签生成对应预测的重建包括:使用对模型更新的矩阵因子分解并使用机器学习模型的投影输出的已知词汇来生成重建。重建可包括(例如,限于)词汇重建包。重建可附加地或替代地包括有序序列重建,并且生成重建可进一步包括使用模型的对应当前权重生成有序序列重建。
[0101]
在那些实施方式的一些版本中,使用对模型更新的矩阵因子分解并使用机器学习模型的投影输出的已知词汇来生成重建包括:将模型更新分解成s
×
v正交矩阵,其中s对应于预测中的序列数目,并且其中v对应于已知词汇的大小;确定s
×
v正交矩阵中的哪些列包括分隔分类器;以及使用被确定为包括分隔分类器的列以及该列到已知词汇的映射来生成重建。在那些版本中的一些中,确定s
×
v正交矩阵中的哪些列包括分隔分类器包括:执行s
×
v正交矩阵和s
×
s可逆矩阵的点积;以及基于对从点积得到的矩阵的行的分析而确定哪
些行包括负值;以及基于与包括负值的行相对应(例如,具有相同的索引值)的列而确定列包括分隔分类器。
[0102]
在一些实施方式中,提供了一种由一个或多个处理器实现的方法,包括经由网络接收来自计算设备的请求。该请求包括多个模型更新、预测对。模型更新、预测对中的每一个包括:(a)至少一个对应的预测,其基于使用具有对应当前权重的机器学习模型处理对应的输入而生成;以及(b)基于至少一个梯度而生成的对应模型更新,其中该至少一个梯度是基于应用特定损失技术而生成的,并且是至少部分地基于对应的预测和对应的真实值输出而生成的。该方法进一步包括针对模型更新、预测对中的每一个:使用对应的模型更新和机器学习模型的投影输出的已知词汇,生成对应预测的重建;以及基于将重建与对应的预测进行比较而生成反映重建与对应的预测的符合程度的对应度量。独立于对应的预测来执行生成重建。该方法进一步包括响应于该请求,经由网络向计算设备传输模型更新、预测对的对应度量和/或基于所述对应度量的总体度量。
[0103]
在一些实施方式中,提供了一种由一个或多个处理器实现的方法,并且包括经由网络接收来自计算设备的请求。该请求包括多个模型更新。模型更新中的每一个是基于应用特定损失技术并且至少部分基于对应的预测和对应的真实值输出而生成的。对应的预测基于使用具有对应当前权重的机器学习模型来处理对应的输入而生成。该方法进一步包括针对模型更新中的每一个使用对应的模型更新和机器学习模型的投影输出的已知词汇,来生成对应预测的重建。独立于对应的预测来执行生成重建。该方法进一步包括响应于该请求而经由网络向计算设备传输对应预测的重建。
[0104]
另外,一些实施方式包括一个或多个计算设备的一个或多个处理器(例如,中央处理单元(cpu)、图形处理单元(gpu)和/或张量处理单元(tpu)),其中,所述一个或多个处理器可操作以实行在相关联的存储器中存储的指令,并且其中,指令被配置成使执行本文所述的方法中的任何一个。一些实施方式还包括存储计算机指令的一个或多个暂时性或非暂时性计算机可读存储介质,所述计算机指令可由一个或多个处理器实行以执行本文所述的方法中的任何一个。
技术特征:
1.一种由一个或多个处理器实现的方法,所述方法包括:接收多个模型更新、预测对,所述模型更新、预测对中的每一个包括:至少一个对应预测,所述至少一个对应预测是基于使用具有对应当前权重的机器学习模型处理对应输入而生成的;基于至少一个梯度而生成的对应模型更新,所述至少一个梯度是基于应用特定损失技术而生成的并且是至少部分地基于所述对应预测和对应真实值输出而生成的;针对所述模型更新、预测对中的每一个:使用所述对应模型更新和所述机器学习模型的投影输出的已知词汇,生成所述对应预测的重建,其中,生成所述重建是独立于所述对应预测来被执行的;以及基于将所述重建与所述对应预测进行比较而生成反映所述重建与所述对应预测之间的符合程度的对应度量;以及基于所述模型更新、预测对的所述对应度量而确定是否在所述机器学习模型或附加机器学习模型的联邦训练中利用所述特定损失技术。2.根据权利要求1所述的方法,进一步包括:响应于确定在所述机器学习模型或所述附加机器学习模型的联邦训练中利用所述特定损失技术而:使所述机器学习模型或所述附加机器学习模型与对应指令一起被本地存储在多个客户端设备上,所述对应指令使所述客户端设备:使用所述特定损失技术来本地生成所述机器学习模型或所述附加机器学习模型的模型更新,以及向一个或多个远程服务器传输所述模型更新。3.根据权利要求1或权利要求2所述的方法,其中,基于所述对应度量而确定是否在所述机器学习模型或附加机器学习模型的联邦训练中利用所述特定损失技术包括:基于所述对应度量而生成总体度量;将所述总体度量与阈值进行比较;以及响应于所述总体度量满足所述阈值而确定在联邦训练中利用所述特定损失技术。4.根据权利要求1或权利要求2所述的方法,其中,基于所述对应度量而确定是否在所述机器学习模型或附加机器学习模型的联邦训练中利用所述特定损失技术包括:基于所述对应度量而生成总体度量;将所述总体度量与替代总体度量进行比较,所述替代总体度量是基于替代模型更新而生成的,具有替代对应模型更新的预测对是基于与所述特定损失技术不同的替代特定损失技术而生成的;以及响应于所述比较满足一个或多个条件而确定在联邦训练中利用所述特定损失技术。5.根据权利要求4所述的方法,其中,所述特定损失技术是没有任何梯度修改技术的交叉熵损失,并且其中,所述替代特定损失技术是具有至少一种梯度修改技术的交叉熵损失。6.根据权利要求5所述的方法,其中,所述至少一种梯度修改技术包括符号梯度下降、梯度稀疏化和/或自适应联邦优化。7.根据任一前述权利要求所述的方法,其中,使用所述对应模型更新和所述机器学习模型的投影输出的已知标签来生成所述对应预测的所述重建包括:
使用对所述模型更新的矩阵因子分解并使用所述机器学习模型的投影输出的所述已知词汇生成所述重建。8.根据权利要求7所述的方法,其中,所述重建包括词汇重建包。9.根据权利要求7或权利要求8所述的方法,其中,使用对所述模型更新的矩阵因子分解并使用所述机器学习模型的投影输出的已知词汇来生成所述重建包括:将所述模型更新分解成s
×
v正交矩阵,其中,s对应于所述预测中的序列数目,并且其中,v对应于所述已知词汇的大小;确定所述s
×
v正交矩阵中的哪些列包括分隔分类器;以及使用被确定为包括所述分隔分类器的列以及所述列到所述已知词汇的映射来生成所述重建。10.根据权利要求9所述的方法,其中,确定所述s
×
v正交矩阵中的哪些列包括所述分隔分类器包括:执行所述s
×
v正交矩阵和s
×
s可逆矩阵的点积;以及基于对来自所述点积的结果矩阵的行的分析而确定哪些行包括负值;以及基于与包括所述负值的行相对应的列而确定所述列包括所述分隔分类器。11.根据权利要求7至10中任一项所述的方法,其中,所述重建包括有序序列重建,并且其中,生成所述重建进一步包括使用所述模型的所述对应当前权重来生成所述有序序列重建。12.一种由一个或多个处理器实现的方法,所述方法包括:经由网络接收来自计算设备的请求,其中,所述请求包括多个模型更新、预测对,所述模型更新、预测对中的每一个包括:至少一个对应预测,所述至少一个对应预测是基于使用具有对应当前权重的机器学习模型处理对应输入而生成的;以及基于至少一个梯度而生成的对应模型更新,所述至少一个梯度是基于应用特定损失技术而生成的并且是至少部分地基于所述对应预测和对应真实值输出而生成的;针对所述模型更新、预测对中的每一个:使用所述对应模型更新和所述机器学习模型的投影输出的已知词汇,生成所述对应预测的重建,其中,生成所述重建是独立于所述对应预测而被执行的;以及基于将所述重建与所述对应预测进行比较而生成反映所述重建与所述对应预测的符合的对应度量;响应于所述请求而经由所述网络向所述计算设备传输:所述模型更新、预测对的所述对应度量,和/或基于所述对应度量的总体度量。13.根据权利要求12所述的方法,其中,使用所述对应模型更新和所述机器学习模型的投影输出的已知标签来生成所述对应预测的所述重建包括:使用对所述模型更新的矩阵因子分解并使用所述机器学习模型的投影输出的所述已知词汇来生成所述重建。14.根据权利要求13所述的方法,其中,所述重建包括词汇重建包。15.根据权利要求13或权利要求14所述的方法,其中,所述重建包括有序序列重建,并
且其中,生成所述重建进一步包括使用所述模型的所述对应当前权重和所述词汇重建包来生成所述有序序列重建。16.根据权利要求13至15中任一项所述的方法,其中,使用对所述梯度的矩阵因子分解并使用所述机器学习模型的投影输出的已知词汇生成所述重建包括:将所述模型更新分解成s
×
v正交矩阵,其中,s对应于所述预测中的序列数目,并且其中,v对应于所述已知词汇的大小;确定所述s
×
v正交矩阵中的哪些列包括分隔分类器;以及使用被确定为包括所述分隔分类器的列以及所述列到所述已知词汇的映射来生成所述重建。17.根据权利要求16所述的方法,其中,确定所述s
×
v正交矩阵中的哪些列包括所述分隔分类器包括:执行所述s
×
v正交矩阵和s
×
s可逆矩阵的点积;以及基于对来自所述点积的结果矩阵的行的分析而确定哪些行包括负值;以及基于与包括所述负值的行相对应的列而确定所述列包括所述分隔分类器。18.一种由一个或多个处理器实现的方法,所述方法包括:经由网络接收来自计算设备的请求,其中,所述请求包括多个模型更新,其中,所述模型更新中的每一个是基于应用特定损失技术并且至少部分基于对应预测和对应真实值输出而生成的,其中,所述对应预测是基于使用具有对应当前权重的机器学习模型来处理对应输入而生成的;针对所述模型更新中的每一个:使用所述对应模型更新和所述机器学习模型的投影输出的已知词汇,生成所述对应预测的重建,其中,生成所述重建是独立于所述对应预测而被执行的;以及响应于所述请求而经由所述网络向所述计算设备传输:所述对应预测的所述重建。19.根据权利要求18所述的方法,其中,使用所述对应模型更新和所述机器学习模型的投影输出的已知标签来生成所述对应预测的所述重建包括:使用对所述模型更新的矩阵因子分解并使用所述机器学习模型的投影输出的所述已知词汇来生成所述重建。20.根据权利要求18或权利要求19所述的方法,其中,所述重建包括词汇重建包。21.根据权利要求18至20中任一项所述的方法,其中,所述重建包括有序序列重建,并且其中,生成所述重建进一步包括使用所述模型的所述对应当前权重来生成所述有序序列重建。22.根据权利要求19所述的方法,其中,使用对所述模型更新的矩阵因子分解并使用所述机器学习模型的投影输出的已知词汇来生成所述重建包括:将所述模型更新分解成s
×
v正交矩阵,其中,s对应于所述预测中的序列数目,并且其中,v对应于所述已知词汇的大小;确定所述s
×
v正交矩阵中的哪些列包括分隔分类器;以及使用被确定为包括所述分隔分类器的列以及所述列到所述已知词汇的映射来生成所述重建。
23.一种包括指令的计算机程序,所述指令当由计算系统的一个或多个处理器实行时使所述计算系统执行根据任一前述权利要求所述的方法。24.一种计算系统,所述计算系统被配置成执行根据权利要求1至22中任一项所述的方法。25.一种存储指令的计算机可读存储介质,所述指令可由计算系统的一个或多个处理器实行,以执行根据权利要求1至22中任一项所述的方法。
技术总结
实施方式涉及判定可在多大程度上从模型更新中有效地重建使用机器学习模型生成的预测,其中模型更新基于那些预测并基于应用特定损失技术(例如,特定交叉熵损失技术)而生成。所公开的一些实施方式生成度量,所述度量各自指示使用对应的模型更新生成的对应重建与对应预测之间的符合程度。在那些实施方式中的一些中,度量用于确定是否在机器学习模型和/或附加机器学习模型的联邦学习中利用该特定损失技术(用于生成模型更新)。失技术(用于生成模型更新)。失技术(用于生成模型更新)。
技术研发人员:奥姆
受保护的技术使用者:谷歌有限责任公司
技术研发日:2021.12.13
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:减振性层叠体的制作方法 下一篇:具有薄膜润滑剂的药物注射止挡件的制作方法