一种基于差分隐私的大型NLP语言模型隐私保护方法

未命名 08-02 阅读:204 评论:0

一种基于差分隐私的大型nlp语言模型隐私保护方法
技术领域
1.本发明涉及一种基于差分隐私的大型nlp语言模型隐私保护方法,属于计算机技术中的隐私保护领域,能够降低原始输入文本中敏感信息的泄露风险。


背景技术:

2.近年来,在自然语言处理领域广泛使用大型通用语言模型来进行文本特征提取,将文本转化为向量以用于各种下游建模任务,例如句子分类、问答、情感分析等,此类模型的典型代表如google的bert和openai的gpt-2。
3.然而,来自通大型用语言模型的文本嵌入会从纯文本中捕获很多敏感信息,一旦对手成功对嵌入展开攻击,这些敏感信息便面临泄露的风险。有相关研究者对nlp领域大型通用语言模型的潜在隐私风险进行了研究,利用一些先进的深度学习技术构建了模式重构攻击和关键词推断攻击两种可行的攻击方式,并在4个不同隐私关键领域的案例之上——譬如医疗保健,基因组学等对8种主流nlp语言模型展开评估,揭示了此类安全隐患在文本嵌入中确实存在。也有研究者从已有的几种攻击手段如嵌入反转攻击、属性推断攻击和成员关系推断攻击中汲取灵感,系统性地研究了可能被文本嵌入泄露的信息,并在广泛使用的词嵌入和句嵌入模型上得到了验证,以此证明文本嵌入中包含有关输入文本中确切单词的信息,而不仅仅是抽象语义。此外,还有研究表明,基于通用采样策略和评估模型排序,攻击者甚至能够实现仅使用黑盒查询访问即可从语言模型的训练集中提取一些关键信息,包括个人身份信息、irc对话、代码和128位uuid等。以上这些研究工作无不证实了对于目前主流的文本特征提取而言,敏感信息存在着潜在泄露隐患。
4.相对地,针对大型通用语言模型生成文本嵌入的隐私泄露问题,如何对这些文本嵌入实行有效的保护在近些年也有了相关的一些研究进展。其中有研究者提出了对抗训练技术,以最大限度地减少通过反演和敏感属性推断的信息泄漏。并通过实验证明了其对于减轻不同攻击手段的可行性。也有研究者通过要求所有参与者添加一个简单的加密步骤来达到防止恶意攻击者利用窃听恢复私人文本数据的目的,并在glue基准上对该方案进行了评估,以证实其有效性。除此之外,还有诸如利用经过预训练的卷积神经网络来识别与个人用户故事紧密相关的隐私相关实体并根据预先定义的隐私规则进行提醒等方法。
5.而在差分隐私领域,尽管很多研究者已经提到了利用差分隐私技术解决这一问题的可能性,但目前还没有一个相对完善的防御方法被系统地提出。因此亟需一种利用差分隐私技术来对大型nlp语言模型生成的文本嵌入实行有效保护,同时尽可能的维持该文本嵌入对于下游建模任务的可用性。


技术实现要素:

6.本技术的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本技术的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
7.针对现有技术中存在的问题与不足,本发明目的在于提供一种基于差分隐私的大型nlp语言模型隐私保护方法,本方法基于差分隐私机制实现,将大型nlp通用语言模型提取出的文本特征向量进行扰动,保证加噪之后的文本特征向量对于下游建模任务的可用性,同时能够抵御恶意攻击者的敏感词推断攻击,从而降低敏感信息泄露的风险。以解决上述背景技术中提出的问题。
8.为实现上述目的,本发明提供如下技术方案:
9.本发明公开一种基于差分隐私的大型nlp语言模型隐私保护方法,包括如下步骤:
10.步骤1,对待输入语言模型的原始文本数据集作敏感词汇替换,去除所述原始文本数据集中与分类任务无关的敏感词汇;
11.步骤2,基于bert模型的mask机制结合聚类方法获取需要替换敏感词汇的备选词汇,并计算由nlp语言模型生成文本嵌入中每一维的敏感度;
12.步骤3,根据逐层相关性传播算法生成所述文本嵌入中每一维对下游建模任务输出结果的相关性;
13.步骤4,确定可允许的最大隐私消耗阈值,基于敏感度和相关性计算所述文本嵌入中每一维的可分配隐私预算;
14.步骤5,利用差分隐私的拉普拉斯机制为所述文本嵌入加噪;
15.步骤6,将添噪后带有噪声的所述文本嵌入进行发布,以用于下游建模任务场景。
16.进一步的,在步骤1中对待输入所述语言模型的原始文本数据集做敏感词汇替换,而所述敏感词汇替换可分为以下两种情况:
17.若所述敏感词汇只与用户本身隐私相关且对下游建模任务的输出影响较小时,则在通过所述npl语言模型生成文本嵌入之前就更换为其他不影响语句语义通顺的词汇;若所述敏感词汇同时与用户本身隐私和下游建模任务的输出均有关时,则采用步骤2选取所述备选词汇用于更换所述敏感词汇的替换词集。
18.进一步的,在步骤2中基于bert模型的mask机制结合聚类方法获取需要替换敏感词汇的备选词汇,并计算由nlp语言模型生成文本嵌入中每一维的敏感度,其具体步骤包括有:
19.步骤2.1,将所述原始文本数据集中的部分敏感词汇组成masked文本数据集
20.步骤2.2,使用所述masked文本数据集训练敏感词选取模型;
21.步骤2.3,将所述敏感词选取模型对原始文本数据集的每条输入语句选取敏感词汇,并进行mask处理后得到masked文本数据集sm;
22.步骤2.4,微调nlp语言模型,对所述masked文本数据集sm中所有词汇进行预测,同时生成若干新句子而组成新语句集s
p

23.步骤2.5,针对所述新语句集s
p
进行k-medoid聚类算法,然后针对所述原始文本数据集中敏感词汇的类别计算敏感度δf。
24.进一步的,在步骤2.5中针对所述新语句集s
p
进行k-medoid聚类算法,然后针对所述原始文本数据集中敏感词汇的类别计算敏感度δf,具体包括如下步骤:
25.步骤2.5.1,对所述新语句集s
p
的句向量进行k-medoid聚类算法,用于使所述原始文本数据集中敏感词汇在其对应的类别当中对于攻击者而言不可区分;
26.步骤2.5.2,计算所述原始文本数据集中输入语句通过所述nlp语言模型生成文本
嵌入中每一维的敏感度,以及可替换词汇范围内的敏感度上下限。
27.进一步的,步骤3中根据逐层相关性传播算法解释生成所述文本嵌入中每一维对下游建模任务输出结果的相关性,根据所述逐层相关性传播算法的反向传播规则为在反向到达输入节点后传播过程即终止,就可以得到输入中每一维度对于下游任务输出的相关性分数,表示为
[0028][0029]
其中,z
jk
为神经元j乘以神经元j与神经元k之间的权重,∑j为神经元j这一层所有神经元之和,rk为神经元k对于模型输出结果的相关性分数,∑k为神经元k这一层所有神经元之和。
[0030]
进一步的,在步骤4中的所述可分配隐私预算的计算公式表示为,
[0031][0032]
其中,p为规定置信度,wc为噪声区间,δf为所述敏感度。
[0033]
进一步的,所述可分配隐私预算的计算中使用的噪声区间wc采用为根据所述相关性分数和敏感度进行调整,而所述噪声区间wc可表示为,
[0034][0035]
其中,r为所述相关性分数,δf为所述敏感度。
[0036]
进一步的,步骤5中通利用所述拉普拉斯机制为所述文本嵌入加噪,为对于句向量的每一维度添加符合拉普拉斯分布的噪声,添加的所述噪声需满足
[0037][0038]
其中,δf为所述敏感度,∈为所述可分配隐私预算,λ为尺度参数。
[0039]
与现有技术相比,本发明的有益效果为:
[0040]
本发明基于差分隐私技术开展对文本嵌入的隐私保护研究,主要包括三个部分,其中第一个部分为寻找原始文本数据集中需要的替换敏感词汇集以及敏感度的计算,第二个部分是获取文本嵌入中各维度对于下游输出结果的相关性分数,第三个部分则是结合相关性分数与敏感度,对生成文本嵌入进行基于差分隐私的拉普拉斯机制执行加噪处理,扰动后的文本嵌入可以输送到各类下游任务模型以完成服务。本发明基于差分隐私的拉普拉斯机制实现,将大型nlp通用语言模型提取出的文本特征向量进行扰动,保证加噪之后的文本嵌入在通过下游建模任务后仍然能达到不错的精度,以及文本特征向量对于下游建模任务的可用性,同时能够抵御恶意攻击者的敏感词恶意攻击的可能性,从而降低敏感信息泄露的风险。
附图说明
[0041]
构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。
[0042]
在附图中:
[0043]
图1:为本发明实施例中整体架构的结构示意图;
[0044]
图2:为本发明实施例中整体的步骤流程框图;
[0045]
图3:为本发明实施例中获取备选词汇和敏感度计算的结构示意图;
[0046]
图4:为本发明实施例中获取备选词汇和敏感度计算的步骤流程框图;
[0047]
图5:为本发明实施例中逐层相关性传播算法执行的结构示意图;
[0048]
图6:为本发明实施例中差分隐私的拉普拉斯机制为文本嵌入加噪的结构示意图。
具体实施方式
[0049]
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0050]
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0051]
本发明公开了一种基于差分隐私的大型nlp语言模型隐私保护方法,下面将参考附图并结合实施例来详细说明本公开。
[0052]
参照图1至图2所示,本发明主要包括以下步骤:
[0053]
步骤1,对待输入语言模型的原始文本数据集做敏感词替换,去除原始文本数据集中与分类任务无关的敏感词汇;
[0054]
步骤2,基于bert模型的mask机制结合聚类方法获取需要替换敏感词汇的备选词汇,并计算由nlp语言模型生成文本嵌入中每一维的敏感度;
[0055]
步骤3,根据逐层相关性传播算法解释生成文本嵌入中每一维对下游建模任务输出结果的相关性;
[0056]
步骤4,确定可允许的最大隐私消耗阈值,基于敏感度和相关性计算文本嵌入中每一维的分配隐私预算;
[0057]
步骤5,利用差分隐私的拉普拉斯机制为所述文本嵌入加噪;
[0058]
步骤6,将添噪后带有噪声的文本嵌入进行发布,用于下游建模任务场景。
[0059]
具体而言,本发明总体可以分为三个部分。第一个部分是寻找原始文本数据集中需要的替换敏感词汇集以及敏感度的计算,第二个部分是获取文本嵌入中各维度对于下游输出结果的相关性分数,第三个部分是结合相关性分数与敏感度,对生成文本嵌入进行基于差分隐私的拉普拉斯机制执行加噪处理,扰动后的文本嵌入可以输送到各类下游任务模型以完成服务。
[0060]
通常在nlp语言模型生成文本嵌入用于各类下游任务的场景下,下游服务提供者可能是半诚实的。因其试图从文本向量中推导出一些有用的信息,譬如身体部位、住址、年龄等用户个人的敏感信息。正是为了防止这种隐私泄露,本发明中基于差分隐私技术来对生成的文本嵌入实行保护,可使其在满足下游任务可用性的同时,能够在一定程度上抵御潜在攻击者的敏感信息推断攻击。考虑到通过bert模型等大型nlp通用语言模型产生的句向量往往维度很高,如果要保持扰动过后的句向量对下游任务仍然具有较高的可用性,那么直接根据相邻语句计算出敏感度再加入噪声的方法会导致过大的隐私消耗,这在实际应用场景下是难以接受的。为了尽可能在可用性与安全性之间实现权衡,我们需要找出句向
量中那些对下游任务输出结果贡献程度相对更大的维度,有选择性的给这些维度分配更多的隐私预算,即添加更少的扰动,反之则亦然。
[0061]
在步骤1中对待输入语言模型的原始文本数据集做敏感词汇替换,敏感词汇替换可分为以下两种情况:若敏感词汇只与用户本身隐私相关且对下游建模任务的输出影响较小时,则在通过npl语言模型生成文本嵌入之前就更换为其他不影响语句语义通顺的词汇;若敏感词汇同时与用户本身隐私和下游建模任务的输出均有关时,则采用步骤2选取备选词汇用于更换敏感词汇的替换词集。
[0062]
具体而言,对于寻找敏感词汇的一组可替换词汇,不能简单的进行随机替换。譬如将字典里的所有单词作为备选词汇,这样就会导致敏感度太大,需要添加的扰动也过大,最后输入到下游任务模型的文本嵌入就会具有很差的可用性。同理,可替换词汇过小则会影响隐私保护效果,因此需要从两种不同情形来进行综合考虑。
[0063]
若敏感词汇只与用户本身的隐私相关,而对下游建模任务的输出影响很小,那么可以考虑在通过nlp语言模型生成文本嵌入之前就将其替换掉,更改为其他不影响语句语义通顺的词汇,从而抹去不安全的隐私泄露隐患。譬如在某航空公司评论集中,其下游服务是对这些评论文本进行好恶分类。而我们关心的敏感词汇则大多集中在评论中提到的用户居住地址等私人信息,并非与具体分类相关的情绪类词汇。
[0064]
若敏感词汇不但与用户个人隐私相关,也与下游建模任务的输出有关,那么就不能够通过简单随机替换来实行保护。譬如对于一个医疗导诊系统,用户上传自己的症状描述到本地nlp语言模型,生成的文本嵌入再通过第三方提供的医疗导诊服务器进行分类,以此指示用户应该挂什么科室。在此场景下,下游任务密切依赖于用户上传的症状描述中那些与具体身体部位相关的词汇。而这些词汇又往往又被视为敏感词汇,是不希望被攻击者通过文本嵌入推测出来的。对于这种情形可以通过微调bert模型,利用其mask机制遮盖掉那些待保护的敏感词汇并对该位置预测填入新词汇,从而生成若干相邻句子。再结合聚类方法对这些新句子向量进行聚类分析,选择topk个备选词汇作为该敏感词汇的可替换词汇,即为步骤2。
[0065]
参照图3至图4所示,在步骤2中基于bert模型的mask机制结合聚类方法获取需要替换敏感词汇的备选词汇,并计算由nlp语言模型生成文本嵌入中每一维的敏感度,其具体步骤包括有:
[0066]
步骤2.1,将原始文本数据集中的部分敏感词汇组成masked文本数据集
[0067]
步骤2.2,使用masked文本数据集训练敏感词选取模型;
[0068]
步骤2.3,将敏感词选取模型对原始文本数据集的每条输入语句选取敏感词汇,并进行mask处理后得到masked文本数据集sm;
[0069]
步骤2.4,微调nlp语言模型,对masked文本数据集sm中所有词汇进行预测,同时生成若干新句子而组成新语句集s
p

[0070]
步骤2.5,针对新语句集s
p
进行k-medoid聚类算法,然后针对原始文本数据集中敏感词汇的类别计算敏感度δf。
[0071]
具体而言,通过人工手动选取一些主观上最容易泄露用户隐私且与下游建模任务相关程度较高的词汇,形成一个小型的masked文本数据集之后根据此用户隐私和与下游建模任务相关程度较高的词汇数据集训练一个敏感词选取模型。用得到的敏感词选取模
型对原始文本数据集的每条输入语句进行敏感词汇选取和mask处理,得到更大量级的masked文本数据集sm。接着微调一个nlp语言模型,对masked文本数据集sm中所有被mask的单词进行预测得到该词汇的一组备选词汇,并同时生成若干新句子生成新语句集s
p

[0072]
进一步而言,在步骤2.5中针对新语句集s
p
进行k-medoid聚类算法,然后针对原始文本数据集中敏感词汇的类别计算敏感度δf,具体包括如下步骤:
[0073]
步骤2.5.1,对新语句集s
p
的句向量进行k-medoid聚类算法,用于使原始文本数据集中敏感词汇在其对应的类别当中对于攻击者而言不可区分;
[0074]
步骤2.5.2,计算原始文本数据集中输入语句通过nlp语言模型生成文本嵌入中每一维的敏感度,以及可替换词汇范围内的敏感度上下限。
[0075]
参照图5所示,步骤3中根据逐层相关性传播算法生成文本嵌入中每一维对下游建模任务输出结果的相关性。具体而言,逐层相关性传播算法也即lrp算法。lrp算法是一种将可解释性融入深度学习神经网络的技术,通过在神经网络中进行反向传播来识别输入当中哪些像素对于输出结果更重要。因而在本发明当中,我们利用lrp算法来分析大型nlp通用语言模型生成的文本嵌入中哪些维度对于下游任务输出结果的贡献程度大。图5便展示了lrp算法的主要思想,lrp算法实现的传播过程遵循守恒性质,即神经元接收到的必须以相等的数量重新分配到较低的层。满足f(x)=

=∑
krk
=∑
jrj


=∑1r1,其中rj代表神经元j对于模型输出结果的贡献程度,也就是相关性分数,∑j为神经元j这一层所有神经元之和,rk代表神经元j对于模型输出结果的相关性分数,r1则代表第一个神经元对于模型输出结果的相关性分数。
[0076]
若用z
jk
代表神经元j乘以神经元j与神经元k之间的权重,即z
jk
=xjw
jk
。那么神经元k的向量便可以表示为上一层所有神经元到神经元k的z
jk
之和(即∑jz
jk
)加上bias偏置,即zk=∑jz
jk
+bj,再经过激活函数g处理后得到下一层神经元xk,即xk=g(zk)。由于根据反向传播遵循守恒性质,在反向到达输入节点后传播过程终止,我们就可以得到输入中每一维度对于下游任务输出的相关性分数,表示为
[0077][0078]
其中,z
jk
为神经元j乘以神经元j与神经元k之间的权重,∑j为神经元j这一层所有神经元之和,rk为神经元k对于模型输出结果的相关性分数,∑k为神经元k这一层所有神经元之和,rj为神经元j对于模型输出结果的相关性分数。
[0079]
我们经过步骤2和步骤3分别能够得到文本嵌入每一维度的敏感度与相关性,但由于逐层相关性传播算法需要已知下游任务的输出结果f(x)。考虑到实际应用场景,在输入下游任务模型之前无法预先获取输出结果,所以这里根据lrp算法和下游建模训练了一个回归模型,用于根据文本嵌入预测相关性分数。
[0080]
考虑拉普拉斯累积分布函数其中μ是位置参数,λ》0是尺度参数。现假设μ为某真值c,加入噪声n=
±
wc,其中w》0是比率参数,则实际值概率落在拉普拉斯分布区间[c

wc,c+wc],p为规定置信度,可以得出
[0081][0082]
而对于拉普拉斯分布机制lap(μ,λ),敏感度δf与隐私预算∈之间需满足关系δf
=λ∈。然而同时为了保证数据的可用性,我们希望添加的噪声期望为0,即实际噪声符合结合上式可以推导出可分配隐私预算的计算公式为:
[0083][0084]
根据相关性分数和敏感度调整噪声区间wc,以及需要确定在不超过规定最大隐私消耗阈值∈
max
的前提下,使得文本嵌入可用性尽可能高的非线性关系式,其中简单表示形式如:
[0085][0086]
其中,系数a与系数b的值可通过绘制模型评估指标如auc与a和b的关系曲线来进行固定,选取使得auc尽可能高的a与b。对于相关性分数r,r的值越大表示该维度对于模型输出的贡献程度越大。为了保证可用性,应该添加更少的扰动,即噪声区间wc越窄,∈越大。对于敏感度δf,它反映改变该维度导致模型输出产生变化的最大值,在关系式中主要起对相关性接近的两个维度进行进一步调整的作用。二者中相关性分数r应对噪声区间wc的收缩起主导作用,并同时通过δf对其进行微调。
[0087]
需注意的是,此非线性关系式的表示形式并不固定,应对于不同应用场景进行调整。例如当模型评估指标与a和b的关系曲线变化较为平缓时,可对关系式中的r或者δf进行指数次方的运算,如r
1.5
。确定此非线性关系式的表现形式后,可通过可分配隐私预算∈的计算公式得出句向量中各个维度可分配的隐私预算大小。
[0088]
在确定每一维度可分配的隐私预算后,最后通过基于差分隐私的拉普拉斯机制对句向量进行差分隐私加噪处理,也即对于句向量的每一维度。为其添加符合拉普拉斯分布的噪声,需满足的噪声,需满足其中,δf为敏感度,∈为可分配隐私预算,λ》0为尺度参数。将添噪后带有噪声的文本嵌入进行发布,用于下游建模任务场景。
[0089]
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术特征:
1.一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在于,包括如下步骤:步骤1,对待输入语言模型的原始文本数据集作敏感词汇替换,去除所述原始文本数据集中与分类任务无关的敏感词汇;步骤2,基于bert模型的mask机制结合聚类方法获取需要替换敏感词汇的备选词汇,并计算由nlp语言模型生成文本嵌入中每一维的敏感度;步骤3,根据逐层相关性传播算法生成所述文本嵌入中每一维对下游建模任务输出结果的相关性;步骤4,确定可允许的最大隐私消耗阈值,基于敏感度和相关性计算所述文本嵌入中每一维的可分配隐私预算;步骤5,利用差分隐私的拉普拉斯机制为所述文本嵌入加噪;步骤6,将添噪后带有噪声的所述文本嵌入进行发布,以用于下游建模任务场景。2.根据权利要求1所述的一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在于:在步骤1中对待输入所述语言模型的原始文本数据集做敏感词汇替换,而所述敏感词汇替换可分为以下两种情况:若所述敏感词汇只与用户本身隐私相关且对下游建模任务的输出影响较小时,则在通过所述npl语言模型生成文本嵌入之前就更换为其他不影响语句语义通顺的词汇;若所述敏感词汇同时与用户本身隐私和下游建模任务的输出均有关时,则采用步骤2选取所述备选词汇用于更换所述敏感词汇的替换词集。3.根据权利要求2所述的一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在于,在步骤2中基于bert模型的mask机制结合聚类方法获取需要替换敏感词汇的备选词汇,并计算由nlp语言模型生成文本嵌入中每一维的敏感度,其具体步骤包括有:步骤2.1,将所述原始文本数据集中的部分敏感词汇组成masked文本数据集步骤2.2,使用所述masked文本数据集训练敏感词选取模型;步骤2.3,将所述敏感词选取模型对原始文本数据集的每条输入语句选取敏感词汇,并进行mask处理后得到masked文本数据集s
m
;步骤2.4,微调nlp语言模型,对所述masked文本数据集s
m
中所有词汇进行预测,同时生成若干新句子而组成新语句集s
p
;步骤2.5,针对所述新语句集s
p
进行k-medoid聚类算法,然后针对所述原始文本数据集中敏感词汇的类别计算敏感度δf。4.根据权利要求3所述的一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在于,在步骤2.5中针对所述新语句集s
p
进行k-medoid聚类算法,然后针对所述原始文本数据集中敏感词汇的类别计算敏感度δf,具体包括如下步骤:步骤2.5.1,对所述新语句集s
p
的句向量进行k-medoid聚类算法,用于使所述原始文本数据集中敏感词汇在其对应的类别当中对于攻击者而言不可区分;步骤2.5.2,计算所述原始文本数据集中输入语句通过所述nlp语言模型生成文本嵌入中每一维的敏感度,以及可替换词汇范围内的敏感度上下限。5.根据权利要求4所述的一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在于:
步骤3中根据逐层相关性传播算法解释生成所述文本嵌入中每一维对下游建模任务输出结果的相关性,根据所述逐层相关性传播算法的反向传播规则为在反向到达输入节点后传播过程即终止,就可以得到输入中每一维度对于下游任务输出的相关性分数,表示为其中,z
jk
为神经元j乘以神经元j与神经元k之间的权重,∑
j
为神经元j这一层所有神经元之和,r
k
为神经元k对于模型输出结果的相关性分数,∑
k
为神经元k这一层所有神经元之和。6.根据权利要求5所述的一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在于:在步骤4中的所述可分配隐私预算的计算公式表示为,其中,p为规定置信度,wc为噪声区间,δf为所述敏感度。7.根据权利要求6所述的一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在在于:所述可分配隐私预算的计算中使用的噪声区间wc采用为根据所述相关性分数和敏感度进行调整,而所述噪声区间wc可表示为,其中,r为所述相关性分数,δf为所述敏感度。8.根据权利要求6所述的一种基于差分隐私的大型nlp语言模型隐私保护方法,其特征在于:步骤5中通利用所述拉普拉斯机制为所述文本嵌入加噪,为对于句向量的每一维度添加符合拉普拉斯分布的噪声,添加的所述噪声需满足其中,δf为所述敏感度,∈为所述可分配隐私预算,λ为尺度参数。

技术总结
本发明公开一种基于差分隐私的大型NLP语言模型隐私保护方法,通过对待输入语言模型的原始文本数据集作敏感词替换,去除原始文本数据集中与分类任务无关的敏感词汇。基于Bert模型的MASK机制结合聚类方法获取需要替换敏感词汇的备选词汇,并计算由NLP语言模型生成文本嵌入中每一维的敏感度。根据逐层相关性传播算法解释生成文本嵌入中每一维对下游建模任务输出结果的相关性。确定可允许的最大隐私消耗阈值,基于敏感度和相关性计算文本嵌入中每一维的可分配隐私预算。利用拉普拉斯机制为文本嵌入加噪;将添噪后带有噪声的文本嵌入进行发布,用于下游建模任务场景,用于抵御恶意攻击者的敏感词推断攻击,从而降低敏感信息泄露的风险。的风险。的风险。


技术研发人员:王婉琪 洪潇天 华景煜
受保护的技术使用者:南京大学
技术研发日:2023.04.06
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐