一种基于迭代筛选与随机掩码学习的模型安全迁移方法

未命名 10-08 阅读:139 评论:0


1.本发明涉及信息安全技术领域,具体涉及一种基于迭代筛选与随机掩码学习的模型安全迁移方法。


背景技术:

2.深度学习领域研究的不断深入,给应用端的人工智能生态带来了强劲的活力,更多地研究与使用深度学习模型在当前的各行各业都是一个显著的趋势。随着大模型的不断发展,由大型公司在大型基础设施上针对大规模数据集耗费大量时间、人力、物力训练出一个大型模型并进行相关优化与微调的模式逐渐成为主流(radford a,wu j,child r,et al.language models are unsupervised multitask learners[j].openai blog,2019,1(8):9.)。但大型公司出于商业原因,往往不会开源其所训练模型的具体参数、数据集甚至训练方法细节(openai.“gpt-4technical report.”arxiv abs/2303.08774(2023):n.pag.),使得其余研究人员难以跟进研究。
[0003]
相比于大型公司,普通科研工作者与小型研究单位不具备强力的计算设备资源,没有大量的研发人员支撑优化,同样也不持有大规模数据集,因此,其研究通常只能在相对较小规模的水平上进行。为提高小规模模型的性能,基于预训练模型的知识蒸馏(hinton g,vinyals o,dean j.distilling the knowledge in a neural network[j].arxiv preprint arxiv:1503.02531,2015.)与迁移技术可以有效提高小型模型的精度、泛化性,同时可将大规模模型的部分能力弱化迁移到小规模模型中进行研究应用工作。
[0004]
然而,互联网上发布的预训练模型由于训练数据集、训练方法、模型参数等信息的不透明,存在被恶意攻击的可能性。基于人工智能模型的特殊性,通过预训练模型可执行的攻击方式主要是后门攻击,即通过在广域数据集内注入后门、修改训练过程或修改权重的方式在正常模型权重内注入针对后门攻击触发器模式的响应权重(yao y,li h,zheng h,et al.latent backdoor attacks on deep neural networks[c]//proceedings of the 2019acm sigsac conference on computer and communications security(ccs 2019).2019:2041-2055.)。被注入后门触发器的预训练模型在遇到与触发器相同或相似的输入模式时,模型将可能产生攻击者预定的行为,如性能下降、有目的的损坏或者错误决策。
[0005]
对深度学习模型进行知识蒸馏或迁移的过程会将部分触发器模式也迁移到被训练的模型当中,从而对小规模研究也造成严重威胁。为抵抗出现在预训练模型中的后门攻击,学术界的应用改进的知识蒸馏范式对后门进行处理(li y,lyu x,koren n,et al.neural attention distillation:erasing backdoor triggers from deep neural networks[c]//international conference on learning representations.),其技术方案是对模型使用少量干净数据集进行微调后作为教师模型,再次对原模型进行知识蒸馏,从而利用微调带来的教师模型净化效果反向对原模型进行调整以去除更多的后门触发器。这类方案在研究当中都是针对相对较小的模型进行,即目的是去除模型本身的后门,不适用于将极大的模型迁移到小型模型中的方案,大模型本身即难以多次推理,且这种方案由
于是直接对像素点进行模仿学习,去除后门不彻底(shen l,ji s,zhang x,et al.backdoor pre-trained models can transfer to all[c]//proceedings of the 2021acm sigsac conference on computer and communications security(ccs 2021).2021:3141-3158.),而再次蒸馏的过程会导致原模型精度降低。
[0006]
由于深度学习权重天然的具有稀疏性,语义信息在不同通道之间的分布并不均匀(han s,pool j,tran j,et al.learning both weights and connections for efficient neural network[j].advances in neural information processing systems(nips),2015,28.),因此使用具备强语义信息的通道进行信息传递可以在最大限度保留语义信息的同时,减少在其他通道的恶意信息传递的可能性,通过部分筛选机制,可进一步加强该效果。
[0007]
由于知识蒸馏教师模型相对于学生模型往往具有压倒性的参数量优势,过拟合出现的可能性较大,在模型学习的过程中,适度执行正则过程可有助于减少此类现象发生(krizhevsky a,sutskever i,hinton g e.imagenet classification with deep convolutional neural networks[j].communications of the acm,2017,60(6):84-90.)。通过随机掩码形式匹配被屏蔽部分通道的教师网络进行学习恰好可以起到正则的作用,同时,在不同轮次的训练过程中切换被随机掩码覆盖的通道,可起到在全通道学习强语义通道的作用,从而提高精度。


技术实现要素:

[0008]
针对现有技术中存在的问题,本发明的目的在于提供一种基于迭代筛选与随机掩码学习的模型安全迁移方法,使用该方法可以高效地获得抗扰动性强且可抵抗迁移过拟合问题的安全子模型,具体解决思路为:
[0009]
1.针对神经网络模型天然存在的语义稀疏问题,本发明提出通道语义强化方法,对预训练模型不同阶层内不同通道的特征图进行分析,确定其各自所具备的语义信息强度以及对最终输出的贡献能力,从而强化具备有效语义的通道,弱化无效语义或负面语义的通道,从而提高蒸馏迁移过程效率;
[0010]
2.针对神经网络模型不同通道特征图之间存在的抵抗后门攻击扰动能力差异问题,本发明提出基于扰动参数的特征图通道稳定性分析筛选算法,使用该算法可获取具备强抗干扰能力的特征图通道,使用强稳定性通道通道执行学习过程可获得具备强安全性的蒸馏迁移模型;
[0011]
3.针对大型预训练模型中天然存在的过拟合问题,本发明提出使用随即掩码对通道进行随机遮蔽学习,该随机遮蔽过程可起到正则作用,同时可结合前述对预训练模型特征通道的筛选强化措施使得待训练模型始终学习强语义信息并避免持续对不安全信息进行学习,并在一定训练次数后进行通道更替以完整训练待训练模型各通道获取具备强能力的蒸馏迁移模型。
[0012]
为实现以上目的,本发明通过以下技术方案予以实现:基于迭代筛选强化与随机掩码正则学习的神经网络模型安全迁移方法,包括以下步骤:
[0013]
(1)挑选并初始化在目标应用任务所属上级应用任务对应的大型模型作为教师模型m
tea
,下载并使用公共平台存储的预训练模型权重覆盖教师模型m
tea
的参数权值,覆盖完
成后固定参数权重,挑选并初始化输出阶层数与m
tea
一致的小型模型或与m
tea
一致的模型作为学生模型m
stu
,初始化用于m
stu
场景的不含恶意样本的安全目标数据集,在对其进行必要的预处理后,创建数据集加载器;
[0014]
例如当目标应用任务为密集小目标检测任务或多实例小目标分割等计算机视觉下游任务时,所属上级应用任务一般为图像分类任务,此时所称的大型模型可指basic-l、vit-e等使用大规模数据集执行训练并具备大量参数量的图像分类神经网络模型;
[0015]
(2)取包含指定数量的目标数据集输入样本,将其输入m
tea
中,对其在各阶层的输出特征图集合feats
tea
各自在每一层输出上使用自注意力机制计算特征图内部关联权重,并使用全局平均池化globalaveragepooling获取每层特征图不同通道的激活特征值均值,标记h
ilk
为训练样本i中间层级l对应的特征图的通道k的激活特征值均值,然后针对每一中间层级l,根据该多个训练样本该中间层级l对应的特征图的每一通道k的激活特征值均值进行样本级平均,获取该中间层级l对应的特征图每一通道k的全局平均响应强度h
lk
,如果h
ilk
低于h
lk
则将训练样本i中间层级l对应的特征图的通道k标记channel
low
,否则标记为channel
high

[0016]
(3)初始化扰动参数集合σ,用于对m
tea
每一中间层l输出值进行扰动,该扰动值是可训练的参数,其中每一层l的扰动参数σ
l
将拟合当前层l被扰动特征的分布,拟合方式为利用kl散度对扰动参数σ
l
与对应层的特征图进行分布拟合,拟合损失标记为初始化高斯分布变量ε,随机采样ε乘以扰动参数σ
l
以采样扰动;
[0017]
(4)对m
tea
第l层级的特征图feats
tea
[l]添加在对应层采样的扰动参数σ
l
,将扰动后的特征图放回到m
tea
内原本层级继续推理;其中利用第l层扰动后的特征图feats
tea
[l]完成目标应用任务推理获取最终受攻击的模型输出与目标应用数据集内的样本真值标签求取原目标任务损失计算该损失的目的是通过降低该损失保持扰动后模型产生的输出不变,结合拟合数据分布损失获取针对中间层级l的总损失值并回传梯度以对l层的扰动参数σ
l
,训练指定的迭代次数即停止训练,对m
tea
每一层级输出执行上述训练,获取训练完成后的由各层扰动参数σ
l
组成的扰动参数集合σ;其中,第l层的总损失为利用中间层级l的扰动参数σ
l
对该中间层级l对应的特征图feats
tea
[l]进行扰动,并计算扰动前后的扰动损失教师模型m
tea
利用训练样本i对应的扰动后的特征图feats
tea
[l]完成目标应用任务推理得到输出根据与训练样本i对应的标签计算该中间层级l对应的任务损失根据该训练样本i对应的扰动损失任务损失计算该中间层级l对应的损失值对扰动参数σ
l
进行优化;
[0018]
(5)各层训练出的扰动参数σ
l
,可认为是在维持输出不变的目标的前提下不同通道可承受的最大扰动,层级扰动参数σ
l
中通道k的激活特征值均值的方差值大于其训练时对应的数据样本对应通道激活值的方差值的,认定为安全稳定通道,标记为channel
robust
,否则认定该通道k为不安全稳定通道并标记为channel
non-robust

[0019]
(6)结合步骤(2)与步骤(5)产出对通道进行筛选强化,其中,对同时满足channel
high
与channel
robust
的通道赋予一个常规通道两倍高计算权值,该权值在后续计算损失的过程中将更大的影响学生模型m
stu
,以此进行强化,对同时满足channel
low

channel
non-robust
的通道利用掩码掩盖这些通道以在后续的学习中进行删除,剩余通道使用步骤(2)中产生的响应强度的通道均值作为各通道加权参数channel
weight

[0020]
(7)将目标数据集分别输入到教师模型和学生模型当中,在各个相同阶段的中间层级上获取特征图,产生教师特征图集合feats
tea
与学生特征图集合feats
stu
,以及最终输出的概率分布logits
tea
与logits
stu

[0021]
(8)对feats
tea
各通道按照步骤(6)获取到的通道处理参数进行处理,即基于channel
high
与channel
robust
的强化参数、基于channel
low
与channel
non-robust
的掩码参数与各通道加权参数channel
weight
,对feats
stu
各层级输出按照被删除的feats
tea
[l]的通道总数d,使用随机掩码屏蔽对应数量d的通道,对去掉被掩码屏蔽后部分通道后的feats
tea
与feats
stu
剩余的未被掩码屏蔽通道计算均方差损失loss
distill
,结合logits
stu
计算目标任务损失对loss
distill
与加权求和后回传损失梯度对学生模型m
stu
进行训练,在完成指定次数的训练后重新随机通道掩码,直至m
stu
收敛或训练完成,训练完成后获得的模型m
stu
即是将大型模型m
tea
安全的迁移后产生的安全模型。
[0022]
进一步地,所述步骤(1)中既定模型的预训练模型的下载平台选择开源或商业的预训练模型权重提供平台,但对于其训练数据源、训练方法、训练参数,视为不可信来源的模型权重进行后续处理;
[0023]
所述学生模型m
stu
在模型能力上等于或弱于教师模型m
tea
;所述目标数据集是指用户需要将预训练模型迁移到的目标应用任务的数据集;所述预处理步骤是指针对数据集进行的包括标准化、去噪声、数据增强等手段对数据集进行训练使用前处理的操作。
[0024]
进一步地,所述步骤(2)中特征图集合feats
tea
是深度学习模型处理流程中,有较为明显的可复用范式,提取每一个可复用范式的最终输出作为一层的输出以形成集合;
[0025]
所述内部关联权重是指对特征图计算自身数据内的关联关系,其计算过程是由特征图转置相乘后计算概率分布,用概率分布乘特征图本身获得加权后的特征图,其计算公式如下所示:
[0026][0027]
其中,feat是参与计算加权权重的特征图,上标t表示对其所包含的参数执行矩阵转置操作,k则是特征图的通道数,softmax是在指定通道上对特征值进行归一化获取通道内的各个参数的概率占比的函数。
[0028]
获得加权特征图后,使用globalaveragepooling获取每通道的激活均值,是指对每个样本输出中每个通道内的全部数据求均值,可从通道层面代表语义信息的集中程度,对该结果再针对样本求取均值则可以获得模型对数据集的语义理解分布情况,从所求得的均值的响应强度即可判断语义强度。
[0029]
进一步地,所述步骤(3)中的扰动参数σ被初始化为0值,在训练过程中将会拟合被扰动数据本身,其拟合目标函数公式如下所示:
[0030][0031]
其中x是输入数据,f
l
()是到l层为止前面的神经网络层算子,f
l
(x)即是feats
tea
[l],p和q分别是表示特征图的分布与扰动参数的分布的代号,d
kl
是kullback-leible散度相互熵目标函数,其公式如下:
[0032][0033]
所述高斯分布变量ε是服从分布的变量,该变量在每次使用时随机获得采样数据参与计算。
[0034]
进一步地,所述步骤(4)中添加扰动后继续执行m
tea
的流程中,扰动信息由σ
l
与ε联合给出,其公式如下所示:
[0035][0036]
其中l是m
tea
特征图阶段总数,f
l

output
是从l层之后到最终输出之间的全部神经网络算子。
[0037]
所述求取原目标任务损失是指用户需求迁移的目标任务的损失loss
custom
,所述结合损失是指加权求和,其公式如下:
[0038][0039]
其中α
l
、β
l
是控制第l层损失权重的参数。
[0040]
进一步地,所述步骤(5)中,由于扰动参数σ
l
在训练过程中被要求在增大其自身信息量的同时,减少对最终输出的影响,训练结束后,该扰动参数σ
l
即代表其扰动对应位置最大可承受扰动,channel
robust
的索引计算公式如下:
[0041][0042]
其中var()是方差,max()是求最大值,1()表示满足条件则置1,k表示通道的索引,标识第l层的扰动参数的第k个通道的平方值,由于扰动参数没有横竖变量,可视为方差,相对的没有被置为1的即为不稳定通道,被置0标记为channel
non-robust

[0043]
进一步地,所述步骤(6)中的强化操作是指在计算与被强化通道相关的损失时,赋予更高的权重值。
[0044]
所述各通道加权参数计算是使用softmax在通道响应强度基础上计算完成的,其计算公式如下所示:
[0045][0046]
其中z表示通道响应强度,j表示第j个通道,j表示剩余的需要计算softmax的通道综述,其中zj表示通道j的激活特征值均值,分子式表示在指数域上计算通道相应强度的映射,分母式则表示需参与计算的全部通道的指数域映射的和,两者相比则可获取第j个通道的强度在全部通道内的占比值。
[0047]
进一步地,所述步骤(7)中特征图集合feats
tea
与feats
stu
是在深度学习模型处理流程中,有较为明显的可复用范式,提取每一个可复用范式的最终输出作为一层的输出以形成集合。
[0048]
所述最终输出概率分布logits
stu
与logits
tea
是神经网络模型在输出最终结果前的对各类正确概率的估计值。
[0049]
进一步地,所述步骤(8)中的随机掩码屏蔽措施是指在对被屏蔽的通道计算损失
的过程中对需要屏蔽的通道乘以极小值权重以将其损失计算过程屏蔽掉,所述均方差误差计算公式如下所示,其中在计算通道的损失的过程中,将以所述步骤(6)中划定的权重进行加权损失计算:
[0050][0051]
其中j表示去掉被屏蔽的通道之后的全部通道的总数量,l表示前述的可复用范式特征层总数,n表示训练数据个数,λ
l
则为可选参数,可以设定不同层特征损失在总损失中的占比,表示第l层的第j个通道的通道权重,feats
tea
[i][l][j]与feats
stu
[i][l][j]分别表示第i个样本分别在m
tea
与m
stu
模型内处理后得到的第l层中的第j通道的特征图,上式表示教师模型m
tea
与学生模型m
stu
在全部样本输出的每一层各通道特征图的每一个位置上的全部像素的差值的加权平方和。
[0052]
所述对于logits
stu
原目标函数的计算是指用户在应用于自身所需领域的目标函数,即custom
loss
,该损失由用户定义并计算。
[0053]
所述加权参数包括在步骤(7)中定义并使用的各层级权重参数λ
l
与控制蒸馏部分与原目标损失的比例的损失α,其公式如下:
[0054]
total
loss
=α
×
distill
loss
+custom
loss
[0055]
所述回传训练学生模型,是指使用误差反向传播优化算法对模型进行优化的方法,选择的优化函数可由用户定义。
[0056]
本发明的优点如下:
[0057]
1.通过对全部通道对最终输出的影响的角度对教师网络通道进行筛选增强,首先可筛选掉在通道内部分扰动即可对最终输出产生显著影响的通道,该类通道极有可能包含后门触发器模式,去除以避免后门传递;
[0058]
2.通过筛选后的通道学习可降低学生网络学习无用信息的可能性,从而减少错误信息从不可信模型传递到受训模型的可能性;
[0059]
3.上述过程可以在提高精度的过程中同时完成正则效果,有助于削减预训练模型过拟合信息的传递,并保证受训练模型学习的精炼性;
[0060]
4.在学生模型学习过程中使用随机掩码对部分通道屏蔽并在不同轮次之间切换训练,有助于学生模型全体通道学习到更精确的语义信息,从而提高精度。
附图说明
[0061]
图1是本发明的流程示意图。
[0062]
图2是本发明所述通道强化筛选过程示意图。
[0063]
图3是本发明所述扰动参数信息的训练流程图。
[0064]
图4是本发明所述加权通道雨随机掩码正则学习的训练流程图。
具体实施方式
[0065]
下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0066]
本发明实施例提供基于迭代筛选与随机掩码学习的模型安全迁移方法,流程如图1所示,包括以下步骤:
[0067]
(1)挑选并初始化在目标应用任务所属上级应用任务内的大型模型作为教师模型m
tea
,下载并使用公共平台存储的预训练模型权重覆盖教师模型m
tea
的参数权值,覆盖完成后固定参数权重,挑选并初始化输出阶层数与m
tea
一致的小型模型或与m
tea
一致的模型作为学生模型m
stu
,初始化用于m
stu
场景的不含恶意样本的安全目标数据集,在对其进行必要的预处理后,创建数据集加载器;具体说明如下:
[0068]
(1a)m
tea
模型的预训练模型的下载平台选择开源或商业的预训练模型权重提供平台,但对于其训练数据源、训练方法、训练参数,视为不可信来源的模型权重进行后续处理;
[0069]
(1b)模型m
stu
在模型能力上等于或弱于教师模型m
tea
,同时输出阶层总数与m
tea
一致,例如当目标应用任务为密集小目标检测任务或多实例小目标分割等计算机视觉下游任务时,所属上级应用任务一般为图像分类任务,此时所称的大型模型可指basic-l、vit-e
等使用大规模数据集执行训练并具备大量参数量的图像分类神经网络模型;
[0070]
(1c)目标数据集是指本实施例需要将预训练模型迁移到的目标任务的数据集;
[0071]
(1d)预处理步骤是指针对数据集进行的包括标准化、去噪声、数据增强等手段对数据集进行训练使用前处理的操作。
[0072]
(2)取200个目标数据集输入样本,将其输入m
tea
中,对其在每个阶段的输出特征图集合feats
tea
各自使用自注意力机制计算输出内部关联权重,并使用全局平均池化globalaveragepooling获取每通道的激活均值,标记h
ilk
为训练样本i中间层级l对应的特征图的通道k的激活特征值均值,然后针对每一中间层级l,根据该多个训练样本该中间层级l对应的特征图的每一通道k的激活特征值均值进行样本级平均,获取该中间层级l对应的特征图每一通道k的全局平均响应强度h
lk
,如果h
ilk
低于h
lk
则将训练样本i中间层级l对应的特征图的通道k标记channel
low
,否则标记为channel
high
;其过程如图2所示,具体说明如下:
[0073]
(2a)特征图集合feats
tea
是深度学习模型处理流程中,有较为明显的可复用范式,提取每一个可复用范式的最终输出作为一层的输出以形成集合;
[0074]
(2b)内部关联权重是指对特征图计算自身数据内的关联关系,其计算过程是由特征图转置相乘后计算概率分布,用概率分布乘特征图本身获得加权后的特征图,其计算公式如下所示:
[0075][0076]
其中,feat是参与计算加权权重的特征图,上标t表示对其所包含的参数执行矩阵转置操作,k则是特征图的通道数,softmax是在指定通道上对特征值进行归一化获取通道内的各个参数的概率占比的函数。
[0077]
(2c)获得加权特征图后,使用globalaveragepooling获取每通道的激活均值,是指对每个样本输出中每个通道内的全部数据求均值,可从通道层面代表语义信息的集中程度,对该结果再针对样本求取均值则可以获得模型对数据集的语义理解分布情况,从所求得的均值的响应强度即可判断语义强度。
[0078]
(3)初始化扰动参数集合σ,用于对m
tea
每一阶段输出值进行扰动,该扰动值是可训
练的参数,其中每一层l的扰动参数σ
l
将拟合当前层l被扰动特征的分布,拟合方式为利用kl散度对扰动参数σ
l
与对应层的特征图进行分布拟合,拟合损失标记为初始化高斯分布变量ε,该变量用于随机采样扰动参数σ;具体说明如下:
[0079]
(3a)扰动参数σ被初始化为0值,在训练过程中将会拟合被扰动数据本身,其拟合目标函数公式如下所示:
[0080][0081]
其中x是输入数据,f
l
()是到l层为止前面的神经网络层算子,f
l
(x)即是feats
tea
[l],p和q分别是表示特征图的分布与扰动参数的分布的代号,d
kl
是kullback-leible散度相互熵目标函数,其公式如下:
[0082][0083]
(3b)高斯分布变量ε是服从分布的变量,该变量在每次使用时随机获得采样数据参与计算。
[0084]
(4)对m
tea
第l层级的特征图feats
tea
[l]添加在对应层采样的扰动参数σ
l
,扰动后特征图放回到m
tea
内原本层级继续推理获取最终受攻击的输出与目标应用数据集内的样本真值标签求取原目标任务损失计算该损失的目的是通过降低该损失保持扰动后模型产生的输出不变,结合拟合数据分布损失获取总损失值并回传梯度以对l层的扰动参数σ
l
,训练指定的迭代次数即停止训练,对m
tea
每一层级输出执行上述训练,获取训练完成后的由各层扰动参数σ
l
组成的扰动参数集合σ;其训练过程如图3所示,具体说明如下:
[0085]
(4a)对输出特征图添加扰动信息的过程中,扰动信息由σ
l
与ε联合给出,其公式如下所示:
[0086][0087]
其中l是m
tea
特征图阶段总数,f
l

output
是从l层之后到最终输出之间的全部神经网络算子;
[0088]
(4b)求取原目标任务损失是指本实施例需求迁移的目标任务的损失loss
custom
,所述结合损失是指加权求和,其公式如下:
[0089][0090]
其中α
l
,β
l
是控制第l层损失权重的参数。
[0091]
(5)各层训练出的扰动参数σ
l
,可认为是在维持输出不变的目标的前提下不同通道可承受的最大扰动,层级扰动参数σ
l
中通道方差值大于其训练时对应的数据样本对应通道激活值的方差值的,认定为安全稳定通道,标记为channel
robust
,对应剩余的通道则标记为channel
non-robust
;具体说明如下:
[0092]
(5a)channel
robust
的索引计算公式如下:
[0093][0094]
其中var()是方差,max()是求最大值,1()表示满足条件则置1,k表示通道的索
引,标识第l层的扰动参数的第k个通道的平方值,由于扰动参数没有横竖变量,可视为方差,相对的没有被置为1的即为不稳定通道,被置0标记为channel
non-robust

[0095]
(6)结合步骤(2)与步骤(5)产出对通道进行筛选强化,其中,对同时满足channel
high
与channel
robust
的通道赋予一个高计算权值,该权值在后续计算损失的过程中将更大的影响学生模型m
stu
,以此进行强化,对同时满足channel
low
与channel
non-robust
的通道利用掩码掩盖这些通道以在后续的学习中进行删除,剩余通道使用步骤(2)中产生的响应强度的通道均值作为各通道加权参数channel
weight
;具体说明如下:
[0096]
(6a)强化操作是指在计算与被强化通道相关的损失时,赋予两倍权重;各通道加权参数计算是使用softmax在通道响应强度基础上计算完成的,其计算公式如下所示:
[0097][0098]
其中z表示通道响应强度,j表示第j个通道,j表示需要计算softmax的通道总数,其中zj表示通道j的激活特征值均值,分子式表示在指数域上计算通道相应强度的映射,分母式则表示全部通道的指数域映射的和,两者相比则可获取第j个通道的强度在全部通道内的占比值。
[0099]
(7)将目标领域数据集分别输入到教师模型和学生模型当中,在各个相同阶段的中间层级上获取特征图,产生教师特征图集合feats
tea
与学生特征图集合feats
stu
,以及最终输出的概率分布logits
tea
与logits
stu

[0100]
(8)对feats
tea
各通道按照步骤(6)获取到的通道处理参数进行处理,即基于channel
high
与channel
robust
的强化参数、基于channel
low
与channel
non-robust
的掩码参数与各通道加权参数channel
weight
,对feats
stu
各层级输出按照被删除的feats
tea
[l]的通道总数d,使用随机掩码屏蔽对应数量d的通道,对去掉被掩码屏蔽后部分通道后的feats
tea
与feats
stu
剩余的未被掩码屏蔽通道计算均方差损失loss
distill
,结合logits
stu
计算目标任务损失对loss
distill
与加权求和后回传损失梯度对学生模型m
stu
进行训练,在完成指定次数的训练后重新随机通道掩码,直至m
stu
收敛或训练完成,训练完成后获得的模型m
stu
即是将大型模型m
tea
安全的迁移后产生的安全模型。其过程如图4所示,具体说明如下:
[0101]
(8a)随机掩码屏蔽措施是指在对被屏蔽的通道计算损失的过程中对需要屏蔽的通道乘以极小值权重以将其损失计算过程屏蔽掉,均方差误差计算公式如下所示,其中在计算通道的损失的过程中,将以步骤(6)中划定的权重进行加权损失计算:
[0102][0103]
其中j表示去掉被屏蔽的通道之后的全部通道的总数量,l表示前述的可复用范式特征层总数,n表示训练数据个数,λ
l
则为可选参数,可以设定不同层特征损失在总损失中的占比,表示第l层的第j个通道的通道权重,feats
tea
[i][l][j]与feats
stu
[i][l][j]分别表示第i个样本分别在m
tea
与m
stu
模型内处理后得到的第l层中的第j通道的特征图,上式表示教师模型m
tea
与学生模型m
stu
在全部样本输出的每一层各通道特征
图的每一个位置上的全部像素的差值的加权平方和;
[0104]
(8b)logits
stu
原目标函数的计算是指实施例在应用于例子转移所需领域的目标函数,即custom
loss
,该损失由用户定义并计算;
[0105]
(8c)计算中的加权参数包括在步骤(7)中定义并使用的各层级权重参数λ
l
与控制蒸馏部分与原目标损失的比例的损失α,其公式如下:
[0106]
total
loss
=α
×
distill
loss
+custom
loss
[0107]
(8d)回传训练学生模型,是指使用误差反向传播优化算法对模型进行优化的方法,选择的优化函数由实施例定义。
[0108]
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

技术特征:
1.一种基于迭代筛选与随机掩码学习的模型安全迁移方法,其步骤包括:1)挑选并初始化在目标应用任务所属上级应用任务对应的大型模型作为教师模型m
tea
,获取所述教师模型m
tea
的预训练模型权重对所述教师模型m
tea
的参数权值进行覆盖;挑选并初始化一模型作为学生模型m
stu
;所述学生模型m
stu
的输出阶层数与所述教师模型m
tea
一致;2)将所选目标数据集中的多个训练样本输入到教师模型m
tea
中;针对输入的每一训练样本,得到教师模型m
tea
的各中间层级输出的特征图构成的特征图集合feats
tea
,对特征图集合feats
tea
中的每一特征图使用自注意力机制计算该特征图的内部关联权重,并使用全局平均池化获取该特征图不同通道的激活特征值均值,h
ilk
为训练样本i中间层级l对应的特征图的通道k的激活特征值均值;然后针对每一中间层级l,根据该多个训练样本该中间层级l对应的特征图的每一通道k的激活特征值均值进行样本级平均,获取该中间层级l对应的特征图每一通道k的全局平均响应强度h
lk
,如果h
ilk
低于h
lk
则将训练样本i中间层级l对应的特征图的通道k标记channel
low
,否则标记为channel
high
;3)初始化扰动参数集合σ,用于对教师模型m
tea
每一中间层级输出值进行扰动;4)利用中间层级l的扰动参数σ
l
对该中间层级l对应的特征图feats
tea
[l]进行扰动,并计算扰动前后的扰动损失教师模型m
tea
利用训练样本i对应的扰动后的特征图feats
tea
[l]完成目标应用任务推理得到输出根据与训练样本i对应的标签计算该中间层级l对应的任务损失根据该训练样本i对应的扰动损失任务损失计算该中间层级l对应的损失值对扰动参数σ
l
进行优化;5)如果优化后的扰动参数σ
l
中通道k的激活特征值均值的方差值大于其训练时对应训练样本中间层级l对应的特征图中通道k的激活特征值均值的方差值,则认定该通道k为安全稳定通道并标记为channel
robust
,否则认定该通道k为不安全稳定通道并标记为channel
non-robust
;6)为同时满足channel
high
与channel
robust
的通道设置一高权值用于强化对应通道,对同时满足channel
low
与channel
non-robust
的通道设置掩盖掩码用于删除对应通道,剩余通道采用对应通道的激活特征值均值作为对应通道的权值;通道的高权值大于该通道的激活特征值均值;7)将所选目标数据集的一样本分别输入到教师模型m
tea
和学生模型m
stu
当中,得到教师模型m
tea
的各中间层级输出的特征图构成的特征图集合feats
tea
以及教师模型m
tea
最后一层输出的概率分布logits
tea
,得到学生模型m
stu
的各中间层级输出的特征图构成的特征图集合feats
stu
以及得到学生模型m
stu
最后一层输出的概率分布logits
stu
;8)利用步骤6)确定的通道设置对feats
tea
中每一特征图的各通道进行相应处理,然后计算feats
tea
与feats
stu
中同一中间层级输出的特征图之间的均方差损失并加权求和得到损失值loss
distill
,结合logits
stu
计算目标应用任务的损失值然后对loss
distill
与加权求和所得总损失值total
loss
优化所述学生模型m
stu
9)利用目标数据集内的样本依次重复步骤7)~8)直至所述学生模型m
stu
收敛,将训练收敛后的所述学生模型m
stu
作为所述大型模型安全迁移后产生的安全模型。
2.根据权利要求1所述的方法,其特征在于,扰动损失其中,x为输入数据,f
l
(x)为教师模型m
tea
的中间层级l对应的特征图feats
tea
[l],p为特征图的分布,q为扰动参数的分布,d
kl
是kullback-leible散度相互熵目标函数。3.根据权利要求1所述的方法,其特征在于,拟合方式为利用kl散度对扰动参数σ
l
与中间层级l输出的特征图进行分布拟合;初始化高斯分布变量ε,随机采样ε乘以扰动参数σ
l
以采样扰动。4.根据权利要求3所述的方法,其特征在于,利用kl散度对扰动参数σ
l
与中间层级l输出的特征图进行分布拟合,得到扰动后的特征图其中f
l
(x)为教师模型m
tea
的中间层级l对应的特征图feats
tea
[l]。5.根据权利要求1所述的方法,其特征在于,步骤6)中,剩余通道中通道j的权值其中z
j
表示通道j的激活特征值均值,j表示剩余通道的总数。6.根据权利要求1所述的方法,其特征在于,所述学生模型m
stu
在模型能力上等于或弱于所述教师模型m
tea
。7.根据权利要求1所述的方法,其特征在于,所述目标数据集是指用户需要将预训练模型迁移到目标应用任务的数据集。8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。

技术总结
本发明公开了一种基于迭代筛选与随机掩码学习的模型安全迁移方法,其步骤包括:1)固定既有未知渠道教师模型权重值,初始化学生模型权重;2)使用迭代强化筛选算法对教师模型各层级输出的通道进行筛选,强化高语义信息通道以提高传递信息精度,弱化删除受扰动后导致输出显著变化的通道以避免传递后门攻击触发器模式;3)输入目标训练数据集,每轮训练使用不同随机掩码对学生模型输出进行屏蔽以正则化学习教师网络通道输出,可避免持续学习不可信通道并学习全局强语义通道,直至学生模型收敛。本方法可应用于需将不安全来源训练的预训练模型迁移到学生模型使用时,可解决潜在的后门被迁移到学生模型上的危害并提高学生模型精度。精度。精度。


技术研发人员:王承杰 赵琛 武延军 吴敬征 郑森文 罗天悦
受保护的技术使用者:中国科学院软件研究所
技术研发日:2023.06.27
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐