通过截断比例最大化提高通用对抗攻击迁移性的方法

未命名 09-29 阅读:102 评论:0


1.本发明涉及云计算技术领域,特别涉及一种通过截断比例最大化提高通用对抗攻击迁移性的方法。


背景技术:

2.早期的研究表明,微小的和难以察觉的扰动会严重干扰深度神经网络(dnns)的预测结果,特别是对于图像识别任务。对抗性例子(adversarial examples,aes)是通过故意向良性样本添加微小的扰动而制作的,不仅在计算机视觉任务中难以察觉,而且容易在dnn模型之间转移。因此,自深度学习的发展以来,aes一直被认为是对dnn模型的严重威胁。
3.为了探究aes的影响,提出了许多方法来设计高度可高度转移到各种dnn模型(即对其他dnn模型的高欺骗率)。然而,由这些工作生成的aes是明确地为某些特定的样本设计的,并且通常不能干扰甚至来自同一数据集的其他样本。与上述特定图像攻击不同,现有技术提出了一种新的产生图像不可知的通用对抗扰动(uap)的通用攻击。通用攻击中的uap是根据一些先验知识进行训练的,如替代数据、代理模型等。通过将uap添加到良性样本中,通用攻击可以在短时间内产生大量的不良事件。此外,研究还表明,通用攻击可以欺骗大多数从相似数据集训练的dnn模型,并可以大大降低制作dnn的成本,使对手比特定图像的攻击更适用于真实场景。
4.然而,无论是特定于图像的攻击还是通用攻击,都需要注释良好的训练数据或替代数据来生成aes。在实践中,获取一个标记良好的大规模数据集是具有挑战性和昂贵的,特别是对于一些具有关键安全需求的应用程序,这些应用程序的先验知识较少。研究人员研究了无数据的通用攻击方法,其中aes是直接由随机噪声而不是数据之前产生的。目前的无数据通用攻击方法探索基于特征的对抗性扰动,试图使卷积神经网络最大限度地提高卷积神经网络(cnn)特征的激活(即relu激活)。结果表明,基于特征的uap方法在不使用任何数据先验的情况下,实现了高效和适用的通用攻击。然而,这些无数据的uap方法只考虑了正激活,并同样考虑了所有cnn特征层的。因此,由代理模型制作的uap很难转移到目标模型上。


技术实现要素:

5.针对现有技术存在的上述问题,本发明要解决的技术问题是:如何无数据通用对抗攻击制作的uap的迁移性。
6.为解决上述技术问题,本发明采用如下技术方案:一种通过截断比例最大化提高通用对抗攻击迁移性的方法,包括如下步骤:
7.s1:通过课程优化方法生成人工图像,将人工图像与随机初始化的扰动图片进行线性叠加后作为输入数据;
8.s2:将输入数据输入到标准的cnn模型中进行训练;
9.s3:提取cnn模型中所选多个层的输出值,将所有输出值进行人工激活;
10.s4:计算目标损失函数,根据损失值更新扰动值,每次更新扰动值之后都会对扰动图片的扰动值进行裁剪,以满足无穷范数的约束条件,设置超参数α来调整截断的输出正负值激活比例,当训练uap的迭代次数达到最大迭代次数t或者用代理数据验证的欺骗率达到收敛阈值f
max
时认为uap收敛。
11.作为优选,所述s1中通过课程优化方法生成人工图片的步骤如下:
12.人工图像的生成过程由具体分布的参数和扰动迭代次数控制,定义如下:
13.da<db<

<dn14.d
t
={x|x~p(θ0,t)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
15.其中d
t
是第t轮迭代时的人工图像x的集合,o是带有默认参数θ0的人工图像分布,da<db表示集合db中的人工图像的图案比集合da中的复杂,随着训练迭代次数t的增加,分布参数θ0也逐渐增加高斯分布制作的人工图像的集合d
t
定义为:
[0016][0017]
其中μ0和σ0分别表示高斯分布初始的均值和标准差,γ表示增长步长,t表示迭代训练轮数,t0表示预定义的阈值来决定标准差的增长,即训练中每t0轮标准差增长一次,增量大小为γ。当人工图像由拼图图像生成时,其样本集合d
t
定义为:
[0018][0019]
其中是拼图图像分布的初始频率,γ

和t
′0表示当人工图像由拼图图像生成时的增长步长和预定义的阈值来决定标准差的增长。
[0020]
作为优选,所述s3将所有输出值进行人工激活即将输出值最大化,步骤如下:
[0021][0022]
s.t.‖v‖

≤δ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0023]
其中扰动图像v受到无穷范数和其常数值δ限制,l

表示正值激活所选的激活层,l

表示负值激活所选的激活层,表示正值激活,表示负值激活。
[0024]
作为优选,所述s4中目标损失函数如下:
[0025][0026]
其中|d
t
|是集合d
t
中人工图像的数量,表示第t次迭代正负激活值之和,分别表示第第i层卷积层的正激活值、负激活值。
[0027]
相对于现有技术,本发明至少具有如下优点:
[0028]
在本发明提供了一种新的无数据通用攻击,称为trm-uap,以将uap生成任务重新表述为一个截断比率优化问题。与以往的通用攻击相比,trm-uap方法结合了正激活最大化和负激活最小化。为了进一步提高uap的可转移性,我们提出了一种截断策略,它只计算来自低级卷积的正激活和负激活的大小。在imagenet和cifar10上的实验结果验证了我们的攻击比其他对不同cnn模型的无数据通用攻击具有更好的可移植性。
附图说明
[0029]
图1为最大化激活与比例最大化激活示意图。
[0030]
图2为截断比例最大化激活方法训练流程。
[0031]
图3为不同正负截断设置的激活损失示例。
[0032]
图4为不同截断设置下的神经网络中间层神经元平均激活值。
[0033]
图5为不同标准差的高斯分布设置下的人工图像。
[0034]
图6为不同频率的拼图图像分布设置下的人工图像。
[0035]
图7为各模型上与其他方法的logit损失函数对比(imagenet)。
[0036]
图8为部分模型上的正负激活消融实验。
[0037]
图9为截断策略消融实验。
[0038]
图10为cifar10上trm-uap与其他通用攻击方法的logit值柱状图。
[0039]
图11为各模型上与其他方法的logit损失函数对比(cifar10)。
[0040]
图12为对抗扰动uap可视化。
[0041]
图13为对抗攻击实例。
具体实施方式
[0042]
下面对本发明作进一步详细说明。
[0043]
为了尽可能激活更多的卷积层输出值,提高无数据通用对抗攻击制作的uap的迁移性,本发明提出了采用截断比例最大化方法(truncated ratio maximization,trm-uap)的无数据通用对抗攻击,将uap生成过程表述为截断比例最大化问题。trm-uap方法的目的是尝试进一步过度激活神经元,以便破坏从多个cnn卷积层提取的特征。具体地讲,就是利用浅层卷积层提取的泛化特征来训练uap,保留浅层卷积层的输出值,舍弃深层卷积层的输出值,以提高uap生成对抗样本的迁移性,将这一训练策略称为截断策略。在此基础上,修改原无数据通用攻击中的最大化激活问题为比例最大化激活问题,增加额外的先验知识辅助训练uap。本发明认为,除了对卷积层神经元输出的正输出值进行最大化,对卷积层神经元在激活过程中被舍弃的负输出值进行适当激活同样有助于训练uap。因此,trm-uap执行比例最大化激活目标,从而最大化正值激活和负值激活的比率,使得一些卷积层神经元的负输出值在训练过程中转变为正输出值并继续优化。另外,为了增加输入多样性,本发明利用高斯噪声和拼图图像制作了人工样本与扰动一起输入模型。利用课程学习的思想对整个扰动训练过程进行了优化,使得扰动训练能够跳出局部次优解,收敛到最优解。
[0044]
一种通过截断比例最大化提高通用对抗攻击迁移性的方法,包括如下步骤:
[0045]
s1:通过课程优化方法生成人工图像,将人工图像与随机初始化的扰动图片进行线性叠加后作为输入数据;
[0046]
s2:将输入数据输入到标准的cnn模型中进行训练,cnn模型可以直接通过python库调用,并加载预权重;
[0047]
s3:提取cnn模型中所选多个层的输出值,将所有输出值进行人工激活;relu激活函数是将负的置0,正的保持原值,而由于提取输出值时还没有通过relu激活函数激活,所以输出值有正有负,然后进行人工激活,目的是为了分出正值和负值。
[0048]
s4:计算目标损失函数,根据损失值更新,每次更新扰动值之后都会对扰动图片的
扰动值进行裁剪,以满足无穷范数的约束条件,设置超参数α来调整截断的输出正负值激活比例,当训练uap的迭代次数达到最大迭代次数t或者用代理数据验证的欺骗率达到收敛阈值f
max
时认为uap收敛。
[0049]
通常一张图片由许多像素点组成,每个像素点由rgb红绿蓝0-255构成,其中0-255是指灰阶,简单以只有黑白的灰阶图为例,0的时候是黑,255的时候是白,中间是渐变的灰,那么一幅图片就是一个二维矩阵,里面包含了许多0-255的值,我定义扰动最大为16,但是某个像素扰动可能是7,可能是16,可能是24,看根据损失计算更新多少,所以对于大于16的我就要cut掉,cut到16,这是针对最大扰动限制的cut,还有就是针对常数值就是0-255的cut,如果像素本身是253,扰动是8,那么253+8大于255,则需要把总的值cut到255,在计算机里面运算需要标准化,则像素值缩放到0-1,扰动缩放到16/255。
[0050]
具体的,所述s1中通过课程优化方法生成人工图片的步骤如下:
[0051]
为了提升输入多样化,本发明采用高斯噪声和拼图图像来生成人工图像,并与扰动图像一起输入到代理模型中。为了模拟真实的训练样本,对拼图图像的不同区域的边界都采用了均值滤波方法进行平滑处理。
[0052]
然而,在训练初期输入复杂图案的人工图像会导致该算法难以收敛。使用较为简单的人工图像作为训练初期的训练数据,并随着训练的进行逐渐增加人工图像中的图案复杂程度。
[0053]
人工图像的生成过程由具体分布的参数和扰动迭代次数控制,定义如下:
[0054]
da<db<

<dn[0055]dt
={x|x~p(θ0,t)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0056]
其中d
t
是第t轮迭代时的人工图像x的集合,p是带有默认参数θ0的人工图像分布,da<db表示集合db中的人工图像的图案比集合da中的复杂,随着训练迭代次数t的增加,分布参数θ0也逐渐增加(高斯分布中的标准差和拼图图像中的频率)。具体来说,当人工图像是由高斯分布制作,则随着训练轮次的增加,高斯分布的标准差也随之增加,因此高斯分布制作的人工图像的集合d
t
定义为:
[0057][0058]
其中μ0和σ0分别表示高斯分布初始的均值和标准差,γ表示增长步长,t表示迭代训练轮数,t0表示预定义的阈值来决定标准差的增长,即训练中每t0轮标准差增长一次,增量大小为γ。由不同标准差的高斯分布制作的人工图像可视化如图5所示。同样,当人工图像由拼图图像生成时,其样本集合d
t
定义为:
[0059][0060]
其中是拼图图像分布的初始频率,γ

和t
′0表示当人工图像由拼图图像生成时的增长步长和预定义的阈值来决定标准差的增长。不同频率的人工拼图图像如图6所示。因此综上所述。对于第t轮迭代,课程优化算法将最大化。
[0061]
具体的,所述s3将所有输出值进行人工激活即将输出值最大化,步骤如下:
[0062]
对于无数据的通用对抗扰动,提出截断的比例最大化方法(truncated ratio maximization,trm-uap)来制作扰动v满足公式:
[0063][0064][0065]
其中扰动图像v受到无穷范数和其常数值δ限制,l

表示正值激活所选的激活层,l

表示负值激活所选的激活层,表示正值激活,表示负值激活。
[0066]
所提出的截断比率最大化方法的细节,以一个严格的无数据的方式制作uap。
[0067]
具体的,所述s4中目标损失函数如下:
[0068][0069]
其中|d
t
|是集合d
t
中人工图像的数量,表示第t次迭代正负激活值之和,分别表示第第i层卷积层的正激活值、负激活值。
[0070]
如图1(a)所述,现有的无数据通用攻击目的是通过多个卷积层积累模型误差,使分类损失变大,最终导致模型给出错误分类。本发明提出了在无数据情况下最大化激活的比例来制作通用对抗扰动uap:
[0071][0072]
s.t.‖v‖

≤δ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0073]
其中正值激活定义为负值激活定义为表示计算其l2范数。为了进一步提高攻击成功概率,问题(1)中的激活值比例目标试图通过优化正值激活和负值激活之间的比例来最大化卷积层激活值的大小。
[0074]
具体来说,比例最大化是一个动态过程。首先,最小化负值激活目标会使卷积层输出的负值朝绝对值减少的方向,即接近零的方向迭代,产生接近零的负值。其次,在训练uap时由于执行梯度下降过程中优化步长的设置,最小化负值激活可能导致一些接近零的负值的符号变化,即从微小负值跳到微小正值,如图1(b)所示。最后,在下一次迭代中,最大化正值激活目标继续将激活值从微小正值向较大正值的方向进行更新优化。以上过程为用比例最大化激活问题的目标优化uap的过程。它和其他无数据通用攻击的优化过程相比,利用了负值激活作为额外的先验信息来训练uap。在训练过程中,随着负激活数量的减少和正激活数量的增加,比例最大化可以进一步增加对抗样本攻击成功的概率。
[0075]
不同卷积层提取的特征具有不同的特性和特点。本发明认为不是所有卷积层都有助于增加激活值和比例最大化激活函数。为了进一步增强比例最大化方法制作的uap的迁移性,本发明提出一种新的无数据通用对抗攻击方法截断比例最大化方法(truncated ratio maximization)来计算通用对抗扰动v。体流程如图2所示。
[0076]
为了表达简便,定义第i层卷积层的比例最大化问题为其中为了同时最大化卷积层的激活值比例,比例最大
化目标损失重写为:
[0077][0078]
其中log对数重新调整了激活值范围防止梯度爆炸。与现有的攻击所有卷积层或攻击某一特定层的方法不同,由于跟图像有关的特征对训练uap没有帮助,本发明尝试截断深层卷积层的正值激活和负值激活。设截断率(truncated rate,tr)定义为从截断的第l+1层开始,将卷积层的正负激活值设为其中τ表示一个微小的正值。因此可等价重写为
[0079]
然而和的数值差异不同,在不同的层中所起作用也有差异。最大化比例损失可能导致攻击效果下降。为了解决这个问题,本发明先重写第i层卷积层的比例损失为
[0080][0081]
其中α为超参数调整正值激活和负值激活的相对重要性,将α设置为指数超参数的原因是考虑到正负激活值的巨大差异,指数超参数缩小了取值范围。其次,定义正值激活截断率(positive tr)和负值激活截断率(nagetive tr)即本发明对正值激活和负值激活采用不同的截断率,设如图3所示,纵轴两端分别代表正负激活损失,横轴为卷积层层数,阴影部分为保留的卷积层激活值,白色部分为被截断的卷积层激活值,整个目标损失函数重写为
[0082][0083]
其中c=((1-α)
·
l-l


·
l

)
·
logτ,c为一个常数。
[0084]
因此,根据以上推导过程,对于无数据的通用对抗扰动,提出截断的比例最大化方法(truncated ratio maximization,trm-uap)来制作扰动v满足公式:
[0085][0086]
s.t.‖v‖

≤δ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0087]
本发明将uap输入cnn(如vgg16)模型探索了卷积层每个神经元的平均激活值的变化。具体结果如图4所示,与没有截断的rm-uap和正负截断率相同的trm-uap相比,采用不同正负截断率的trm-uap能够让扰动产生更大的正激活,从而进一步提高攻击效果。
[0088]
当截断设置为ptr=0%,ntr=100%时(即正值激活全部保留,负值激活全部截断
的情况),由该方法定义的trm-uap目标损失函数将退化为gd-uap方法的目标损失函数。由此说明gd-uap方法只是本发明提出的trm-uap方法在无课程学习设置下输入高斯噪声人工图像的一种特殊情况。与gd-uap相比,本发明提出的trm-uap方法能够通过截断的比例最大化目标进一步提高无数据通用对抗攻击的攻击强度和迁移性。trm-uap的gd-uap方法的详细差异还会在实验部分进一步讨论。
[0089]
实验结果及分析
[0090]
1.训练细节与参数设置
[0091]
数据集与模型设置:主实验与现有的无数据的通用对抗攻击方法中的实验设置保持一致,本发明主要在imagenet验证集上评估了所提出的方法,一共有1000个分类,每类图像50张。扩展数据集为cifar10。使用经典的预训练模型,包括alexnet、vgg16、vgg19、resnet152、googlenet。
[0092]
评估标准与比较方法:使用之前的无数据通用攻击方法提出的欺骗率(fr)作为评价度量。欺骗率越高,代表攻击成功率越高,攻击的迁移性越好。实验中与所有经典的无数据通用攻击方法进行了比较,包括fff、aaa、gd-uap、pd-ua和cosine-uap,由于gd-uap没有使用pytorch官方发布的标准预训练模型,为了比较公平性,本发明用与trm-uap的实验环境类似的设置来复现了gd-uap。此外,为进一步分析方法的迁移性,本发明还采用了c&w攻击方法中的logit loss作为评估指标来分析对抗样本类间的迁移性。数值越高说明对抗攻击方法的迁移性越好。
[0093]
执行细节:该方法的实验环境为nvidia geforce rtx3090ti gpu,实验框架为pytorch。根据之前的研究,设置δ=10/255,最大迭代次数t=10000,饱和度阈值r=0.001%,ptr和ntr的值在[0,1]范围内。分别在imagenet和cifar10上为不同模型设置超参数α和截断率。
[0094]
2.训练细节与参数设置
[0095]
imagenet数据集主实验:本发明应用trm-uap的方法在5个cnn模型上制作uap和对抗样本,在imagenet验证集上分别攻击这些cnn模型。设置trm-uap算法中的各模型超参数α={1,0.1,0.5,1.5,1},ptr={0.6,0.2,0.2,0.4,0.4}ntr={0.8,0.3,0.2,0.3,0.3}分别对应alexnet,vgg16,vgg19,resnet152,googlenet。与其他无数据通用方法的比较结果如表1所示,表1中的trm-uap的结果为重复五次实验结果的均值。其中gd-uap的结果是在pytorch框架上和trm-uap一致的实验环境下复现之后与其他方法进行的比较。本方法所有结果都选取最优值和其他方法进行比较。从表1中观察到,在大多数模型上,trm-uap方法的欺骗率都高于其他方法,尽管在googlenet上的欺骗率fr稍低于cosine-uap,但trm-uap在所有模型上的fr均值为最优结果,说明trm-uap方法提升了uap在五个模型上的总体性能。本发明使用代理模型制作uap来进一步攻击其他模型,以验证其迁移性。表2表示了对不同模型的攻击情况。横轴的模型表示目标模型,竖轴的模型表示制作uap的代理模型,因此对角线上表示白盒攻击设置下的攻击情况,非对角线表示黑盒攻击设置的攻击情况。在白盒攻击设置下五个经典cnn模型都取得了最优效果。在黑盒攻击设置下,除了少数因为代理模型的模型架构有巨大差异而导致攻击效果不佳外,大部分黑盒攻击设置下的欺骗率fr都超过了60%。无论从白盒攻击还是从黑盒攻击,大多数攻击在迁移性方面表现得很好,这证明了trm-uap方法产生的扰动可以在不同目标模型之间转移对抗攻击。
[0096]
表1trm-uap与其他无数据通用攻击的比较
[0097][0098]
表2 trm-uap方法迁移性分析
[0099][0100]
logit loss迁移性评估实验:trm-uap提高了通用攻击的性能,并在imagenet验证集的无数据攻击中取得了良好的攻击效果。为了验证攻击的有效性,并与其他无数据的通用方法进行比较,本发明采用c&w攻击方法中提出的logit loss进行了扩展实验。引入c&w攻击的logit loss的主要目的是来评估不同通用攻击之间的迁移性。logit损失被定义为loss=(max
j≠t
f(x+v)j)-f(x+v)
t
,其中f(
·
)j表示模型logit层的第j个输出,t为样本真实标签。使用logit loss可以评估对抗样本在不同类间的迁移性,当该数值为负数时说明模型对样本判断正确,给出的分类和真实标签一致。当该数值为正数时说明模型对样本的分类错误,若为对抗样本,logit loss数值越大说明对抗样本的迁移性越好。
[0101]
图7所示,本发明比较了gd-uap,cosine-uap和trm-uap的迁移性,并计算了原始图像的logit loss作为参考基线,其中由于cosine-uap的作者并没有公布他们方法的源码,因此cosine-uap是在和trm-uap相同的实验环境下进行复现得到的结果。图中子图标题为代理模型,即制作对抗样本的模型,每个子图中的横坐标代表测试模型。从图中可以发现,原始图像的logit loss在所有模型上都是负数,表明实验中所采用的cnn模型为高精度的正常分类模型。而在大多数模型上,trm-uap生成的对抗样本的logit损失高于其他通用攻击方法,模型对错误的分类具有更高的置信度,体现出trm-uap更高的攻击强度。在深度cnn模型(如resnet152)中,trm-uap和gd-uap之间的差异变得更加显著,表明该方法攻击的泛化性好。
[0102]
消融实验:本发明设计了消融实验来验证负值激活和截断策略的有效性。为研究负值激活的作用,设计了正负激活的实验进行对比分析。实验中测试了仅用正值激活的训练的扰动和正负值激活结合训练的扰动各自在其他模型上的fr,除了正负激活设置,对比实验的其他设置均保持一致。图8展示了部分模型的实验结果,子标题模型表示代理模型,横轴模型表示目标模型。从图中看出负值激活明显提高了扰动的迁移性。在其他模型上可以发现相似的结果。为了进一步探究截断策略与欺骗率之间的影响,设计了在不同截断率
设置下的cnn模型中截断卷积层的攻击。具体来说,设置保留激活的比例随着步骤10%而增加,使得uap逐渐从浅层卷积层到深层卷积学习信息。基于imagenet的设置,采用白盒攻击设置,使用目标模型本身制作的uap来攻击。将ptr与ntr的参数设置进行组合,形成二维参数空间来探索截断率对欺骗率的影响。实验结果如图9所示,由于alexnet只有5层卷积层,因此可以看出在所有模型上,当截断率ptr和ntr都取中间值而不是0(表示没有截断)时能取得更好的fr值。通过截断激活而不是所有层全激活的方式得到了攻击的最佳结果。
[0103]
cifar10数据集扩展实验:上述实验表明trm-uap在imagenet这样的大型数据集上能够提高通用对抗扰动的性能,在无数据攻击中取得良好的攻击效果。本发明尝试在别的数据集上进一步观察对抗攻击的表现情况,选取了在图像大小与imagenet数据集有较大差异的小型数据集cifar10进行探索,在cifar10上进行了有关对抗攻击的扩展实验。由于alexnet在cifar10数据集的标准训练中的精确度很低,因此对于在cifar10上的模型设置稍作调整,在基于imagenet的设置上用resnet18和resnet34代替了alexnet。在cifar10上对超参数的设置也进行了对应的调整,设置α={0.3,0.01,2,2,0.1,1},ptr={0.4,,0.6,0.5,0.5,0.5,0.6},ntr={0.3,0.99,0.9,0.9,0.8,0.7}分别对应vgg16,vgg19,resnet18,resnet34,resnet152,googlenet。在大多数攻击中,该方法的攻击欺骗率都超过了60%,表明trm-uap方法在不同的数据集上具有良好的迁移性。表格中“positive&negative”表示用正值激活和负值激活结合训练uap的结果,“positive”表示仅使用正值激活和截断策略的训练uap的结果,两组实验设置仅在激活值上进行了区别,其余设置保持相同,表中所有数据是重复训练五次的结果。对比表中的正负激活训练的uap与仅用正值激活的训练的uap的攻击情况,发现在小型数据集上,相对于深网络如resnet152和googlenet,负值激活对浅网络的提升更加明显,以vgg16为例,无论是利用vgg16作为代理模型制作的uap,还是由其他代理模型制作的uap来攻击vgg16,大部分情况下正负值激活结合训练的uap与仅采用正值激活训练的uap相比,欺骗率都有一定的提高。
[0104]
由于imagenet有1000分类,难以直观地分析对抗样本对模型输出的影响,因此在cifar10数据集上接着对目标模型的输出进行探索。具体做法是随机选取模型能够给出正确标签分类的原始样本,制作其对应的对抗样本观察对比其输出的logit的变化。图10中的logits情况验证了攻击的有效性。图中选择了一种经典的无数据通用攻击方法(gd-uap)来进行比较。模型对正常样本能够给正确的分类较高的logit值,也即模型对该分类具有较高的置信度。但对于对抗样本,由于模型中积累的微小扰动导致了许多不相关类的正logits值,从而增加了攻击的转移概率,并且本发明提出的方法比gd-uap具有更多类的正logit值,说明trm-uap具有更好的类间迁移性。此外,为进一步与gd-uap比较,探索对抗攻击方法在cifar10数据集上制作的对抗样本的迁移性情况,同样引入了logit loss损失来分析gd-uap与trm-uap的转移性。如图11所示。每个子图标题代表代理模型,即制作uap的模型。每张图中横轴的模型代表测试模型,计算所有原始样本的logit loss作为参考。从图中可以看出,除了小部分浅网络(如resnet18)上gd-uap与trm-uap具有相似的结果,在其余模型上,trm-uap都具有更高的logit loss数值,说明了本发明提出方法具有良好的迁移性。
[0105]
3.可视化结果与分析
[0106]
trm-uap方法在imagenet验证集上制作的uap可视化如图12所示,为了便于展示,将uap的值放大了255倍,从图中可以看出扰动中具有许多局部特征。但不同的代理模型制
作的扰动也具有一定的差异。在alexnet这样的的浅网络上提取的是纹理尖锐的局部特征,而随着模型网络层数的加深,vgg系列网络提取的特征更加平滑,局部特征的色彩相较于alexnet也更多。而以resnet152和googlenet作为代理模型制作的扰动呈现出的噪声图案更加丰富,形成了独特的特征模式。在imagenet上的攻击实例如图13所示。在每个子图中,第一行为正常样本,第二行为其对应的对抗样本,括号中表示模型给出的预测概率。可以看出模型在对抗样本的预测中,对错误类给出了较高分类概率,并且从人类视觉角度看,正常样本与对抗样本没有明显差异,保证了对抗样本的隐蔽性。
[0107]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种通过截断比例最大化提高通用对抗攻击迁移性的方法,其特征在于:包括如下步骤:s1:通过课程优化方法生成人工图像,将人工图像与随机初始化的扰动图片进行线性叠加后作为输入数据;s2:将输入数据输入到标准的cnn模型中进行训练;s3:提取cnn模型中所选多个层的输出值,将所有输出值进行人工激活;s4:计算目标损失函数,根据损失值更新扰动值,每次更新扰动值之后都会对扰动图片的扰动值进行裁剪,以满足无穷范数的约束条件,设置超参数α来调整截断的输出正负值激活比例,当训练uap的迭代次数达到最大迭代次数t或者用代理数据验证的欺骗率达到收敛阈值f
max
时认为uap收敛。2.如权利要求1所述的通过截断比例最大化提高通用对抗攻击迁移性的方法,其特征在于:所述s1中通过课程优化方法生成人工图片的步骤如下:人工图像的生成过程由具体分布的参数和扰动迭代次数控制,定义如下:d
a
<d
b


<d
n
d
t
={x|x~p(θ0,t)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中d
t
是第t轮迭代时的人工图像x的集合,p是带有默认参数θ0的人工图像分布,d
a
<d
b
表示集合d
b
中的人工图像的图案比集合d
a
中的复杂,随着训练迭代次数t的增加,分布参数θ0也逐渐增加高斯分布制作的人工图像的集合d
t
定义为:其中μ0和σ0分别表示高斯分布初始的均值和标准差,γ表示增长步长,t表示迭代训练轮数,t0表示预定义的阈值来决定标准差的增长,即训练中每t0轮标准差增长一次,增量大小为γ。当人工图像由拼图图像生成时,其样本集合d
t
定义为:其中是拼图图像分布的初始频率,γ

和t
′0表示当人工图像由拼图图像生成时的增长步长和预定义的阈值来决定标准差的增长。3.如权利要求2所述的通过截断比例最大化提高通用对抗攻击迁移性的方法,其特征在于:所述s3将所有输出值进行人工激活即将输出值最大化,步骤如下:s.t.‖v‖

≤δ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中扰动图像v受到无穷范数和其常数值δ限制,l

表示正值激活所选的激活层,l

表示负值激活所选的激活层,表示正值激活,表示负值激活。4.如权利要求2所述的通过截断比例最大化提高通用对抗攻击迁移性的方法,其特征在于:所述s4中目标损失函数如下:其中|d
t
|是集合d
t
中人工图像的数量,表示第t次迭代正负激活值之和,分别
表示第第i层卷积层的正激活值、负激活值。

技术总结
本发明涉及一种通过截断比例最大化提高通用对抗攻击迁移性的方法,包括如下步骤:通过课程优化方法生成人工图像,将人工图像与随机初始化的扰动图片进行线性叠加后作为输入数据;将输入数据输入到标准的CNN模型中进行训练;提取CNN模型中所选多个层的输出值,将所有输出值进行人工激活;计算目标损失函数,根据损失值更新扰动值,每次更新扰动值之后都会对扰动图片进行裁剪,当训练UAP的迭代次数达到最大迭代次数T或者用代理数据验证的欺骗率达到收敛阈值F


技术研发人员:明镝 任鹏 刘依然 冯欣
受保护的技术使用者:重庆理工大学
技术研发日:2023.06.25
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐