一种基于AdvDrop的对抗样本生成方法

未命名 09-24 阅读:92 评论:0

一种基于advdrop的对抗样本生成方法
技术领域
1.本发明涉及人工智能安全领域,更具体地,涉及一种基于advdrop的对抗样本生成方法。


背景技术:

2.随着深度学习和生成式对抗网络(gan)的发展,深度神经网络的安全逐渐成为了人工智能安全问题中的研究重点,尽管深度神经网络在大多数分类任务中拥有良好的表现,但在面对对抗样本时显得十分脆弱,对抗样本是在数据集中人为添加细微扰动所形成的一类样本,生成的对抗样本能够诱导机器学习模型进行错误的分类,对模型的安全形成威胁;
3.随着2013年szegedy等人首次揭示了深度神经网络的脆弱性,并提出了对抗样本的概念,对抗攻击正式成为了深度学习安全中的一个研究领域,后续的研究者基于cnn的高维线性假说,提出了一种快速梯度符号法(fgsm),通过沿损失函数梯度相反的方向创建扰动使模型误判,一些研究在fgsm的基础上作出了各种改进,一类是引入迭代思想,基础迭代法(bim)在fgsm的基础上加入了迭代过程,因此又称i-fgsm.该方法沿着梯度上升的方向进行多步扰动,并且在每一小步后,重新计算梯度方向,相比fgsm能产生更接近最优解的对抗样本,但代价是增大了计算量,另一类是引入动量,通过在迭代过程中沿损失函数的梯度方向累积速度矢量增大梯度下降的速度,dong等人提出的动量迭代法(mi-fgsm)将动量集成到i-fgsm中,可以在迭代过程中稳定更新方向,此外,carlini和wagner提出的cw攻击算法首次将扰动最小化和损失函数最大化这2个优化问题结合为1个目标函数;
4.然而上述的方法被认为是在空间上的扰动攻击,通过改变原始图像的像素进行对抗样本生成,尽管生成的对抗样本对模型的误导率很高,但是很容易被人眼观察出区别,因此许多工作尝试从对抗噪声本身,理解对抗攻击生效的机制,有研究学者发现,jpg压缩后的对抗样本,在被同样的网络处理时,预测精度会比未压缩的对抗样本有所提升,压缩使用的jpeg算法经历五个过程:yuv转换-色度抽样-离散余弦变换(dct)-量化-编码;其中,在色度抽样中,可以看作对图片进行了降采样,在量化过程中,对dct处理后的频域数据,舍弃了部分高频信息,其余均为无损过程,因此,jpeg算法可以被看作是舍弃高频信息的压缩,jpg变换同样可以解释为舍弃对抗图像的高频信息,wang等人通过高频信息对dcnn的影响做出了更加系统的研究,文中首先证明了,训练好的dcnn对于高频信息有很强的依赖,甚至仅仅采用人眼无法识别的图像的高频部分,就可以做到很高置信度的分类,而对去除了高频部分的人眼可以识别的低频图像,分类的效果却大大降低,甚至无法识别,duan等人通过将图像分频,并对比原始样本与对抗样本各个频段的统计特征,发现对抗样本的低频分量(低频信号)代表着图像中亮度或者灰度值变化缓慢的区域,也就是图像中大片平坦的区域,描述了图像的主要部分,主要对整幅图像强度的综合度量,对抗样本的高频分量(高频信号)对应着图像变化剧烈的部分,也就是图像的边缘(轮廓)或者噪声以及细节部分,主要是对图像边缘和轮廓的度量;
5.由于传统的攻击方法有生成样本速度慢、计算量大的缺点,生成样本的过程需要获取目标模型的结构信息、参数内容等,导致适用性比较单一,同时也存在生成的对抗样本质量不高,添加的扰动能够人为识别,生成对抗样本成功率不高,攻击的迁移性低的问题。


技术实现要素:

6.本发明为克服上述现有技术生成的对抗样本质量低的所述的缺陷,提供一种基于advdrop的对抗样本生成方法,能够生成高质量的对抗样本,提高生成对抗样本的成功率。
7.为实现上述目的,本发明提出如下技术方案:
8.一种基于advdrop的对抗样本生成方法,包括如下步骤:
9.s1:获取原始图像;
10.s2:将原始图像分别输入两个不同的分支,一个分支使用pgd对原始图像的空间域进行攻击,得到初步对抗样本;另一个分支使用advdorp对原始图像的频域进行攻击,得到第一图像;
11.s3:步骤s2得到所述第一图像合并到步骤s2得到所述初步对抗样本中,利用来自不同领域的梯度更新扰动,生成最终对抗样本。
12.进一步,步骤s2中,使用所述pgd对图像的空间域进行攻击,得到所述初步对抗样本输入分类模型进行分类,具体为:
[0013][0014]
式中x是图像信息,其标签是y,θ是所述分类模型的参数,是损失函数值,x
t
是经过t次fgsm算法处理后的对抗样本,x
t+1
是t+1次fgsm算法处理后的对抗样本,符号函数sign()提取梯度方向,参数β代表每次迭代图像像素更新的幅值,∏
a+s
代表循环a+s次,对于每个图像像素点a,引入了一组允许的扰动s;在pgd对空间域攻击算法中,使损失函数最大化的计算方法具体为:
[0015]
arg max l(x
adv
,y),s.t.||x
adv-x
init
||
p
《∈
[0016]
式中x
init
为原始图像,y表示相应的真伪标签,x
adv
为对抗样本,∈为lp范数。
[0017]
进一步,所述另一个分支使用advdorp对原始图像的频域进行攻击,得到第一图像,具体步骤包括:
[0018]
s2.1:将输入图像分割为n*n块,并在每个块上应用dct将原始图像从空间域转换到频域;
[0019]
s2.2:通过调整输入所述原始图像,使得所述频域中损失函数取得最大值;
[0020]
s2.3:对频域上分隔完的每个块计算对抗性损失p
n+1

[0021]
s2.4:引入量化矩阵m进行量化操作;
[0022]
s2.5:引入差分量化函数m
diff
,通过在量化过程中引入正切函数来逐步接近量化函数,进而准确调整量化矩阵m;
[0023]
s2.6:将步骤s2.5得到的所述量化矩阵m与步骤s2.3得到的所述对抗性损失p
n+1
进行融合;
[0024]
s2.7:应用idct将频域中的修改图像频率后的n*n个块转换回空间域。
[0025]
进一步,步骤s2.2所述通过调整输入所述原始图像,使得所述频域中损失函数取
得最大值的计算方法为:
[0026]
arg max l(d'(f(d(x
adv
))),θ,y),s.t.||d(x
adv
)-d(x)||
p
《∈
[0027]
式中d()是dct操作,f()代表修改图像频率,d'()是idct操作,θ是分类模型的参数,y是输入图像的标签,x是原始图像,∈是lp范数,x
adv
是对抗样本。
[0028]
进一步,步骤s2.3,所述频域上分隔完的每个块计算对抗性损失p
n+1
的过程为:
[0029][0030]
式中ω是每次迭代的步长,d()是dct操作,d'()是idct操作,f()代表修改图像频率,θ是分类模型的参数,y是原始图像的标签,pn是更新到第n步时的对抗性损失,是经过n次迭代的对抗样本。
[0031]
进一步,步骤s2.4,所述引入量化矩阵m进行量化操作,所述量化操作为:
[0032][0033]
式中δ表示量化步长,量化的值被限制在一个有效范围内[∈
min
,∈
max
],m是量化矩阵。
[0034]
进一步,步骤s2.5,所述引入差分量化函数m
diff
,通过在量化过程中引入正切函数来逐步接近量化函数,进而准确调整量化矩阵m,所述差分量化函数m
diff
具体为:
[0035][0036]
φ(
·
)定义如下:
[0037][0038]
式中α是一个可调节参数,使用通过反向传播返回的梯度符号更新所述量化矩阵m,上述过程表示为:
[0039][0040]
∈限制了量化矩阵m的范数,m
init
表示为初始量化矩阵,m表示量化矩阵,l(x',y)表示损失,m'是更新后的量化矩阵。
[0041]
进一步,步骤s2.6,将步骤s2.5得到的所述量化矩阵m与步骤s2.3得到的所述对抗性损失p
n+1
进行融合,融合过程为:
[0042][0043]
式中

是hadamard乘积,为迭代n次后的对抗样本,d()是dct操作,f()修改图像频率,m是量化矩阵,p
n+1
是对抗性损失。
[0044]
进一步,步骤s2.7,所述应用idct将频域中的修改图像频率后的n*n个块转换回空间域,idct表达式如下所示:
[0045][0046]
式中dx
u,v
为输入图像x经过离散余弦变换后在频域上的表示,表示在频域中的位置(u,v)处的系数,x[k,m]表示频域转换空间域的图像的坐标,c(u)和c(v)是缩放系数,i和j是循环变量,取值范围为0到n-1,n是每个块的大小。
[0047]
进一步,步骤s3中,将所述步骤s2得到第一图像合并到步骤s2得到初步对抗样本中,利用来自不同领域的梯度迭代更新扰动,最终生成对抗样本,包括如下步骤:
[0048]
s10.1:设ωs和ωf分别表示所述使用pgd对图像的空间域进行攻击和使用advdrop对图像的频域进行攻击,根据频域内的对抗性损失来更新来自不同领域的梯度,使用advdrop对图像的频域进行攻击ωf的计算方法为:
[0049][0050]
式中η'为攻击后的频率值,η为原始图像频率,γf为频域中的步长,θ是分类模型的参数,y是输入图像的标签;
[0051]
s10.2:然后根据空间域内的对抗性损失来更新梯度,使用pgd对图像的空间域进行攻击ωs的计算方法为:
[0052][0053]
式中η”为像素值,γs为空间域中的步长,θ是分类模型的参数,y是输入图像的标签,然后通过空间内的对抗损失来计算像素值η”,像素值η”的计算方法为:
[0054][0055]
式中η'表示攻击后的频率值,η”为像素值,γs为空间域中的步长;
[0056]
s10.3:每次迭代后,切换所述使用advdrop对图像的频域进行攻击的顺序,根据对抗损失在频率域和空间域之间交替进行顺序切换,以生成具有对抗性的输入样本,使分类模型产生错误的分类结果,生成最终对抗样本。
[0057]
与现有技术相比,本发明技术方案的有益效果是:
[0058]
本发明提出的基于advdrop的对抗样本生成方法,将空间域攻击和频域攻击结合的方式来生成对抗样本,在频域攻击中提出了量化矩阵m,通过扩大量化矩阵m的间隔来增加丢弃频域的细节量,而且提出一个差分量化矩阵m
diff
,通过在量化过程中引入正切函数来逐步接近量化函数;用这种方法能产生更自然的扰动,对抗样本的图像质量更接近于原始图像,另外本发明还结合了空间攻击和频域攻击,通过每次切换频率攻击ωf和空间攻击ωs的顺序,提升了对抗样本生成速度,提高了生成对抗样本的质量;降低了对抗样本的分布特征与真实样本的分布特征的差异,增加了人为识别难度同时,提高了攻击成功率。
附图说明
[0059]
图1是本发明提供的一种基于advdrop的对抗样本生成方法的流程图;
[0060]
图2是本发明实施例提供的一种基于advdrop的对抗样本生成方法的流程图;
[0061]
图3是本发明提供的使用advdorp对频域攻击流程图;
[0062]
图4是本发明提供的利用来自不同领域的梯度更新扰动生成对抗样本流程图。
具体实施方式
[0063]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0064]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0065]
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的;
[0066]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0067]
实施例1
[0068]
本发明实施例提供了一种基于advdrop的对抗样本生成方法,该方法使用了一个分支框架,同时处理空间域和频域的信息作为生成对抗样本方法,方法流程图如图1所示,具体包括以下步骤:
[0069]
s1:获取原始图像;
[0070]
s2:将原始图像分别输入两个不同的分支,一个分支使用pgd对原始图像的空间域进行攻击,得到初步对抗样本;另一个分支使用advdorp对原始图像的频域进行攻击,得到第一图像;
[0071]
s3:步骤s2得到所述第一图像合并到步骤s2得到所述初步对抗样本中,利用来自不同领域的梯度更新扰动,生成最终对抗样本。
[0072]
实施例2
[0073]
本实施例在实施例1的基础上,继续公开以下内容,如图2所示:
[0074]
在本实施例具体实施过程中,首先在真实样本中添加随机噪声,获得噪声增强样本;然后将图像输入空间域和频域两个不同分支进行处理,第一个分支使用空间域攻击pgd,步骤s2中,使用所述pgd对图像的空间域进行攻击,得到所述初步对抗样本输入分类模型进行分类,具体为:
[0075][0076]
式中x是图像信息,其标签是y,θ是所述分类模型的参数,是损失函数值,x
t
是经过t次fgsm算法处理后的对抗样本,x
t+1
是t+1次fgsm算法处理后的对抗样本,符号函数sign()提取梯度方向,参数β代表每次迭代图像像素更新的幅值,∏
a+s
代表循环a+s次,对于每个图像像素点a,引入了一组允许的扰动s;在pgd对空间域攻击算法中,使损失函数最大化的计算方法具体为:
[0077]
arg max l(x
adv
,y),s.t.||x
adv-x
init
||
p
《∈
[0078]
式中x
init
为原始图像,y表示相应的真伪标签,x
adv
为对抗样本,∈为lp范数。
[0079]
实施例3
[0080]
本实施例在实施例1的基础上,继续公开以下内容,如图3所示:
[0081]
第二个分支引入频域攻击advdrop,在训练基于advdrop的神经网络时,引入对抗性扰动p
n+1
来提高模型的对抗性能,具体来说,使用dropout的正则化技术,在每个训练迭代中随机删除一些神经元,在引入对抗性扰动时,dropout的删除概率可以逐渐降低,以达到逐步减小扰动的目的;对于频域攻击advdrop,首先将输入图像分割为n*n块,并对每个块使用dct将它们转换到频域,dct变换对图像进行压缩的原理是减少图像中的高频分量,高频
主要是对应图像中的细节信息,而人眼对细节信息并不是很敏感,因此可以去除高频的信息量;
[0082]
所述dct表达式如下所示:
[0083][0084]
式中x[k,m]表示图像的坐标,c[u]和c(v)是为了使dct矩阵正交,n是每个块大小,本发明中是n=8,然后生成初始扰动p~u(0,1)注入到频带上;
[0085]
步骤s2中,所述另一个分支使用advdorp对原始图像的频域进行攻击,得到第一图像,具体步骤包括:
[0086]
s2.1:将输入图像分割为n*n块,并在每个块上应用dct将原始图像从空间域转换到频域;
[0087]
s2.2:通过调整输入所述原始图像,使得所述频域中损失函数取得最大值;
[0088]
s2.3:对频域上分隔完的每个块计算对抗性损失p
n+1

[0089]
s2.4:引入量化矩阵m进行量化操作;
[0090]
s2.5:引入差分量化函数m
diff
,通过在量化过程中引入正切函数来逐步接近量化函数,进而准确调整量化矩阵m;
[0091]
s2.6:将步骤s2.5得到的所述量化矩阵m与步骤s2.3得到的所述对抗性损失p
n+1
进行融合;
[0092]
s2.7:应用idct将频域中的修改图像频率后的n*n个块转换回空间域;
[0093]
步骤s2.2中,所述通过调整输入所述原始图像,使得所述频域中损失函数取得最大值的计算方法为:
[0094]
arg max l(d'(f(d(x
adv
))),θ,y),s.t.||d(x
adv
)-d(x||
p
《∈
[0095]
式中d()是dct操作,f()代表修改图像频率,d'()是idct操作,θ是分类模型的参数,y是输入图像的标签,x是原始图像,∈是lp范数,x
adv
是对抗样本;
[0096]
步骤s2.3中,所述频域上分隔完的每个块计算对抗性损失p
n+1
的过程为:
[0097][0098]
式中ω是每次迭代的步长,d()是dct操作,d'()是idct操作,f()代表修改图像频率,θ是分类模型的参数,y是原始图像的标签,pn是更新到第n步时的对抗性损失,是经过n次迭代的对抗样本;
[0099]
步骤s2.4中,所述引入量化矩阵m进行量化操作,所述量化操作为:
[0100][0101]
式中δ表示量化步长,量化的值被限制在一个有效范围内[∈
min
,∈
max
],m是量化矩阵;
[0102]
为了准确地调整量化矩阵m,进一步提高攻击的成功率,本发明通过反向传播利用目标模型f的梯度,将整个过程描述为一个优化问题,然而是一个阶梯函数,因此是非微
分函数,不能通过反向传播直接集成到优化中,步骤s2.5,所述引入差分量化函数m
diff
,通过在量化过程中引入正切函数来逐步接近量化函数,进而准确调整量化矩阵m,所述差分量化函数m
diff
具体为:
[0103][0104]
φ(
·
)定义如下:
[0105][0106]
式中α是一个可调节参数,使用通过反向传播返回的梯度符号更新所述量化矩阵m,上述过程表示为:
[0107][0108]
∈限制了量化矩阵m的范数,m
init
表示为初始量化矩阵,m表示量化矩阵,l(x',y)表示损失,m'是更新后的量化矩阵;
[0109]
在差分量化中,相邻的权重被量化到相同数量的比特位中,然后在这些量化的值之间计算差分,通过差分量化操作,将量化矩阵m中的参数数量减少一半,同时不会显著降低模型的性能,此外,差分量化还可以减少模型的存储空间和计算量,从而加快模型的训练和推断速度;
[0110]
将步骤s2.5得到的所述量化矩阵m与步骤s2.3得到的所述对抗性损失p
n+1
进行融合,融合过程为:
[0111][0112]
式中

是hadamard乘积,为迭代n次后的对抗样本,d()是dct操作,f()修改图像频率,m是量化矩阵,p
n+1
是对抗性损失;
[0113]
步骤s2.7,所述应用idct将频域中的修改图像频率后的n*n个块转换回空间域,idct表达式如下所示:
[0114][0115]
式中dx
u,v
为输入图像x经过离散余弦变换后在频域上的表示,表示在频域中的位置(u,v)处的系数,x[k,m]表示频域转换空间域的图像的坐标,c(u)和c(v)是缩放系数,i和j是循环变量,取值范围为0到n-1,n是每个块的大小。
[0116]
实施例4
[0117]
本实施例在实施例1的基础上,继续公开以下内容,如图4所示,包括以下步骤:
[0118]
本实施例提供了一种基于advdrop的对抗样本生成方法,通过融合模块将空间域攻击pgd和频域攻击advdrop结合起来;步骤s3中,将所述步骤s2得到第一图像合并到步骤s2得到初步对抗样本中,利用来自不同领域的梯度迭代更新扰动,最终生成对抗样本,包括如下步骤:
[0119]
s10.1:设ωs和ωf分别表示所述使用pgd对图像的空间域进行攻击和使用advdrop
对图像的频域进行攻击,根据频域内的对抗性损失来更新来自不同领域的梯度,使用advdrop对图像的频域进行攻击ωf的计算方法为:
[0120][0121]
式中η'为攻击后的频率值,η为原始图像频率,γf为频域中的步长,θ是分类模型的参数,y是输入图像的标签;
[0122]
s10.2:然后根据空间域内的对抗性损失来更新梯度,使用pgd对图像的空间域进行攻击ωs的计算方法为:
[0123][0124]
式中η”为像素值,γs为空间域中的步长,θ是分类模型的参数,y是输入图像的标签,然后通过空间内的对抗损失来计算像素值η”,像素值η”的计算方法为:
[0125][0126]
式中η'表示攻击后的频率值,η”为像素值,γs为空间域中的步长;
[0127]
s10.3:每次迭代后,切换所述使用advdrop对图像的频域进行攻击的顺序,根据对抗损失在频率域和空间域之间交替进行顺序切换,以生成具有对抗性的输入样本,在频率域中优化频率值,然后在空间域中优化像素值,通过交替进行优化,可以使对抗攻击更有效,并欺骗目标模型,使分类模型产生错误的分类结果,生成最终对抗样本。
[0128]
相同或相似的标号对应相同或相似的部件;
[0129]
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0130]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

技术特征:
1.一种基于advdrop的对抗样本生成方法,其特征在于,包括如下步骤:s1:获取原始图像;s2:将原始图像分别输入两个不同的分支,一个分支使用pgd对原始图像的空间域进行攻击,得到初步对抗样本;另一个分支使用advdorp对原始图像的频域进行攻击,得到第一图像;s3:步骤s2得到所述第一图像合并到步骤s2得到所述初步对抗样本中,利用来自不同领域的梯度更新扰动,生成最终对抗样本。2.根据权利要求2所述的一种基于advdrop的对抗样本生成方法,其特征在于,步骤s2中,所述使用pgd对图像的空间域进行攻击,得到初步对抗样本输入分类模型进行分类,具体为:式中x是图像信息,其标签是y,θ是所述分类模型的参数,是损失函数值,x
t
是经过t次fgsm算法处理后的对抗样本,x
t+1
是t+1次fgsm算法处理后的对抗样本,符号函数sign()提取梯度方向,参数β代表每次迭代图像像素更新的幅值,∏
a+s
代表循环a+s次,对于每个图像像素点a,引入了一组允许的扰动s;在pgd对空间域攻击算法中,使损失函数最大化的计算方法具体为:arg maxl(x
adv
,y),s.t.||x
adv-x
init
||
p
<∈式中x
init
为原始图像,y是输入图像的标签,x
adv
为对抗样本,∈为lp范数。3.根据权利要求1所述的一种基于advdrop的对抗样本生成方法,其特征在于,步骤s2中,所述另一个分支使用advdorp对原始图像的频域进行攻击,得到第一图像,具体步骤包括:s2.1:将输入图像分割为n*n块,并在每个块上应用dct将原始图像从空间域转换到频域;s2.2:通过调整输入所述原始图像,使得所述频域中损失函数取得最大值;s2.3:对频域上分隔完的每个块计算对抗性损失p
n+1
;s2.4:引入量化矩阵m进行量化操作;s2.5:引入差分量化函数m
diff
,通过在量化过程中引入正切函数来逐步接近量化函数,进而准确调整量化矩阵m;s2.6:将步骤s2.5得到的所述量化矩阵m与步骤s2.3得到的所述对抗性损失p
n+1
进行融合;s2.7:应用idct将频域中的修改图像频率后的n*n个块转换回空间域。4.根据权利要求3所述的一种基于advdrop的对抗样本生成方法,其特征在于,步骤s2.2中,所述通过调整输入所述原始图像,使得所述频域中损失函数取得最大值的计算方法为:arg maxl(d'(f(d(x
adv
))),θ,y),s.t.||d(x
adv
)-d(x)|||
p
<∈式中d()是dct操作,f()代表修改图像频率,d'()是idct操作,θ是分类模型的参数,y是输入图像的标签,x是原始图像,∈是lp范数,x
adv
是对抗样本。5.根据权利要求3所述的基于advdrop的对抗样本生成方法,其特征在于,步骤s2.3中,
所述频域上分隔完的每个块计算对抗性损失p
n+1
的过程为:式中ω是每次迭代的步长,d()是dct操作,d'()是idct操作,f()代表修改图像频率,θ是分类模型的参数,y是原始图像的标签,p
n
是更新到第n步时的对抗性损失,是经过n次迭代的对抗样本。6.根据权利要求3所述的一种基于advdrop的对抗样本生成方法,其特征在于,步骤s2.4中,所述引入量化矩阵m进行量化操作,所述量化操作为:式中δ表示量化步长,量化的值被限制在一个有效范围内[∈
min
,∈
max
],m是量化矩阵。7.根据权利要求3所述的基于advdrop的对抗样本生成方法,其特征在于,步骤s2.5,所述引入差分量化函数m
diff
,通过在量化过程中引入正切函数来逐步接近量化函数,进而准确调整量化矩阵m,所述差分量化函数m
diff
具体为:φ(
·
)定义如下:式中α是一个可调节参数,使用通过反向传播返回的梯度符号更新所述量化矩阵m,上述过程表示为:∈限制了量化矩阵m的范数,m
init
表示为初始量化矩阵,m表示量化矩阵,l(x',y)表示损失,m'是更新后的量化矩阵。8.根据权利要求3所述的一种基于advdrop的对抗样本生成方法,其特征在于,步骤s2.6,所述将步骤s2.5得到的量化矩阵m与步骤s2.3得到的对抗性损失p
n+1
进行融合,融合过程为:式中

是hadamard乘积,为迭代n次后的对抗样本,d()是dct操作,f()修改图像频率,m是量化矩阵,p
n+1
是对抗性损失。9.根据权利要求3所述的一种基于advdrop的对抗样本生成方法,其特征在于,步骤s2.7,所述应用idct将频域中的修改图像频率后的n*n个块转换回空间域,idct表达式如下所示:
式中d(x)
[u,v]
为输入图像x经过离散余弦变换后在频域上的表示,表示在频域中的位置(u,v)处的系数,x[k,m]表示频域转换空间域的图像的坐标,c(u)和c(v)是缩放系数,i和j是循环变量,取值范围为0到n-1,n是每个块的大小。10.根据权利要求1所述的一种基于advdrop的对抗样本生成方法,其特征在于,步骤s3中,将所述步骤s2得到第一图像合并到步骤s2得到初步对抗样本中,利用来自不同领域的梯度迭代更新扰动,最终生成对抗样本,包括如下步骤:s10.1:设ω
s
和ω
f
分别表示所述使用pgd对图像的空间域进行攻击和使用advdrop对图像的频域进行攻击,根据频域内的对抗性损失来更新来自不同领域的梯度,使用advdrop对图像的频域进行攻击ω
f
的计算方法为:式中η'为攻击后的频率值,η为原始图像频率,γ
f
为频域中的步长,θ是分类模型的参数,y是输入图像的标签;s10.2:然后根据空间域内的对抗性损失来更新梯度,使用pgd对图像的空间域进行攻击ω
s
的计算方法为:式中η”为像素值,γ
s
为空间域中的步长,θ是分类模型的参数,y是输入图像的标签,然后通过空间内的对抗损失来计算像素值η”,像素值η”的计算方法为:式中η'表示攻击后的频率值,η”为像素值,γ
s
为空间域中的步长;s10.3:每次迭代后,切换所述使用advdrop对图像的频域进行攻击的顺序,根据对抗损失在频率域和空间域之间交替进行顺序切换,以生成具有对抗性的输入样本,使分类模型产生错误的分类结果,生成最终对抗样本。

技术总结
本发明公开了一种基于AdvDrop的对抗样本生成方法,涉及机器学习安全的技术领域,本发明将图像输入空间域和频域两个不同分支进行处理,对于频域攻击AdvDrop,首先将输入图像分割为N*N块,并对每一个块使用离散余弦变换DCT将它们转换到频域,引入量化矩阵M来降低变换后图像的一些特定频率,通过在量化过程中引入正切函数来逐步接近量化函数,进而通过新的量化函数准确调整量化矩阵M,然后再通过逆离散余弦变换IDCT操作将图像从频域转回空间域,然后通过空间域攻击和频域攻击融合模块,利用来自不同领域的梯度来迭代更新对抗性扰动,最终生成对抗样本,本发明提高了生成对抗样本的质量,可降低对抗样本的分布特征与真实样本的分布特征的差异,提高攻击成功率。提高攻击成功率。提高攻击成功率。


技术研发人员:凌捷 陈金辉 罗玉
受保护的技术使用者:广东工业大学
技术研发日:2023.05.30
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐