用于水下生物图像分类的双注意力机制深度神经网络模型及方法

未命名 09-29 阅读:95 评论:0


1.本发明涉及水下图像处理技术领域,具体的说,涉及了一种用于水下生物图像分类的双注意力机制深度神经网络模型,及方法。


背景技术:

2.受复杂的水下环境影响,导致水下生物图像存在相似且复杂的背景特征;由于光的吸收和散射效应,水下图像会出现图像模糊、对比度低和细节模糊等问题。由于相机在水中的拍摄图像受光照和水质的影响,这也造成了水下图像与陆地图像相比质量更差并且特征更复杂,对水下图像的分类有着很大的影响。
3.最近,深度学习方法逐渐应用到水下生物图像的分类工作中。然而,深度学习方法在水下图像的分类上容易出现分类能力差和收敛速度慢。为了处理该问题,注意力机制方法通过提取有价值特征和减少参数以缓解该问题。
4.但是,直接使用注意力机制方法则会因为大量的像素而存在计算量大、成本高和速度慢等问题。
5.卷积和注意力结合的coatnet模型利用卷积和注意力通过相对注意自然地统一起来,但该方法对水下图像的特征信息提取不足,分类性能不高。
6.为解决上述算法运算量大、速度慢与分类性能之间的矛盾问题,以及直接使用注意力机制方法存在计算量大、成本高和速度慢等问题,本领域技术人员一直在寻求一种既能够减轻运算量,又能够保证性能的优化方法。


技术实现要素:

7.本发明的目的是针对现有技术的不足,从而提供一种重点解决水下图像的大参数量和复杂的特征信息、根据双注意力机制的特征提取策略和参数优化获取有价值的水下图像特征,在保证增强性能的同时显著减少了运算量的用于水下生物图像分类的双注意力机制深度神经网络模型,及方法。
8.为了实现上述目的,本发明所采用的技术方案是:一种用于水下生物图像分类的双注意力机制深度神经网络模型,包括:
9.多阶段布局模块,用于抑制复杂的水下背景,减少参数量;
10.双注意力机制模块,结合反向残差瓶颈,从空间和通道两方面提取水下生物图像特征信息;
11.重力优化器,用于更新模型权重,指数平移的方式能够提高模型的收敛速度和学习速率。
12.基上所述,利用多阶段布局模块,每个阶段都使用最大池化将空间大小逐渐减小并增加通道数,启用残差网络进行连接;把模型分为五个部分,s0、s1、s2、s3和s4,公式表示如下:
13.s0=conv3(conv3(x))
14.ym=conv1(lin(avgpool(conv3(conv1(x)))))
15.s1,s2=ym(ym(conv1(maxpool(x))))
16.s3,s4=y
tf*5
(conv1(maxpool
*2
(x)))
17.其中,conv3代表3*3的卷积,conv1代表1*1的卷积,x为输入特征矩阵;avgpool和maxpool代表平均池化和最大池化,lin为全连接,y
tf
为transformer块的堆叠,*2或*5为使用次数;
18.s1和s2表示卷积和双注意力机制的结合;
19.s3和s4表示transformer堆叠模块。
20.水下图像中的特征信息通常非常复杂且受光照和反射的影响,使得图像中存在大量噪声。在本发明中,将水下图像从通道和空间两个维度提取有价值的特征信息,相比于单通道的注意力机制,双注意力机制能够减少有价值特征的丢失,准确提取目标特征信息。
21.基上所述,利用双注意力机制模块选择性地关注于有价值特征密切相关的区域,进而忽略不重要的特征信息,表达式表示如下:
22.mc=sigmoid(mlp(avgpool(x))+mlp(maxpool(x)))
23.ms=sigmoid(conv7(cat(avgpool(mc);maxpool(mc))))
24.其中,mlp为多层感知机,cat和sigmoid分别表示拼接特征和激活特征操作,conv7为7*7的卷积;
25.mc为通道注意力模块的输出,ms为空间注意力模块的输出。
26.基上所述,注意力模块的输出特征与原输入的特征图相乘并修正的表达式表示如下:
[0027][0028][0029]
其中,表示元素级相乘,f为原输入特征图;mf为双注意力模块的输出。
[0030]
基上所述,为了加快权重的更新和模型的收敛,重新确定重力优化器中的超参数学习率l和平均移动参数β表达如下:
[0031][0032]
其中,t为更新步数。
[0033]
基上所述,所述的更新模型权重,更大范围梯度的线性处理定义表达如下:
[0034]vt
=βv
t-1i
+(1-β)n
[0035]
wi=w
i-lv
t
[0036]
其中,v
t
是更新步骤中的速度,wi为每个权重的矩阵,n为梯度项。
[0037]
一种用于水下生物图像分类的方法,包括所述的用于水下生物图像分类的双注意力机制深度神经网络模型,通过以下步骤进行:先使用多阶段堆叠,抑制复杂的水下背景来减少参数量;其次使用双注意力机制模块结合反向残差瓶颈,从空间和通道两方面提取水下生物图像特征信息;最后,选择重力优化器更新模型权重,指数平移的方式能够提高模型的收敛速度和学习速率。
[0038]
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,本发明利用双注意力机制的图像分类策略:即利用多阶段布局,每个阶段都使用最大池化将空间大小逐渐减小并增加通道数,启用残差网络进行连接。利用双注意力机制选择性地关注于有价值特征密切相关的区域,进而忽略不重要的特征信息;另外,由于在分类过程中引入了水下图像存在大量的噪声,本发明能够在减少参数量的同时较好的抑制噪声。本发明用于解决传统的深度学习方法极易出现计算量大、成本高和速度慢的一系列问题。
[0039]
另外,本发明利用权重更新策略:即对超参数学习率l和平均移动参数β重定义,使得模型在收敛速度和验证损失得到优化,得以在水下的图像处理领域广泛推广应用。
附图说明
[0040]
图1为本发明双注意力机制深度神经网络的流程示意图。
[0041]
图2为本发明部分水下图像数据展示。
[0042]
图3为本发明与其它方法针对水下生物图像分类结果对比图。
[0043]
图4为本发明实验结果的平均损失和准确度曲线图。
具体实施方式
[0044]
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
[0045]
为了验证本发明模型的性能,选取七种生物类型的水下图像作为测试集,同时与传统和经典的神经网络如alexnet、vgg19、googlenet和resnet50,及新型网络模型efficientne、coatnet、repvgg和alternet作对比。
[0046]
如图1所示,一种双注意力机制深度神经网络(damnet),先使用多阶段布局,抑制复杂的水下背景来减少参数量。其次使用双注意力机制模块结合反向残差瓶颈,从空间和通道两方面提取水下生物图像特征信息。最后,选择重力优化器更新模型权重,指数平移的方式能够提高模型的收敛速度和学习速率,表示如下:
[0047]
利用多阶段布局,每个阶段都使用最大池化将空间大小逐渐减小并增加通道数,启用残差网络进行连接。把模型分为五个部分,s0、s1、s2、s3和s4,公式表示如下:
[0048]
s0=conv3(conv3(x))
[0049]
ym=conv1(lin(avgpool(conv3(conv1(x)))))
[0050]
s1,s2=ym(ym(conv1(maxpool(x))))
[0051]
s3,s4=y
tf*5
(conv1(maxpool
*2
(x)))
[0052]
其中,conv3代表3*3的卷积,conv1代表1*1的卷积,x为输入特征矩阵;avgpool和maxpool代表平均池化和最大池化,lin为全连接,y
tf
为transformer块的堆叠,*2或*5为使用次数;
[0053]
s1和s2表示卷积和双注意力机制的结合;
[0054]
s3和s4表示transformer堆叠模块。
[0055]
水下图像中的特征信息通常非常复杂且受光照和反射的影响,使得图像中存在大量噪声。在本发明中,将水下图像从通道和空间两个维度提取有价值的特征信息。相比于单通道的注意力机制,双注意力机制能够减少有价值特征的丢失,准确提取目标特征信息。
[0056]
然后,利用双注意力机制选择性地关注于有价值特征密切相关的区域,进而忽略
不重要的特征信息,表达式如下:
[0057]
mc=sigmoid(mlp(avgpool(x))+mlp(maxpool(x)))
[0058]ms
=sigmoid(conv7(cat(avgpool(mc);maxpool(mc))))
[0059]
其中,mlp为多层感知机,cat和sigmoid分别表示拼接特征和激活特征操作,conv7为7*7的卷积;
[0060]
mc为通道注意力模块的输出,ms为空间注意力模块的输出。
[0061]
所述注意力输出特征与原输入的特征图相乘并修正的表达式表示如下:
[0062][0063][0064]
其中,表示元素级相乘,f为原输入特征图;mf为双注意力模块的输出。
[0065]
为了加快权重的更新和模型的收敛,本发明重定义超参数学习率l和平均移动参数β表达如下:
[0066]
β=(βt+1)/(t+2)
[0067]
其中,t为更新步数。
[0068]
更新权重,更大范围梯度的线性处理定义表达如下:
[0069]vt
=βv
t-1i
+(1-β)n
[0070]
wi=w
i-lv
t
[0071]
其中,v
t
是更新步骤中的速度,wi为每个权重的矩阵,n为梯度项。
[0072]
如图2所示,本发明展示了部分使用的水下生物图像。
[0073]
如图3所示,本发明展示了与其它方法针对水下图像分类结果对比图。由图3可知,与其它模型相比,本发明的模型收敛速度更快,在短epoch内达到高准确率,并趋于平稳。本发明有着较好的学习能力和收敛能力,可以获得令人满意的水下生物图像分类结果。
[0074]
如图4所示,展示了本发明实验结果的平均损失和准确度曲线图。由图4可知,重力优化器通过指数平移加快权重的更新,双注意力机制模块的加入,能够在复杂的水下背景中提取丰富的特征。双注意力机制的采用,加快了特征的提取并减少参数量,使模型收敛的更快,损失更低。
[0075]
本实施例从评估指标准确率、精准度、召回率和f1以及损失对比不同方法,表1中列出的数据表明,本发明在复杂和相似背景下的水下图像分类方面具有很高的准确率,各个指标都优于其它的网络模型。在表2中展示了每一类水下生物图像的分类精度,本发明多类精度都优于其它网络。从表1和表2的数据可知,本发明具有高准确率和低损失,它说明本发明在客观评估指标方面也具有较好的性能。综上所述,本发明从主观和客观评估方面都优于对比方法。
[0076][0077]
表1本发明方法和其它方法实验结果对比
[0078][0079]
表2本发明方法和其它方法不同类别实验结果对比
[0080]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

技术特征:
1.一种用于水下生物图像分类的双注意力机制深度神经网络模型,其特征在于:包括:多阶段布局模块,用于抑制复杂的水下背景,减少参数量;双注意力机制模块,结合反向残差瓶颈,从空间和通道两方面提取水下生物图像特征信息;重力优化器,用于更新模型权重,指数平移的方式能够提高模型的收敛速度和学习速率。2.根据权利要求1所述的用于水下生物图像分类的双注意力机制深度神经网络模型,其特征在于:利用多阶段布局模块,每个阶段都使用最大池化将空间大小逐渐减小并增加通道数,启用残差网络进行连接;把模型分为五个部分,s0、s1、s2、s3和s4,公式表示如下:s0=conv3(conv3(x))y
m
=conv1(lin(avgpool(conv3(conv1(x)))))s1,s2=y
m
(y
m
(conv1(maxpool(x))))s3,s4=y
tf*5
(conv1(maxpool
*2
(x)))其中,conv3代表3*3的卷积,conv1代表1*1的卷积,x为输入特征矩阵;avgpool和maxpool代表平均池化和最大池化,lin为全连接,y
tf
为transformer块的堆叠,*2或*5为使用次数;s1和s2表示卷积和双注意力机制的结合;s3和s4表示transformer堆叠模块。3.根据权利要求2所述的用于水下生物图像分类的双注意力机制深度神经网络模型,其特征在于:利用双注意力机制模块选择性地关注于有价值特征密切相关的区域,进而忽略不重要的特征信息,表达式表示如下:m
c
=sigmoid(mlp(avgpool(x))+mlp(maxpool(x)))m
s
=sigmoid(conv7(cat(avgpool(m
c
);maxpool(m
c
))))其中,mlp为多层感知机,cat和sigmoid分别表示拼接特征和激活特征操作,conv7为7*7的卷积;m
c
为通道注意力模块的输出,m
s
为空间注意力模块的输出。4.根据权利要求3所述的用于水下生物图像分类的双注意力机制深度神经网络模型,其特征在于:注意力模块的输出特征与原输入的特征图相乘并修正的表达式表示如下:其特征在于:注意力模块的输出特征与原输入的特征图相乘并修正的表达式表示如下:其中,表示元素级相乘,f为原输入特征图;m
f
为双注意力模块的输出。5.根据权利要求4所述的用于水下生物图像分类的双注意力机制深度神经网络模型,其特征在于:所述重力优化器中,确定超参数学习率l和平均移动参数β表达如下:其中,t为更新步数。6.根据权利要求5所述的用于水下生物图像分类的双注意力机制深度神经网络模型,其特征在于:所述的更新模型权重,更大范围梯度的线性处理定义表达如下:
v
t
=βv
t-1i
+(1-β)nw
i
=w
i-lv
t
其中,v
t
是更新步骤中的速度,w
i
为每个权重的矩阵,n为梯度项。7.一种用于水下生物图像分类的方法,其特征在于:包括权利要求1-6任一项所述的用于水下生物图像分类的双注意力机制深度神经网络模型,通过以下步骤进行:先使用多阶段堆叠,抑制复杂的水下背景来减少参数量;其次使用双注意力机制模块结合反向残差瓶颈,从空间和通道两方面提取水下生物图像特征信息;最后,选择重力优化器更新模型权重,指数平移的方式能够提高模型的收敛速度和学习速率。

技术总结
本发明提供了一种用于水下生物图像分类的双注意力机制深度神经网络模型及方法,包括:多阶段布局模块,用于抑制复杂的水下背景,减少参数量;双注意力机制模块,结合反向残差瓶颈,从空间和通道两方面提取水下生物图像特征信息;重力优化器,用于更新模型权重,指数平移的方式能够提高模型的收敛速度和学习速率。该方法在增加特征信息的情况下减少噪声,并加快了收敛速度,使得模型收敛速度更快精度更高,优于其他的分类网络模型,另外,该方法准确率高、时间复杂度适中、能够丰富图像的特征并抑制复杂的水下背景。抑制复杂的水下背景。抑制复杂的水下背景。


技术研发人员:曲培新 张卫东 李腾飞 李国厚 金松林 周玲 郑颖 王应军 安金梁 白林锋
受保护的技术使用者:河南科技学院
技术研发日:2022.10.28
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐