一种基于双流门控渐进优化网络的显著目标检测方法
未命名
09-29
阅读:57
评论:0
1.本技术涉及图像处理和计算机视觉技术领域,具体涉及一种基于双流门控渐进优化网络的显著目标检测方法。
背景技术:
2.现有的显著目标检测方法大多基于编码器-解码器结构,其中编码器用于生成多层特征,解码器用于合并来自不同阶段的特征,以实现显著目标的有效定位和分割。当编码器特征提取性能有限的条件下,解码器在聚合这些特征并预测显著性图中起着重要作用。当前的研究已经提出了多层特征的组合方法,例如通过多次级联的解码器架构,将相邻的两层特征投影至相同的潜在空间中,执行特征堆叠操作concatenate和级联操作cascade;或是对原始图像构建图像金字塔,然后对金字塔每一层的输出特征执行元素相加操作elementwise sum并进行预测。以上两种方法均使用了多层特征的优势提取图像的低级和高级语义信息,并结合这些多尺度语义信息获得更好的检测精度。但是这些融合方式缺乏信息流控制组件,可能导致冗余信息的传递,损害显著目标检测性能,存在以下三个主要问题:(1)特征稀释:多层特征中的一些像素或通道可能包含无效信息,导致有用信息被稀释,影响最终预测结果;(2)噪声干扰:低层特征中含有显著对象的复杂细节和噪声信息,简单的特征聚合方法无法有效过滤噪声,导致预测图中混入非显著信息,影响显著目标的准确识别;(3)缺乏解释性:在多层特征聚合过程中难以确定哪些像素或通道对最终输出结果至关重要,使得难以解释模型的预测行为和判断特征的重要性。
3.此外,预测具有模糊边界的边缘像素比预测中心像素更困难,给显著对象的分割带来了重要挑战。
技术实现要素:
4.本发明的目的在于,提供一种基于双流门控渐进优化网络的显著目标检测方法,能够克服现有的显著目标检测方法中存在的特征稀释、噪声干扰和确认解释性的缺陷,还能克服传统边缘标签像素分布不均衡问题,并利用全局分支和细节分支之间的互补关系,提高对应显著目标对象的检测精度。
5.本发明采取的技术方案是:一种基于双流门控渐进优化网络的显著目标检测方法,包括如下步骤:s1:采集用于显著目标检测的图像数据集,并获取图像数据集中每张图像的显著标签,通过对显著标签进行边缘信息的提取,获取每张图像的细节标签;s2:对图像数据集中的每张图像进行预处理,并划分为训练集和测试集;s3:构建双流门控渐进优化网络gponet,所述双流门控渐进优化网络gponet包括门控融合网络、交叉引导模块和特征融合模块;
所述门控融合网络用于提取n个阶段的全局特征g和细节特征e,并通过全局分支和细节分支,分别以互补方式解释性融合相邻阶段的全局特征g或细节特征e,生成融合后的全局特征g
out
和融合后的细节特征e
out
;所述交叉引导模块用于对融合后的全局特征g
out
和融合后的细节特征e
out
进行通信交互和交叉引导,对融合后的全局特征g
out
和融合后的细节特征e
out
进行互补生成交叉引导后的全局特征和交叉引导后的细节特征,并根据交叉引导后的全局特征和交叉引导后的细节特征生成全局预测图和边缘预测图;所述特征融合模块用于对全局预测图和边缘预测图进行融合,生成融合特征图,并通过对融合特征图进行预测,生成包含显著目标的显著预测图;s4:使用训练集对所述双流门控渐进优化网络gponet进行训练,采用全局损失来优化全局分支的预测,采用细节损失来优化细节分支的预测,并采用融合损失来优化显著预测图的预测;将全局损失、细节损失和融合损失进行加权求和,作为双流门控渐进优化网络gponet的细节感知损失;使用测试集测试双流门控渐进优化网络gponet的网络性能;s5:采用训练好的双流门控渐进优化网络gponet进行图像中的显著目标检测。
6.进一步地,所述步骤s2中的预处理包括通过图像变换进行数据增强、将图像的像素值进行归一化、统一图像尺寸和将图像转化为张量数据类型。
7.进一步地,所述门控融合网络包括编码器、全局分支和细节分支,输入图像经编码器进行特征映射,提取出n个阶段的全局特征g和细节特征e,全局分支和细节分支中均包括n-1个门控融合单元,其中,n≧2;n个阶段的全局特征g和细节特征e分别经n-1个门控融合单元处理,将n个相邻阶段的特征进行互补融合;所述门控融合单元根据对应的低层特征和高层特征获得第一门控值和第二门控值,具体公式如下:;;其中,f
l
表示第l阶段的特征,表示第l+1阶段的特征f
l+1
经过上采样后得到的特征,f= {gore},即特征f为全局特征g或细节特征e,w1表示学习第一门控值的权重参数,w2表示学习第二门控值的权重参数,b表示可学习的偏置参数,表示sigmoid激活函数;以第一门控值和第二门控值作为权重,根据第l阶段的特征f
l
和第l+1阶段的特征f
l+1
运算得到第l阶段融合后的特征,具体公式如下:;;
;;其中,表示第l阶段的低层激活,表示第l阶段的高层激活,表示第l阶段的高语义信息。
8.进一步地,所述交叉引导模块包括n个交叉引导单元,门控融合网络输出的同一阶段的融合后的全局特征g
out
和融合后的细节特征e
out
分别在n个交叉引导单元通过卷积操作和连接操作生成融合特征f
(e,g)
,具体表达式如下:;其中,f
l(e,g)
表示第l阶段的融合特征,表示在通道维度叠加操作,表示第l阶段的融合后的全局特征,表示第l阶段的融合后的细节特征,w
fg
表示从第l阶段的融合后的全局特征至第l阶段的融合特征f
l(e,g)
的第一可学习的参数,w
ig
表示从第l阶段的融合后的全局特征至第l阶段的融合特征f
l(e,g)
的第二可学习的参数,w
fe
表示从第l阶段的融合后的细节特征至第l阶段的融合特征f
l(e,g)
的第一可学习的参数,w
ie
表示从第l阶段的融合后的细节特征至第l阶段的融合特征f
l(e,g)
的第二可学习的参数;融合特征f
(e,g)
通过卷积操作分别映射回全局分支和细节分支,并与融合后的全局特征g
out
和融合后的细节特征e
out
进行相加,最后执行卷积操作生成交叉引导后的全局特征和交叉引导后的细节特征,具体表达式如下:;;其中,w
og
表示从第l阶段的融合特征f
l(e,g)
映射回全局分支的第一可学习的参数,w
pg
表示从第l阶段的融合特征f
l(e,g)
映射回全局分支的第二可学习的参数,w
oe
表示从第l阶段的融合特征f
l(e,g)
映射回细节分支的第一可学习的参数,w
pe
表示从第l阶段的融合特征f
l(e,g)
映射回细节分支的第二可学习的参数;交叉引导后的全局特征和细节特征经过预测头操作生成全局预测图和边缘预测图。
9.进一步地,所述特征融合模块将交叉指导模块输出的交叉引导后的全局特征和交叉引导后的细节特征在通道维度上进行连接以生成融合特征图f
fuse
,具体公式如下:;其中,l= 1,2,
…
,n;通过全局平均池化层和全连接层对融合特征图f
fuse
进行处理,得到融合特征图的
注意力分数s,具体公式如下:;其中,表示全局平均池化操作,表示全连接操作;将融合特征图f
fuse
与融合特征图的注意力分数s相乘进行加权,计算通道加权融合结果,并通过预测头层生成包含显著目标的显著预测图p,具体公式如下:;其中,表示预测头操作。
10.进一步地,所述步骤s4中,通过卷积核遍历图像细节标签的每个像素点,并根据卷积核内平均值判定该像素点是否属于重要的细节像素,判定规则如下:;其中,(x,y)表示坐标值为(x,y)的像素点,detail pixel表示细节像素,body pixel表示前景像素,backgroud pixel表示背景像素,(x,y)
avg
表示以坐标值为(x,y)的像素点为中心,卷积核大小为半径的卷积核范围内所有像素点的像素值的平均值;根据卷积核内平均值(x,y)
avg
计算像素权重矩阵,其中,像素权重矩阵内第x行第y列的数值代表坐标值为(x,y)的像素点的权重值,计算公式如下:;其中,为像素权重矩阵的超参数,detail
(x,y)
为细节标签中坐标值为(x,y)的像素点的像素值;所述全局损失、细节损失和融合损失的表达式如下:;;;其中,h表示图像的高度,w表示图像的宽度,表示全局分支的全局预测图中坐标值为(x,y)的像素点的预测值,表示显著标签中坐标值为(x,y)的像素点的真实
值,表示细节分支的边缘预测图中坐标值为(x,y)的像素点的预测值,表示细节标签中坐标值为(x,y)的像素点的真实值,表示包含显著目标的显著预测图p中坐标值为(x,y)的像素点的预测值;将全局损失、细节损失和融合损失进行加权求和,得到双流门控渐进优化网络gponet的细节感知损失,具体公式如下:;;其中,表示全局损失的权重,表示细节损失的权重,表示融合损失的权重。
11.进一步地,所述步骤s4中,通过f分数指标,平均绝对误差mae,增强对齐指标和结构相似性指标来检测所述双流门控渐进优化网络gponet的网络性能,具体表达式如下:;;;;其中,precision表示精确率,recall表示召回率,为非负实数,用于调整对精确率和召回率之间重要性的平衡;n表示像素数量,pi表示第i个像素的预测值,gi表示第i个像素的真实值,i表示像素编号,i= 1,2,
…
,n;w表示图像的宽度,h表示图像高度,为对齐函数,用于计算预测目标和真实目标的对齐程度;sr表示区域相似性值,so表示边界相似性值,表示权重参数,用于控制sr和so的比重。
12.本发明的有益效果在于:(1)本发明通过具有门控融合单元的门控融合网络,自顶向下改进低层特征,利用第一门控值和第二门控值对低层特征和高层特征进行互补信息的提取,并以互补方式解释性地融合相邻阶段的特征,避免冗余信息的传递造成特征稀释和噪音干扰等问题;(2)本发明提出了一种分离相邻层特征之间的激活特征和有效特征的门控融合单元;激活特征意味着相邻两层特征的各自激活,如浅层的边缘纹理等低级特征和深层的前景识别等高级特征;有效特征意味着相邻两层特征传递过程中的有效信息,克服了冗余信
息的传递;并且能够在理论上帮助理解双流门控渐进优化网络gponet的运作过程,特征融合过程的细节可通过可视化方式展示,从而提升了双流门控渐进优化网络gponet的可解释性;(3)本发明利用图像数据的细节标签在双流门控渐进优化网络gponet中的生成边缘预测图,通过融合细节的补充信息,使得预测的显著图的边缘预测质量显著提升,而无需额外的手动标注或训练;(4)本发明通过在不同特征层之间应用交叉引导模块,加快了两个全局分支和细节分支的拟合速度,并提升了显著预测图的预测质量。
附图说明
13.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
14.图1为本发明实施例的方法流程图;图2为本发明实施例中双流门控渐进优化网络gponet的结构示意图;图3为本发明实施例中门控融合单元的结构示意图;图4为本发明实施例中细节标签与传统边缘标签的对比图;图5为本发明实施例中交叉引导单元的结构示意图;图6为本发明实施例中特征融合模块的结构结构示意图;图7为本发明实施例中门控融合单元内部激活值的可视化结果;图8为本发明实施例与现有显著目标检测方法检测边缘的性能比较结果图;图9为使用传统边缘标签和细节标签执行边缘检测的结果对比图;图10为本发明实施例和现有显著目标检测方法获得的显著预测图的结果示意图。
具体实施方式
15.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
16.除非另作定义,此处使用的技术术语或者科学术语应当为本技术所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,
ꢀ“
一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
ꢀ“
连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
ꢀ“
上”、
ꢀ“
下”、
ꢀ“
左”、
ꢀ“
右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
17.如图1所示,一种基于双流门控渐进优化网络的显著目标检测方法,包括如下步骤:
s1:采集用于显著目标检测的图像数据集,并获取图像数据集中每张图像的显著标签,通过对显著标签进行边缘信息的提取,获取每张图像的细节标签。本发明实施例中采集的数图像数据来自于五个显著目标检测领域内常用的公共数据集,分别是duts数据集、hku-is数据集、duts-omron数据集、pascal-s数据集和esccd数据集。这些数据集包含显著目标和背景的多样性和丰富性,涵盖各种场景和显著目标类型。
18.duts数据集包含10553张训练图像duts-tr和5019张测试图像duts-te。训练集和测试集都包含了显著性检测中非常具有挑战性的场景,通过50名志愿者进行了准确的像素级真值手动注释。
19.ecssd数据集包含1000张真实世界复杂场景的图像,具有常见的纹理和结构以及相应的标签,由五名志愿者手动标注图像,然后取平均值作为最终结果。
20.pascal-s数据集包含850张图像,根据pascal-s数据集的眼动数据,对850张图像中的显著性目标进行了注释,形成了最终的数据集。
21.duts-omron数据集包含了5168张高质量的图像,这些图像包含一个或多个显著对象和相对复杂的背景,每张图片由五位观察员进行了眼动数据注释。
22.hku-is数据集由三名志愿者在所有7320张图像中注释了显著对象,剔除了标注不一致的图像,并保留了4447张具有低对比度或多个显著对象的具有挑战性的图像。
23.本发明实施例使用canny算子从图像样本中提取边缘信息,生成边缘图像,并且只选择显著标签的内部和边缘部分作为最终的细节标签。
24.s2:对图像数据集中的每张图像进行预处理,并划分为训练集和测试集。在本发明实施例中,所述预处理包括通过图像变换进行数据增强、将图像的像素值进行归一化、统一图像尺寸和将图像转化为张量数据类型。
25.数据增强包括水平翻转、垂直翻转和随机裁剪三种方式,通过对图像进行变换和扩增来增加数据集的多样性,增加数据量,改善网络模型的泛化能力和鲁棒性。
26.归一化是将原始图像像素值减去均值并除以标准差,使得像素值具有零均值和单位方差,若标签像素值在0到255之间,则将标签像素值除以255,从而将图像像素值和标签像素值缩放到固定的范围。通过归一化处理可以使训练过程更加稳定,加快网络模型的收敛速度。
27.统一图像尺寸是为了适应网络模型的输入要求,将图像调整为相同的尺寸,确保所有图像都有相同的输入维度,方便批量处理。
28.将图像转化为张量数据类型的目的是将图像数据转换为网络模型所需的数据类型,使得图像数据能够被网络模型进行处理。
29.在完成数据预处理后,将数据集划分为按照7:3的比例划分为训练集和测试集。训练集用于训练网络模型的参数,测试集用于评估网络模型在新样本上的表现,即网络模型的性能。
30.s3:构建双流门控渐进优化网络gponet,所述双流门控渐进优化网络gponet的结构如图2所示,包括门控融合网络、交叉引导模块和特征融合模块。图中
“”
表示门控融合单元,
“”
表示特征图,
“”
表示预测头操作,
“”
表示通道叠加,
“”
表示元素相乘。
31.所述门控融合网络用于提取n个阶段的全局特征g和细节特征e,并通过全局分支
和细节分支,分别以互补方式解释性融合相邻阶段的全局特征g或细节特征e,生成融合后的全局特征g
out
和融合后的细节特征e
out
。
32.所述门控融合网络包括编码器、全局分支和细节分支,输入图像经编码器进行特征映射,提取出n个阶段的全局特征g和细节特征e,全局分支和细节分支中均包括n-1个门控融合单元,其中,n≧2;n个阶段的全局特征g和细节特征e分别经n-1个门控融合单元处理,将n个相邻阶段的特征进行互补融合,避免冗余信息的传递。在本发明实施例中,采用的编码器为resnet50编码器或pvtv2 编码器,能够输出四层特征,即n= 4。通过门控融合单元可激活和传递低层的细节信息,弥补低层特征的感受野有限而导致高层语义信息不足的缺陷,从而能够准确地定位和分割显著对象。
33.如图3所示,所述门控融合单元根据对应的低层特征和高层特征获得第一门控值和第二门控值,图中
“”
表示元素相乘,
“”
表示元素相加;第一门控值和第二门控值分别通过执行两个卷积操作计算,并执行sigmoid函数以确保它们的值范围在0到1之间,具体公式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,f
l
表示第l阶段的特征,表示第l+1阶段的特征f
l+1
经过上采样后得到的特征,f= {gore},即特征f为全局特征g或细节特征e,w1表示学习第一门控值的权重参数,w2表示学习第二门控值的权重参数,b表示可学习的偏置参数,表示sigmoid激活函数,用于将输出值映射至[0,1]区间内。
[0034]
以第一门控值和第二门控值作为权重来控制特征的流动,分别与低层特征和高层特征相乘,得到第l阶段的低层激活和第l阶段的高层激活,具体公式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)随后根据第一门控值和第l阶段的高层激活,得到第l阶段的高语义信息,高语义信息hsi在高层特征中丰富,但在低层特征中缺乏,只有在第l阶段的高层激活相对较大而第一门控值相对较小时,高语义信息hsi才会获得较大的值。第l阶段的高语义信息的具体表达式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)为了避免梯度丢失问题,并能够使第l阶段的低层激活传递到后续层进行
进一步融合,将第l阶段的特征f
l
、第l阶段的低层激活和第l阶段的高语义信息组合成第l阶段融合后的特征,具体表达式如下:。
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)所述交叉引导模块用于对融合后的全局特征g
out
和融合后的细节特征e
out
进行通信交互和交叉引导,对融合后的全局特征g
out
和融合后的细节特征e
out
进行互补生成交叉引导后的全局特征和交叉引导后的细节特征。由于在门控融合网络处理的过程中,全局分支和细节分支之间的互补信息在交互中并不发挥作用。通过交叉引导模块可促使全局分支和细节分支之间的互补信息相互通信,使得全局分支和细节分支之间的互补信息在显著目标检测过程中的到充分利用。交叉引导模块根据交叉引导后的全局特征和交叉引导后的细节特征生成全局预测图和边缘预测图。
[0035]
所述交叉引导模块包括n个交叉引导单元,如图5所示,本发明实施例中n= 4,因此设置有四个交叉引导单元。图中
“”
表示通道叠加,
“”
表示元素相加,
“”
表示卷积层+标准化层+激活函数。门控融合网络输出的同一阶段的融合后的全局特征g
out
和融合后的细节特征e
out
分别在n个交叉引导单元通过卷积操作和连接操作生成融合特征f
(e,g)
,具体表达式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中,f
l(e,g)
表示第l阶段的融合特征,表示在通道维度叠加操作,表示第l阶段的融合后的全局特征,表示第l阶段的融合后的细节特征,w
fg
表示从第l阶段的融合后的全局特征至第l阶段的融合特征f
l(e,g)
的第一可学习的参数,w
ig
表示从第l阶段的融合后的全局特征至第l阶段的融合特征f
l(e,g)
的第二可学习的参数,w
fe
表示从第l阶段的融合后的细节特征至第l阶段的融合特征f
l(e,g)
的第一可学习的参数,w
ie
表示从第l阶段的融合后的细节特征至第l阶段的融合特征f
l(e,g)
的第二可学习的参数。
[0036]
融合特征f
(e,g)
通过卷积操作分别映射回全局分支和细节分支,并与融合后的全局特征g
out
和融合后的细节特征e
out
进行相加,最后执行卷积操作生成交叉引导后的全局特征和交叉引导后的细节特征,具体表达式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,w
og
表示从第l阶段的融合特征f
l(e,g)
映射回全局分支的第一可学习的参数,w
pg
表示从第l阶段的融合特征f
l(e,g)
映射回全局分支的第二可学习的参数,w
oe
表示从第l阶
段的融合特征f
l(e,g)
映射回细节分支的第一可学习的参数,w
pe
表示从第l阶段的融合特征f
l(e,g)
映射回细节分支的第二可学习的参数。过交叉引导后的全局特征和细节特征能够更好地表示当前阶段的位置信息和边缘信息。位于同一阶段的交叉引导后的全局特征和细节特征分别经过预测头操作生成各个阶段的全局预测图和边缘预测图。
[0037]
图4中的(a)为原始图像,图4中的(b)为本发明实施例提取的细节标签,图4中的(c)为传统的边缘标签。由于复杂的纹理和周围像素的干扰,现有方法大多如图4中的(c)所示,生成的传统标签难以检测边缘像素。因此本发明实施例通过步骤s1,使用canny算子从图像样本中提取边缘信息,生成边缘图像,并得到如图4中的(b)所示的细节标签,所述细节标签无需额外的手动标注或训练,不仅提取了显著对象的边缘,还包含了显著对象内部的细节纹理,有利于生成更加准确的边缘预测图。
[0038]
所述特征融合模块用于对全局预测图和边缘预测图进行融合,生成融合特征图,并通过对融合特征图进行预测,生成包含显著目标的显著预测图。
[0039]
所述特征融合模块的结构如图6所示,图中
“”
表示元素相乘。所述特征融合模块将交叉引导模块输出的各个阶段的全局预测图和边缘预测图,通过交叉引导后的全局特征和交叉引导后的细节特征在通道维度上进行连接操作,生成融合特征图f
fuse
,具体公式如下:;
ꢀꢀꢀꢀꢀꢀꢀ
(10)其中,l= 1,2,
…
,n。由于本发明实施例中n= 4,因此公式(10)可表述为公式(11):。
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)通过全局平均池化层和全连接层对融合特征图f
fuse
进行处理,得到融合特征图的注意力分数s,融合特征图的注意力分数s表示融合特征图对最终显著性预测的重要性或贡献度,具体公式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)其中,表示全局平均池化操作,表示全连接操作。
[0040]
将融合特征图f
fuse
与融合特征图的注意力分数s相乘进行加权,计算通道加权融合结果,并通过预测头层生成包含显著目标的显著预测图p,具体公式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)其中,表示预测头操作。
[0041]
s4:使用训练集对所述双流门控渐进优化网络gponet进行训练,采用全局损失来优化全局分支的预测,采用细节损失来优化细节分支的预测,并采用融合损失来优化显著预测图的预测;将全局损失、细节损失和融合损失进行加权求和,作为双流门控渐进优化网络gponet的细节感知损失;使用测试集测试双流门控渐进优化网络gponet的网络性能。具体方法为:
在训练开始时,将所有图像调整为352
×
352的大小,并对图像进行随机裁剪和翻转操作。为了消除不同编码器对预测结果性能的干扰,本发明实施例选用两个常用的编码器resnet50和pvtv2,来提取图像的全局特征和细节特征;并使用adam优化器进行训练,使用默认参数betas值为(0.9,0.999),eps值为1e-8,weight_decay值为0,并采用学习率的热身策略,学习率从1e-7开始,在一个迭代周期后达到1e-4的峰值,然后逐渐降低为0。在测试过程中,将大小为352
×
352的输出图像使用双线性插值恢复到原始大小。
[0042]
本发明实施例通过细节感知损失来反映像素之间的预测难度差异。通过一个3
×
3大小卷积核遍历图像细节标签的每个像素点,并根据卷积核内平均值判定该像素点是否属于重要的细节像素,判定规则如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)其中,(x,y)表示坐标值为(x,y)的像素点,detail pixel表示细节像素,body pixel表示前景像素,backgroud pixel表示背景像素,(x,y)
avg
表示以坐标值为(x,y)的像素点为中心,卷积核大小为半径的卷积核范围内所有像素点的像素值的平均值。
[0043]
根据3
×
3大小卷积核内平均值(x,y)
avg
计算像素权重矩阵,其中,像素权重矩阵内第x行第y列的数值代表坐标值为(x,y)的像素点的权重值,计算公式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)其中,为像素权重矩阵的超参数,在本发明实施例中取0.5,detail
(x,y)
为细节标签的位置坐标值。
[0044]
所述全局损失、细节损失和融合损失的表达式如下:;
ꢀꢀꢀꢀꢀ
(16);
ꢀꢀ
(17);
ꢀꢀꢀꢀꢀ
(18)其中,h表示图像的高度,w表示图像的宽度,表示全局分支的全局预测图中坐标值为(x,y)的像素点的预测值,表示显著标签中坐标值为(x,y)的像素点的真实值,表示细节分支的边缘预测图中坐标值为(x,y)的像素点的预测值,表示细节标签中坐标值为(x,y)的像素点的真实值,表示包含显著目标的显著预测图p中坐
标值为(x,y)的像素点的预测值。
[0045]
将全局损失、细节损失和融合损失进行加权求和,得到双流门控渐进优化网络gponet的细节感知损失,具体公式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(20)其中,表示全局损失的权重,表示细节损失的权重,表示融合损失的权重。
[0046]
所述步骤s4中,通过f分数指标,平均绝对误差mae,增强对齐指标和结构相似性指标来检测所述双流门控渐进优化网络gponet的网络性能,具体表达式如下:;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)其中,precision表示精确率,recall表示召回率,为非负实数,用于调整对精确率和召回率之间重要性的平衡,在本发明实施例中取0.3;n表示像素数量;pi表示第i个像素的预测值,gi表示第i个像素的真实值,i表示像素编号,i= 1,2,
…
,n;w表示图像的宽度,h表示图像高度,为对齐函数,用于计算预测目标和真实目标的对齐程度;sr表示区域相似性值,so表示边界相似性值,表示权重参数,用于控制sr和so的比重。
[0047]
s5:采用训练好的双流门控渐进优化网络gponet进行图像中的显著目标检测。
[0048]
下面结合具体实验数据说明本发明实施例的技术效果:为了验证本发明实施例中门控融合网络和交叉引导单元的有效性,将本发明实施例所述的双流门控渐进优化网络gponet与常用的解码器模块fpn进行比较,实验结果如表1所示。本发明实施例在duts数据集和esccd数据集上的三个评估指标均优于解码器模块fpn,其中结构相似性表明本发明实施例预测的显著对象具有更好的结构一致性,而f分数指标和平均绝对误差mae表明本发明实施例能够以更高的准确性预测显著性地图。此外,根据表1可知,添加交叉引导单元进一步提升了网络模型的预测能力。fpn解码器与交叉引导单元的组合结果与单个门控融合网络相当,而门控融合网络和交叉引导单元的组合实现了最佳的预测性能。
[0049]
表1fpn解码器、门控融合网络和交叉引导单元的组合模块在duts-te数据集和ecssd数据集上的测试结果对比表为了展示门控融合单元的特征选择性传递流程,选择每个像素的所有通道中最高的激活值,创建单通道激活图,以热力图的形式展示,得到如图7所示的实验结果。图7中的(a)为浅层的像素激活图,图7中的(b)为深层的像素激活图,图7中的(c)为浅层缺失但深层富含的像素激活图,图7中的(d)为门控融合单元的输出。图7中的(a)显示了低层门控值的注意区域,其中包含了详细但杂乱的信息,图7中的(b)显示了高层门控值的注意区域,表明显著对象的大致位置,图7中的(c)显示了在图7中的(a)中缺乏但在图7中的(b)中丰富的高层语义信息;图7中的(d)显示了经门控融合单元处理后的融合特征。图7中从左到右,显示出门控融合单元在相邻阶段之间整合互补信息;从上到下,可以看到高层特征逐渐丰富细节,从而增强显著对象的边界。
[0050]
为了验证本发明实施例中的细节标签相对于传统边缘标签的优越性,使用细节标签和传统边缘标签在相同的模型架构下训练了双流门控渐进优化网络gponet,后文分别称为gpon_dt网络模型和gpon_eg网络模型,并选择rcsb网络模型和itsd网络模型作为额外的比较对象。由于itsd方法缺乏专门的边缘检测分支,可能导致边缘检测结果较差,但为了比较不同双流网络模型对边缘检测任务的重视程度,将itsd方法作为对照组。使用四个网络模型进行边缘检测任务,并进行比较实验,可得到如图8和表2所示的实验结果。图8中的(a)为原始图像,图8中的(b)为真实显著边缘图,图8中的(c)为采用细节标签训练双流门控渐进优化网络gponet得到的gpon_dt网络模型的显著边缘检测结果,图8中的(d)为采用传统边缘标签训练双流门控渐进优化网络gponet得到的gpon_eg网络模型的显著边缘检测结果,图8中的(e)为现有的rcsb方法的显著边缘检测结果,图8中的(f)为现有的itsd方法的显著边缘检测结果。
[0051]
如图8所示,gpon_dt网络模型和gpon_eg网络模型在显著边缘像素分割任务中均优于其他两个模型,但gpon_eg网络模型通常受到其他纹理或模糊边界像素的干扰,导致细节像素、边缘像素和其他非显著干扰像素的分割性能较差。而gpon_dt网络模型通过标签提供一致的内部细节,可以输出与显著对象一致的边缘结构,从而消除其他非显著像素的干扰,并引导对细节像素的精确分割。表2中记f分数指标的最大值为maxf,平均值为meanf。从表2中够可以看出,gpon_dt网络模型的平均值meanf有竞争力且具有最高的最大值maxf。
[0052]
表2不同边缘检测方法在duts-te数据集上的定量分析结果对比表
除此之外,实验时还从duts测试集中选择一组边缘检测平均绝对误差mae小于平均值的样本,以展示细节标签在困难样本上的较高检测准确性,这个样本包含了duts-test数据集的近一半。使用gpon_dt网络模型和gpon_eg网络模型重新评估这些具有挑战性样本,得到的检测结果如图9所示。图9中的(a)为原始图像,图9中的(b)为原始图像对应的真实显著图,图9中的(c)为gpon_eg网络模型的检测结果,图9中的(d)为gpon_dt网络模型的检测结果。图9中样本的边缘检测结果表明,使用细节标签训练的gpon_dt网络模型能够通过内部纹理结构识别隐藏的显著对象,从而使模型更加关注显著对象的整体结构。相反,使用边缘标签训练的gpon_eg网络模型更容易受到颜色或纹理变化的影响,导致对象分割不完整。这意味着,细节标签可以更好地反映显著对象的整体特征,而边缘标签的准确性受到颜色差异的影响,说明了细节标签在图像边缘检测中的优越性。gponet_r网络模型和gponet_t网络模型是分别以残差网络resnet和注意力模型transformer为编码器训练双流门控渐进优化网络gponet得到的网络模型。根据编码器的不同,将比较实验分为两组,即将gponet_r网络模型和gponet_t网络模型分别与常用的显著目标检测方法,在duts数据集、hku-is数据集、pascal-s数据集、esccd数据集和duts-omron数据集上进行性能比较,得到如表3~表7所示的实验结果。在表3~表7中,f分数指标、增强对齐指标和结构相似性指标的值越大,说明网络模型的性能越好,平均绝对误差mae的值越小,说明网络模型的性能越好。
[0053]
表3:本发明实施例与常用的显著目标检测方法在duts-te数据集上的性能比较
表4:本发明实施例与常用的显著目标检测方法在hku-is数据集上的性能比较表5:本发明实施例与常用的显著目标检测方法在pascal-s数据集上的性能比较
表6:本发明实施例与常用的显著目标检测方法在ecssd数据集上的性能比较表7:本发明实施例与常用的显著目标检测方法在dut-omron数据集上的性能比较
根据表3~表7可知,gponet_t网络模型在duts-te数据集、pascal-s数据集和ecssd数据集在f分数指标和结构相似性指标上均取得了最佳得分,在duts-te数据集和pascal-s数据集中仅在平均绝对误差mae和增强对齐指标上与第二名有较小的差距。在以残差网络为编码器的网络模型中,gponet_r网络模型在结构相似性指标上与现有最优模型相当,表明我们提出的模型具有良好的结构一致性。在以注意力模型transformer为编码器的网络模型中,gponet_t网络模型在duts数据集和pascal-s数据集上的平均绝对误差mae和增强对齐指标仅次于pgnet网络模型。这是由于pgnet网络模型使用了4k-8k分辨率的训练图像,总体来说,gponet_t网络模型在其他数据集的各项指标上均优于现有模型,并且明显超过vst网络模型。
[0054]
图10为本发明实施例和现有显著目标检测方法获得的显著预测图的结果示意图,图10中的(a)为原始图像,图10中的(b)为原始图像对应的真实显著图,图10中的(c)为本发明实施例所述的双流门控渐进优化网络gponet的显著预测图,图10中的(d)为pgnet网络模型的显著预测图,图10中的(e)为vst网络模型的显著预测图。如图10所示,本发明实施例能够准确地定位和分割结构一致的显著对象(例如鸟类),而其他方法受非显著信息(例如鸟巢)或轮廓不清晰(例如鸟翅膀)的影响,导致分割结果并不精确。
[0055]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于双流门控渐进优化网络的显著目标检测方法,其特征在于,包括如下步骤:s1:采集用于显著目标检测的图像数据集,并获取图像数据集中每张图像的显著标签,通过对显著标签进行边缘信息的提取,获取每张图像的细节标签;s2:对图像数据集中的每张图像进行预处理,并划分为训练集和测试集;s3:构建双流门控渐进优化网络gponet,所述双流门控渐进优化网络gponet包括门控融合网络、交叉引导模块和特征融合模块;所述门控融合网络用于提取n个阶段的全局特征g和细节特征e,并通过全局分支和细节分支,分别以互补方式解释性融合相邻阶段的全局特征g或细节特征e,生成融合后的全局特征g
out
和融合后的细节特征e
out
;所述交叉引导模块用于对融合后的全局特征g
out
和融合后的细节特征e
out
进行通信交互和交叉引导,对融合后的全局特征g
out
和融合后的细节特征e
out
进行互补生成交叉引导后的全局特征 和交叉引导后的细节特征,并根据交叉引导后的全局特征和交叉引导后的细节特征生成全局预测图和边缘预测图;所述特征融合模块用于对全局预测图和边缘预测图进行融合,生成融合特征图,并通过对融合特征图进行预测,生成包含显著目标的显著预测图;s4:使用训练集对所述双流门控渐进优化网络gponet进行训练,采用全局损失来优化全局分支的预测,采用细节损失来优化细节分支的预测,并采用融合损失来优化显著预测图的预测;将全局损失、细节损失和融合损失进行加权求和,作为双流门控渐进优化网络gponet的细节感知损失;使用测试集测试双流门控渐进优化网络gponet的网络性能;s5:采用训练好的双流门控渐进优化网络gponet进行图像中的显著目标检测。2.根据权利要求1所述的一种基于双流门控渐进优化网络的显著目标检测方法,其特征在于,所述步骤s2中的预处理包括通过图像变换进行数据增强、将图像的像素值进行归一化、统一图像尺寸和将图像转化为张量数据类型。3.根据权利要求2所述的一种基于双流门控渐进优化网络的显著目标检测方法,其特征在于,所述门控融合网络包括编码器、全局分支和细节分支,输入图像经编码器进行特征映射,提取出n个阶段的全局特征g和细节特征e,全局分支和细节分支中均包括n-1个门控融合单元,其中,n≧2;n个阶段的全局特征g和细节特征e分别经n-1个门控融合单元处理,将n个相邻阶段的特征进行互补融合;所述门控融合单元根据对应的低层特征和高层特征获得第一门控值和第二门控值,具体公式如下:;;其中,f
l
表示第l阶段的特征,表示第l+1阶段的特征f
l+1
经过上采样后得到的特
征,f = {g or e},即特征f为全局特征g或细节特征e,w1表示学习第一门控值的权重参数,w2表示学习第二门控值的权重参数,b表示可学习的偏置参数,表示sigmoid激活函数;以第一门控值和第二门控值作为权重,根据第l阶段的特征f
l
和第l+1阶段的特征f
l+1
运算得到第l阶段融合后的特征,具体公式如下:;;;;其中,表示第l阶段的低层激活,表示第l阶段的高层激活,表示第l阶段的高语义信息。4.根据权利要求3所述的一种基于双流门控渐进优化网络的显著目标检测方法,其特征在于,所述交叉引导模块包括n个交叉引导单元,门控融合网络输出的同一阶段的融合后的全局特征g
out
和融合后的细节特征e
out
分别在n个交叉引导单元通过卷积操作和连接操作生成融合特征f
(e,g)
,具体表达式如下:;其中,f
l(e,g) 表示第l阶段的融合特征,表示在通道维度叠加操作,表示第l阶段的融合后的全局特征,表示第l阶段的融合后的细节特征,w
fg
表示从第l阶段的融合后的全局特征至第l阶段的融合特征f
l(e,g)
的第一可学习的参数,w
ig
表示从第l阶段的融合后的全局特征至第l阶段的融合特征f
l(e,g)
的第二可学习的参数,w
fe
表示从第l阶段的融合后的细节特征至第l阶段的融合特征f
l(e,g)
的第一可学习的参数,w
ie
表示从第l阶段的融合后的细节特征至第l阶段的融合特征f
l(e,g)
的第二可学习的参数;融合特征f
(e,g)
通过卷积操作分别映射回全局分支和细节分支,并与融合后的全局特征g
out
和融合后的细节特征e
out
进行相加,最后执行卷积操作生成交叉引导后的全局特征和交叉引导后的细节特征,具体表达式如下:;;其中,w
og
表示从第l阶段的融合特征f
l(e,g)
映射回全局分支的第一可学习的参数,w
pg
表示从第l阶段的融合特征f
l(e,g)
映射回全局分支的第二可学习的参数,w
oe
表示从第l阶段的融合特征f
l(e,g)
映射回细节分支的第一可学习的参数,w
pe
表示从第l阶段的融合特征f
l(e,g)
映射回细节分支的第二可学习的参数;交叉引导后的全局特征和细节特征经过预测头操作生成全局预测图和边缘预测图。5.根据权利要求4所述的一种基于双流门控渐进优化网络的显著目标检测方法,其特征在于,所述特征融合模块将交叉指导模块输出的交叉引导后的全局特征和交叉引导后的细节特征在通道维度上进行连接以生成融合特征图f
fuse
,具体公式如下:;其中,l = 1,2,
…
,n;通过全局平均池化层和全连接层对融合特征图f
fuse
进行处理,得到融合特征图的注意力分数s,具体公式如下:;其中,表示全局平均池化操作,表示全连接操作;将融合特征图f
fuse
与融合特征图的注意力分数s相乘进行加权,计算通道加权融合结果,并通过预测头层生成包含显著目标的显著预测图p,具体公式如下:;其中,表示预测头操作。6.根据权利要求5所述的一种基于双流门控渐进优化网络的显著目标检测方法,其特征在于,所述步骤s4中,通过卷积核遍历图像细节标签的每个像素点,并根据卷积核内平均值判定该像素点是否属于重要的细节像素,判定规则如下:;其中,(x,y)表示坐标值为(x,y)的像素点,detail pixel表示细节像素,body pixel表示前景像素,backgroud pixel表示背景像素,(x,y)
avg
表示以坐标值为(x,y)的像素点为中心,卷积核大小为半径的卷积核范围内所有像素点的像素值的平均值;根据卷积核内平均值(x,y)
avg
计算像素权重矩阵,其中,像素权重矩阵内第x行第y列的数值代表坐标值为(x,y)的像素点的权重值,计算公式如下:;其中,为像素权重矩阵的超参数,detail
(x,y)
为细节标签中坐标值为(x,y)的像素点的像素值;所述全局损失、细节损失和融合损失的表达式如下:
;;;其中,h表示图像的高度,w表示图像的宽度,表示全局分支的全局预测图中坐标值为(x,y)的像素点的预测值,表示显著标签中坐标值为(x,y)的像素点的真实值,表示细节分支的边缘预测图中坐标值为(x,y)的像素点的预测值,表示细节标签中坐标值为(x,y)的像素点的真实值,表示包含显著目标的显著预测图p中坐标值为(x,y)的像素点的预测值;将全局损失、细节损失和融合损失进行加权求和,得到双流门控渐进优化网络gponet的细节感知损失,具体公式如下:;;其中,表示全局损失的权重,表示细节损失的权重,表示融合损失的权重。7.根据权利要求6所述的一种基于双流门控渐进优化网络的显著目标检测方法,其特征在于,所述步骤s4中,通过f分数指标,平均绝对误差mae,增强对齐指标和结构相似性指标来检测所述双流门控渐进优化网络gponet的网络性能,具体表达式如下:;;;;其中,precision表示精确率,recall表示召回率,为非负实数,用于调整对精确率和召回率之间重要性的平衡;n表示像素数量,p
i
表示第i个像素的预测值,g
i
表示第i个像素
的真实值,i表示像素编号,i = 1,2,
…
,n;w表示图像的宽度,h表示图像高度,为对齐函数,用于计算预测目标和真实目标的对齐程度;s
r
表示区域相似性值,s
o
表示边界相似性值,表示权重参数,用于控制s
r
和s
o
的比重。
技术总结
本申请涉及一种基于双流门控渐进优化网络的显著目标检测方法,涉及图像处理和计算机视觉技术领域,包括如下步骤:采集图像数据集,获取每张图像的细节标签;对图像进行预处理;构建双流门控渐进优化网络,包括门控融合网络、交叉引导模块和特征融合模块;训练并测试双流门控渐进优化网络,采用全局损失、细节损失和融合损失进行加权求和,作为双流门控渐进优化网络的细节感知损失;采用训练好的双流门控渐进优化网络进行图像中的显著目标检测。本发明能够克服现有的显著目标检测方法中存在的特征稀释、噪声干扰和确认解释性的缺陷,以及传统边缘标签像素分布不均衡问题,能够有效提高对应显著目标对象的检测精度。提高对应显著目标对象的检测精度。提高对应显著目标对象的检测精度。
技术研发人员:易玉根 张宁毅 黄龙军 周唯 谢更生 石艳娇
受保护的技术使用者:江西师范大学
技术研发日:2023.08.21
技术公布日:2023/9/26
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/