一种基于分流注意力Transformer的红外光和可见光图像融合系统

未命名 08-02 阅读:140 评论:0

一种基于分流注意力transformer的红外光和可见光图像融合系统
技术领域
1.本发明涉及图像融合技术领域,具体涉及一种基于分流注意力transformer的红外光和可见光图像融合系统。


背景技术:

2.由于传感器自身物理特征、成像机理和观察视角等各个方面的限制,单一的视觉传感器往往不能从场景中提取足够的信息。基于热辐射理论,红外传感器不受环境干扰的情况下突出热源区域。然而,由于红外传感器生成的图像分辨率较低,通常缺乏结构特征和细节信息。相比之下,可见传感器能够生成具有较高空间分辨率的友好视觉图像。为了继承两种传感器的优势,通过图像融合技术来保留红外光和可见光图像的热辐射和纹理信息是一种有效的方法。这种融合结果具有优越的视觉感知和场景表征能力,可广泛应用于图像增强、语义分割、目标检测等领域。
3.红外光与可见光图像融合的关键在于如何有效地整合热源特征和细节纹理信息。在过去的几十年里,已经提出了大量传统融合方法和基于深度学习的融合方法。
4.传统融合方法主要由空间域和多尺度变换域方法组成。空间域方法通常计算输入图像的像素级显著性的加权平均值,以获得融合图像。多尺度变换域方法包括小波变换和曲线变换等,通过数学变换将输入转换到变换域,并设计融合规则来融合图像。由于上述传统方法没有考虑源图像之间的特征差异,往往会给融合后的图像带来负面影响。此外,传统方法的融合规则和活动水平测量不能适应复杂的场景,也给其广泛应用带来了挑战。
5.近年来,深度学习由于杰出的深度特征提取能力而逐渐成为图像融合领域的主流。这些方法不仅可以自动从数据中提取深层特征,还克服了传统方法在适应复杂场景时面临的问题。然而,这些方法只能利用局部信息进行图像融合,无法利用长距离依赖进一步改善融合效果。一些基于transformer的融合方法受益于全局上下文特征的互补聚合,已经展示了出色的性能,但它们仍然具有一定的局限性。首先,与基于卷积神经网络的方法相比,基于transformer的方法在生成测试图像方面效率较低。此外,大多数基于transformer的方法通常在分割图像后直接处理一系列token,这将导致内存消耗很高。其次,由于现有的transformer融合网络忽略了层内混合粒度的特征,保留细粒度细节和粗粒度对象的能力有限。最后,特征融合过程只融合了单一域内的信息,缺乏上下文信息,这可能会影响融合结果的视觉表现。


技术实现要素:

6.本发明的目的在于,提出一种基于分流注意力transformer的红外光和可见光图像融合系统,用于提取和融合全局粒度信息和局部特征,通过利用远程学习和减少输入token的数量,可以显著降低计算成本。
7.为实现上述目的,本技术提出的一种基于分流注意力transformer的红外光和可
见光图像融合系统,包括:用于融合红外光和可见光图像的分流注意力transformer网络模型,输入的红外光和可见光图像首先进入由多个卷积层组成的浅卷积块,提取浅层局部特征,然后采用多尺度技术将浅层局部特征分解成不同尺度,在不同尺度上捕获浅层信息。
8.进一步的,所述分流注意力transformer网络模型包括分流注意力特征提取单元、交叉注意力融合单元、特征重构单元。
9.进一步的,所述分流注意力特征提取单元包括三个阶段块,每个阶段块包括六个分流transformer子块,各个子块由多粒度学习驱动,通过向异构感受野注入token,捕获多粒度信息的同时减少token的数量;所述分流transformer子块对全局特征进行建模,实现全局范围内多粒度特征的提取。
10.进一步的,所述交叉注意力融合单元包括两个交叉注意力残差块,每个残差块中设有基于自注意力的域内融合块来有效地整合同一域中的全局交互信息,以及基于交叉注意力的域间融合块来进一步整合不同域之间的全局交互信息。
11.进一步的,所述域间融合块利用交叉注意力机制来实现全局特征信息的交互,通过合并跨域信息,并使用跳过连接来保留不同域的信息,实现全局域间和跨域交互的交替集成。
12.更进一步的,所述特征重构单元包括深层重构块和浅层重构块,用于将聚合后的深层特征映射回图像空间;所述深层重构块包括四个自注意力块,所述浅层重构块包括两个内核为3
×
3且步长为1的卷积层,每层后面有relu激活函数。
13.更进一步的,所述深层重构块用于细化融合后的深层特征,并从全局的角度实现多尺度特征重构;通过浅层重构块和卷积层来进一步恢复图像尺寸,然后利用跳过连接来加强特征传递,最大限度地重用不同层的特征以构建融合图像。
14.更进一步的,所述分流注意力transformer网络模型细化过程量化为:
[0015][0016][0017][0018][0019]ifu
=fru(f
fus
)
[0020]
其中,s(
·
)表示浅卷积块,in和vi分别表示输入的红外光和可见光图像;safeu(
·
)是分流注意力特征提取单元,和分别表示红外光和可见光深层粒度特征;cafu(
·
)表示交叉注意力融合单元,和分别表示经过域内和域间交互后聚合的红外光和可见光输出特征;concat(
·
)表示通道维度中的级联;fru(
·
)表示特征重构单元;f
fus
表示融合后的深度特征;i
fu
为经过重构和上采样后生成的融合图像。
[0021]
作为更进一步的,所述分流注意力transformer网络模型训练时使用粒度损失函数进行约束,该粒度损失函数包括结构相似性损失、细粒度损失、粗粒度损失;所述粒度损失lg表示为:
[0022]
lg=αls+β(l
fg
+l
cg
)
[0023]
其中,ls、l
fg
和l
cg
分别表示结构相似性损失、细粒度损失和粗粒度损失;α、β为损失函数超参数。
[0024]
作为更进一步的,结构相似性损失ls为:
[0025]
ls=1-ssim(in,vi,i
fu
)
[0026]
其中,i
fu
为融合结果,符号ssim(
·
)表示结构相似度函数,其定义为:
[0027][0028]
其中,i
*
代表源图像vi或in;μ和σ分别表示平均值和标准差;c1,c2和c3是维持稳定的常数;
[0029]
细粒度损失l
fg
、粗粒度损失l
cg
分别为:
[0030][0031][0032]
其中,||
·
||1表示l
1-norm,max{
·
}表示按元素最大选择,表示sobel梯度算子,|
·
|代表绝对值操作;h、w是图像的高和宽,γ是超参数。
[0033]
本发明采用的以上技术方案,与现有技术相比,具有的优点是:分流注意力transformer网络模型在图像之间建立远程依赖关系,提取和集成粒度特征,并通过有效减少token的数量来降低计算成本,生成测试图像的时间效率不仅高于基于transformer的融合方法,还比基于卷积神经网络的融合方法具有优势。本发明通过分流注意力特征提取单元,实现每个注意力层内粗粒度和细粒度特征的联合提取。交叉注意力融合单元充分实现了域内和域间深度特征交互以及跨域信息融合,特征重构单元将特征映射与重构图像结合起来,使得网络模型能够恢复不同分辨率的融合图像。此外,使用由结构相似性损失、细粒度损失和粗粒度损失组成的粒度损失函数来驱动网络,采用粒度信息控制和结构维护以实现特征提取和融合。本发明所提出的分流注意力transformer网络模型生成的融合图像具有更好的视觉感知,包括了足够多的显著特征和纹理细节信息,且时间效率更高。
附图说明
[0034]
图1为红外光和可见光图像融合系统原理框图;
[0035]
图2为交叉注意力融合单元和重构单元的原理图;
[0036]
图3为在msrs数据集上本方法和其他先进融合方法间的定性比较图;
[0037]
图4为在m3fd数据集上本方法和其他先进融合方法间的定性比较图;
[0038]
图5为在m3fd数据集上本方法和其他先进融合方法间的定量比较图;
[0039]
图6为在msrs数据集上本方法和其他先进融合方法间的检测定性比较图。
[0040]
具体实施方法
[0041]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术,即所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。
[0042]
实施例1
[0043]
如图1所示,一种基于分流注意力transformer的红外光和可见光图像融合系统,包括分流注意力transformer网络模型,用于红外光和可见光图像融合,整体网络模型包括分流注意力特征提取单元、交叉注意力融合单元、特征重构单元。为了生成场景细节丰富、视觉效果较好的融合图像,将红外光和可见光图像分别送入到网络模型中以获取显著信息和纹理细节。输入的红外光和可见光图像首先进入由四个卷积层组成的浅卷积块,并提取浅层局部特征。然后采用多尺度技术将浅层局部特征分解到不同尺度,在不同尺度上捕获浅层信息,提取的不同尺度浅层信息有助于更好地理解图像细节。
[0044]
为了解决自注意力机制中内存消耗昂贵和只提供单个尺度token的问题,本发明在特征提取阶段引入了多粒度联合学习,以学习单个注意力层内的粒度信息。如图1左上方所示,分流注意力特征提取单元为更好的探索多粒度深度特征而设计,其包括三个阶段块,每个阶段块包括六个分流transformer子块,各个子块由多粒度学习驱动。通过向异构感受野注入token,捕获多粒度信息的同时减少token的数量。分流transformer子块可以有效地对全局特征进行建模,实现全局范围内多粒度特征的提取。
[0045]
多粒度联合学习的核心是分流注意力机制,其在相同的注意力层内对不同尺度的对象进行建模,并行学习多粒度信息。同一注意力层内的注意力头上k、v值被下采样到不同的大小,减少token的数量,以实现粗细粒度信息的捕获和特征的合并。之后通过跳过连接聚合混合粒度特征。该机制具有良好的计算效率和细粒度细节信息保留能力。
[0046]
在提取深层特征后,本发明设计了一个交叉注意力融合单元来进一步挖掘和聚合域内和域间上下文信息,如图2所示。其包括两个交叉注意力残差块,每个残差块中设计了基于自注意力的域内融合块来有效地整合同一域中的全局交互信息,以及基于交叉注意力的域间融合块来进一步整合不同域之间的全局交互信息。域间融合块利用交叉注意力机制来实现全局特征信息的交换;通过合并跨域信息,结合使用跳过连接来保留不同域的信息,实现全局域间和跨域交互的交替集成。
[0047]
在充分聚合不同领域的互补信息后,利用特征重构单元将聚合后的深层特征映射回图像空间。首先部署深层重构块来细化融合深层特征,并从全局的角度实现多尺度特征的重构。然后,通过两个基于卷积神经网络的浅层重构块和一个卷积层来进一步恢复图像尺寸;利用跳过连接来加强特征传递,最大限度地重用不同层的特征以构建融合图像。所述深层重构块包括四个自注意力块,所述浅层重构块包括两个内核为3
×
3且步长为1的卷积层,每层后面设有relu激活函数。
[0048]
所述分流注意力transformer网络模型细化过程可以量化为:
[0049][0050][0051][0052][0053]ifu
=fru(f
fis
)
[0054]
其中,s(
·
)表示浅卷积块,in和vi分别表示输入的红外光和可见光图像。safeu
(
·
)是分流注意力特征提取单元,和分别表示红外光和可见光深层粒度特征。cafu(
·
)表示交叉注意力融合单元,和分别表示经过域内和域间交互后聚合的红外光和可见光输出特征。concat(
·
)表示通道维度中的级联;fru(
·
)表示特征重构单元;f
fus
表示融合后的深度特征。i
fu
为经过重构和上采样后生成的融合图像。
[0055]
图像融合的目的是集成源图像的细节信息到单个融合图像中,并且根据源图像的强度信息生成具有显著目标的融合图像。为了追求更好的特征学习能力,本发明采用粒度损失函数,将特征提取和融合推广到粗细粒度信息的控制,以及结构相似性的维护中。训练时使用粒度损失函数来约束网络模型,该函数包括结构相似性损失、细粒度损失、粗粒度损失,以实现融合图像具有与输入图像相似的结构和粒度信息。粒度损失函数lg表示为:
[0056]
lg=αls+β(l
fg
+l
cg
)
[0057]
其中,ls、l
fg
和l
cg
分别表示结构相似性损失、细粒度损失和粗粒度损失。
[0058]
结构相似性损失ls结合了亮度、结构和对比度三个部分,它是衡量两个不同图像之间结构相似性的有效方法,其定义为:
[0059]
ls=1-ssim(in,vi,i
fu
)
[0060]
其中,i
fu
为融合结果,符号ssim(
·
)表示结构相似度函数,其定义为:
[0061][0062]
其中,i
*
代表源图像vi或in;μ和σ分别表示平均值和标准差;c1,c2和c3是维持稳定的常数。
[0063]
细粒度损失l
fg
用于引导网络尽可能保留更多的细节特征,粗粒度损失l
cg
旨在指导网络捕获适当的目标信息;细粒度和粗粒度损失定义为:
[0064][0065][0066]
其中,||
·
||1表示l
1-norm,max{
·
}表示按元素最大选择,表示sobel梯度算子,它可以测量图像的纹理细节;|
·
|代表绝对值操作。
[0067]
为了证明本发明提出系统的优越性,首先在msrs数据集上选取测试图像对,并与十种最先进的红外光和可见光图像融合方法进行比较,然后在m3fd和tno数据集上选取图像对作进一步验证;在定性评估中,图像由人类视觉系统评估,如图像的细节、亮度和目标的完整性。如图3-4所示,与其他方法相比,提出的分流注意力transformer网络模型在维护可见细节和红外目标方面获得了更好的视觉感知效果。同时,在保持可见细节纹理和红外显著目标分布方面具有更好的融合性能。生成的融合图像更符合人类视觉感知,主观视觉效果清晰自然。
[0068]
为了不受到人为因素的干扰,全面衡量融合能力,本发明还利用客观定量指标mi、q
abf
、vif、ag、sf和ssim来量化评估融合结果的性能。使用m3fd数据集中的测试图像对作为测试集来完成不同的红外光和可见光图像融合任务,定量结果如图5所示。显然,本发明得到的定量实验结果在除ssim指标外获得了所有图像vif指标的最高值。由于vif指标与人类
视觉系统一致,证明了网络具有更好的人类视觉效果。同时,融合图像从红外光和可见光源图像中保留了大量信息。sf和ag可以分别体现融合图像的细节和纹理。尽管提出方法的ssim指标并不是最优的,但可比较的结果仍然意味着本发明提出方法获得的融合图像包括足够结构及梯度信息。
[0069]
为了探索红外与可见光图像融合对多模态目标检测的影响,本发明使用网络生成的融合图像来评价目标检测的性能。使用yolov7作为目标检测的基准模型。图6展示了目标检测的定性结果。结果表明,网络生成的融合图像具有最佳的检测性能,尤其是在人物和车类中。通过融合显著区域特征及纹理信息,提供了更全面的场景描述,并提高了检测精度。此外,本发明使用deeplabv3+作为基准模型进行训练,并通过交并比来比较模型的有效性。语义分割的结果有效地集成了全局上下文粒度信息,域内和域间互补信息也增强了融合图像的语义特征,提高了模型感知能力和分割精度。
[0070]
本发明所提出的模型在视觉性能和客观评估方面具有显著优势。生成的融合图像具有更好的视觉感知,包括了足够多的显著特征和纹理细节信息,且时间效率更高。在目标检测和语义分割中也显示了在高级视觉任务中的潜力。因此,本发明提出的系统有助于红外光和可见光图像融合的发展。
[0071]
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

技术特征:
1.一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,包括:用于融合红外光和可见光图像的分流注意力transformer网络模型,输入的红外光和可见光图像首先进入由多个卷积层组成的浅卷积块,提取浅层局部特征,然后采用多尺度技术将浅层局部特征分解成不同尺度,在不同尺度上捕获浅层信息。2.根据权利要求1所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述分流注意力transformer网络模型包括分流注意力特征提取单元、交叉注意力融合单元、特征重构单元。3.根据权利要求2所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述分流注意力特征提取单元包括三个阶段块,每个阶段块包括六个分流transformer子块,各个子块由多粒度学习驱动,通过向异构感受野注入token,捕获多粒度信息的同时减少token的数量;所述分流transformer子块对全局特征进行建模,实现全局范围内多粒度特征的提取。4.根据权利要求2所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述交叉注意力融合单元包括两个交叉注意力残差块,每个残差块中设有基于自注意力的域内融合块来有效地整合同一域中的全局交互信息,以及基于交叉注意力的域间融合块来进一步整合不同域之间的全局交互信息。5.根据权利要求4所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述域间融合块利用交叉注意力机制来实现全局特征信息的交互,通过合并跨域信息,并使用跳过连接来保留不同域的信息,实现全局域间和跨域交互的交替集成。6.根据权利要求2所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述特征重构单元包括深层重构块和浅层重构块,用于将聚合后的深层特征映射回图像空间;所述深层重构块包括四个自注意力块,所述浅层重构块包括两个内核为3
×
3且步长为1的卷积层,每层后面有relu激活函数。7.根据权利要求6所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述深层重构块用于细化融合后的深层特征,并从全局的角度实现多尺度特征重构;通过浅层重构块和卷积层来进一步恢复图像尺寸,然后利用跳过连接来加强特征传递,最大限度地重用不同层的特征以构建融合图像。8.根据权利要求1所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述分流注意力transformer网络模型细化过程量化为:系统,其特征在于,所述分流注意力transformer网络模型细化过程量化为:系统,其特征在于,所述分流注意力transformer网络模型细化过程量化为:系统,其特征在于,所述分流注意力transformer网络模型细化过程量化为:i
fu
=sru(f
fus
)其中,s(
·
)表示浅卷积块,i
n
和v
i
分别表示输入的红外光和可见光图像;safeu(
·
)是
分流注意力特征提取单元,和分别表示红外光和可见光深层粒度特征;cafu(
·
)表示交叉注意力融合单元,和分别表示经过域内和域间交互后聚合的红外光和可见光输出特征;concat(
·
)表示通道维度中的级联;fru(
·
)表示特征重构单元;f
fus
表示融合后的深度特征;i
fu
为经过重构和上采样后生成的融合图像。9.根据权利要求1所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,所述分流注意力transformer网络模型训练时使用粒度损失函数进行约束,该粒度损失函数包括结构相似性损失、细粒度损失、粗粒度损失;所述粒度损失l
g
表示为:l
g
=αl
s
+β(l
fg
+l
cg
)其中,l
s
、l
fg
和l
cg
分别表示结构相似性损失、细粒度损失和粗粒度损失;α、β为损失函数超参数。10.根据权利要求9所述一种基于分流注意力transformer的红外光和可见光图像融合系统,其特征在于,结构相似性损失l
s
为:l
s
=1-ssim(i
n
,v
i
,i
fu
)其中,i
fu
为融合结果,符号ssim(
·
)表示结构相似度函数,其定义为:其中,i
*
代表源图像v
i
或i
n
;μ和σ分别表示平均值和标准差;c1,c2和c3是维持稳定的常数;细粒度损失l
fg
、粗粒度损失l
cg
分别为:分别为:其中,||
·
||1表示l
1-norm,max{
·
}表示按元素最大选择,表示sobel梯度算子,|
·
|代表绝对值操作;h、w是图像的高和宽,γ是超参数。

技术总结
本发明公开了一种基于分流注意力Transformer的红外光和可见光图像融合系统,涉及图像融合技术领域;包括分流注意力Transformer网络模型,用于红外光和可见光图像融合,整体网络模型包括分流注意力特征提取单元、交叉注意力融合单元、特征重构单元。为了生成场景细节丰富、视觉效果较好的融合图像,将红外光和可见光图像分别送入到网络模型以提取浅层局部特征。之后,利用特征提取单元获取单个注意层内的粗粒度和细粒度细节。在特征融合单元中,引入了交叉注意机制来融合跨域互补特征。此外,在重建阶段,特征重建单元采用密集的跳跃连接,最大限度地利用不同尺度的深、浅特征,构建融合图像。构建融合图像。构建融合图像。


技术研发人员:周士华 姜洋 李嘉伟 胡轶男
受保护的技术使用者:大连大学
技术研发日:2023.04.28
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐