一种基于无人机的跨模态融合目标检测方法
未命名
09-29
阅读:75
评论:0
1.本发明属于机器学习技术领域,特别涉及一种基于无人机的跨模态融合目标检测方法。
背景技术:
2.无人机目标检测技术是一种利用无人机搭载的摄像头,通过图像处理技术对无人机拍摄的图像进行分析,从而实现对目标的检测和跟踪的技术。该技术是无人机智能化的重要组成部分,可以提高无人机的感知能力和自主性,为无人机在各个领域的应用提供基础的技术支持。
3.然而基于无人机的目标检测技术也面临着一些困难与挑战,例如无人机获取的图像具有背景复杂、视角多变、光照不均等特点,容易导致图像质量低下、给目标检测带来噪声干扰,同时无人机图像中的目标具有尺度变化大、形状不规则等特点,容易导致目标难以定位与识别。其中在成像硬件上,受限于可见光传感器本身硬件的成像原理,仅使用可见光图像很难达到高精度的检测结果,而红外图像只依赖于目标的热辐射能力,同时其具有更好的烟雾穿透能力、不受光照条件影响、适合全天候工作等特点,目前单一模态的目标检测技术无法同时支持两种模态的融合检测,因此采用多模态融合技术对这两种不同模态的图像进行融合,设计跨模态融合目标检测来充分利用两种模态的有效信息,进而提高算法的可靠性与稳定性。
4.目前基于可见光与红外图像融合目标检测的研究还处于起步阶段,其本质属于多模态图像融合任务,在融合方法上主要分为早期融合、晚期融合、混合融合的方式,其适用于不同的应用场景。由于大量研究证明cnn在单个模态任务中具有强大的表示学习能力,尤其是图像模态,因此目前跨模态融合目标检测方式多采用卷积神经网络结构,并结合人工设计融合策略的方式指导融合。但基于人工设计融合策略的方式并不能充分融合跨模态间的有效信息。此外,此前研究多集中于低光照下的单一场景,未考虑到光照因素对跨模态间融合的影响。
5.现有的基于可见光与红外图像融合目标检测主要问题有:一是采用人工设计融合策略的方式,可能导致实际跨模态信息融合过程中的不充分。二是不同光照条件对跨模态间信息融合的权重影响不同,在指导跨模态间信息融合时需要考虑光照因素。
技术实现要素:
6.本发明提供了一种基于无人机的跨模态融合目标检测方法,以解决人工设计跨模态融合策略所可能导致的融合不充分及光照自适应融合权重调整问题。
7.为了实现上述目的,本发明采用以下技术方案:
8.一种基于无人机的跨模态融合的目标检测方法,包括以下步骤:
9.步骤一、将可见光图像i
vis
与红外图像i
inf
分别输入对应分支模态进行特征提取;
10.步骤二、将可见光分支与红外图像分支的中间特征输入transfusion模块进行特
征信息的融合,并将融合信息补充到对应分支,将信息补充后的特征分别送入对应的balancing units结构进行融合权重平衡后进行相加获得融合特征p;
11.步骤三、将不同尺度下的特征图重复步骤二操作三次,分别获得融合特征图p3、p4、p5;
12.步骤四、将步骤三获得的融合特征图送入多尺度融合网络进行特征信息互补;
13.步骤五、对步骤四获得的特征图进行检测并输出结果。
14.进一步的,所述步骤一包括以下步骤:
15.输入的可见光图像与红外图像均为rgb格式,其中可见光分支与红外图像分支结构相同,特征提取网络包括convbnsilu层与c3层,其中convbnsilu层是卷积层、bn层与silu激活函数的组合,c3层紧跟convbnsilu层,包括卷积块与残差结构,用于加速特征提取与降低参数。
16.进一步的,所述步骤二包括以下步骤:
17.执行跨模态信息融合互补与融合权重自适应调整,
18.i
in
=contact(seq(fr),seq(fi)),
19.i
out
=f
transfusion
(i
in
),
20.f’r
=fr+unseqr(i
out
),
21.f’i
=fi+unseqi(i
out
),
22.p=f
balancing units
(f
′r)+f
balancing units
(f
′i).
23.其中:i
in
表示transfusion模块的输入,contact()表示拼接操作,seq()表示序列化操作,fr与fi分别表示跨模态融合过程中输入的可见光图像特征图与红外图像特征图,i
out
表示跨模态融合的总特征,f
transfusion
()表示两种模态特征图的信息融合操作,f’r
表示跨模态融合总特征中对应可见光图像特征的部分,f’i
表示跨模态融合总特征中对应红外图像特征的部分,unseqr()、unseqi()分别表示先执行拆分操作并执行反序列化得到对应可见光和红外图像的特征图,f
balancing units
()执行根据光照强度自适应平衡融合权重操作,p是该尺度下执行跨模态信息融合互补与融合权重自适应后所获得的融合特征图;
24.跨模态信息融合互补操作:首先经由两种分支网络卷积模块获得可见光图像特征图fr与红外图像特征图fi,之后分别将fr与fi展平序列化后进行拼接形成transfusion结构的输入i
in
,经过transfusion结构融合特征后将融合特征进行拆分与反序列化后分别加入原来的分支获得f’r
与f’i
,完成跨模态信息互补过程;
25.融合权重自适应调整操作:将f’r
与f’i
分别输入对应的balancing units模块完成权重平衡后相加获得融合特征p;
26.balancing units模块输入大小为c
×h×
w,c为输入特征图通道数,w和h分别表示原始图像的宽和高,其中convbnsilu层的1
×
1,c/2与3
×
3,c/2分别指卷积核大小为1
×1×
c/2和3
×3×
c/2,p0和p1分别指卷积过程中的padding设置为0和1。
27.进一步的,所述步骤三包括以下步骤:
28.重复步骤二操作三次,即将两种模态特征提取过程中不同尺度的特征图送入btf结构中进行对应操作,获得不同尺度下的融合特征图p3、p4、p5;
29.进一步的,所述步骤四包括以下步骤:
30.输入待检测图像大小为c
×h×
w,则p3大小为p4大小为p5大小
为其中:c表示图像通道数,w和h分别表示原始图像的宽和高,c1、c2和c3分别表示对应融合特征图的通道数,且c3等于两倍的c2,c2等于两倍的c1;
31.p5经由convbnsilu层将通道数减半后获得特征图p5
′
,对p5
′
执行upsample(上采样)操作,将特征图变为大小后与p4特征图执行通道级contact融合获得大小特征图,将该特征图经由convbnsilu层将通道数变为c1后获得特征图p4
′
,对特征图p4′
执行upsample操作与p3融合后获得大小为的特征图p3
′
,p3
′
经由残差模块减半通道数后获得特征图大小为的ps,对ps进行该尺度下的目标检测,同时将ps送入convbnsilu层将尺寸大小减半后获得大小为的特征图,并将该特征图与p4′
进行通道级contact融合,继续将该特征图送入残差块后获得特征图大小为的pm,对pm进行该尺度下的目标检测,同时将pm送入convbnsilu层获得大小为的特征图,将该特征图与p5
′
进行通道级contact融合后获得大小为的特征图,将该特征图送入残差块后获得特征图大小为的pl,对pl进行该尺度下的目标检测。
32.进一步的,所述步骤五包括以下步骤:
33.在步骤四所获得的特征图上分别使用多个不同尺度的锚框(anchor box)预测,每个锚框需要计算其与目标的匹配度,即预测目标的类别和位置,在每个锚框位置预测出类别与位置后,使用非极大值抑制算法(nms)删除重叠的检测结果,只保留置信度最高的结果,最后根据预测结果计算出目标的边界框与类别,并输出检测结果。
34.与现有技术相比,本发明具有以下有益效果:
35.本发明针对现有人工设计跨模态融合策略所可能导致的融合不充分及光照自适应融合权重调整问题,提出了一种基于无人机的跨模态融合目标检测模型,实现了自学习跨模态融合策略及不同光照条件下的融合权重自适应,提高了跨模态融合目标检测的准确性与鲁棒性。
附图说明
36.图1是本发明的流程图;
37.图2是本发明的双流跨模态融合网络backbone部分;
38.图3是本发明模型中的transfusion结构与balancing units模块;
39.图4是本发明的多尺度特征融合网络结构。
具体实施方式
40.下面结合实施例对本发明作更进一步的说明。
41.本发明提供的一种基于无人机的跨模态融合目标检测方法,包括特征提取、跨模态信息融合与互补、自适应光照信息融合权重、多尺度特征融合,最终输出目标检测结果。
以下结合图1-4和实施例进一步阐述。
42.如图1所示,一种基于无人机的跨模态融合的目标检测方法,包括以下步骤:
43.步骤一、将可见光图像i
vis
与红外图像i
inf
分别输入对应分支模态进行特征提取;具体地讲:输入的可见光图像与红外图像均为rgb格式,其中可见光分支与红外图像分支结构相同,特征提取网络包括convbnsilu层与c3层,其中convbnsilu层是卷积层、bn层与silu激活函数的组合,c3层紧跟convbnsilu层,包括卷积块与残差结构,用于加速特征提取与降低参数。
44.步骤二、将可见光分支与红外图像分支的中间特征输入transfusion模块进行特征信息的融合,并将融合信息补充到对应分支,将信息补充后的特征分别送入对应的balancing units结构进行融合权重平衡后进行相加获得融合特征p;
45.执行跨模态信息融合互补与融合权重自适应调整,
46.i
in
=contact(seq(fr),seq(fi)),
47.i
out
=f
transfusion
(i
in
),
48.f’r
=fr+unseqr(i
out
),
49.f’i
=fi+unseqi(i
out
),
50.p=f
balancing units
(f’r
)+f
balancing units
(f’i
).
51.其中:i
in
表示transfusion模块的输入,contact()表示拼接操作,seq()表示序列化操作,fr与fi分别表示跨模态融合过程中输入的可见光图像特征图与红外图像特征图,i
out
表示跨模态融合的总特征,f
transfusion
()表示两种模态特征图的信息融合操作,f’r
表示跨模态融合总特征中对应可见光图像特征的部分,fi表示跨模态融合总特征中对应红外图像特征的部分,unseqr()、unseqi()分别表示先执行拆分操作并执行反序列化得到对应可见光和红外图像的特征图,f
balancing units
()执行根据光照强度自适应平衡融合权重操作,p是该尺度下执行跨模态信息融合互补与融合权重自适应后所获得的融合特征图;
52.跨模态信息融合互补操作:首先经由两种分支网络卷积模块获得可见光图像特征图fr与红外图像特征图fi,之后分别将fr与fi展平序列化后进行拼接形成transfusion结构的输入i
in
,经过transfusion结构融合特征后将融合特征进行拆分与反序列化后分别加入原来的分支获得f’r
与f’i
,完成跨模态信息互补过程;
53.融合权重自适应调整操作:将f’r
与f’i
分别输入对应的balancing units模块完成权重平衡后相加获得融合特征p;
54.如图3所示,balancing units模块输入大小为c
×h×
w,c为输入特征图通道数,w和h分别表示原始图像的宽和高,其中convbnsilu层的1
×
1,c/2与3
×
3,c/2分别指卷积核大小为1
×1×
c/2和3
×3×
c/2,p0和p1分别指卷积过程中的padding设置为0和1。
55.步骤三、将不同尺度下的特征图重复步骤二操作三次,即将两种模态特征提取过程中不同尺度的特征图送入btf结构中进行对应操作,分别获得融合特征图p3、p4、p5;
56.步骤四、将步骤三获得的融合特征图送入多尺度融合网络进行特征信息互补:
57.输入待检测图像大小为c
×h×
w,则p3大小为p4大小为p5大小为其中:c表示图像通道数,w和h分别表示原始图像的宽和高,c1、c2和c3分别表示对应融合特征图的通道数,且c3等于两倍的c2,c2等于两倍的c1;
58.p5经由convbnsilu层将通道数减半后获得特征图p5’,对p5’执行upsample(上采样)操作,将特征图变为大小后与p4特征图执行通道级contact融合获得大小特征图,将该特征图经由convbnsilu层将通道数变为c1后获得特征图p4’,对特征图p
’4执行upsample操作与p3融合后获得大小为的特征图p3
′
,p3
′
经由残差模块减半通道数后获得特征图大小为的ps,对ps进行该尺度下的目标检测,同时将ps送入convbnsilu层将尺寸大小减半后获得大小为的特征图,并将该特征图与p4′
进行通道级contact融合,继续将该特征图送入残差块后获得特征图大小为的pm,对pm进行该尺度下的目标检测,同时将pm送入convbnsilu层获得大小为的特征图,将该特征图与p5
′
进行通道级contact融合后获得大小为的特征图,将该特征图送入残差块后获得特征图大小为的pl,对pl进行该尺度下的目标检测。
59.步骤五、对步骤四获得的特征图进行检测并输出结果:
60.在步骤四所获得的特征图上分别使用多个不同尺度的锚框(anchor box)预测,每个锚框需要计算其与目标的匹配度,即预测目标的类别和位置,在每个锚框位置预测出类别与位置后,使用非极大值抑制算法(nms)删除重叠的检测结果,只保留置信度最高的结果,最后根据预测结果计算出目标的边界框与类别,并输出检测结果。
61.以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种基于无人机的跨模态融合的目标检测方法,其特征在于,包括以下步骤:步骤一、将可见光图像i
vis
与红外图像i
inf
分别输入对应分支模态进行特征提取;步骤二、将可见光分支与红外图像分支的中间特征输入transfusion模块进行特征信息的融合,并将融合信息补充到对应分支,将信息补充后的特征分别送入对应的balancing units结构进行融合权重平衡后进行相加获得融合特征p;步骤三、将不同尺度下的特征图重复步骤二操作三次,分别获得融合特征图p3、p4、p5;步骤四、将步骤三获得的融合特征图送入多尺度融合网络进行特征信息互补;步骤五、对步骤四获得的特征图进行检测并输出结果。2.根据权利要求1所述的基于无人机的跨模态融合的目标检测方法,其特征在于,所述步骤一包括以下步骤:输入的可见光图像与红外图像均为rgb格式,其中可见光分支与红外图像分支结构相同,特征提取网络包括convbnsilu层与c3层,其中convbnsilu层是卷积层、bn层与silu激活函数的组合,c3层紧跟convbnsilu层,包括卷积块与残差结构,用于加速特征提取与降低参数。3.根据权利要求1所述的基于无人机的跨模态融合的目标检测方法,其特征在于,所述步骤二包括以下步骤:执行跨模态信息融合互补与融合权重自适应调整,i
in
=contact(seq(f
r
),seq(f
i
)),i
out
=f
transfusion
(i
in
),f
′
r
=f
r
+unseq
r
(i
out
),f
′
i
=f
i
+unseq
i
(i
out
),其中:i
in
表示transfusion模块的输入,contact()表示拼接操作,seq()表示序列化操作,f
r
与f
i
分别表示跨模态融合过程中输入的可见光图像特征图与红外图像特征图,i
out
表示跨模态融合的总特征,f
transfusion
()表示两种模态特征图的信息融合操作,f’r
表示跨模态融合总特征中对应可见光图像特征的部分,f’i
表示跨模态融合总特征中对应红外图像特征的部分,unseq
r
()、unseq
i
()分别表示先执行拆分操作并执行反序列化得到对应可见光和红外图像的特征图,f
balancing units
()执行根据光照强度自适应平衡融合权重操作,p是该尺度下执行跨模态信息融合互补与融合权重自适应后所获得的融合特征图;跨模态信息融合互补操作:首先经由两种分支网络卷积模块获得可见光图像特征图f
r
与红外图像特征图f
i
,之后分别将f
r
与f
i
展平序列化后进行拼接形成transfusion结构的输入i
in
,经过transfusion结构融合特征后将融合特征进行拆分与反序列化后分别加入原来的分支获得f
′
r
与f
′
i
,完成跨模态信息互补过程;融合权重自适应调整操作:将f
′
r
与f
′
i
分别输入对应的balancing units模块完成权重平衡后相加获得融合特征p;balancing units模块输入大小为c
×
h
×
w,c为输入特征图通道数,w和h分别表示原始图像的宽和高,其中convbnsilu层的1
×
1,c/2与3
×
3,c/2分别指卷积核大小为l
×1×
c/2和3
×3×
c/2,p0和p1分别指卷积过程中的padding设置为0和1。
4.根据权利要求1所述的基于无人机的跨模态融合的目标检测方法,其特征在于,所述步骤三包括以下步骤:重复步骤二操作三次,即将两种模态特征提取过程中不同尺度的特征图送入btf结构中进行对应操作,获得不同尺度下的融合特征图p3、p4、p5。5.根据权利要求1所述的基于无人机的跨模态融合的目标检测方法,其特征在于,所述步骤四包括以下步骤:输入待检测图像大小为c
×
h
×
w,则p3大小为p4大小为p5大小为其中:c表示图像通道数,w和h分别表示原始图像的宽和高,c1、c2和c3分别表示对应融合特征图的通道数,且c3等于两倍的c2,c2等于两倍的c1;p5经由convbnsilu层将通道数减半后获得特征图p5
′
,对p5
′
执行upsample上采样操作,将特征图变为大小后与p4特征图执行通道级contact融合获得大小特征图,将该特征图经由convbnsilu层将通道数变为c1后获得特征图p4
′
,对特征图p
′4执行upsample操作与p3融合后获得大小为的特征图p3
′
,p3
′
经由残差模块减半通道数后获得特征图大小为的ps,对ps进行该尺度下的目标检测,同时将ps送入convbnsilu层将尺寸大小减半后获得大小为的特征图,并将该特征图与p
′4进行通道级contact融合,继续将该特征图送入残差块后获得特征图大小为的pm,对pm进行该尺度下的目标检测,同时将pm送入convbnsilu层获得大小为的特征图,将该特征图与p5
′
进行通道级contact融合后获得大小为的特征图,将该特征图送入残差块后获得特征图大小为的pl,对pl进行该尺度下的目标检测。6.根据权利要求1所述的基于无人机的跨模态融合的目标检测方法,其特征在于,所述步骤五包括以下步骤:在步骤四所获得的特征图上分别使用多个不同尺度的锚框anchor box预测,每个锚框需要计算其与目标的匹配度,即预测目标的类别和位置,在每个锚框位置预测出类别与位置后,使用非极大值抑制算法nms删除重叠的检测结果,只保留置信度最高的结果,最后根据预测结果计算出目标的边界框与类别,并输出检测结果。
技术总结
本发明公开了一种基于无人机的跨模态融合目标检测方法,将可见光图像特征与红外图像特征融合互补,同时根据光照强度自适应调整模态融合权重,进一步解决可见光或红外图像单一模态检测的局限性,提升融合目标检测准确性。将可见光图像I
技术研发人员:刘虎 曹志远 黄强
受保护的技术使用者:南京航空航天大学
技术研发日:2023.05.11
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/