基于改进YOLOv5的航拍图像检测方法

未命名 10-08 阅读:111 评论:0

基于改进yolov5的航拍图像检测方法
技术领域
1.本发明涉及无人机技术领域,具体为基于改进yolov5的航拍图像检测方法。


背景技术:

2.随着无人机产业规模的不断扩大和无人机技术的不断发展,无人机航拍图像目标检测技术在军用领域和民用领域得到了广泛的应用。在军事领域中,无人机可以通过航拍图像监视边境的非法入侵,有效的保护我国的国土安全。在民用领域中,可以利用无人机目标识别技术进行山区救援、城市交通有效疏导等。
3.目前航拍图像的目标检测技术主要分为两类:基于传统方法的目标检测技术和基于深度学习的目标检测技术,由于无人机采集的图像具有视野广泛、小目标密集等特点,因此拍摄的图像相对较为复杂,而基于传统方法的目标检测具有时间复杂度高,检测速度慢;激励特征需要人为设计,泛化能力差,检测精度较低的问题,此方法已经不能满足航拍图像目标检测的实时性和高精度的要求。


技术实现要素:

4.针对现有技术的不足,本发明提供了基于改进yolov5的航拍图像检测方法,解决了背景技术中所提出由于无人机采集的图像具有视野广泛、小目标密集等特点,因此拍摄的图像相对较为复杂,而基于传统方法的目标检测具有时间复杂度高,检测速度慢;激励特征需要人为设计,泛化能力差,检测精度较低的问题,此方法已经不能满足航拍图像目标检测的实时性和高精度的要求的问题。
5.为实现以上目的,本发明通过以下技术方案予以实现:基于改进yolov5的航拍图像检测方法,所述检测方法包括如下:
6.s1:无人机航拍数据集,采用visdrone航拍数据集进行训练测试,visdrone航拍数据集的图片主要来拍摄于各个城市,包含各种的复杂环境,此数据集的训练集有6471张图片,验证集有548图片,还有1610张测试集,此数据集还提供了1580张的挑战集,整个数据集中一共包含了pedestrian、tricycle、people等共十类目标,其中小目标占据整个数据集的3/4,且每个类别都有一定程度的遮挡;
7.s2:实验环境及训练方法,改进后的yolov5算法,采用冻结和解冻的小技巧提高训练效率,在冻结阶段时候由于对特征提取网络进行冻结,此部分的权值不会发生改变,对资源占用不大,此时设置的学习率为0.001,batch设置的大小为16,训练50epoch,在解冻训练阶段由于主干网络中的权值参与了调整,占用资源较大,此时将batch设为8,学习率为0.0004,动量因子设置为0.937,输入的图片设置为1152
×
1152;
8.s3:消融实验,为了验证多次改进的有效性,在visdrone航拍数据集上进行消融实验,采用yolov5l作为基准模型作为对比,以map(0.5),gflops,fps,模型体积为指标;
9.s4:对比实验,为了验证改进后的yolov5相对于其它航拍检测算法的优劣,将改进后的yolov5算法与当前主流的几种航拍算法在visdrone数据集上进行对比实验。
10.优选的,所述s2中实验环境搭建在服务站中,其中cpu采用intel(r)e5-2687w v4@3.0ghz,显卡采用nvidia geforce rtx 3090(24g显存),24g内存,1t硬盘,操作系统采用ubuntu 18.04lts,cuda为11.0,深度学习框架采用pytorch,python版本为3.8。
11.优选的,所述特征图长宽为w
×
h,通道为c,在通道注意力模块上,首先经过大小为w
×
h全局平均池化层处理后得到1
×1×
c的特征图,所述特征图输入到两个多层感知机中进行处理,其中在第一个多层感知机中一共有个神经元输出特征图通道数为,第二个多层感知机中神经元的总数为c个,并且二者都采用relu作为激活函数,对得到的特征图输入到激励函数中进行处理,整个过程可以由式(1)来表示:
[0012][0013]
其中代表经过全局池化层输出后的特征图,w0和w1代表多层感知机的权重值,w0∈c/r,w0∈c
×
c/r(超参数r代表降维系数),表示relu函数,表示sigmoid函数。最后将得到的与输入的特征向量进行相乘得到通道注意力机制的输出特征图(mc)。
[0014]
优选的,将特征图在通道上进行处理的同时并行添加了一个基于空间维度处理的注意力机制,具体操作为首先在输入特征使用平均池化层对其进行通道变换,得到尺寸为h
×w×
1的特征图,然后通过一次卷积操作后使用激励函数进行处理,得到输出特征图,整个过程可以由式(2)来表示:
[0015][0016]
其中表示使用3
×
3的卷积核进行特征提取,表示在通道维度上进行的平均池化,其它参数与上述一样,然后将得到的与输入特征进行相乘得到经过空间维度处理后的特征图(ms),最后将输入的特征图经过两个维度处理后的特征信息进行相加得到该模块的输出图()如式(3)所示:
[0017]iout
=mc+ms。
[0018]
优选的,所述为了进一步的提高小目标的检测精度,使p2特征层能充分参与到其它特征层融合的过程中,通过在yolov5的颈部网络上增加了一个特征融合层和检测头,专门用于检测小目标。
[0019]
优选的,所述s4中当iou为0.5时,改进后的yolov5算法相对于dmnet、yolov3、faster-rcnn、cascade-rcnn、yolov5l分别高出了4.9%、15.9%、12.2%、6.6%、6.1%,当iou的阈值范围为0.5:0.95时,改进后的yolov5算法的map值到达了34.0%,在所有模型中是最高的。
[0020]
优选的,将原有的特征融合网络移除,采用bifpn加权双向特征金字塔网络进行替换。
[0021]
优选的,所述bifpn网络结构主要有以下三个特点:移除单边的输入,以减小计算量;对于同一尺度的特征层采用残差连接的方式,增强特征表达能力;对于每个参与融合的特征层赋予一个权重值,表示它们对于融合的贡献程度。
[0022]
优选的,通过移除了bifpn网络的一个特征层,并且选择将p2-p5特征层进行融合提高网络模型对于小目标和密集目标检测的效果。
[0023]
本发明提供了基于改进yolov5的航拍图像检测方法。具备以下有益效果:
[0024]
该基于改进yolov5的航拍图像检测方法,针对航拍数据集背景复杂,小目标密集
等特点,提出了一种改进的yolov5航拍图像目标检测算法,在数据处理阶段,改进了mosaic算法,增加模型训练的目标数量,提升模型的检测精度。为了有效的提取出输入图像中有用的特征信息,在主干网络增加了一个基于混合注意力模块,对模型的颈部网络采用增加一个融合p2特征层的策略用于检测小目标,为了使网络能够更好的融合浅层特征和深层特征,将pan+fpn网络替换为优化后的bifpn网络,实验结果表明改进后的模型相对于基准模型检测精度有显著的提升,且满足实时性的检测要求;与现在先进的航拍图像目标检测算法对比,平均检测精度取得了最佳的检测效果,解决了由于无人机采集的图像具有视野广泛、小目标密集等特点,因此拍摄的图像相对较为复杂,而基于传统方法的目标检测具有时间复杂度高,检测速度慢;激励特征需要人为设计,泛化能力差,检测精度较低的问题,此方法已经不能满足航拍图像目标检测的实时性和高精度的要求的问题。
附图说明
[0025]
图1为本发明流程示意图;
[0026]
图2为本发明改进后的yolov5模型图;
[0027]
图3为本发明混合域注意力机制模块图;
[0028]
图4为本发明增加的p2特征融合层示意图;
[0029]
图5为本发明bifpn网络结构图;
[0030]
图6为本发明改进后的bifpn结构图;
[0031]
图7为本发明消融实验图;
[0032]
图8为本发明yolov5l的各类检测精度图;
[0033]
图9为本发明改进后的各类的map值示意图;
[0034]
图10为本发明不同算法在visdrone数据集上的对比示意图。
具体实施方式
[0035]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0036]
请参阅图1-10,本发明实施例提供一种技术方案:基于改进yolov5的航拍图像检测方法,所述检测方法包括如下:
[0037]
s1:无人机航拍数据集,采用visdrone航拍数据集进行训练测试,visdrone航拍数据集的图片主要来拍摄于各个城市,包含各种的复杂环境,此数据集的训练集有6471张图片,验证集有548图片,还有1610张测试集,此数据集还提供了1580张的挑战集,整个数据集中一共包含了pedestrian、tricycle、people等共十类目标,其中小目标占据整个数据集的3/4,且每个类别都有一定程度的遮挡;
[0038]
s2:实验环境及训练方法,改进后的yolov5算法,采用冻结和解冻的小技巧提高训练效率,在冻结阶段时候由于对特征提取网络进行冻结,此部分的权值不会发生改变,对资源占用不大,此时设置的学习率为0.001,batch设置的大小为16,训练50epoch,在解冻训练阶段由于主干网络中的权值参与了调整,占用资源较大,此时将batch设为8,学习率为
0.0004,动量因子设置为0.937,输入的图片设置为1152
×
1152;
[0039]
s3:消融实验,为了验证多次改进的有效性,在visdrone航拍数据集上进行消融实验,采用yolov5l作为基准模型作为对比,以map(0.5),gflops,fps,模型体积为指标;
[0040]
s4:对比实验,为了验证改进后的yolov5相对于其它航拍检测算法的优劣,将改进后的yolov5算法与当前主流的几种航拍算法在visdrone数据集上进行对比实验。
[0041]
所述s2中实验环境搭建在服务站中,其中cpu采用intel(r)e5-2687w v4@3.0ghz,显卡采用nvidia geforce rtx 3090(24g显存),24g内存,1t硬盘,操作系统采用ubuntu 18.04lts,cuda为11.0,深度学习框架采用pytorch,python版本为3.8。
[0042]
所述特征图长宽为w
×
h,通道为c,在通道注意力模块上,首先经过大小为w
×
h全局平均池化层处理后得到1
×1×
c的特征图,所述特征图输入到两个多层感知机中进行处理,其中在第一个多层感知机中一共有个神经元输出特征图通道数为,第二个多层感知机中神经元的总数为c个,并且二者都采用relu作为激活函数,对得到的特征图输入到激励函数中进行处理,整个过程可以由式(1)来表示:
[0043][0044]
其中代表经过全局池化层输出后的特征图,w0和w1代表多层感知机的权重值,w0∈c/r,w0∈c
×
c/r(超参数r代表降维系数),表示relu函数,表示sigmoid函数。最后将得到的与输入的特征向量进行相乘得到通道注意力机制的输出特征图(mc)。
[0045]
将特征图在通道上进行处理的同时并行添加了一个基于空间维度处理的注意力机制,具体操作为首先在输入特征使用平均池化层对其进行通道变换,得到尺寸为h
×w×
1的特征图,然后通过一次卷积操作后使用激励函数进行处理,得到输出特征图,整个过程可以由式(2)来表示:
[0046][0047]
其中表示使用3
×
3的卷积核进行特征提取,表示在通道维度上进行的平均池化,其它参数与上述一样,然后将得到的与输入特征进行相乘得到经过空间维度处理后的特征图(ms),最后将输入的特征图经过两个维度处理后的特征信息进行相加得到该模块的输出图()如式(3)所示:
[0048]iout
=mc+ms。
[0049]
所述为了进一步的提高小目标的检测精度,使p2特征层能充分参与到其它特征层融合的过程中,通过在yolov5的颈部网络上增加了一个特征融合层和检测头,专门用于检测小目标。
[0050]
所述s4中当iou为0.5时,改进后的yolov5算法相对于dmnet、yolov3、faster-rcnn、cascade-rcnn、yolov5l分别高出了4.9%、15.9%、12.2%、6.6%、6.1%,当iou的阈值范围为0.5:0.95时,改进后的yolov5算法的map值到达了34.0%,在所有模型中是最高的。
[0051]
将原有的特征融合网络移除,采用bifpn加权双向特征金字塔网络进行替换。
[0052]
所述bifpn网络结构主要有以下三个特点:移除单边的输入,以减小计算量;对于同一尺度的特征层采用残差连接的方式,增强特征表达能力;对于每个参与融合的特征层赋予一个权重值,表示它们对于融合的贡献程度。
[0053]
通过移除了bifpn网络的一个特征层,并且选择将p2-p5特征层进行融合提高网络模型对于小目标和密集目标检测的效果。
[0054]
该基于改进yolov5的航拍图像检测方法,针对航拍数据集背景复杂,小目标密集等特点,提出了一种改进的yolov5航拍图像目标检测算法,在数据处理阶段,改进了mosaic算法,增加模型训练的目标数量,提升模型的检测精度。为了有效的提取出输入图像中有用的特征信息,在主干网络增加了一个基于混合注意力模块,对模型的颈部网络采用增加一个融合p2特征层的策略用于检测小目标,为了使网络能够更好的融合浅层特征和深层特征,将pan+fpn网络替换为优化后的bifpn网络,实验结果表明改进后的模型相对于基准模型检测精度有显著的提升,且满足实时性的检测要求;与现在先进的航拍图像目标检测算法对比,平均检测精度取得了最佳的检测效果,解决了由于无人机采集的图像具有视野广泛、小目标密集等特点,因此拍摄的图像相对较为复杂,而基于传统方法的目标检测具有时间复杂度高,检测速度慢;激励特征需要人为设计,泛化能力差,检测精度较低的问题,此方法已经不能满足航拍图像目标检测的实时性和高精度的要求的问题
[0055]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0056]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

技术特征:
1.基于改进yolov5的航拍图像检测方法,其特征在于:所述检测方法包括如下:s1:无人机航拍数据集,采用visdrone航拍数据集进行训练测试,visdrone航拍数据集的图片主要来拍摄于各个城市,包含各种的复杂环境,此数据集的训练集有6471张图片,验证集有548图片,还有1610张测试集,此数据集还提供了1580张的挑战集,整个数据集中一共包含了pedestrian、tricycle、people等共十类目标,其中小目标占据整个数据集的3/4,且每个类别都有一定程度的遮挡;s2:实验环境及训练方法,改进后的yolov5算法,采用冻结和解冻的小技巧提高训练效率,在冻结阶段时候由于对特征提取网络进行冻结,此部分的权值不会发生改变,对资源占用不大,此时设置的学习率为0.001,batch设置的大小为16,训练50epoch,在解冻训练阶段由于主干网络中的权值参与了调整,占用资源较大,此时将batch设为8,学习率为0.0004,动量因子设置为0.937,输入的图片设置为1152
×
1152;s3:消融实验,为了验证多次改进的有效性,在visdrone航拍数据集上进行消融实验,采用yolov5l作为基准模型作为对比,以map(0.5),gflops,fps,模型体积为指标;s4:对比实验,为了验证改进后的yolov5相对于其它航拍检测算法的优劣,将改进后的yolov5算法与当前主流的几种航拍算法在visdrone数据集上进行对比实验。2.根据权利要求1所述基于改进yolov5的航拍图像检测方法,其特征在于:所述s2中实验环境搭建在服务站中,其中cpu采用intel(r)e5-2687wv4@3.0ghz,显卡采用nvidia geforce rtx 3090(24g显存),24g内存,1t硬盘,操作系统采用ubuntu 18.04lts,cuda为11.0,深度学习框架采用pytorch,python版本为3.8。3.根据权利要求1所述基于改进yolov5的航拍图像检测方法,其特征在于:所述特征图长宽为w
×
h,通道为c,在通道注意力模块上,首先经过大小为w
×
h全局平均池化层处理后得到1
×1×
c的特征图,所述特征图输入到两个多层感知机中进行处理,其中在第一个多层感知机中一共有个神经元输出特征图通道数为,第二个多层感知机中神经元的总数为c个,并且二者都采用relu作为激活函数,对得到的特征图输入到激励函数中进行处理,整个过程可以由式(1)来表示:其中代表经过全局池化层输出后的特征图,w0和w1代表多层感知机的权重值,w0∈c/r,w0∈c
×
c/r(超参数r代表降维系数),表示relu函数,表示sigmoid函数。最后将得到的与输入的特征向量进行相乘得到通道注意力机制的输出特征图(mc)。4.根据权利要求3所述基于改进yolov5的航拍图像检测方法,其特征在于:将特征图在通道上进行处理的同时并行添加了一个基于空间维度处理的注意力机制,具体操作为首先在输入特征使用平均池化层对其进行通道变换,得到尺寸为h
×
w
×
1的特征图,然后通过一次卷积操作后使用激励函数进行处理,得到输出特征图,整个过程可以由式(2)来表示:其中表示使用3
×
3的卷积核进行特征提取,表示在通道维度上进行的平均池化,其它参数与上述一样,然后将得到的与输入特征进行相乘得到经过空间维度处理后的特征图(ms),最后将输入的特征图经过两个维度处理后的特征信息进行相加得到该模块的输出图()如式(3)所示:
i
out
=m
c
+m
s
。5.根据权利要求1所述基于改进yolov5的航拍图像检测方法,其特征在于:所述为了进一步的提高地目标的检测精度,使p2特征层能充分参与到其它特征层融合的过程中,通过在yolov5的颈部网络上增加了一个特征融合层和检测头,专门用于检测小目标。6.根据权利要求1所述基于改进yolov5的航拍图像检测方法,其特征在于:所述s4中当iou为0.5时,改进后的yolov5算法相对于dmnet、yolov3、faster-rcnn、cascade-rcnn、yolov5l分别高出了4.9%、15.9%、12.2%、6.6%、6.1%,当iou的阈值范围为0.5:0.95时,改进后的yolov5算法的map值到达了34.0%,在所有模型中是最高的。7.根据权利要求1所述基于改进yolov5的航拍图像检测方法,其特征在于:将原有的特征融合网络移除,采用bifpn加权双向特征金字塔网络进行替换。8.根据权利要求1所述基于改进yolov5的航拍图像检测方法,其特征在于:所述bifpn网络结构主要有以下三个特点:移除单边的输入,以减小计算量;对于同一尺度的特征层采用残差连接的方式,增强特征表达能力;对于每个参与融合的特征层赋予一个权重值,表示它们对于融合的贡献程度。9.根据权利要求1所述基于改进yolov5的航拍图像检测方法,其特征在于:通过移除了bifpn网络的一个特征层,并且选择将p2-p5特征层进行融合提高网络模型对于小目标和密集目标检测的效果。

技术总结
本发明公开了基于改进YOLOv5的航拍图像检测方法,涉及无人机技术领域,所述检测方法包括如下:S1:无人机航拍数据集,S2:实验环境及训练方法,S3:消融实验,S4:对比实验,在数据处理阶段,改进了Mosaic算法,增加模型训练的目标数量,为了有效地提取出输入图像中有用的特征信息,在主干网络增加了一个基于混合注意力模块,对模型的颈部网络采用增加一个融合P2特征层的策略用于检测小目标,为了使网络能够更好地融合浅层特征和深层特征,将PAN+FPN网络替换为优化后的BiFPN网络,实验结果表明改进后的模型相对于基准模型检测精度有显著的提升,且满足实时性的检测要求;与现在先进的航拍图像目标检测算法对比,平均检测精度取得了最佳的检测效果。了最佳的检测效果。了最佳的检测效果。


技术研发人员:单丹 杨智 高治军 邱明浩 徐亭 单妥 袁毓谦
受保护的技术使用者:沈阳建筑大学
技术研发日:2023.07.06
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐