一种无人机用人群计数网络模型及计数方法与流程

未命名 09-22 阅读:45 评论:0


1.本发明属于无人机图像识别技术领域,尤其涉及一种无人机用人群计数网络模型及计数方法。


背景技术:

2.针对旅游景点和交通枢纽出现的大量人员聚集的情况,极有可能发生踩踏事故。无人机能从多个高度和角度对人群进行拍摄,和人群计数算法相结合,能够使管理人员掌握公共场所的人群密度。但是现有的人群计数算法在面对一定高度和角度所拍摄的人群图像时,会出现漏检和误检等问题,这是因为在此范围的高度和角度下进行拍摄时,无人机场景下的人群图像中会出现人群尺度变化问题,其次无人机拍摄的图像视野大,包含的信息繁杂,存在背景干扰问题,以上问题都会对无人机场景下的计数准确率造成影响。因此,本发明针对无人机场景下的人群尺度变化导致计数不准确的问题进行了深入研究。
3.目前的人群计数任务借助卷积神经网络进行研究。2016年,zhang等人提出了一种多分支的网络技术方法mcnn,该网络模型能够输入任意分辨率的输入图像,并将其送入具有不同分支的卷积层,并最终对不同尺度的特征图进行融合,以处理同一张人群图像中出现的人群尺度变化问题。但是,此种设计模式不同列之间使用的卷积层参数不共享,导致存在很多冗余参数,这会消耗额外的计算资源。针对以上问题,li等人提出了一个只使用单列结构,但网络层数更深的csrnet。csrnet使用vgg-16的前10层作为前端,主要用于初步提取人群图像中的特征,后6层使用空洞卷积作为后端来扩大感受野,并取得了很好的效果。cao等人提出了一种规模聚合网络sanet,该网络中包含了编码器和解码器,其中编码器类似于googlenet中提出的inception结构,作用是从人群图像中提取多尺度特征,解码器的作用则是对编码器中提取到的多尺度特征进行融合,并生成高分辨率密度图,这种网络结构可以有效地提取和利用多尺度信息来提高密度图的质量。尽管基于cnn的人群计数算法已经取得了显著的进步,但是在面对遮挡严重,背景复杂干扰,高拥挤的场景时仍有较大阻碍,于是许多人群计数研究人员开始从多尺度特征融合、注意力机制、多尺度结构等方面进行深入研究。liu等人提出了一种新型的可变形卷积网络,该网络由注意力图生成器和密度图生成器所组成。其中注意力图生成器用于寻找输入图像中存在人群的区域,并生成相应的注意力图。密度图生成器则是由可变形卷积构成的多尺度网络,可以用来输出估计人群数量的高质量密度图。
4.虽然上述方法已经在人群计数领域取得了不错的进步,但是真实标注图像是在行人头部使用点进行标注的,而上述人群计数算法在进行训练时需要将真实标注图像中点的标注转化成真实密度图,生成的真实密度图的质量也将直接影响训练结果的好坏,并且最后网络输出的估计密度图得到的当前人群图像中人的数量是不精准的。这些计数或定位方法往往会将复杂的背景区域错误地计数或定位,这会导致人群计数方法的准确性降低,影响在实际应用中的可靠性。


技术实现要素:

5.针对上述问题,本发明基于p2pnet目标检测算法结构的框架,提出了一种基于注意力引导,并使用多尺度空洞卷积进行特征融合的人群基数网络模型amdcnet,通过引入ecbam注意力机制模块和mdcffb多尺度特征融合模块,最终将多尺度特征进行融合,提高模型的计数性能。
6.本发明第一方面提供了一种无人机用人群计数网络模型,基于p2pnet目标检测算法结构的框架进行改进,搭建一种多尺度空洞卷积进行特征融合的人群基数网络模型amdcnet,包括backbone部分、neck部分和head部分;
7.所述backbone部分使用vgg-16模型及注意力模块进行特征提取并强化对关键特征的关注;
8.所述neck部分利用多尺度融合模块将backbone提取到的特征进行多尺度特征融合,其中每一个分支都拥有不同空洞率的空洞卷卷积,分别负责提取不同尺度的行人信息;
9.所述head部分包括两个并行的分支,分别是分类头和回归头,回归头负责预测人群图像中行人的位置。
10.优选的,所述vgg-16模型去掉了原始网络最后的两个池化层以及所有全连接层,并利用最后的c3、c4和c5这三个不同深度的层级来提取来自人群图像中不同尺度的行人信息。
11.优选的,所述注意力模块采用ecbam模块,其具体结构为:
12.包括通道注意力模块和空间注意力模块两部分,所述通道注意力模块首先将输入的特征图分别经过全局平均池化和全局最大池化处理后得到聚合特征,然后使用共享的1d卷积在不降低通道维度的前提下,进行跨通道的交互,并且使用一种自适应的方法来确定1d卷积核k的大小,经过卷积核大小为k的1d卷积处理后,将两块注意力权重相加并使用sigmoid激活函数进行处理;所述空间注意力模块先进行全局最大池化和全局平均池化操作,接着将获得到的特征图进行拼接,然后使用1个3
×
3大小的卷积核和relu激活函数,将特征图的通道数减为1,随后,再经过一次卷积,将特征图缩放至原来的维度,最后,经过sigmoid激活函数处理后的空间注意力权重与原始输入特征图相乘;所述ecbam模块会将这两种注意力权重分别与原输入特征图相乘,从而生成特征提炼后的特征图。
13.优选的,所述多尺度融合模块采用mdcffb模块,其具体结构及处理过程为:
14.输入特征图为f
in
∈rc×h×w,其中特征图的通道数、高和长分别为c、h和w,所述mdcffb模块包括四个分支,第一个分支首先经过一个5
×
5大小的卷积核处理,其中特征图的填充padding设置为2,后面紧跟着三个大小均为3
×
3,空洞率分别设置为1、2、3的空洞卷积;在经过空洞卷积的计算之后,使用一个1
×
1大小的卷积核将通道数降为c
*
,最终经过relu激活函数输出特征图f
out1
∈r
c*
×h×w;第二个分支首先经过一个3
×
3大小的卷积核,padding设置为1,之后再使用两个卷积核大小均为3
×
3,空洞率设置为1和2的空洞卷积进行处理,空洞卷积进行卷积运算时,会将特征图的padding依次设置为1和2,再经过一个1
×
1大小的卷积核,将通道数降为c
*
,最终经过relu激活函数输出特征图f
out2
∈r
c*
×h×w;第三个分支首先经过一个1
×
1大小的卷积核处理,然后再经过一个卷积核大小为3
×
3的常规卷积,再经过一个1
×
1大小的卷积核,同样需要将通道数降为c
*
,最终经过relu激活函数输出特征图f
out3
∈r
c*
×h×w;第四个分支只有一个1
×
1大小的卷积,将特征图的通道数降为c
*
,经
过relu激活函数输出特征图f
out4
∈r
c*
×h×w;随后,将各个分支的输出拼接到一起,此时输出的特征图为f
outc
∈r
3c*
×h×w,之后再使用1
×
1大小的卷积核,将通道数由3倍的c
*
降至c
*
,其中c
*
为256,最后,将输出的特征图和第四个分支的输出进行逐元素相加,经过relu激活函数得到最后的输出特征图f
out
∈r
c*
×h×w。
15.优选的,所述回归头设有一个预设锚点anchor point的模块,它会输出1
×m×
2大小的张量tensor,以此来表示预设的anchor point坐标,其中m表示预设anchor point的个数,当前m和分类头中的是一致的,而2表示当前方法输出的是每一个anchor point的位置坐标,将1
×m×
2大小的tensor按照第一维度复制batch size份,即可得到batch size
×m×
2大小的tensor,其为预设的anchor point坐标。
16.本发明第二方面提供了一种无人机用人群计数方法,包括以下过程:
17.通过无人机拍摄获取人群的图像数据;
18.将图像数据输入到如第一方面所述的人群计数网络模型amdcnet,用于对输入图像的人群数量进行计数;
19.网络模型通过对图像数据进行实时在线分析并输出分析,最终完成对人群数量的灵活检测。
20.本发明第三方面提供了一种无人机用人群计数设备,所述设备包括至少一个处理器和至少一个存储器;所述存储器中存储有如第一方面所述的人群计数网络模型的计算机程序;所述处理器执行所述存储器存储的计算机程序时,可以执行无人机人群计数方法。
21.本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述人群计数网络模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以执行无人机人群计数方法。
22.与现有技术相比,本发明中提出的一种无人机用人群计数网络模型及计数方法可以产生如下有益效果:
23.本发明主要解决了人群图像可能会出现的人群尺度变化大、分布不均、背景复杂、目标难以识别等问题导致的计数不准确的问题,而且无人机能够突破传统视频监控设备的限制,其更具有灵活性。
24.vgg-16作为主干网络网络并去掉了原始网络最后的两个池化层以及所有全连接层结构,网络简单,网络层数适中,对计算资源的消耗适度,有利于网络结构的轻量化,以便于搭载在无人机上。
25.ecbam是基于空间、通道双维度的高效注意力模块,将输入特征经过通道注意力和空间注意力模块进行关键信息提取,降低了模型训练时的复杂度,与此同时抑制无关的背景信息,从而让模型更加关注人群图像中的前景信息,提高模型的特征提取能力,解决了背景复杂干扰问题。
26.mdcffb不仅能够在极少参数量的情况下增大特征图的感受野,还能降低计算资源的消耗,保持特征图的尺寸不变。解决了人群图像中出现的人群尺度变化问题,进而提高了无人机场景下人群计数的准确度。
27.本发明将上述三个改进点结合起来,进一步提高了人群计数算法的准确性和鲁棒性。对无人机场景下的人群计数并实现较高计数准确率有实际意义。
附图说明
28.图1为本发明amdcnet的网络模型结构。
29.图2为本发明的backbone的网络结构图。
30.图3为本发明ecbam的结构示意图。
31.图4为本发明mdcffb的网络结构图。
32.图5为本发明分类头和回归头的结构示意图。
33.图6为本发明无人机用人群计数设备的简易结构示意图。
具体实施方式
34.下面结合具体实施例对发明进行进一步说明。
35.本发明提出了一种基于注意力引导,并使用多尺度空洞卷积进行特征融合的人群计数网络amdcnet(attention-guided and multi-scale dilated convolution feature fusion for crowd counting),网络结构图如图1所示,可以将其分为三个部分,分别为backbone、neck和head。
36.首先,backbone部分是将输入的人群图像经过vgg-16以及ecbam模块进行特征提取以及强化对关键特征的关注;neck部分则利用mdcffb模块将backbone提取到的特征进行多尺度特征融合,其中每一个分支都拥有不同空洞率的空洞卷卷积,分别负责提取不同尺度的行人信息,接着,特征融合操作能够保证人群计数网络对于不同尺度的行人信息都能够识别出来;head部分有两个并行的分支,它们分别是分类头和回归头,回归头负责预测人群图像中行人的位置,是以坐标的形式输出的,而分类头负责输出预测点的置信度得分,最终将两个分支的输出作为预测点的全部信息与ground truth进行1v1匹配,完成训练。
37.关于backbone:
38.本发明采用vgg-16作为人群计数模型的主干网络,去掉了原始网络最后的两个池化层以及所有全连接层,并利用最后的c3、c4和c5这三个不同深度的层级来提取来自人群图像中不同尺度的行人信息,网络结构如图2所示。选择vgg-16作为主干网络是因为其模型相对稳定,易于移植,具有强大的特征提取能力。综合考虑选择vgg-16网络是因为其网络结构简单,网络层数适中,对计算资源的消耗也适度,比较适合实际应用场景。
39.具体而言,浅层网络提取到的特征一般包含更多细粒度的信息,感受野也相对较小,其更有利于对小尺寸目标的识别,而随着卷积、池化以及下采样操作的增加,感受野也在不断增大,深层网络所提取到的特征一般包含更多的语义信息,更有利于大尺寸目标的识别,因此将vgg-16划分为五层,并选择c3、c4和c5来提取不同尺度的行人信息,具体结构如下:c3输出的特征是主干网络前7层计算的结果(其中包含两个最大池化层);c4输出的特征是主干网络前10层计算的结果(其中包含三个最大池化层);c5输出的特征是主干网络前13层计算的结果(其中包含四个最大池化层)。于是,输入图像在经过c3、c4和c5处理后,输出的特征图大小分别为原始输入图像的1/4,1/8和1/16倍。最终将c5输出的特征图p5使用最近邻插值法,将提取到的特征上采样两倍得到p5_upsampled,然后和c4输出的特征图融合得到p4,接着将p4上采样两倍得到p4_upsampled,再和c3输出的特征图融合得到p3作为最后输出的特征图。总的来说,c3输出的特征图分辨率大,感受野小,有利于小尺度行人的识别,而c5输出的特征图尺寸小,但感受野较大,有利于大尺度目标信息的识别,因此将c5
和c4的特征图依次上采样和相加,最终和c3的特征图进行融合,这有利于模型提取人群图像中的多尺度行人信息,尤其是对小尺度行人信息的识别。
40.关于ecbam模块:
41.针对背景复杂干扰问题,本发明设计出了一种高效的注意力模块ecbam(efficient convolutional block attention module,有效的卷积块注意力模块)。ecbam可以在通道注意力和空间注意力两个维度上生成注意力权重信息来提高特征表示的质量,然后ecbam模块会将这两种注意力权重分别与原输入特征图相乘,从而生成特征提炼后的特征图。这个轻量级的模块可以轻松地嵌入到任何主干网络中,从而提高网络的性能,ecbam结构示意图如3图所示。
42.ecbam的通道注意力模块首先将输入的特征图分别经过全局平均池化和全局最大池化处理后得到聚合特征,然后使用共享的1d卷积在不降低通道维度的前提下,进行跨通道的交互,并且使用一种自适应的方法来确定1d卷积核k的大小,此种方式相较于全连接,更能降低模型的复杂度,k的计算公式如下:
[0043][0044]
其中c表示通道维度的数量,|t|
odd
表示离t最近的一个奇数,γ和b分别设置为2和1。经过卷积核大小为k的1d卷积处理后,将两块注意力权重相加并使用sigmoid激活函数进行处理,之后便可作用在输入特征图上,完成在通道维度上的特征标定。
[0045]
在ecbam的通道注意力中,每一个通道的权重计算公式如下:
[0046][0047]
其中yi表示当前通道上的值,ω
ik
表示离着yi最近的k个相邻通道,wi为当前通道上的权重,可以简写为如下公式:
[0048]
w=c1dk(y)
[0049]
其中c1d表示1d卷积,k为1d卷积核的大小。综上所述,ecbam的通道注意力模块计算公式如下:
[0050][0051][0052][0053]
为了在空间维度上获得注意力特征,ecbam会先进行全局最大池化和全局平均池化操作,接着将获得到的特征图进行拼接,经过这一系列的操作,将特征图的维度从原来的f∈rc×h×w转变成了f∈r2×h×w。考虑到无人机场景下的人群图像中存在大规模的小尺度目标,因此为避免特征图的感受野过大,使用1个3
×
3大小的卷积核和relu激活函数,将特征图的通道数减为1。随后,再经过一次卷积,将特征图缩放至原来的维度。最后,经过sigmoid激活函数处理后的空间注意力权重与原始输入特征图相乘,从而完成在空间维度上的特征标定,具体操作如下:
[0054][0055]
这样,将改进后的通道注意力和空间注意力模块先后串联起来,ecbam就能够在通道和空间两个维度上为原始特征图施加注意力权重,使得在后续的计数过程中,网络模型能够更准确地识别和区分目标。
[0056]
关于mdcffb模块:
[0057]
为了不增加网络深度、参数量和计算量,本发明提出了多尺度融合模块mdcffb。使用不同空洞率的卷积构建了多分支结构的mdcffb以提取较为丰富的多尺度行人特征。使用空洞卷积的优势在于,其不仅能够在极少参数量的情况下增大特征图的感受野,还能降低计算资源的消耗,保持特征图的尺寸不变。由于每一个分支所使用的卷积核大小和空洞率都不同,因此所提取到的行人特征具有不同的感受野,有利于提取全局和局部特征,之后再将这些特征进行拼接融合便可得到较为丰富的语义特征,从而强化网络对不同尺度行人信息的识别能力。mdcffb的结构示意图如4所示。
[0058]
mdcffb的具体结构如下,输入特征图为f
in
∈rc×h×w,其中特征图的通道数、高和长分别为c,h和w。后面接了四个分支,第一个分支首先经过一个5
×
5大小的卷积核处理,其中特征图的padding(填充)设置为2,目的是为了在进行卷积操作时保持特征图的尺寸不变,后面紧跟着三个大小均为3
×
3,但空洞率分别设置为1,2,3的空洞卷积,将空洞率设置成这样是为了防止网格效应,目的是让深层特征能够完全利用上浅层特征上的所有像素。使用空洞率为3的空洞卷积和使用卷积核大小为7
×
7的常规卷积处理后所获得的感受野一致。在经过空洞卷积的计算之后,使用一个1
×
1大小的卷积核将通道数降为c
*
,最终经过relu激活函数输出特征图f
out1
∈r
c*
×h×w,此分支主要用于提取人群图像中大尺寸目标的特征。具体计算公式如下:
[0059][0060]
第二个分支首先经过一个3
×
3大小的卷积核,padding设置为1,之后再使用两个卷积核大小均为3
×
3,但空洞率设置为1和2的空洞卷积进行处理,使用空洞率为2的卷积和使用卷积核大小为5
×
5的常规卷积处理后所获得的感受野一致。在空洞卷积进行卷积运算时,会将特征图的padding依次设置为1和2,再经过一个1
×
1大小的卷积核,将通道数降为c
*
,最终经过relu激活函数输出特征图f
out2
∈r
c*
×h×w,此分支主要用于提取人群图像中中等尺寸目标的特征。具体计算公式如下:
[0061][0062]
第三个分支首先经过一个1
×
1大小的卷积核处理,然后再经过一个卷积核大小为3
×
3的常规卷积,再经过一个1
×
1大小的卷积核,同样需要将通道数降为c
*
,最终经过relu激活函数输出特征图f
out3
∈r
c*
×h×w,此分支主要用于提取人群图像中小尺寸目标的特征。具体计算公式如下:
[0063][0064]
第四个分支只有一个1
×
1大小的卷积,目的是将特征图的通道数降为c
*
,经过relu激活函数输出特征图f
out4
∈r
c*
×h×w,此分支主要用于进行简单的残差连接,目的是防止
出现网络退化和模型过拟合的问题。具体计算公式如下:
[0065]fout4
=σ(c1(f
in
))
[0066]
总的来说,mdcffb模块的第一、二、三分支分别使用不同空洞率的空洞卷积提取不同尺度的行人信息,且每一个分支的空洞率系数在进行设计时都尽可能的小,以适应人群计数中充满小尺度目标的场景,最后将各个分支的输出拼接到一起,简单来说就是保持输出特征图的大小不变,仅仅进行通道数上的叠加,此操作的目的是为了捕获丰富的上下文信息和多尺度特征,此时输出的特征图为f
outc
∈r
3c*
×h×w,之后再使用1
×
1大小的卷积核,将通道数由3倍的c
*
降至c
*
,其中c
*
为256。最后,将输出的特征图和第四个分支的输出进行逐元素相加,经过relu激活函数得到最后的输出特征图f
out
∈r
c*
×h×w。具体计算公式如下:
[0067]foutc
=concat(f
out1
,f
out2
,f
out3
)
[0068]fout
=σ(c1(f
outc
)+f
out4
)
[0069]
其中,ci表示大小为i
×
i的卷积核,c
ij
则表示空洞率参数为j,卷积核大小为i的空洞卷积,concat表示对多个特征图进行通道拼接融合操作,σ表示激活函数。
[0070]
关于分类头和回归头:
[0071]
输入图像在经过vgg-16的初步特征提取,ecbam的特征提炼以及mdcffb模块的特征融合之后,最终需要将特征图送入到分类头和回归头中,分类头和回归头的结构图如图5所示。
[0072]
其中分类头输出的tensor(张量)大小为batch size
×m×
2,其中batch size为一次训练所抓取的数据样本数量,m表示预测点的个数,是需要经过softmax归一化处理的,其表示每一个预测点的置信度得分。对于人群计数任务的类别预测分支来说,预测点的类别要么是人要么不是人,相当于一个二分类任务,因此将分类头的输出进行softmax归一化处理,便可得到每一个预测点是否为人的概率,最终的输出可表示为:
[0073][0074]
由于回归头输出的是预测点的偏移量,因此会有一个预设anchor point(锚点)的方法,它会输出1
×m×
2大小的tensor,以此来表示预设的anchor point坐标,其中m表示预设anchor point的个数,当前m和分类头中的m是一致的,因为预设的坐标个数和输出的类别个数一定是对应起来的,而2表示当前方法输出的是每一个anchor point的位置坐标。然后将1
×m×
2大小的tensor按照第一维度复制batch size份,即可得到batch size
×m×
2大小的tensor,其为预设的anchor point坐标,表示为r={rk|k∈{1,...,m}},其中rk=(xk,yk)。
[0075]
回归头的输出大小也为batch size
×m×
2,其中m表示预测的偏移量的个数,2表示当前回归头输出的是每一个预测点的偏移量,最终的输出形式为然后将预设的anchor point坐标和回归头输出的偏移量进行相加操作,便可得到网络最终对人群图像中行人头部的预测位置具体计算公式如下:
[0076][0077]
[0078]
实施例2:
[0079]
如图6所示,本发明同时提供了一种无人机用人群计数设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如实施例1所述人群计数网络模型的计算机程序;所述处理器执行所述存储器存储的程序时,可以执行无人机人群计数方法。其中内部总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(xtendedindustry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。设备可以被提供为终端、服务器或其它形态的设备。
[0080]
图6是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(i/o)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
[0081]
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0082]
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0083]
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(mic),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。i/o接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮
可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0084]
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0085]
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0086]
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0087]
实施例3:
[0088]
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如实施例1所述人群计数网络模型的计算机程序;所述处理器执行所述存储器存储的程序时,可以执行无人机人群计数方法。
[0089]
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
[0090]
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘(如cd-rom、cd-r、cd-rw、dvd-20rom、dvd-ram、dvd-rw、dvd-rw)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0091]
应理解,上述处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0092]
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可
向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
[0093]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0094]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0095]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0096]
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征:
1.一种无人机用人群计数网络模型,其特征在于:基于p2pnet目标检测算法结构的框架进行改进,搭建一种多尺度空洞卷积进行特征融合的人群基数网络模型amdcnet,包括backbone部分、neck部分和head部分;所述backbone部分使用vgg-16模型及注意力模块进行特征提取并强化对关键特征的关注;所述neck部分利用多尺度融合模块将backbone提取到的特征进行多尺度特征融合,其中每一个分支都拥有不同空洞率的空洞卷卷积,分别负责提取不同尺度的行人信息;所述head部分包括两个并行的分支,分别是分类头和回归头,回归头负责预测人群图像中行人的位置。2.如权利要求1所述的一种无人机用人群计数网络模型,其特征在于:所述vgg-16模型去掉了原始网络最后的两个池化层以及所有全连接层,并利用最后的c3、c4和c5这三个不同深度的层级来提取来自人群图像中不同尺度的行人信息。3.如权利要求1所述的一种无人机用人群计数网络模型,其特征在于,所述注意力模块采用ecbam模块,其具体结构为:包括通道注意力模块和空间注意力模块两部分,所述通道注意力模块首先将输入的特征图分别经过全局平均池化和全局最大池化处理后得到聚合特征,然后使用共享的1d卷积在不降低通道维度的前提下,进行跨通道的交互,并且使用一种自适应的方法来确定1d卷积核k的大小,经过卷积核大小为k的1d卷积处理后,将两块注意力权重相加并使用sigmoid激活函数进行处理;所述空间注意力模块先进行全局最大池化和全局平均池化操作,接着将获得到的特征图进行拼接,然后使用1个3
×
3大小的卷积核和relu激活函数,将特征图的通道数减为1,随后,再经过一次卷积,将特征图缩放至原来的维度,最后,经过sigmoid激活函数处理后的空间注意力权重与原始输入特征图相乘;所述ecbam模块会将这两种注意力权重分别与原输入特征图相乘,从而生成特征提炼后的特征图。4.如权利要求1所述的一种无人机用人群计数网络模型,其特征在于,所述多尺度融合模块采用mdcffb模块,其具体结构及处理过程为:输入特征图为f
in
∈r
c
×
h
×
w
,其中特征图的通道数、高和长分别为c、h和w,所述mdcffb模块包括四个分支,第一个分支首先经过一个5
×
5大小的卷积核处理,其中特征图的填充padding设置为2,后面紧跟着三个大小均为3
×
3,空洞率分别设置为1、2、3的空洞卷积;在经过空洞卷积的计算之后,使用一个1
×
1大小的卷积核将通道数降为c
*
,最终经过relu激活函数输出特征图f
out1
∈r
c*
×
h
×
w
;第二个分支首先经过一个3
×
3大小的卷积核,padding设置为1,之后再使用两个卷积核大小均为3
×
3,空洞率设置为1和2的空洞卷积进行处理,空洞卷积进行卷积运算时,会将特征图的padding依次设置为1和2,再经过一个1
×
1大小的卷积核,将通道数降为c
*
,最终经过relu激活函数输出特征图f
out2
∈r
c*
×
h
×
w
;第三个分支首先经过一个1
×
1大小的卷积核处理,然后再经过一个卷积核大小为3
×
3的常规卷积,再经过一个1
×
1大小的卷积核,同样需要将通道数降为c
*
,最终经过relu激活函数输出特征图f
out3
∈r
c*
×
h
×
w
;第四个分支只有一个1
×
1大小的卷积,将特征图的通道数降为c
*
,经过relu激活函数输出特征图f
out4
∈r
c*
×
h
×
w
;随后,将各个分支的输出拼接到一起,此时输出的特征图为f
outc
∈r
3c*
×
h
×
w
,之后再使用1
×
1大小的卷积核,将通道数由3倍的c
*
降至c
*
,其中c
*
为256,最后,将输出的特征图和第四个分支的输出进行逐元素相加,经过relu激活函数得到最后的
输出特征图f
out
∈r
c*
×
h
×
w
。5.如权利要求1所述的一种无人机用人群计数网络模型,其特征在于,所述回归头设有一个预设锚点anchor point的模块,它会输出1
×
m
×
2大小的张量tensor,以此来表示预设的anchor point坐标,其中m表示预设anchor point的个数,当前m和分类头中的是一致的,而2表示当前方法输出的是每一个anchor point的位置坐标,将1
×
m
×
2大小的tensor按照第一维度复制batch size份,即可得到batch size
×
m
×
2大小的tensor,其为预设的anchor point坐标。6.一种无人机用人群计数方法,其特征在于,包括以下过程:通过无人机拍摄获取人群的图像数据;将图像数据输入到如权利要求1至5任意一项所述的人群计数网络模型amdcnet,用于对输入图像的人群数量进行计数;网络模型通过对图像数据进行实时在线分析并输出分析,最终完成对人群数量的灵活检测。7.一种无人机用人群计数设备,其特征在于:所述设备包括至少一个处理器和至少一个存储器;所述存储器中存储有如权利要求1至5任意一项所述人群计数网络模型的计算机程序;所述处理器执行所述存储器存储的计算机程序时,可以执行无人机人群计数方法。8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有如权利要求1至5任意一项所述人群计数网络模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以执行无人机人群计数方法。

技术总结
本发明提供了一种无人机用人群计数网络模型及计数方法,模型结构基于P2PNet目标检测算法结构的框架进行改进,包括三个部分。其中Backbone部分使用VGG-16模型及注意力模块进行特征提取并强化对关键特征的关注;Neck部分利用多尺度融合模块将提取到的特征进行多尺度特征融合,其中每一个分支都拥有不同空洞率的空洞卷卷积,分别负责提取不同尺度的行人信息;Head部分包括两个并行的分支,分别是分类头和回归头,回归头负责预测人群图像中行人的位置。本发明解决了人群图像可能会出现的人群尺度变化大、背景复杂、目标难以识别等导致的计数不准确问题,而且无人机能够突破传统视频监控设备的限制,其更具有灵活性。其更具有灵活性。其更具有灵活性。


技术研发人员:魏玲 胥志伟 丁来辉 杨晓刚 赵天旭 刘振
受保护的技术使用者:山东巍然智能科技有限公司
技术研发日:2023.06.20
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐