一种基于多尺度空间语义感知的遮挡抑制跟踪方法
未命名
10-21
阅读:53
评论:0
1.本发明属于计算机图像处理技术及目标跟踪领域,具体涉及一种基于多尺度空间语义感知的遮挡抑制跟踪方法。
背景技术:
2.目标跟踪是计算机视觉领域的一个重要研究方向。目标跟踪技术是计算机视觉领域重要的基础性问题之一。它的主要任务是在给定第一帧目标的位置后在后续帧中能对目标持续定位。
3.目前,目标跟踪技术在民用和军事方面都有着十分广泛的应用。在民用方面,目标跟踪技术包括智能视频监控、智能交通系统、无人驾驶、人机交互等。这些应用能够提高公共安全和生活质量,同时也需要保证技术的可靠性和安全性。在军事方面,目标跟踪技术包括无人飞行器、精确制导、空中预警、战场监视等。这些应用对于提高战斗力和保障军事安全具有重要的意义。
4.尽管目标跟踪技术已经取得了很大的进展,但是在实际应用中仍然存在着许多挑战和问题。比如,目标跟踪技术面临着场景复杂、光照变化、姿态变化、遮挡等问题的挑战。
5.近年来,基于孪生网络的目标跟踪方法凭借其出色的跟踪效果引起了广泛关注。孪生网络是由两支结构和参数完全相同的卷积神经网络并联组成的一种网络结构。得益于卷积神经网络中卷积核对二维数据局部不变形性特征的捕捉能力,基于孪生网络的目标跟踪算法能很好的克服平移、旋转、尺度变换的挑战。但是由于孪生网络中无法对模板进行在线更新,无法对遮挡物和目标信息有效的区分,在跟踪过程中常会因为遮挡干扰较为敏感而发生跟踪漂移,导致跟踪失败。
技术实现要素:
6.本发明的技术解决问题是:针对目标跟踪过程中会遇到目标被遮挡而导致跟踪失败的问题,采用基于多尺度空间语义感知的思路,增强了跟踪器在目标被遮挡情况下的跟踪鲁棒性,提升了跟踪精度,有效地处理了目标部分被遮挡问题。
7.实现本发明目的的技术解决方案为:一种基于多尺度空间语义感知的遮挡抑制跟踪方法,包括以下步骤:
8.步骤1,选择多尺度图像模板。在第t帧中用k
×
k大小的方形框截取目标图像作为原始图像模板,记作z0,同时以z0为中心使用2k
×
2k和k/2
×
k/2的方形框截取大尺度和小尺度图像模板,记作z
+
和z-,分别将z0、z
+
和z-输入至特征提取网络得到滤波器和其中1≤t≤n,n为视频序列总帧数;
9.步骤2,以原始图像模板为中心截取3组尺度图像块集合p0,p
+
和p-。具体为分别用k
×
k、2k
×
2k和k/2
×
k/2的方形框在z0、z
+
和z-周围随机采集包含对象的n个图像块,得到3组尺度图像块集合p0,p
+
和p-。
10.将p0,p
+
和p-分别输入到cnn网络中生成特征图,分别进行主成分分析pca得到3组
尺度图像块的变换矩阵ε0、ε
+
和ε-。cnn网络为利用数据集youtube-bb和imagenet训练的特征提取网络
11.步骤3,将3个尺度搜索区域分别输入到cnn网络得到特征图和具体为根据第t帧定位的位置,确定第t+1帧的搜索区域并采集3个尺度的搜索区域图像s0、s
+
和s-,为了在后续步骤中利用卷积的方法进行目标定位,第t帧采集的3个尺度的搜索区域应大于并包含第t-1帧中目标模板。
12.进一步,将3个尺度的搜索区域图像s0、s
+
和s-分别输入至特征提取网络得到特征图和
13.步骤4,通过特征图和和变换矩阵ε0、ε
+
和ε-,得到空间语义图u0、u
+
和u-,并计算二进制掩码c0、c
+
和c-。
14.步骤5,将特征图和和滤波器和卷积得到响应图h(s0,z0)、h(s
+
,z
+
)和h(s-,z-)。
15.步骤6,将响应图h(s0,z0)、h(s
+
,z
+
)和h(s-,z-)分别和二进制掩码c0、c
+
和c-点积得到3个遮挡抑制峰值图h0、h
+
和h-。
16.步骤7,将遮挡抑制峰值图h0、h
+
和h-通过点积运算进行融合得到融合峰值图h。
17.步骤8,将融合峰值图h的最大响应值的位置更新为第t帧的位置坐标,并计算第t-1帧及以前的峰值旁瓣比方差σ
2t-1
和第t帧峰值旁瓣比的方差σ
2t
。如果σ
2t
低于σ
2t-1
或第t帧的峰值旁瓣比高于第t-1帧及以前的平均值则通过重复步骤1、2更新变换矩阵ε0、ε
+
和ε-,滤波器和反之则不更新。
附图说明
18.图1为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法的流程图。
19.图2为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法中图像块、搜索区域和图像模板的关系示意图。
20.图3为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法与其他13种方法在otb2015跟踪数据集的精度图对比。
21.图4为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法与其他13种方法在otb2015跟踪数据集的成功图对比。
22.图5为本发明一种基于多尺度空间语义感知的遮挡抑制跟踪方法与其他3种方法在jogging视频序列中的可视化对比。
具体实施方式
23.为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明作进一步的阐述。
24.如图1所述,本发明提出一种基于多尺度空间语义感知的遮挡抑制跟踪方法,包括如下步骤:
25.步骤1,选择多尺度图像模板。在第t帧中用64
×
64的方形框截取目标图像作为原始图像模板,记作z0,同时以z0为中心使用128
×
128和32
×
32的方形框截取大尺度和小尺度
图像模板,记作z
+
和z-。分别将z0、z
+
和z-输入至特征提取网络得到滤波器和其中1<t≤n,n为视频序列总帧数;
26.具体为利用数据集youtube-bb和imagenet训练的cnn网络作为特征提取网络
27.表1为cnn网络的参数表
[0028][0029][0030]
cnn网络包括依次连接的4个卷积层和3个池化层组成,在前3个卷积层后分别连接一个最大池化层,同时在两者间都有dropout随机失活层和relu非线性激活函数。
[0031]
步骤2,以原始图像模板为中心截取3组尺度图像块集合p0,p
+
和p-。具体为分别用64
×
64、128
×
128和32
×
32的方形框在z0、z
+
和z-周围随机采集包含对象的n个尺度图像块,得到3组尺度图像块集合p0,p
+
和p-。
[0032]
将3组图像块集合p0,p
+
和p-分别输入到cnn网络中生成特征图,分别进行主成分分析pca得到3组尺度图像块的变换矩阵ε0、ε
+
和ε-。具体为:
[0033]
将3组图像块集合p0,p
+
和p-分别输入特征提取网络得到特征图集合得到特征图集合和每个特征图的尺寸为30
×
30
×
128。
[0034]
进一步,分别将各个集合中的特征图连接成一个二维矩阵m0、m
+
和m-,每个二维矩阵尺寸为900
×
128。
[0035]
进一步,分别对二维矩阵m0、m
+
和m-应用主成分分析pca将最主要的成分构成变换矩阵ε0、ε
+
和ε-。
[0036]
其中主成分分析pca具体操作为,对二维矩阵去中心化,即矩阵的每一个元素减去矩阵所有元素的平均值;通过公式计算协方差矩阵,其中为去中心化后的二维矩阵,(
·
)
t
为矩阵转置操作,n矩阵中所有元素的个数;用特征值分解方法求协方差矩阵的特征值与特征向量;对特征值从大到小排序,选择其中最大的k个,将其对应的k个特征向量分别作为行向量组成特征向量矩阵p;通过公式ε=pm得到变换矩阵。
[0037]
步骤3,将3个尺度搜索区域分别输入到cnn网络得到特征图和
具体为根据第t帧定位的位置,确定第t+1帧的搜索区域并采集3个尺度的搜索区域图像s0、s
+
和s-,第t帧采集的3个尺度的搜索区域大小为256
×
256,并包含第t-1帧中目标模板,图2展示了本方法中图像块、搜索区域和图像模板的关系。
[0038]
进一步,将3个尺度的搜索区域图像s0、s
+
和s-分别输入至特征提取网络得到特征图和
[0039]
步骤4,通过特征图和和变换矩阵ε0、ε
+
和ε-得到空间语义图u0、u
+
和u-,公式如下:
[0040][0041][0042][0043]
其中,和分别为和的第i行,第j列的元素,和分别为和的均值,和分别为u0、u
+
和u-的第i行,第j列的元素;
[0044]
进一步,计算二进制掩码c0、c
+
和c-,其第i行,第j列的元素和均满足如下公式,
[0045][0046]
步骤5,将特征图和和滤波器和卷积得到响应图h(s0,z0)、h(s
+
,z
+
)和h(s-,z-),公式为:
[0047][0048][0049][0050]
其中,表示卷积运算。
[0051]
步骤6,将响应图h(s0,z0)、h(s
+
,z
+
)和h(s-,z-)分别和二进制掩码c0、c
+
和c-点积得到3个遮挡抑制峰值图h0、h
+
和h-,公式如下:
[0052]
h0=h(s0,z0)
⊙
c0ꢀꢀꢀꢀꢀꢀ
(11)
[0053]
h0=h(s0,z0)
⊙
c0ꢀꢀꢀꢀꢀꢀ
(12)
[0054]
h0=h(s0,z0)
⊙
c0ꢀꢀꢀꢀꢀꢀ
(13)
[0055]
其中,
⊙
表示点积运算。
[0056]
步骤7,将遮挡抑制峰值图h0、h
+
和h-通过点积运算进行融合得到融合峰值图h,公式如下:
[0057]
h=h0⊙h+
⊙
h-ꢀꢀꢀꢀꢀ
(14)
[0058]
步骤8,将融合峰值图h的最大响应值的位置更新为第t帧的位置坐标,并根据峰值旁瓣的波动判断是否更新变换矩阵和滤波器。具体为,
[0059]
计算峰值旁瓣比,公式如下,
[0060][0061]
其中,h
max
为响应图的最大值,μ和σ表示峰值周围旁瓣的标准偏差和平均值。
[0062]
进一步,计算第t-1帧及以前的峰值旁瓣比方差σ
2t-1
和第t帧峰值旁瓣比的方差σ
2t
,可以用以下公式表示,
[0063][0064][0065]
σ
2t
=(psr
t-μ
t-1
)2ꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0066]
其中,t表示当前帧的编号,表示从第2帧到第t帧的参数求和。
[0067]
如果低于或第t帧的峰值旁瓣比高于第t-1帧及以前的平均值则通过重复步骤1、2更新变换矩阵ε0、ε
+
和ε-,滤波器和反之则不更新:
[0068]
或psr
t
>psr
t-1
,更新;
[0069]
且psr
t
≤psr
t-1
,不更新;
[0070]
otb2015跟踪数据集序列包括遮挡场景的目标挑战,视频分辨率高,视频数据集共有100组视频序列。图3展示了本方法与其他13种方法在otb2015跟踪数据集的精度图对比。它反映了跟踪方法估计的目标位置的中心点与真值的目标的中心点,这两者的距离小于给定阈值的视频帧占总帧数的百分比。
[0071]
交并比(iou)反映了预测的跟踪框与人工标注的跟踪框的重叠程度,其定义为预测框与真实标注框交集为面积比预测框与真实标注框并集的面积,其公式为:
[0072][0073]
其中,a为跟踪方法得到的矩形框区域,b真值给的矩形框区域,|
·
|表示区域的像素数目。当某一帧的iou大于设定的阈值时,则该帧被视为跟踪成功,总的跟踪成功的帧数占所有帧数的百分比即为成功率。图4展示了本方法与其他13种方法在otb2015跟踪数据集的成功图对比。从图3和图4可以看出,本方法在精度和成功率在遮挡场景下都优于其他13种方法。
[0074]
jogging视频序列中,本方法以及其他3中方法的跟踪结果如图5所示。在经过遮挡物后本方法依然能稳定跟踪目标,但是其他3中方法因为抗遮挡性不足发生了跟踪漂移,跟踪框落在了其他目标上。
[0075]
如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
技术特征:
1.一种基于多尺度空间语义感知的遮挡抑制跟踪方法,其特征在于,包括以下步骤:步骤1,在第t帧选择多尺度图像模板并输入到卷积神经网络中得到滤波器,其中1≤t≤n,n为目标视频序列总帧数;步骤2,在跟踪目标周围截取3组尺度图像块的集合并输入到卷积神经网络中得到3组尺度图像块的变换矩阵;步骤3,在第t+1帧中截取3个尺度搜索区域,并分别输入到卷积神经网络得到特征图;步骤4,通过尺度搜索区域特征图和变换矩阵得到空间语义图,进一步计算二进制遮挡抑制矩阵;步骤5,将3组尺度搜索区域特征图和滤波器分别卷积得到多尺度响应图,并和二进制遮挡抑制矩阵点积得到多尺度遮挡抑制的峰值图;步骤6,将多尺度响应图和二进制遮挡抑制矩阵点积得到多尺度遮挡抑制峰值图;步骤7,多尺度遮挡抑制峰值图通过点积运算进行融合,得到融合峰值图;步骤8,融合峰值图的最大响应值的位置更新为第t帧的位置坐标,并根据峰值旁瓣的波动作为是否更新变换矩阵和滤波器的依据。2.根据权利要求1所述的一种基于多尺度空间语义感知的遮挡抑制跟踪方法,其特征在于,将3组尺度图像块的集合馈送到卷积神经网络中得到特征图,然后,堆叠的这些特征图被重塑为二维特征,其中一个维度是通道,利用主成分分析方法利用二维特征得到3组尺度图像块的变换矩阵。3.根据权利要求1所述的一种基于多尺度空间语义感知的遮挡抑制跟踪方法,其特征在于,结合卷积神经网络提取的3个尺度搜索区域的特征图和变换矩阵计算空间语义图,公式为:其中,u
(i,j)
,x
(i,j)
分别为空间语义图和特征图中第i行,第j列的元素,ε为变换矩阵,为特征图的均值,在此基础上根据阈值判断公式,得到二进制遮挡抑制矩阵c。4.根据权利要求1所述的一种基于多尺度空间语义感知的遮挡抑制跟踪方法,其特征在于将响应图分别和遮挡抑制矩阵点积得到遮挡抑制的峰值图,公式如下:p
(i,j)
=c
(i,j)
·
h
(i,j)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,p
(i,j)
,c
(i,j)
,h
(i,j)
分别为峰值图,遮挡抑制矩阵和响应图中第i行,第j列的元素。5.根据权利要求1所述的一种基于多尺度空间语义感知的遮挡抑制跟踪方法,其特征在于,如果第t帧峰值旁瓣比的方差低于第t-1帧及以前的峰值旁瓣比方差或第t帧的峰值旁瓣比高于第t-1帧及以前的平均值则更新变换矩阵和滤波器,反之则不更新。
技术总结
本发明涉及一种基于多尺度空间语义感知的遮挡抑制跟踪方法。该算法包括:在初始帧中,选择多尺度图像模板馈送到卷积神经网络CNN生成滤波器,并在跟踪目标周围截取3组尺度图像块的集合用于生成变换矩阵;在后续跟踪过程中,将3组不同尺度的搜索区域馈送到卷积神经网络CNN中得到特征图,结合变换矩阵生成掩码矩阵,进一步计算得到遮挡抑制的特征图,3组尺度的遮挡抑制的特征图相融合以响应最大的位置作为跟踪目标位置,并以峰值旁瓣的波动作为更新变换矩阵和滤波器指标。更新变换矩阵和滤波器指标。更新变换矩阵和滤波器指标。
技术研发人员:张弘 陈栋华 杨一帆 李亚伟
受保护的技术使用者:北京航空航天大学
技术研发日:2023.08.09
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/