一种基于多模板自适应更新的目标跟踪方法及装置
未命名
08-03
阅读:83
评论:0

1.本发明属于计算机视觉技术领域,具体涉及一种基于多模板自适应更新的目标跟踪方法及装置。
背景技术:
2.视频目标跟踪是数字图像处理、计算机视觉等学科的研究热点,在视频监控、智能交通、人机交互、航空侦察、制导打击等多个民用及军用领域都有重要的研究价值。目标跟踪的覆盖范围广泛:其按照目标个数可以分为单目标跟踪及多目标跟踪;按照成像摄像头分布可以分为单视角跟踪及多视角跟踪;按照成像数据源可以分为基于可见光、红外及雷达的跟踪;根据是否提前预知目标信息可以分为有目标先验的跟踪及无目标先验的跟踪。
3.其中,基于单视角下无目标先验的可见光数据源的单目标跟踪问题由于不需进行摄像头联网且对目标的普适性强等特点,是目前学术界研究的重点。其工作流程为,对给定视频序列的起始帧中的目标位置,利用时空相关性提取一系列目标特征,获取目标位置、大小等参数,最终得到完整的目标运动轨迹。由于被跟踪的目标信息只在第一帧被提供,因此可靠的目标先验信息极度匮乏。此外,在跟踪过程中算法还需要应对来自于目标(旋转、尺度缩放)、背景(遮挡、光照变化)、平台(抖动、模糊、移出视野)等多方面的干扰。
4.针对上述难点问题,近年来以bacf方法(背景感知相关滤波算法)为代表的的一系列跟踪算法,通过对目标和背景进行联合建模,增强算法对外界干扰的抵抗能力,保证对目标的精确定位。然而,上述方法未能考虑到跟踪过程中丰富的历史帧目标信息。当目标受到长时遮挡、移出视野等较复杂的干扰时,仅仅依靠单帧的目标背景建模往往难以对目标进行重新捕获。
技术实现要素:
5.本发明的目的是为克服已有技术的不足之处,提出一种基于多模板自适应更新的目标跟踪方法及装置。本发明通过引入可靠的历史帧信息,保证当前帧目标模板不被遮挡物及背景杂波等干扰污染,继而在遮挡结束或目标重新出现时能够及时准确地定位目标,可取得更好的跟踪效果。
6.本发明第一方面实施例提出一种基于多模板自适应更新的目标跟踪方法,包括:
7.从视频的第1帧中选取一个待跟踪目标,通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,所述目标外观滤波器模板代表对应帧中所述待跟踪目标与选取的搜索区域内背景之间特征及对应标签的映射关系;
8.从视频的第2帧起,依次将每一帧作为当前帧;利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板并获取所述待跟踪目标在所述当前帧中的跟踪结果;其中,所述前一帧的所述目标外观滤波器模板考虑长时记忆模板,所述长时记忆模板为从所有保留的所述目标外观滤波器模板中筛选中的最佳模板;
9.将所述待跟踪目标在每一帧中的跟踪结果组成所述待跟踪目标在所述视频中的
跟踪结果。
10.在本发明的一个具体实施例中,所述通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,包括:
11.在第1帧中以所述待跟踪目标的中心点为中心按照设定的搜索区域的大小获取图像切片,所述图像切片的面积大于所述待跟踪目标的面积且包含完整的所述待跟踪目标;
12.对该图像切片进行特征提取以构建第1帧的图像切片特征矩阵
13.对该图像切片构建高斯标签矩阵
14.将高斯标签矩阵与特征矩阵进行元素级点除运算,得到所述待跟踪目标在第1帧的目标外观滤波器模板w1。
15.在本发明的一个具体实施例中,所述利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板,包括:
16.1)利用前一帧的目标外观滤波器模板,通过迭代计算得到当前帧的目标外观滤波器模板,包括:
17.记当前帧为第t帧,t≥2,提取当前帧图像切片的特征矩阵利用前一帧的目标外观滤波器模板w
t-1
进行当前帧目标外观滤波器模板w
t
的构建;
18.其中,w
t
的代价函数如下所示:
[0019][0020]
其中,为当前帧的辅助变量,ik为k
×
k的单位矩阵,k表示特征矩阵的维度,f为离散傅里叶系数矩阵,m为搜索区域的大小,w
t-1
为第t-1帧的目标外观滤波器模板,和μ分别表示拉格朗日乘子和惩罚因子;
[0021]
2)将步骤1)得到的w
t
与进行元素级点乘,得到当前帧的跟踪响应图;
[0022]
3)通过对当前帧的跟踪响应图的峰值进行判定,更新当前帧的目标外观滤波器模板,包括:
[0023]
若当前帧的跟踪响应图的峰值和峰态值分别大于各自对应的阈值,则保留通过式(1)计算得到的当前帧的目标外观滤波器模板;否则,删除通过式(1)计算得到的目标外观滤波器模板,将前一帧的目标外观滤波器模板更新为当前帧的目标外观滤波器模板。
[0024]
在本发明的一个具体实施例中,所述w
t
的代价函数的求解方法为:
[0025]
对如式(1)所示的代价函数进行分离变量后,通过i次交叉方向乘子法进行迭代求解,得到当前帧下经过i+1次迭代后所得的目标外观滤波器模板即为当前帧的目标外观滤波器模板w
t
;
[0026]
其中,迭代计算表达式如下:
[0027][0028]
其中,上标i代表第i次迭代,η为每次迭代的增长倍率,μ
max
为惩罚因子上限;为惩罚因子上限;w
t
的迭代初始值均为零矩阵。
[0029]
在本发明的一个具体实施例中,所述获取所述待跟踪目标在所述当前帧中的跟踪结果,包括:
[0030]
将当前帧的跟踪响应图峰值所在的位置作为当前帧的目标中心点位置,所述当前帧的目标中心点位置即为所述当前帧的目标跟踪结果。
[0031]
在本发明的一个具体实施例中,在所述得到所述当前帧的所述目标外观滤波器模板之后,所述方法还包括:
[0032]
对t进行判定:若t-1等于设定的帧数间隔a的整数倍且在从第t-a+1帧至第t帧构成的当前间隔中至少保留过一次利用式(1)计算得到的当前帧的目标外观滤波器模板,则获取当前间隔的长时记忆模板;否则,当前间隔不生成长时记忆模板;
[0033]
其中,所述长时记忆模板的获取方法为:
[0034]
将视频第1帧的目标外观滤波器模板作为第1个长时记忆模板;
[0035]
从第2帧开始,若当前间隔存在长时记忆模板,则根据当前间隔中保留的目标外观滤波器模板,获取按照式(1)得到所述保留的目标外观滤波器模板的对应帧,所述对应帧中响应图峰态值最高的一帧的目标外观滤波器模板即为当前间隔的长时记忆模板;
[0036]
当长时记忆模板的数目达到设定的数量上限值时,将新的长时记忆模板替代最早的长时记忆模板。
[0037]
在本发明的一个具体实施例中,所述方法还包括:
[0038]
在获取当前间隔的长时记忆模板后,利用所有长时记忆模板更新当前帧的目标外观滤波器模板,计算表达式如下:
[0039][0040]
s.t. βj≥0,j=1,2,...,tp
[0041][0042]
其中,wj表示第j个长时记忆模板,函数f()用来衡量筛选得到的长时记忆与当前帧目标外观的匹配程度,βj表示第j个长时记忆模板的自适应权值,tp为当前长时记忆模板的个数;σ为正则化参数,prj为第j段长时记忆模板的先验权重,表达式如下:
[0043][0044]
其中,α为衰减参数;
[0045]
当新的当前帧到来时,将式(3)得到的结果作为更新后的前一帧的目标外观滤波器模板。
[0046]
本发明第二方面实施例提出一种基于多模板自适应更新的目标跟踪装置,包括:
[0047]
跟踪目标获取模块,用于从视频的第1帧中选取一个待跟踪目标,通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,所述目标外观滤波器模板代表对应帧中所述待跟踪目标与选取的搜索区域内背景之间特征及对应标签的映射关系;
[0048]
目标外观滤波器模板更新模块,用于从视频的第2帧起,依次将每一帧作为当前帧;利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板并获取所述待跟踪目标在所述当前帧中的跟踪结果;其中,所述前一帧的所述目标外观滤波器模板考虑长时记忆模板,所述长时记忆模板为从所有保留的所述目标外观滤波器模板中筛选中的最佳模板;
[0049]
跟踪结果生成模块,用于将所述待跟踪目标在每一帧中的跟踪结果组成所述待跟踪目标在所述视频中的跟踪结果。
[0050]
本发明第三方面实施例提出一种电子设备,包括:
[0051]
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
[0052]
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种基于多模板自适应更新的目标跟踪方法。
[0053]
本发明第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种基于多模板自适应更新的目标跟踪方法。
[0054]
本发明的特点及有益效果在于:
[0055]
本发明主要面向无目标先验信息的跟踪问题,对跟踪每一帧所得到的响应图的数据特性进行计算与统计。一方面,可以对响应值较低的时刻进行及时鉴别,对引入相应的措施进行漂移校正;另一方面,能够筛选理想跟踪状态,将跟踪结果保存为高可靠模板,为后续目标定位提供时序指导。
[0056]
本发明通过在跟踪过程中保留了可靠的历史模板,并根据目标外观与跟踪状态进行不断回溯,选择与当前状态最贴近的历史模板,实现漂移问题的重捕获和定位。
[0057]
本发明可应用于智能视频监控、交通流量分析以及航空侦察等技术领域,提高目标跟踪的准确性,具有很高的应用价值。在智能监控方面,利用本发明能够在无需人工干预的条件下对视频数据进行及时分析与处理,完成对感兴趣目标的运动分析与行为理解。在智能交通领域,利用本发明能够对汽车的型号、牌照进行自动识别,统计车速、车流量等关键信息,有助于改善交通拥堵的问题。本发明还能应用到路标识别及行人运动轨迹分析方面,在必要时刻对司机进行提醒,保障平安驾驶与平安交通。此外,在图像制导应用中,通过
本发明进行目标检测与跟踪能够实现对空中或地面目标的精准定位与精确打击。
附图说明
[0058]
图1为本发明实施例中一种基于多模板自适应更新的目标跟踪方法的整体流程图。
[0059]
图2为本发明一个具体实施例中干扰因素造成目标模板突变的示意图。
[0060]
图3为本发明一个具体实施例中跟踪状态判别时典型跟踪响应示意图。
[0061]
图4为本发明一个具体实施例中多模板自适应选择与权值分配的流程图。
具体实施方式
[0062]
本发明实施例提出一种基于多模板自适应更新的目标跟踪方法及装置,下面结合附图及具体实施例对本发明进一步详细说明如下。
[0063]
本发明第一方面实施例提出一种基于多模板自适应更新的目标跟踪方法,包括:
[0064]
从视频的第1帧中选取一个待跟踪目标,通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,所述目标外观滤波器模板代表对应帧中所述待跟踪目标与选取的搜索区域内背景之间特征及对应标签的映射关系;
[0065]
从视频的第2帧起,依次将每一帧作为当前帧;利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板并获取所述待跟踪目标在所述当前帧中的跟踪结果;其中,所述前一帧的所述目标外观滤波器模板考虑长时记忆模板,所述长时记忆模板为从所有保留的所述目标外观滤波器模板中筛选中的最佳模板;
[0066]
将所述待跟踪目标在每一帧中的跟踪结果组成所述待跟踪目标在所述视频中的跟踪结果。
[0067]
记忆系统是人脑中最强大,但又较难被理解的功能性系统之一。借助于发达的记忆系统,人类能够适应复杂的环境,并有能力处理时序性问题。其中,由atkinson和shiffrin联合提出的记忆模型将人的记忆过程分为感觉记忆、短时记忆以及长时记忆三个部分。当外界环境比较稳定时,短时记忆能够快速给出响应,而当外部环境出现剧烈变化时,人脑则对长期记忆中存储的信息进行检索,从而得到对当前事件的响应。本发明所解决的目标跟踪问题与人的记忆过程也有相似之处:在跟踪初始帧,首先对目标形成初步的印象;在后续帧中,若外界环境稳定且目标本身也未发生剧烈的外观变化,本发明所述方法可以在更新目标印象的同时,快速地定位目标。然而在外部环境不稳定(例如出现了遮挡、杂波干扰)或目标外观发生了急速变化时,仅仅依靠单帧的模板(即本发明实施例中的短时记忆模板)难以对当前目标进行良好地匹配。考虑到观察目标的角度相对有限,所以在绝大多数情况下,观测到的目标外观都曾出现过,因此引入某些历史帧模板信息(即本发明实施例中的长时记忆模板)进行目标定位可以取得更好的效果,从而避免相似干扰或遮挡引起的跟踪错误。
[0068]
具体地,本发明实施例提出一种基于多模板自适应更新的目标跟踪方法,整体流程如图1所示。首先,在每一帧跟踪时时引入上一帧的目标模板特征,对目标背景进行联合建模,形成短时记忆模板;之后对跟踪状态进行判别以筛选出高可靠的滤波器模板形成长时记忆模板;当目标外观急剧变化或出现长时干扰时,激活长时记忆模板,并对筛选得到的
多个高可靠的长时记忆模板进行权值的自主确定,实现对当前目标位置的联合估计。该方法包括以下步骤:
[0069]
1)获取待进行目标跟踪的单通道视频。
[0070]
本实施例中,若输入视频为多通道彩色视频,可将其转化为单通道视频并进行拆帧处理。本实施例对图像分辨率及视频长度等并无其他要求。
[0071]
2)将步骤1)的视频的第1帧中选取一个待跟踪目标,提取待跟踪目标在第1帧中的目标外观滤波器模板。
[0072]
本实施例中,根据自主目标检测或人工画框方式在步骤1)获取的视频的第1帧中选出一个待跟踪目标(在本实施例中目标大小为m*n,其中m表示目标的宽度,n表示目标的高度),以该目标中心点为中心划定大小为3m*3n的图像切片作为搜索区域进行目标定位。
[0073]
需要说明的是,本实施例将目标周围的搜索区域的边长定为目标边长的3倍,如果任一帧中因为目标太大导致搜索区域无法达到规定的尺寸要求,则可通过补全边界像素向外补全的形式,构造一个满足尺寸要求的虚假图像。
[0074]
对该图像切片进行特征提取以构建第1帧的图像切片特征矩阵在本发明的一个具体实施例中,将提取31维度的梯度直方图特征、10维度的颜色空间特征以及目标灰度值以组成该图像切片的特征矩阵,因此本实施例中特征矩阵大小为3m*3n*42。之后,对该图像切片构建高斯标签矩阵在本发明的一个具体实施例中,高斯标签矩阵的大小为3m*3n,衰减因子为1/8。
[0075]
将高斯标签矩阵与特征矩阵进行元素级点除运算,即可得到待跟踪目标在第1帧的目标外观滤波器模板w1,以此建立第1帧的图像切片中待跟踪目标与背景区域之间特征及标签的关系。
[0076]
3)从第t=2帧开始,将第t帧作为当前帧;
[0077]
4)利用前一帧的目标外观滤波器模板,通过迭代计算当前帧的目标外观滤波器模板。
[0078]
在当前帧中以视频中当前帧的前一帧中目标中心点的位置为中心,获取大小为3m*3n的当前帧的图像切片;
[0079]
提取当前帧图像切片的特征矩阵利用当前帧的前一帧(即第t-1帧)的目标外观滤波器模板w
t-1
,进行当前帧目标外观滤波器模板w
t
的构建。
[0080]
本发明一个具体实施例中,w
t
的代价函数如下所示:
[0081][0082]
其中,w
t
为待求解的当前帧目标外观滤波器模板,为当前帧图像切片特征矩阵,表示高斯标签矩阵,为当前帧的辅助变量,ik为k
×
k的单位矩阵(k表示特征矩阵的维度,在本实施例中为42),f为离散傅里叶系数矩阵,m为搜索区域的大小(在本实施例中搜索区域大小为3m*3n),w
t-1
为第t-1帧的目标外观滤波器模板(该模板为在当前帧之前保存的
目标外观滤波器模板;当t=2时,w1即为在当前帧之前保存的目标外观滤波器模板)。和μ分别表示拉格朗日乘子和惩罚因子。
[0083]
本实施例中,通过在代价函数构建的过程中,引入之前所保存的目标滤波器模板w
t-1
,将各独立帧进行有效关联和约束,图2展示了骑行者以及玩具车两个视频序列中,目标模板特征随时间推移的变化情况。可以看出当图像中目标发生较大程度的视角变化时,目标模板特征发生急剧变化。通过上述时序约束的引入,可以有效消除如图2所示目标自身及外部环境某些急剧的变化会造成的模板突变的问题。由图可见,由于无人机平台与运动目标的拍摄位置关系发生较大变化,因此目标外观出现较大程度的视角变化。在上述情况下,特征模板出现了若干个尖峰值。本发明由于考虑了目标历史外观信息,能够有效降低上述外观急剧变化所引起的模板突变问题。
[0084]
在式(1)中,
[0085][0086]
为原始bacf算法的代价函数,其通过学习目标特征与标签值的映射关系,不断更新和学习目标的外观模板。从模板学习和更新的角度,其可以看作是一种相对“激进”的更新方式。
[0087][0088]
为本发明实施例引入的时序约束,通过与历史目标外观模板相比拟,强化模板的帧间关联性。其可以看作是一种略微“保守”的模板学习机制。因此,本发明实施例综合保证模板在两种不同的更新策略中做出权衡,避免由目标外观急剧变化所引起的模板波动与突变甚至造成跟踪漂移的问题。
[0089]
式(1)的最后两项是为了求解该代价函数所引入的辅助变量及拉格朗日项。该代价函数在分离变量后,可以通过i次交叉方向乘子法(admm)进行迭代求解,得到当前帧下(即第t帧)经过i+1次迭代后所得的目标外观滤波器模板如下式所示:
[0090][0091]
其中,上标i代表第i次迭代,本实施例将最大迭代次数设为5,初始惩罚因子μ=3,将每次迭代的增长倍率设为η=3,设置惩罚因子上限μ
max
=25。其余参数(w
t
)的初始值均设置为零矩阵。
[0092]
根据式(2),迭代结束后时的即为当前帧的目标外观滤波器模板w
t
。
[0093]
5)利用步骤4)得到的当前帧的目标外观滤波器模板,获得当前帧的跟踪响应图以及当前帧的目标中心点位置。
[0094]
本实施例中,在完成当前帧目标外观滤波器模板w
t
的求解之后,将w
t
与当前帧图像
切片的特征矩阵进行元素级点乘,以此获得当前帧的跟踪响应图。
[0095]
由于w
t
为本质上反应的是目标及周围背景特征与正负标签的映射关系,从物理意义上来讲,响应图表示各个位置的候选样本与现有模板的匹配程度。图3为本发明一个具体实施例中跟踪状态判别时典型跟踪响应示意图。由于本发明面向单目标跟踪应用,如图3的左边附图所示,在理想的情况下响应图只具有单一尖峰,且周围区域比较平滑;当目标受到干扰时,被污染的样本不能完美地匹配模板,在响应图上出现多个峰值,如图3的中间附图所示,或出现异常的形状,如图3的右边附图所示。与基准bacf算法相同,在本发明实施例中,选取跟踪响应图峰值所在的位置作为当前帧的目标中心点位置。
[0096]
6)通过对当前帧的跟踪响应图的峰值进行判定,更新当前帧的目标外观滤波器模板。
[0097]
本实施例中,由于跟踪过程中目标常受到背景遮挡、相似干扰等因素的影响,所以还需要通过对当前帧跟踪状态的判别与监测,以决定是否将当前帧的跟踪结果计入到可靠历史跟踪结果,以指导后续跟踪帧中的模板更新过程。
[0098]
本发明实施例通过衡量响应图的峰值大小以及响应图的形状进行跟踪状态监测和高置信度样本的筛选。其中响应图峰值可以直接求得,而响应图形状则通过计算其峰态值求得。根据下式所示的定义,峰态值表示一个变量的四阶累积量和二阶累积量平方的商,能够衡量采样数据的峰度及拖尾。
[0099][0100]
其中,x为一组随机变量,n表示变量的个数,表示变量x的平均值。具有高峰态值的数据呈现尖峰且拖尾较小的特点;而峰态值较小的数据,通常伴随较多峰值或具有平顶。因此,可以利用峰态值及时监督跟踪状态。在实际工程应用中,可以通过直接调用matlab中的kurtosis函数以计算响应图(本质上也是一组二维变量)的峰态值。
[0101]
本发明实施例利用响应图的平均峰值和平均峰态值判断当前帧跟踪状态是否满足更新条件:若跟踪状态良好(本实施例中采用历史平均峰值的0.65倍作为峰值阈值及历史平均峰态值的0.45倍作为峰态值阈值进行判定,即当前帧响应图的峰值和峰态值均需要大于所对应的阈值),则保留当前帧的目标外观滤波器模板以备后续筛选,即保留步骤4)得到的w
t
作为当前帧的目标外观滤波器模板;否则,不利用步骤4)得到的w
t
进行模板更新以避免模板污染,删除步骤4)得到的目标外观滤波器模板,将w
t-1
作为当前帧的目标外观滤波器模板。
[0102]
需要说明的是,所述历史平均峰值和历史平均峰态值是对之前的历史峰值大小和峰态大小进行平均,比如当前帧是第21帧,则判定时是比较当前帧响应图的峰值是否比之前20帧的峰值的平均值的0.65倍大,以及当前帧响应图的峰态值是否比之前20帧的峰态值的平均值0.45倍大。
[0103]
7)对t进行判定:
[0104]
若t-1等于设定的帧数间隔a(本实施例中选取30帧)的整数倍且从第t-a+1帧至第t帧中至少保留过一次利用式(1)计算得到的当前帧的目标外观滤波器模板时,获取由第t-a+1帧至第t帧构成的当前间隔的长时记忆模板,然后进入步骤8);否则,进入步骤9)。
[0105]
其中,所述长时记忆模板获取方法如下:
[0106]
将视频第1帧的目标外观滤波器模板作为第1个长时记忆模板;从第2帧开始,每当达到t-1等于设定的帧数间隔a(本实施例中选取30帧)的整数倍时,对从第t-a+1帧至第t帧构成的当前间隔中所保留的所有目标外观滤波器模板进行集中筛选,从该a帧保留的所有目标外观滤波器模板对应帧(即按照式(1)计算得到该保留的目标外观滤波器模板时的当前帧)中挑选出跟踪状态最佳的一帧(即响应图峰态值最高的一帧),将该帧的目标外观滤波器模板作为当前间隔的长时记忆模板。
[0107]
需要说明的是,若当前间隔中未保留过步骤4)计算的任一当前帧的目标外观滤波器模板,则该当前间隔不生成长时记忆模板。
[0108]
本发明一个具体实施例中,采用间隔30帧进行长时记忆模板生成。考虑到跟踪的实时性要求,设置长时记忆模板的数量上限为4,并采用先进先出的方式对得到的长时记忆进行不断更新,以适应目标外观变化。
[0109]
8)利用当前保留的所有长时记忆模板,更新当前帧的目标外观滤波器模板。
[0110]
在获取多个可靠长时记忆模板后,需自适应确定各模板的贡献权值,实现对多个历史帧信息的自适应融合。图4为本发明一个具体实施例中多模板自适应选择与权值分配的流程图。
[0111]
如图4所示,圈表示经过前面步骤7)筛选所得到的长时记忆模板,连线表示不同时刻的长时记忆模板进行权重确定和融合的过程,在该实施例中,在初始跟踪阶段(2-31帧,,只引入了初始帧目标外观滤波器模板作为可靠的长时记忆模板(记忆1)指导目标定位过程;伴随着跟踪过程,第26帧(长时记忆2)和第59帧(长时记忆3)分别被筛选成为可靠的长时记忆模板进行联合学习。目标人在第73帧之后被树木遮挡,当第110帧时重新出现在视野中时,尽管在第73-109帧的图像中目标一直没有出现,但是在第110帧的目标定位过程中,本实施例所述方法能够凭借在跟踪任务起始帧保存的目标特征模板(记忆1)及跟踪过程中筛选出的高可靠特征模板(记忆2、记忆3及记忆4),自主寻找与当前目标状态最贴近的历史模板并赋予更高的权值,最终通过特征匹配的方式实现对目标的重新定位。
[0112]
多模板联合建模的代价函数如下所示:
[0113][0114]
s.t. βj≥0,j=1,2,...,tp
[0115][0116]
该函数通过对之前筛选出的可靠目标外观特征滤波器进行自适应权值分配与加权,更新w
t
使其在下一当前帧到来时作为新的w
t-1
能够不断通过融合多时序目标外观信息,提升对目标外观突变的抵抗能力,保证在目标暂时漂移等情况下仍能准确定位目标。其中,wj表示通过特征约束及状态判别后所筛选出的可靠的第j个长时记忆模板,函数f()用来衡量筛选得到的长时记忆与当前帧目标外观的匹配程度,βj表示待确定的第j个长时记忆模板的自适应权值,tp为当前可靠长时记忆模板的个数,在本发明例中tp的上限值为4。σ=0.05为正则化参数,prj为第j段长时记忆模板的先验权重,其表达式如式(4)所示:
[0117][0118]
其中,α为衰减参数,在本发明例中其取值为0.5。由于需要最小化目标函数,对于较理想或匹配的历史记忆,应该尽量小。因此,本发明使用对应帧响应图峰态值bk平方的倒数作为匹配函数f()。另外,由于跟踪过程中目标特征具有时序一致性,从概率的角度上当前帧目标外观更趋近与最近几帧的目标特征。因此,在本发明中,对最近的目标外观赋予更高的权值以应对目标形变、旋转等因素造成的外观剧烈变化;对相距时间较长的目标外观赋予略低的权值。此外,各个先验权重prj之和等于1,即σjprj=1。
[0119]
在工程实践中,可直接调用matlab中quadprog库函数得到最优权值组合(β1,...,β
tp
)。在获取不同历史帧外观模板的权重之后,通过线性差值的方式讲权值βj与对应模板的外观滤波器wj相乘并求和,得到更新后的第t帧的目标外观滤波器模板w
t
。
[0120]
9)令t=t+1`,然后重新返回步骤3),以获取每一帧的响应图中峰值峰值所在的位置作为该帧的目标中心点位置。
[0121]
当遍历完毕视频的所有帧后,视频中每一帧的目标中心点位置即组成该视频中目标跟踪结果。
[0122]
为实现上述实施例,本发明第二方面实施例提出一种基于多模板自适应更新的目标跟踪装置,包括:
[0123]
跟踪目标获取模块,用于从视频的第1帧中选取一个待跟踪目标,通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,所述目标外观滤波器模板代表对应帧中所述待跟踪目标与选取的搜索区域内背景之间特征及对应标签的映射关系;
[0124]
目标外观滤波器模板更新模块,用于从视频的第2帧起,依次将每一帧作为当前帧;利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板并获取所述待跟踪目标在所述当前帧中的跟踪结果;其中,所述前一帧的所述目标外观滤波器模板考虑长时记忆模板,所述长时记忆模板为从所有保留的所述目标外观滤波器模板中筛选中的最佳模板;
[0125]
跟踪结果生成模块,用于将所述待跟踪目标在每一帧中的跟踪结果组成所述待跟踪目标在所述视频中的跟踪结果。
[0126]
需要说明的是,前述对一种基于多模板自适应更新的目标跟踪方法的实施例解释说明也适用于本实施例的一种基于多模板自适应更新的目标跟踪装置,在此不再赘述。根据本发明实施例提出的一种基于多模板自适应更新的目标跟踪装置,通过从视频的第1帧中选取一个待跟踪目标,通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,所述目标外观滤波器模板代表对应帧中所述待跟踪目标与选取的搜索区域内背景之间特征及对应标签的映射关系;从视频的第2帧起,依次将每一帧作为当前帧;利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板并获取所述待跟踪目标在所述当前帧中的跟踪结果;其中,所述前一帧的所述目标外观滤波器模板考虑长时记忆模板,所述长时记忆模板为从所有保留的所述目标外观滤
波器模板中筛选中的最佳模板;将所述待跟踪目标在每一帧中的跟踪结果组成所述待跟踪目标在所述视频中的跟踪结果。由此可实现通过引入可靠的历史帧信息,保证当前帧目标模板不被遮挡物及背景杂波等干扰污染,继而在遮挡结束或目标重新出现时能够及时准确地定位目标,可取得更好的跟踪效果。
[0127]
为实现上述实施例,本发明第三方面实施例提出一种电子设备,包括:
[0128]
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
[0129]
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种基于多模板自适应更新的目标跟踪方法。
[0130]
为实现上述实施例,本发明第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种基于多模板自适应更新的目标跟踪方法。
[0131]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0132]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例的一种基于多模板自适应更新的目标跟踪方法。
[0133]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0134]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示
例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0135]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0136]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0137]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
[0138]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0139]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0140]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以
软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0141]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:
1.一种基于多模板自适应更新的目标跟踪方法,其特征在于,包括:从视频的第1帧中选取一个待跟踪目标,通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,所述目标外观滤波器模板代表对应帧中所述待跟踪目标与选取的搜索区域内背景之间特征及对应标签的映射关系;从视频的第2帧起,依次将每一帧作为当前帧;利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板并获取所述待跟踪目标在所述当前帧中的跟踪结果;其中,所述前一帧的所述目标外观滤波器模板考虑长时记忆模板,所述长时记忆模板为从所有保留的所述目标外观滤波器模板中筛选中的最佳模板;将所述待跟踪目标在每一帧中的跟踪结果组成所述待跟踪目标在所述视频中的跟踪结果。2.根据权利要求1所述的方法,其特征在于,所述通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,包括:在第1帧中以所述待跟踪目标的中心点为中心按照设定的搜索区域的大小获取图像切片,所述图像切片的面积大于所述待跟踪目标的面积且包含完整的所述待跟踪目标;对该图像切片进行特征提取以构建第1帧的图像切片特征矩阵对该图像切片构建高斯标签矩阵将高斯标签矩阵与特征矩阵进行元素级点除运算,得到所述待跟踪目标在第1帧的目标外观滤波器模板w1。3.根据权利要求2所述的方法,其特征在于,所述利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板,包括:1)利用前一帧的目标外观滤波器模板,通过迭代计算得到当前帧的目标外观滤波器模板,包括:记当前帧为第t帧,t≥2,提取当前帧图像切片的特征矩阵利用前一帧的目标外观滤波器模板w
t-1
进行当前帧目标外观滤波器模板w
t
的构建;其中,w
t
的代价函数如下所示:其中,为当前帧的辅助变量,i
k
为k
×
k的单位矩阵,k表示特征矩阵的维度,f为离散傅里叶系数矩阵,m为搜索区域的大小,w
t-1
为第t-1帧的目标外观滤波器模板,和μ分别表示拉格朗日乘子和惩罚因子;2)将步骤1)得到的w
t
与进行元素级点乘,得到当前帧的跟踪响应图;3)通过对当前帧的跟踪响应图的峰值进行判定,更新当前帧的目标外观滤波器模板,包括:若当前帧的跟踪响应图的峰值和峰态值分别大于各自对应的阈值,则保留通过式(1)计算得到的当前帧的目标外观滤波器模板;否则,删除通过式(1)计算得到的目标外观滤波
器模板,将前一帧的目标外观滤波器模板更新为当前帧的目标外观滤波器模板。4.根据权利要求3所述的方法,其特征在于,所述w
t
的代价函数的求解方法为:对如式(1)所示的代价函数进行分离变量后,通过i次交叉方向乘子法进行迭代求解,得到当前帧下经过i+1次迭代后所得的目标外观滤波器模板即为当前帧的目标外观滤波器模板w
t
;其中,迭代计算表达式如下:其中,上标i代表第i次迭代,η为每次迭代的增长倍率,μ
max
为惩罚因子上限;为惩罚因子上限;w
t
的迭代初始值均为零矩阵。5.根据权利要求3所述的方法,其特征在于,所述获取所述待跟踪目标在所述当前帧中的跟踪结果,包括:将当前帧的跟踪响应图峰值所在的位置作为当前帧的目标中心点位置,所述当前帧的目标中心点位置即为所述当前帧的目标跟踪结果。6.根据权利要求3所述的方法,其特征在于,在所述得到所述当前帧的所述目标外观滤波器模板之后,所述方法还包括:对t进行判定:若t-1等于设定的帧数间隔a的整数倍且在从第t-a+1帧至第t帧构成的当前间隔中至少保留过一次利用式(1)计算得到的当前帧的目标外观滤波器模板,则获取当前间隔的长时记忆模板;否则,当前间隔不生成长时记忆模板;其中,所述长时记忆模板的获取方法为:将视频第1帧的目标外观滤波器模板作为第1个长时记忆模板;从第2帧开始,若当前间隔存在长时记忆模板,则根据当前间隔中保留的目标外观滤波器模板,获取按照式(1)得到所述保留的目标外观滤波器模板的对应帧,所述对应帧中响应图峰态值最高的一帧的目标外观滤波器模板即为当前间隔的长时记忆模板;当长时记忆模板的数目达到设定的数量上限值时,将新的长时记忆模板替代最早的长时记忆模板。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:在获取当前间隔的长时记忆模板后,利用所有长时记忆模板更新当前帧的目标外观滤波器模板,计算表达式如下:s.t.β
j
≥0,j=1,2,...,tp
其中,w
j
表示第j个长时记忆模板,函数f()用来衡量筛选得到的长时记忆与当前帧目标外观的匹配程度,β
j
表示第j个长时记忆模板的自适应权值,tp为当前长时记忆模板的个数;σ为正则化参数,pr
j
为第j段长时记忆模板的先验权重,表达式如下:其中,α为衰减参数;当新的当前帧到来时,将式(3)得到的结果作为更新后的前一帧的目标外观滤波器模板。8.一种基于多模板自适应更新的目标跟踪装置,其特征在于,包括:跟踪目标获取模块,用于从视频的第1帧中选取一个待跟踪目标,通过对所述待跟踪目标在所述第1帧中的特征进行提取,得到所述第1帧的目标外观滤波器模板,所述目标外观滤波器模板代表对应帧中所述待跟踪目标与选取的搜索区域内背景之间特征及对应标签的映射关系;目标外观滤波器模板更新模块,用于从视频的第2帧起,依次将每一帧作为当前帧;利用前一帧的所述目标外观滤波器模板,得到所述当前帧的所述目标外观滤波器模板并获取所述待跟踪目标在所述当前帧中的跟踪结果;其中,所述前一帧的所述目标外观滤波器模板考虑长时记忆模板,所述长时记忆模板为从所有保留的所述目标外观滤波器模板中筛选中的最佳模板;跟踪结果生成模块,用于将所述待跟踪目标在每一帧中的跟踪结果组成所述待跟踪目标在所述视频中的跟踪结果。9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一项所述的方法。
技术总结
本发明提出一种基于多模板自适应更新的目标跟踪方法及装置,属于计算机视觉技术领域。其中,所述方法包括:从视频的第1帧中选取一个待跟踪目标,通过对待跟踪目标在第1帧中的特征进行提取,得到第1帧的目标外观滤波器模板;从视频的第2帧起,依次将每一帧作为当前帧;利用考虑长时记忆模板的前一帧的目标外观滤波器模板,得到当前帧的目标外观滤波器模板并获取待跟踪目标在当前帧中的跟踪结果;待跟踪目标在每一帧中的跟踪结果即组成该目标在视频中的跟踪结果。本发明通过引入可靠的历史帧信息,保证当前帧目标模板不被遮挡物及背景杂波等干扰污染,继而在遮挡结束或目标重新出现时能够及时准确地定位目标,可取得更好的跟踪效果。踪效果。踪效果。
技术研发人员:韩煜祺 刘华平
受保护的技术使用者:清华大学
技术研发日:2023.02.28
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/