轨迹注意力目标跟踪方法、装置及可读介质
未命名
09-15
阅读:97
评论:0

1.本发明涉及视觉跟踪领域,具体涉及一种轨迹注意力目标跟踪方法、装置及可读介质。
背景技术:
2.视觉跟踪任务旨在给定目标初始状态的条件下预测它的未来状态,其在视频监控、无人驾驶和人机交互等有着广泛的应用,同时也具有重要的现实研究意义。大多数跟踪器通过序列预测框架来解决跟踪问题,即根据初始帧和历史帧的状态来估计当前目标状态。虽然目标跟踪近年来已经取得了显著的提升,但在实际工程应用中,诸如目标遮挡、尺度变化和相似目标干扰等挑战仍然是阻碍跟踪器实现精准跟踪的巨大障碍。因此,设计一种高精度的目标跟踪器一直是一个面临挑战性的课题。
3.最近,transformer模型被引入目标跟踪来学习视频流目标运动信息以提高跟踪性能。然而,诸如此类的混合注意力(mixed attention,ma)模型会导致新的问题:transformer中的自注意机制存在普遍性和缺乏归纳偏置,处理视频相邻帧的冗余空间信息需要大量的数据来训练;另一方面,视频目标随着时间推移而移动,沿着特定的二维轨迹投影在不同图像区域,而现有的transformer跟踪器忽略了目标轨迹,直接汇集跨时间维度上的运动信息,造成了特征冗余,从而降低了跟踪性能。
技术实现要素:
4.针对上述提到的技术问题。本技术的实施例的目的在于提出了一种轨迹注意力目标跟踪方法、装置及可读介质,来解决以上背景技术部分提到的技术问题。
5.第一方面,本发明提供了一种轨迹注意力目标跟踪方法,包括以下步骤:
6.获取历史帧及其前景-背景掩膜图和查询帧,采用特征提取网络分别对历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图;
7.将历史特征图、前景-背景掩膜特征图和查询特征图输入轨迹注意力网络,轨迹注意力网络包括空间注意力模块、时序注意力模块和通道融合模块,空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图;
8.将目标响应图输入头网络预测得到目标的位置和边界框。
9.作为优选,特征提取网络包括具有相同的网络结构但不共享参数的第一骨干网络和第二骨干网络,通过第一骨干网络分别对历史帧及其前景-背景掩膜图进行特征提取,得到历史特征图和前景-背景掩膜特征图,如下式所示:
10.[0011][0012]
其中,表示第一骨干网络,hi表示第i帧历史帧,mi表示第i帧前景-背景掩膜图,
[0013]
表示第i帧历史特征图,表示第i帧前景-背景掩膜特征图,其中,c表示通道数,h表示图像高度,w表示图像宽度,为实数集;
[0014]
通过第二骨干网络对查询帧进行特征提取,得到查询特征图,如下式所示:
[0015][0016]
其中,表示第二骨干网络;c表示查询帧;表示查询特征图。
[0017]
作为优选,空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,具体包括:
[0018]
利用逐像素计算来衡量查询特征图与历史特征图在空间目标之间的相似性,如下式所示:
[0019][0020]
其中,表示空间相似度响应图,表示第i帧历史特征图;
[0021]
表示查询特征图,表示矩阵相乘;
[0022]
利用目标聚焦策略计算聚焦后的空间相似度矩阵,如下式所示:
[0023][0024]
其中,表示空间相似度响应图;表示聚焦后的空间相似度矩阵;toprc表示分别计算空间相似度矩阵的每一行和每一列中最大的前k个响应值,softmax表示归一化函数;scatter表示除最大的前k个响应值索引外将空间相似度矩阵中对应像素位置置0;
[0025]
采用下式计算附有空间权重的历史特征图:
[0026][0027]
其中,表示第i帧历史特征图,表示第i帧前景-背景掩膜特征图,表示第i帧附有空间权重的历史特征图,表示聚焦后的目标响应图,表示矩阵相乘,表示像素相加。
[0028]
作为优选,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,具体包括:
[0029]
利用自注意力机制对t个附有空间权重的历史特征图建立时间依赖关系,如下式所示:
[0030][0031][0032]
其中,表示第i帧附有空间权重的历史特征图;表示t个附
有空间权重的历史特征图在时序维度交互后的时序特征图,msa表示多头自注意力机制,norm表示层归一化,ffn表示全连接前馈神经网络,表示时序交互后的时序响应图。
[0033]
作为优选,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图,具体包括:
[0034]
利用逐通道计算来衡量时序交互后的时序响应图与查询特征图在目标通道特征之间的相似性,得到通道相识度响应图,如下式所示:
[0035][0036]
其中,表示通道相似度响应图,表示时序交互后的时序响应图,表示查询特征图,表示矩阵相乘;
[0037]
对通道相似度响应图进行通道降维,得到通道降维后的目标特征图,如下式所示:
[0038][0039]
其中,表示通道降维后的目标特征图,表示通道相似度响应图,表示时序交互后的时序响应图;表示矩阵相乘;
[0040]
根据通道降维后的目标特征图和查询特征图合成目标响应图,如下式所示:
[0041][0042]
其中,表示通道降维后的目标特征图,表示查询特征图,表示目标响应图,concat(
·
,
·
)表示拼接操作。
[0043]
作为优选,头网络包括分类头网络、无锚框回归头网络和质量评估头网络。
[0044]
作为优选,将目标响应图输入头网络预测得到目标的位置和边界框,具体包括:
[0045]
将目标响应图输入分类头网络,预测得到目标分类响应图,如下式所示:
[0046]rcls
=ν
cls
(y);
[0047]
其中,表示目标响应图;ν
cls
表示分类头网络;表示目标分类响应图;
[0048]
将目标响应图输入无锚框回归头网络,预测得到目标回归响应图,如下式所示:
[0049]rreg
=ν
reg
(y);
[0050]
其中,ν
reg
表示无锚框回归头网络;表示目标回归响应图;
[0051]
将目标响应图输入质量评估头网络,预测得到目标中心响应图,如下式所示:
[0052]rctr
=ν
ctr
(y);
[0053]
其中,ν
ctr
表示质量评估头网络;表示目标中心响应图。
[0054]
第二方面,本发明提供了一种轨迹注意力目标跟踪装置,包括:
[0055]
特征提取模块,被配置为获取历史帧及其前景-背景掩膜图和查询帧,采用特征提取网络分别对历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图;
[0056]
轨迹注意力模块,被配置为将历史特征图、前景-背景掩膜特征图和查询特征图输入轨迹注意力网络,轨迹注意力网络包括空间注意力模块、时序注意力模块和通道融合模块,空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图;
[0057]
预测模块,被配置为将目标响应图输入头网络预测得到目标的位置和边界框。
[0058]
第三方面,本发明提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0059]
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0060]
相比于现有技术,本发明具有以下有益效果:
[0061]
(1)本发明提出轨迹注意力网络(trajectory attention network,tan),从空间注意力(spatial attention)、时序注意力(temporal attention)和特征融合(channel fusion)三个维度对特征提取后的多个历史帧目标区域进行建模,在专注于目标轨迹的同时,避免了空间冗余信息的干扰,有效提升了跟踪器的辨别能力。
[0062]
(2)本发明提出的轨迹注意力目标跟踪方法在空间注意力模块中设计了一个目标聚焦策略(target focus strategy,tfs),使得目标边缘区域更加具有辨别性,以突出目标最相关区域,降低模型复杂度。
[0063]
(3)本发明提出的轨迹注意力目标跟踪方法即使在复杂场景下,如尺度变化、相似目标干扰和目标遮挡等,目标边界框也能准确回归,比transformer跟踪器具有更高的跟踪精度,并且能够提高目标跟踪技术在面对部分遮挡、非刚性变形、相似物体干扰等挑战的鲁棒性。
附图说明
[0064]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0065]
图1是本技术的一个实施例可以应用于其中的示例性装置架构图;
[0066]
图2为本技术的实施例的轨迹注意力目标跟踪方法的流程示意图;
[0067]
图3为本技术的实施例的轨迹注意力目标跟踪方法的网络结构示意图;
[0068]
图4为本技术的实施例的轨迹注意力目标跟踪方法的空间注意力模块的示意图;
[0069]
图5为本技术的实施例的轨迹注意力目标跟踪方法的时序注意力模块和通道融合模块的示意图;
[0070]
图6为在不同搜索帧中混合注意力跟踪器、目标聚焦策略和本技术的实施例的轨迹注意力目标跟踪方法的对目标跟踪结果的可视化图;
[0071]
图7(a)和7(b)分别为不同跟踪器在lasot中评估得到的精确度曲线和成功率图;
其中,图7(a)中的横坐标表示定位误差阈值,纵坐标表示精确度;图7(b)的横坐标表示重叠阈值,纵坐标表示成功率;
[0072]
图8(a)-8(f)分别为不同跟踪器在book序列中第69帧图像、第191帧图像、第228帧图像、第483帧图像、第543帧图像和第579帧图像序列的跟踪结果;
[0073]
图9(a)-9(f)分别为不同跟踪器在horse序列中第258帧图像、第298帧图像、第323帧图像、第637帧图像、第855帧图像和第1593帧图像序列的跟踪结果;
[0074]
图10(a)-10(f)分别为不同跟踪器在peacock序列中第160帧图像、第730帧图像、第1091帧图像、第1187帧图像、第1240帧图像和第1573帧图像序列的跟踪结果;
[0075]
图11(a)-11(f)分别为不同跟踪器在skating序列中第27帧图像、第54帧图像、第97帧图像、第127帧图像、第154帧图像和第160帧图像序列的跟踪结果;
[0076]
图12(a)-12(f)分别为不同跟踪器在basketball序列中第16帧图像、第479帧图像、第498帧图像、第625帧图像、第665帧图像和第719帧图像序列的跟踪结果;
[0077]
图13(a)-13(f)分别为不同跟踪器在soccer序列中第94帧图像、第108帧图像、第114帧图像、第135帧图像、第364帧图像和第377帧图像序列的跟踪结果;
[0078]
图14为本技术的实施例的轨迹注意力目标跟踪装置的示意图;
[0079]
图15是适于用来实现本技术实施例的电子设备的计算机装置的结构示意图。
具体实施方式
[0080]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0081]
图1示出了可以应用本技术实施例的轨迹注意力目标跟踪方法或轨迹注意力目标跟踪装置的示例性装置架构100。
[0082]
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0083]
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
[0084]
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0085]
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
[0086]
需要说明的是,本技术实施例所提供的轨迹注意力目标跟踪方法可以由服务器
105执行,也可以由终端设备101、102、103执行,相应地,轨迹注意力目标跟踪装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
[0087]
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
[0088]
图2示出了本技术的实施例提供的一种轨迹注意力目标跟踪方法,包括以下步骤:
[0089]
s1,获取历史帧及其前景-背景掩膜图和查询帧,采用特征提取网络分别对历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图。
[0090]
在具体的实施例中,特征提取网络包括具有相同的网络结构但不共享参数的第一骨干网络和第二骨干网络,通过第一骨干网络分别对历史帧及其前景-背景掩膜图进行特征提取,得到历史特征图和前景-背景掩膜特征图,如下式所示:
[0091][0092][0093]
其中,表示第一骨干网络,hi表示第i帧历史帧,mi表示第i帧前景-背景掩膜图,
[0094]
表示第i帧历史特征图,表示第i帧前景-背景掩膜特征图,其中,c表示通道数,h表示图像高度,w表示图像宽度,为实数集;
[0095]
通过第二骨干网络对查询帧进行特征提取,得到查询特征图,如下式所示:
[0096][0097]
其中,表示第二骨干网络;c表示查询帧;表示查询特征图。
[0098]
具体的,参考图3,本技术的实施例利用非权重共享的骨干网络来提取特征,非权重共享的骨干网络即为具有相同的网络结构但不共享参数的第一骨干网络和第二骨干网络,利用第一骨干网络对输入的t个历史帧和其对应的t个前景-背景掩膜图提取特征,使用第二骨干网络对输入的查询帧提取特征,此步骤中特征提取的前后顺序并不做限制。
[0099]
s2,将历史特征图、前景-背景掩膜特征图和查询特征图输入轨迹注意力网络,轨迹注意力网络包括空间注意力模块、时序注意力模块和通道融合模块,空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图。
[0100]
在具体的实施例中,空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,具体包括:
[0101]
利用逐像素计算来衡量查询特征图与历史特征图在空间目标之间的相似性,如下式所示:
[0102]
[0103]
其中,表示空间相似度响应图,表示第i帧历史特征图;
[0104]
表示查询特征图,表示矩阵相乘;
[0105]
利用目标聚焦策略计算聚焦后的空间相似度矩阵,如下式所示:
[0106][0107]
其中,表示空间相似度响应图;表示聚焦后的空间相似度矩阵;toprc表示分别计算空间相似度矩阵的每一行和每一列中最大的前k个响应值,softmax表示归一化函数;scatter表示除最大的前k个响应值索引外将空间相似度矩阵中对应像素位置置0;
[0108]
采用下式计算附有空间权重的历史特征图:
[0109][0110]
其中,表示第i帧历史特征图,表示第i帧前景-背景掩膜特征图,表示第i帧附有空间权重的历史特征图,表示聚焦后的目标响应图,表示矩阵相乘,表示像素相加。
[0111]
在具体的实施例中,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,具体包括:
[0112]
利用自注意力机制对t个附有空间权重的历史特征图建立时间依赖关系,如下式所示:
[0113][0114][0115]
其中,表示第i帧附有空间权重的历史特征图;表示t个附有空间权重的历史特征图在时序维度交互后的时序特征图,msa表示多头自注意力机制,norm表示层归一化,ffn表示全连接前馈神经网络,表示时序交互后的时序响应图。
[0116]
在具体的实施例中,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图,具体包括:
[0117]
利用逐通道计算来衡量时序交互后的时序响应图与查询特征图在目标通道特征之间的相似性,得到通道相识度响应图,如下式所示:
[0118][0119]
其中,表示通道相似度响应图,表示时序交互后的时序响应图,表示查询特征图,表示矩阵相乘;
[0120]
对通道相似度响应图进行通道降维,得到通道降维后的目标特征图,如下式所示:
[0121]
[0122]
其中,表示通道降维后的目标特征图,表示通道相似度响应图,表示时序交互后的时序响应图;表示矩阵相乘;
[0123]
根据通道降维后的目标特征图和查询特征图合成目标响应图,如下式所示:
[0124][0125]
其中,表示通道降维后的目标特征图,表示查询特征图,表示目标响应图,concat(
·
,
·
)表示拼接操作。
[0126]
具体的,参考图4和图5,通过计算与fc间的相似性来实现目标特征匹配。为了避免特征匹配过程中受到杂乱背景信息的干扰,将与逐像素相加作用于聚焦后的空间相似度矩阵。利用轨迹注意力网络和目标聚焦策略在对历史特征图进行目标运动信息的建模,建立空间依赖关系和时间依赖关系。利用逐像素计算来衡量空间目标之间的相似性,和fc之间的目标相似度越高则响应值越大;反之,响应值则越小。利用逐通道计算来衡量目标通道特征之间的相似性,与fc之间的目标通道似度越高则响应值越大;反之,响应值则越小。参考图6(a)-6(d)分别为查询帧图像、混合注意力的可视化结果图像、目标聚焦策略的可视化结果图像、轨迹注意力的可视化结果图像,说明了目标聚焦策略策略可以使跟踪器关注于目标区域而忽略背景区域,轨迹注意力则更关注于目标关键特征点,使得目标轮廓更清晰。
[0127]
s3,将目标响应图输入头网络预测得到目标的位置和边界框。
[0128]
在具体的实施例中,头网络包括分类头网络、无锚框回归头网络和质量评估头网络。
[0129]
在具体的实施例中,步骤s3具体包括:
[0130]
将目标响应图输入分类头网络,预测得到目标分类响应图,如下式所示:
[0131]rcls
=ν
cls
(y);
[0132]
其中,表示目标响应图;ν
cls
表示分类头网络;表示目标分类响应图;
[0133]
将目标响应图输入无锚框回归头网络,预测得到目标回归响应图,如下式所示:
[0134]rreg
=ν
reg
(y);
[0135]
其中,ν
reg
表示无锚框回归头网络;表示目标回归响应图;
[0136]
将目标响应图输入质量评估头网络,预测得到目标中心响应图,如下式所示:
[0137]rctr
=ν
ctr
(y);
[0138]
其中,ν
ctr
表示质量评估头网络;表示目标中心响应图。
[0139]
具体的,将目标响应图输入头网络分别估计目标的位置和形状,重复以上步骤直到跟踪结束。
[0140]
如下通过仿真实验对本技术的实施例提出的轨迹注意力目标跟踪方法的跟踪效果进行验证。具体的,通过与25种主流跟踪器的比较来验证提出的本技术的实施例提出的轨迹注意力目标跟踪方法的有效性,这25种主流跟踪器分别为sparsett、stark、dtt、
transt、trdimp、trsiam、stmtrack、rpt、cgacd、drt、siamattn、siamcar、siamban、pgnet、spm、asrcf、mcct、rpcf、saot、kys、ocean、prdimp50、siamfc++、dimp50、siamrpn++,并选择公开数据集otb-100、got-10k、trackingnet和lasot进行测试,附图及表格中的ours表示本技术的实施例的测试结果。
[0141]
实验中需要的参数按照如下设置:历史帧数量t=6;目标聚焦策略中,k=32。
[0142]
为了衡量不同跟踪器的性能,对于otb-100采用成功率曲线下面积(area under curve,auc)值来对方法进行评估;对于got-10k采用平均重叠率(average overlap,ao)和重叠阈值为0.5和0.75的成功率(success rate,sr)对方法进行评估;对于trackingnet和lasot采用成功率曲线下面积(area under curve,auc)值、精度(precision,p)和归一化精度(norm precision,p
norm
);对于lasot采用单次通过评估(one-pass evaluation,ope)绘制成功率曲线(success plot)和精确度曲线(precision plot),并将曲线下面积(area under curve,auc)值显示在图中。
[0143]
图7展示了12个跟踪器对应的精确度和成功率。从图5中可以看出,本技术的实施例提出的轨迹注意力目标跟踪方法在精度和成功率上都超过了transformer跟踪器;从整体上面看,本技术的实施例提出的轨迹注意力目标跟踪方法精确度优于其他最新的跟踪器,在精度和成功率上达到了第一。表1展示了22个跟踪器的在otb-50上的auc值。从表1中可以看出,本技术的实施例提出的轨迹注意力目标跟踪方法相比于transformer跟踪器在auc值上都有所提升;与其他跟踪器的auc值比较,本技术的实施例提出的轨迹注意力目标跟踪方法的auc值仅次于stmtrack;表2展示了14个跟踪器的在got-10k、trackingnet和lasot上的oa、sr
0.5
、sr
0.75
、auc、p和p
norm
值。从表2中可以看出,本技术的实施例提出的轨迹注意力目标跟踪方法的总体性能优于其他表现优异的跟踪器。
[0144]
表1不同跟踪器在otb-100上的性能比较
[0145]
[0146]
表2不同跟踪器在got-10k、trackingnet和lasot上的性能比较
[0147][0148][0149]
鉴于otb-100和lasot视频序列的不同特性,对4种跟踪器,针对部分遮挡,非刚性变形和相似物体干扰的挑战进行讨论,跟踪结果如图8-13所示。
[0150]
实验1:部分遮挡的鲁棒性分析
[0151]
图8和图9显示了在遮挡挑战下,不同跟踪器在book和horse视频序列下的跟踪结果,其中带有符号#的数字表示这些视频的帧数。图8展示了在book序列中,#69(图8(a))展示了跟踪序列的初始状态,所有跟踪器都可以跟踪到目标;#191(图8(b))、#228(图8(c))、#483(图8(d))整本书移动慢慢遮挡住了人脸,此时大部分跟踪器的跟踪性能开始收到影响;直到#543(图8(e))、#579(图8(f))人脸被遮挡区域超过了50%,只有本技术的实施例提出的轨迹注意力目标跟踪方法能够正确地跟踪到目标,此时是轨迹注意力起了辅助作用。图9展示了在horse序列中,目标在#298(图9(b))、#323(图9(c))、#637(图9(d))、#855(图9(e))、#1593(图9(f))都出现了不同程度的目标遮挡。尤其在#258(图9(a))目标被全部遮挡,可以看出siamfc++和dimp-50跟踪器已经完全偏离目标,但本技术的实施例提出的轨迹注意力目标跟踪方法依旧可以做到准确的跟踪。可以看出,本技术的实施例提出的轨迹注意力目标跟踪方法在遮挡挑战下利用轨迹注意力能够较好地应对遮挡以及全遮挡后目标
再出现的问题。
[0152]
实验2:非刚性变形的鲁棒性分析
[0153]
图10和图11显示了在遇到尺度变化挑战的情况下,不同跟踪器在peacock和skating视频序列的跟踪结果,其中带有符号#的数字表示这些视频的帧数。图10中peacock序列的#160(图10(a))、#730(图10(b))、#1091(图10(c))和图11中skating序列的#27(图11(a))、#54(图11(b))、#97(图11(c)),随着目标的移动,目标尺寸慢慢发生变化,大多数跟踪器对目标的尺寸估计逐渐出现了偏差。尤其,#1187(图10(d))、#1240(图10(e))和#127(图11(d))、#154(图11(e))中siamfc++和dimp-50尺度估计的准确性明显较差;最后在#1573(图10(f))和#160(图11(f))中,其他的跟踪器虽然都能成功地跟踪到目标,但是却不能准确地估计目标尺寸的大小。在这样的情况下,本技术的实施例提出的轨迹注意力目标跟踪方法通过利用轨迹注意力和目标聚焦策略能够较好地预测到目标尺寸,显示出较高的鲁棒性。
[0154]
实验3:相似目标干扰的鲁棒性分析
[0155]
图12和图13显示了在遇到相似目标干扰挑战的情况下,不同跟踪器在baskteball和soccer视频序列的跟踪结果,其中带有符号#的数字表示这些视频的帧数。图12展示了在baskteball序列中,从#16(图12(a))初始状态,到#479(图12(b))、#498(图12(c))、#625(图12(d))、#665(图12(e))、#719(图12(f))的运动过程中,目标周围都存在大量目标干扰物,大部分跟踪器都已丢失目标,但提出的跟踪器能够通过轨迹注意力保持对目标的准确跟踪。图13展示了在soccer序列中,大部分跟踪器在#94(图13(a))已经开始出现偏移,后续的#108(图13(b))、#114(图13(c))、#135(图13(d))、#364(图13(e))和#377(图13(f))已经完全丢失目标,只有本技术的实施例提出的轨迹注意力目标跟踪方法能准确跟踪目标。本技术的实施例提出的轨迹注意力目标跟踪方法能够利用目标聚焦策略集中于目标关键特点,通过轨迹注意力学习目标的运动信息,虽然在目标在运动过程中受到相似物干扰,但是本技术的实施例提出的轨迹注意力目标跟踪方法可以借助目标的运动规律排除相似物干扰,达到更稳定、更准确的跟踪效果。
[0156]
进一步参考图14,作为对上述各图所示方法的实现,本技术提供了一种轨迹注意力目标跟踪装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0157]
本技术实施例提供了一种轨迹注意力目标跟踪装置,包括:
[0158]
特征提取模块1,被配置为获取历史帧及其前景-背景掩膜图和查询帧,采用特征提取网络分别对历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图;
[0159]
轨迹注意力模块2,被配置为将历史特征图、前景-背景掩膜特征图和查询特征图输入轨迹注意力网络,轨迹注意力网络包括空间注意力模块、时序注意力模块和通道融合模块,空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图;
[0160]
预测模块3,被配置为将目标响应图输入头网络预测得到目标的位置和边界框。
[0161]
下面参考图15,其示出了适于用来实现本技术实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置1500的结构示意图。图15示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0162]
如图15所示,计算机装置1500包括中央处理单元(cpu)1501和图形处理器(gpu)1502,其可以根据存储在只读存储器(rom)1503中的程序或者从存储部分1509加载到随机访问存储器(ram)1504中的程序而执行各种适当的动作和处理。在ram 1504中,还存储有装置1500操作所需的各种程序和数据。cpu 1501、gpu1502、rom 1503以及ram 1504通过总线1505彼此相连。输入/输出(i/o)接口1506也连接至总线1505。
[0163]
以下部件连接至i/o接口1506:包括键盘、鼠标等的输入部分1507;包括诸如、液晶显示器(lcd)等以及扬声器等的输出部分1508;包括硬盘等的存储部分1509;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1510。通信部分1510经由诸如因特网的网络执行通信处理。驱动器1511也可以根据需要连接至i/o接口1506。可拆卸介质1512,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1511上,以便于从其上读出的计算机程序根据需要被安装入存储部分1509。
[0164]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1510从网络上被下载和安装,和/或从可拆卸介质1512被安装。在该计算机程序被中央处理单元(cpu)1501和图形处理器(gpu)1502执行时,执行本技术的方法中限定的上述功能。
[0165]
需要说明的是,本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件或者上述的任意合适的组合。在本技术中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0166]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、
部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,也可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0167]
附图中的流程图和框图,图示了按照本技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0168]
描述于本技术实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
[0169]
作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取历史帧及其前景-背景掩膜图和查询帧,采用特征提取网络分别对历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图;将历史特征图、前景-背景掩膜特征图和查询特征图输入轨迹注意力网络,轨迹注意力网络包括空间注意力模块、时序注意力模块和通道融合模块,空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图;将目标响应图输入头网络预测得到目标的位置和边界框。
[0170]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种轨迹注意力目标跟踪方法,其特征在于,包括以下步骤:获取历史帧及其前景-背景掩膜图和查询帧,采用特征提取网络分别对所述历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图;将所述历史特征图、前景-背景掩膜特征图和查询特征图输入轨迹注意力网络,所述轨迹注意力网络包括空间注意力模块、时序注意力模块和通道融合模块,所述空间注意力模块用于结合所述历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,所述时序注意力模块用于对所述时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,所述通道融合模块用于对所述时序交互后的时序响应图与所述查询特征图进行融合,得到目标响应图;将所述目标响应图输入头网络预测得到目标的位置和边界框。2.根据权利要求1所述的轨迹注意力目标跟踪方法,其特征在于,所述特征提取网络包括具有相同的网络结构但不共享参数的第一骨干网络和第二骨干网络,通过所述第一骨干网络分别对所述历史帧及其前景-背景掩膜图进行特征提取,得到历史特征图和前景-背景掩膜特征图,如下式所示:如下式所示:其中,表示第一骨干网络,h
i
表示第i帧历史帧,m
i
表示第i帧前景-背景掩膜图,表示第i帧历史特征图,表示第i帧前景-背景掩膜特征图,其中,c表示通道数,h表示图像高度,w表示图像宽度,为实数集;通过所述第二骨干网络对所述查询帧进行特征提取,得到查询特征图,如下式所示:其中,表示第二骨干网络;c表示查询帧;表示查询特征图。3.根据权利要求1所述的轨迹注意力目标跟踪方法,其特征在于,所述空间注意力模块用于结合所述历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,具体包括:利用逐像素计算来衡量所述查询特征图与历史特征图在空间目标之间的相似性,如下式所示:其中,表示空间相似度响应图,表示第i帧历史特征图;表示查询特征图,表示矩阵相乘;利用目标聚焦策略计算聚焦后的空间相似度矩阵,如下式所示:其中,表示空间相似度响应图;表示聚焦后的空间相似度矩
阵;toprc表示分别计算空间相似度矩阵的每一行和每一列中最大的前k个响应值,softmax表示归一化函数;scatter表示除最大的前k个响应值索引外将空间相似度矩阵中对应像素位置置0;采用下式计算所述附有空间权重的历史特征图:其中,表示第i帧历史特征图,表示第i帧前景-背景掩膜特征图,表示第i帧附有空间权重的历史特征图,表示聚焦后的目标响应图,表示矩阵相乘,表示像素相加。4.根据权利要求1所述的轨迹注意力目标跟踪方法,其特征在于,所述时序注意力模块用于对所述时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,具体包括:利用自注意力机制对t个所述附有空间权重的历史特征图建立时间依赖关系,如下式所示:所示:其中,表示第i帧附有空间权重的历史特征图;表示t个附有空间权重的历史特征图在时序维度交互后的时序特征图,msa表示多头自注意力机制,norm表示层归一化,ffn表示全连接前馈神经网络,表示时序交互后的时序响应图。5.根据权利要求1所述的轨迹注意力目标跟踪方法,其特征在于,所述通道融合模块用于对所述时序交互后的时序响应图与所述查询特征图进行融合,得到目标响应图,具体包括:利用逐通道计算来衡量所述时序交互后的时序响应图与所述查询特征图在目标通道特征之间的相似性,得到通道相识度响应图,如下式所示:其中,表示通道相似度响应图,表示时序交互后的时序响应图,表示查询特征图,表示矩阵相乘;对通道相似度响应图进行通道降维,得到通道降维后的目标特征图,如下式所示:其中,表示通道降维后的目标特征图,表示通道相似度响应图,表示时序交互后的时序响应图;表示矩阵相乘;根据所述通道降维后的目标特征图和所述查询特征图合成所述目标响应图,如下式所示:
其中,表示通道降维后的目标特征图,表示查询特征图,表示所述目标响应图,concat(
·
,
·
)表示拼接操作。6.根据权利要求1所述的轨迹注意力目标跟踪方法,其特征在于,所述头网络包括分类头网络、无锚框回归头网络和质量评估头网络。7.根据权利要求6所述的轨迹注意力目标跟踪方法,其特征在于,将所述目标响应图输入头网络预测得到目标的位置和边界框,具体包括:将所述目标响应图输入所述分类头网络,预测得到目标分类响应图,如下式所示:r
cls
=ν
cls
(y);其中,表示所述目标响应图;ν
cls
表示分类头网络;表示目标分类响应图;将所述目标响应图输入所述无锚框回归头网络,预测得到目标回归响应图,如下式所示:r
reg
=ν
reg
(y);其中,ν
reg
表示无锚框回归头网络;表示目标回归响应图;将所述目标响应图输入所述质量评估头网络,预测得到目标中心响应图,如下式所示:r
ctr
=ν
ctr
(y);其中,ν
ctr
表示质量评估头网络;表示目标中心响应图。8.一种轨迹注意力目标跟踪装置,其特征在于,包括:特征提取模块,被配置为获取历史帧及其前景-背景掩膜图和查询帧,采用特征提取网络分别对所述历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图;轨迹注意力模块,被配置为将所述历史特征图、前景-背景掩膜特征图和查询特征图输入轨迹注意力网络,所述轨迹注意力网络包括空间注意力模块、时序注意力模块和通道融合模块,所述空间注意力模块用于结合所述历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,所述时序注意力模块用于对所述时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,所述通道融合模块用于对所述时序交互后的时序响应图与所述查询特征图进行融合,得到目标响应图;预测模块,被配置为将所述目标响应图输入头网络预测得到目标的位置和边界框。9.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
技术总结
本发明公开了一种轨迹注意力目标跟踪方法、装置及可读介质,通过特征提取网络分别对历史帧及其前景-背景掩膜图和查询帧进行特征提取,得到历史特征图、前景-背景掩膜特征图和查询特征图;空间注意力模块用于结合历史特征图、前景-背景掩膜特征图和查询特征图匹配目标特征,并利用目标聚焦策略建立空间依赖关系,得到附有空间权重的历史特征图,时序注意力模块用于对时序交互后的时序响应图进行时序信息交互,得到时序交互后的时序响应图,通道融合模块用于对时序交互后的时序响应图与查询特征图进行融合,得到目标响应图;将目标响应图输入头网络预测得到目标的位置和边界框。本发明可避免空间冗余信息的干扰,有效提升辨别能力。升辨别能力。升辨别能力。
技术研发人员:黄德天 王振严 徐正军 曾焕强 陈婧 朱建清 陈龙涛
受保护的技术使用者:华侨大学
技术研发日:2023.06.21
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/