一种基于注意力时空图网络的视频行人重识别方法

未命名 09-29 阅读:86 评论:0

al.learning multi-granular hypergraphs for video-based person re-identification[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2020:2899-2908.)。现有方法尽管具有有效性,但忽略了三个重要问题。(1)行人身体结构破坏对建模的影响。对行人视频序列中各个图像帧固定地划分为多个水平块来构建空间图神经网络模型会破坏行人身体结构间的内部信息。(2)背景噪声的影响。由于行人图像框检测算法不完善,部分行人图像框包含过多背景信息。采用固定水平分块作为图神经网络节点会引入过多背景信息,难以学习行人特征。(3)异常帧的影响。由于遮挡、模糊、光线变化等影响,行人视频序列中的异常帧会影响最终行人视频序列级特征。本发明的目的在于解决视频行人重识别领域中上述三个关键问题。
[0006]
对于第一个和第二个问题,本发明专利提出一种多粒度空间注意力图神经网络模块,旨在不破坏行人身体结构的同时关注前景信息,减少背景干扰。
[0007]
对于第三个问题,本发明专利提出一种多粒度时间注意力图神经网络模块,旨在增强有判别力图像帧特征,融合多粒度时态信息,同时抑制异常帧的特征表达。


技术实现要素:

[0008]
为了解决上述问题,本发明的目的在于提供一种基于注意力时空图网络的视频行人重识别方法。该方法可以显式建模行人视频序列中的时空依赖,并且利用多粒度空间注意力模块挖掘帧内行人不同身体区域,有效减少破坏身体结构,降低背景噪声的干扰,同时通过多粒度空间图网络与多粒度时间图网络传递融合节点特征,抑制了异常帧信息的表达,提升视频行人重识别的性能。
[0009]
一种基于注意力时空图网络的视频行人重识别方法,包含以下步骤:
[0010]
步骤1:使用基于imagenet预训练模型的cnn特征提取器从行人视频序列中提取各帧图像特征;
[0011]
步骤2:提取步骤1得到的视频行人序列特征,输入到多粒度空间注意力模块中寻找各帧级行人关键区域信息;
[0012]
步骤3:使用步骤2得到的融合后的归一化空间注意力图和步骤1得到的行人视频序列特征提取全局分支特征;
[0013]
步骤4:提取步骤2构建的正则化空间注意力图,得到扩展关键区域,并利用步骤1得到的帧特征图构造空间图神经网络节点;
[0014]
步骤5:使用步骤4得到的空间图神经网络节点结合全局图像特征,构建空间图神经网络模块;
[0015]
步骤6:使用步骤5输出的帧级特征和时间自注意力模块,构建多粒度注意力时间图网络节点;
[0016]
步骤7:提取步骤6输出的多粒度注意力时间图网络节点特征。和步骤5处理方式相同,得到时间图正则化关系矩阵。更新时间图网络节点特征,执行节点间关系融合,最终得到行人视频序列级特征。
[0017]
步骤8:使用交叉熵损失和难样本三元组损失训练网络,并使用步骤2重叠惩罚损失优化多粒度空间注意力模块。
[0018]
进一步地,步骤1的具体过程如下:
[0019]
所述cnn特征提取器为使用imagenet预训练模型的resnet50网络,删除其倒数第一层分类层后,将最终步长设置为1以增加特征的分辨率;训练集中每个行人视频序列均含有t帧图像,给定一个行人视频序列xi={i1,i2,...i
t
},将其t帧图像输入到resnet50网络中,假设提取第i帧图像特征为fi,则行人视频序列xi的特征为各帧级特征的集合:
[0020][0021]
式中,t表示行人视频序列中图像帧数量;f表示行人视频序列特征;fi表示由行人视频序列第i帧提取的图像特征,它的维度为c
×h×
w,其中c为特征图的通道数,h为特征图的高度,w为特征图的宽度;该特征图将作为全局分支和图分支的输入;
[0022]
进一步地,步骤2的具体过程如下:
[0023]
所述多粒度空间注意力模块由基于重叠惩罚损失的r个特征学习器构成;特征学习器由2个1
×
1的卷积层组成,并通过relu激活进行分隔,对于行人视频序列中第i帧特征图fi,每个具有相同结构的特征学习器分别学习fi中行人图像的判别区域,其中,第r个特征学习器生成的空间注意力图为:
[0024]gr
(h,w)=lr(fi)
ꢀꢀ
(2)
[0025]
式中,lr表示第r个特征学习器;gr表示对应的空间注意力图,其维度为h
×
w,其中h表示空间注意力图的高度,与特征图fi的高度一致,w表示空间注意力图的宽度,与特征图fi的宽度一致;
[0026]
将第r个特征学习器生成的空间注意力图gr(h,w)进行softmax归一化处理,计算公式如下:
[0027][0028]
式中,表示[0,1]正则化后的空间注意力图;
[0029]
将r个特征学习器得到的公式(3)归一化空间注意力图进行融合,计算公式如下:
[0030][0031]
式中,表示归一化空间注意力图中第a行第b列元素;表示融合后的归一化空间注意力图;
[0032]
经过公式(3)分别得到r个特征学习器生成的归一化空间注意力图,使用重叠惩罚损失优化以增加关键区域的区分性,计算公式如下:
[0033][0034]
式中,r为特征学习器的数量;

表示元素相乘,任意两个归一化空间注意力图进行元素相乘,共有种选择;
[0035]
进一步地,步骤3的具体过程如下:
[0036]
经过步骤2得到融合后的归一化空间注意力图提取步骤1得到的行人视频序列中第i帧图像特征fi,将二者沿通道维度进行元素相乘运算,计算公式如下:
[0037][0038]
式中,

表示元素相乘;
[0039]
将公式(6)得到的特征图与输入的图像特征fi混合,依次进行空间全局平均池化和时间平均池化操作,计算公式如下:
[0040][0041]
式中,s
globsl
表示全局分支视频序列特征;tap()表示时间平均池化;gap()表示空间全局平均池化;
[0042]
进一步地,步骤4的具体过程如下:
[0043]
扩展步骤2中空间注意力图gr(h,w),计算扩展关键区域,计算公式如下:
[0044][0045]
式中,w
max
表示空间注意力图gr(h,w)最大响应值的空间横坐标;h
max
表示空间注意力图gr(h,w)最大响应值的空间纵坐标;r表示第r个特征学习器;表示扩展后的空间注意力掩码,其中y1表示横坐标,y2表示纵坐标;
[0046]
提取步骤1得到的第i帧图像特征fi,构造空间图神经网络节点编码,计算公式如下:
[0047][0048]
式中,映射操作

表示元素相乘;fi表示第i帧图像特征;mr表示扩展后的空间注意力掩码,r为第r个特征学习器,共有r个特征学习器;gap()表示空间全局平均池化;表示由第r个特征学习器生成的空间图神经网络节点,上标p表示节点;
[0049]
进一步地,步骤5的具体过程如下:
[0050]
将步骤1得到的第i帧图像特征fi进行空间全局平均池化,得到全局空间图节点,计算公式如下:
[0051]fglobal
=gap(fi)
ꢀꢀ
(10)
[0052]
式中,f
global
表示全局空间图节点;gap()表示空间全局平均池化;fi表示第i帧图像特征;
[0053]
空间图神经网络节点数量ns,计算公式如下:
[0054]ns
=r+1
ꢀꢀ
(11)
[0055]
式中,ns表示空间图神经网络节点数量,下标s表示空间;r表示特征学习器数量;
[0056]
空间图神经网络各节点特征表示为:
[0057][0058]
式中,f
p
表示空间图神经网络各节点初始化特征的集合,上标p表示节点;ns表示空间图神经网络节点数量;中上标s表示空间;zs表示空间图神经网络节点特征,其维度为ns×
d,d表示空间图神经网络各节点通道数;
[0059]
计算空间图神经网络各节点间成对关系,计算公式如下:
[0060][0061][0062][0063]
式中,和分别表示第l个和第q个空间图神经网络节点,其维度为1
×
d,d表示空间图神经网络节点通道数,和的上标s表示空间;表示节点和之间的边关系;ks和qs表示特征空间转换;和表示权重矩阵,其维度为d
×
d;(
·
)
t
表示矩阵转置操作;
[0064]
引入归一化操作,将空间图神经网络节点边关系的每行权重限制在(0,1)范围内,计算公式如下:
[0065][0066]
式中,t表示温度参数;下标l和q表示第l个和第q个空间图神经网络节点;as表示正则化关系矩阵,其维度为ns×ns

[0067]
使用表示空间图神经网络节点边关系的正则化关系矩阵更新公式(12)得到的空间图神经网络各节点特征zs,更新方法如下:
[0068][0069]
式中,l表示第l个空间图神经网络节点;表示原始第l个空间图神经网络节点特征;表示更新后的空间图神经网络节点特征;表示可学习的权重矩阵,其维度为d
×
d,d为通道数,下标vs表示空间;
[0070]
利用步骤2多粒度空间注意力模块和空间图神经网络模块,基于空间注意力引导的图关系模型输出帧级特征计算公式如下:
[0071][0072]
式中,maxpool()表示最大池化操作;为公式(17)得到的更新的空间图神经网络节点特征集合;表示空间注意力引导的图关系模型输出的帧级特征,其维度为1
×
d;
[0073]
进一步地,步骤6的具体过程如下:
[0074]
提取步骤5输出的帧级特征在时间维度集合,构建行人视频序列特征:
[0075][0076]
式中,x表示经过步骤5得到的帧级特征的集合,x的维度为t
×
d;t表示视频序列包含的图像帧数;
[0077]
对公式(19)得到的帧级特征集合转换特征空间,构建时间注意力掩码,计算公式如下:
[0078]wclip
=ka(x)qa(x)
t
ꢀꢀ
(20)
[0079][0080][0081]
式中,w
clip
为行人视频序列的时间注意力掩码;x为公式(19)的行人视频序列特征;ka(x)和qa(x)表示特征空间,其维度为t
×
d,t为视频序列包含的图像帧数,d为通道数,下标a为注意力;和分别为ka(x)和qa(x)的权重参数矩阵;(
·
)
t
表示矩阵转置操作;
[0082]
提取公式(20)的输出沿时间维度执行归一化操作,得到正则化的时间注意力掩码,再沿第一维度执行平均操作输出行人视频序列最终的时间注意力掩码其维度为1
×
t,t表示行人视频序列包含的图像帧数;基于构建多粒度注意力时间图网络节点,计算公式如下:
[0083][0084]
式中,sort()表示按时间注意力权重对行人视频序列图像帧降序排序;topk()表示融合前k(k=2,4,...,t)个公式(19)输出的行人视频序列各帧级特征;mean()表示使用平均操作建立时间图网络节点特征;表示第k个时间节点特征,上标表示当前变量属于时间图参数;
[0085]
进一步地,步骤8的具体过程如下:
[0086]
使用交叉熵损失和难样本三元组损失训练网络,并使用步骤2重叠惩罚损失优化多粒度空间注意力模块,总损失函数计算公式如下:
[0087][0088]
式中,下标xent表示交叉熵损失;tri表示难样本三元组损失;上标global表示全局分支输出特征;上标graph表示图分支输出特征;上标frame表示帧级特征;l
op
表示重叠惩罚损失;
[0089]
本发明的有益效果是:本发明通过设计多粒度空间注意力图神经网络模块,挖掘帧内行人不同身体区域间的结构信息,有效减少破坏身体结构,降低背景噪声的干扰。本发明通过设计多粒度时间注意力图神经网络模块,有效增强具有判别力的图像帧特征,融合多粒度时态信息,同时抑制异常帧的特征表达。最后通过综合交叉熵损失,难样本三元组损失和重叠惩罚损失优化模型参数,提高了视频行人重识别算法的性能。
附图说明
[0090]
图1为本发明的基于注意力时空图网络的视频行人重识别方法流程图;
[0091]
图2为视频行人重识别任务示意图;其中,(a)为查询行人视频序列,(b)为视频检索结果,(b)中右下角的圆圈表示正确匹配;
[0092]
图3为本发明具体实施时的训练过程流程图;
具体实施方式
[0093]
下面结合附图和技术方法,对本发明的具体实施方式作进一步说明。
[0094]
如图2所示,本发明提供一种基于注意力时空图网络的视频行人重识别方法。下面结合附图详细说明本发明的实施方法,具体包含以下步骤:
[0095]
1、基于视频的行人重识别任务与各帧图像特征提取
[0096]
如图1所示,本发明的应用不限制行人视频序列数据的来源。本发明以数据集mars(zheng l,bie z,sun y,et al.mars:a video benchmark for large-scale person re-identification[c]//proceedings of the conference on european conference on computer vision.2016:868-884.)和ilids-vid(hirzer m,beleznai c,roth p m,et al.person re-identification by descriptive and discriminative classification[c]//proceedings of the conference on scandinavian conference on image analysis.2011:91-102.)为例。mars数据集通过跨视角的6个摄像头采集了1,261位行人,包含20,715个行人视频序列。mars数据集划分了训练集和测试集,训练集中包含625名不同行人,测试集中包含636名不同行人且不包含训练集中出现过的行人。ilids-vid数据集共采集300个不同行人的600个视频序列样本,分别来自2个摄像头。基于视频的行人重识别任务是在非重叠的摄像机视图中匹配同一行人个体的视频序列。在本实施例中,我们以mars数据集和ilids-vid数据集来训练模型。
[0097]
如图3所示,使用基于imagenet预训练模型的cnn特征提取器从行人视频序列中提取各帧图像特征;
[0098]
所述cnn特征提取器为使用imagenet预训练模型的resnet50网络,删除其倒数第一层分类层后,将最终步长设置为1以增加特征的分辨率;训练集中每个行人视频序列均含有t帧图像,给定一个行人视频序列xi={i1,i2,...i
t
},将其t帧图像输入到resnet50网络中,假设提取第i帧图像特征为fi,则行人视频序列xi的特征为各帧级特征的集合:
[0099][0100]
式中,t表示行人视频序列中图像帧数量;f表示行人视频序列特征;fi表示由行人视频序列第i帧提取的图像特征,它的维度为c
×h×
w,其中c为特征图的通道数,h为特征图的高度,w为特征图的宽度;该特征图将作为全局分支和图分支的输入;
[0101]
2、寻找各帧级行人关键区域信息
[0102]
将步骤1得到的视频行人序列特征输入到多粒度空间注意力模块中寻找各帧级行人关键区域信息;
[0103]
所述多粒度空间注意力模块由基于重叠惩罚损失的r个特征学习器构成;特征学习器由2个1
×
1的卷积层组成,并通过relu激活进行分隔,对于行人视频序列中第i帧特征图fi,每个具有相同结构的特征学习器分别学习fi中行人图像的判别区域,其中,第r个特征学习器生成的空间注意力图为:
[0104]gr
(h,w)=lr(fi)(2)式中,lr表示第r个特征学习器;gr表示对应的空间注意力图,其维度为h
×
w,其中h表示空间注意力图的高度,与特征图fi的高度一致,w表示空间注意力图的宽度,与特征图fi的宽度一致;
[0105]
将第r个特征学习器生成的空间注意力图gr(h,w)进行softmax归一化处理,计算
公式如下:
[0106][0107]
式中,表示[0,1]正则化后的空间注意力图;
[0108]
将r个特征学习器得到的公式(3)归一化空间注意力图进行融合,计算公式如下:
[0109][0110]
式中,表示归一化空间注意力图中第a行第b列元素;表示融合后的归一化空间注意力图;
[0111]
经过公式(3)分别得到r个特征学习器生成的归一化空间注意力图,使用重叠惩罚损失优化以增加关键区域的区分性,计算公式如下:
[0112][0113]
式中,r为特征学习器的数量;

表示元素相乘,任意两个归一化空间注意力图进行元素相乘,共有种选择;
[0114]
3、提取全局分支特征
[0115]
使用步骤2得到的融合后的归一化空间注意力图和步骤1得到的行人视频序列特征f提取全局分支特征;
[0116]
经过步骤2得到融合后的归一化空间注意力图提取步骤1得到的行人视频序列中第i帧图像特征fi,将二者沿通道维度进行元素相乘运算,计算公式如下:
[0117][0118]
式中,

表示元素相乘;
[0119]
将公式(6)得到的特征图与输入的图像特征fi混合,依次进行空间全局平均池化和时间平均池化操作,计算公式如下:
[0120][0121]
式中,s
global
表示全局分支视频序列特征;tap()表示时间平均池化;gap()表示空间全局平均池化;
[0122]
4、构造空间图神经网络节点
[0123]
使用公式(3)得到的正则化空间注意力图得到扩展关键区域,并利用步骤1得到的帧特征图fi构造空间图神经网络节点;
[0124]
扩展步骤2中空间注意力图gr(h,w),计算扩展关键区域,计算公式如下:
[0125][0126]
式中,w
max
表示空间注意力图gr(h,w)最大响应值的空间横坐标;h
max
表示空间注意力图gr(h,w)最大响应值的空间纵坐标;r表示第r个特征学习器;表示扩展后的空间注意力掩码,其中y1表示横坐标,y2表示纵坐标;
[0127]
提取步骤1得到的第i帧图像特征fi,构造空间图神经网络节点编码,计算公式如下:
[0128][0129]
式中,映射操作

表示元素相乘;fi表示第i帧图像特征;mr表示扩展后的空间注意力掩码,r为第r个特征学习器,共有r个特征学习器;gap()表示空间全局平均池化;表示由第r个特征学习器生成的空间图神经网络节点,上标p表示节点;
[0130]
5、构建空间图神经网络模块
[0131]
使用步骤4得到的空间图神经网络节点结合全局图像特征,构建空间图神经网络模块;
[0132]
将步骤1得到的第i帧图像特征fi进行空间全局平均池化,得到全局空间图节点,计算公式如下:
[0133]fglobal
=gap(fi)
ꢀꢀ
(10)
[0134]
式中,f
global
表示全局空间图节点;gap()表示空间全局平均池化;fi表示第i帧图像特征;
[0135]
空间图神经网络节点数量ns,计算公式如下:
[0136]ns
=r+1
ꢀꢀ
(11)式中,ns表示空间图神经网络节点数量,下标s表示空间;r表示特征学习器数量;
[0137]
空间图神经网络各节点特征表示为:
[0138][0139]
式中,f
p
表示空间图神经网络各节点初始化特征的集合,上标p表示节点;ns表示空间图神经网络节点数量;中上标s表示空间;zs表示空间图神经网络节点特征,其维度为ns×
d,d表示空间图神经网络各节点通道数;
[0140]
计算空间图神经网络各节点间成对关系,计算公式如下:
[0141][0142][0143][0144]
式中,和分别表示第l个和第q个空间图神经网络节点,其维度为1
×
d,d表示
空间图神经网络节点通道数,和的上标s表示空间;表示节点和之间的边关系;ks和qs表示特征空间转换;和表示权重矩阵,其维度为d
×
d;(
·
)
t
表示矩阵转置操作;
[0145]
引入归一化操作,将空间图神经网络节点边关系的每行权重限制在(0,1)范围内,计算公式如下:
[0146][0147]
式中,t表示温度参数;下标l和q表示第l个和第q个空间图神经网络节点;as表示正则化关系矩阵,其维度为ns×ns

[0148]
使用表示空间图神经网络节点边关系的正则化关系矩阵更新公式(12)得到的空间图神经网络各节点特征zs,更新方法如下:
[0149][0150]
式中,l表示第l个空间图神经网络节点;表示原始第l个空间图神经网络节点特征;表示更新后的空间图神经网络节点特征;表示可学习的权重矩阵,其维度为d
×
d,d为通道数,下标vs表示空间;
[0151]
利用步骤2多粒度空间注意力模块和空间图神经网络模块,基于空间注意力引导的图关系模型输出帧级特征计算公式如下:
[0152][0153]
式中,maxpool()表示最大池化操作;为公式(17)得到的更新的空间图神经网络节点特征集合;表示空间注意力引导的图关系模型输出的帧级特征,其维度为1
×
d;
[0154]
6、构建多粒度注意力时间图网络节点
[0155]
使用步骤5输出的帧级特征和时间自注意力模块,构建多粒度注意力时间图网络节点;
[0156]
提取步骤5输出的帧级特征在时间维度集合,构建行人视频序列特征:
[0157][0158]
式中,x表示经过步骤5得到的帧级特征的集合,x的维度为t
×
d;t表示视频序列包含的图像帧数;
[0159]
对公式(19)得到的帧级特征集合转换特征空间,构建时间注意力掩码,计算公式如下:
[0160]wclip
=ka(x)qa(x)
t
ꢀꢀ
(20)
[0161][0162][0163]
式中,w
clip
为行人视频序列的时间注意力掩码;x为公式(19)的行人视频序列特
征;ka(x)和qa(x)表示特征空间,其维度为t
×
d,t为视频序列包含的图像帧数,d为通道数,下标a为注意力;和分别为ka(x)和qa(x)的权重参数矩阵;(
·
)
t
表示矩阵转置操作;
[0164]
提取公式(20)的输出沿时间维度执行归一化操作,得到正则化的时间注意力掩码,再沿第一维度执行平均操作输出行人视频序列最终的时间注意力掩码其维度为1
×
t,t表示行人视频序列包含的图像帧数;基于构建多粒度注意力时间图网络节点,计算公式如下:
[0165][0166]
式中,sort()表示按时间注意力权重对行人视频序列图像帧降序排序;topk()表示融合前k(k=2,4,...,t)个公式(19)输出的行人视频序列各帧级特征;mean()表示使用平均操作建立时间图网络节点特征;表示第k个时间节点特征,上标表示当前变量属于时间图参数;
[0167]
7、构建行人视频序列级特征
[0168]
提取步骤6的输出多粒度注意力时间图网络节点特征和步骤5处理方式相同,得到时间图正则化关系矩阵更新时间图网络节点特征;执行节点间关系融合;最终得到行人视频序列级特征其维度为1
×
d;
[0169]
8、构建损失函数训练网络
[0170]
使用交叉熵损失和难样本三元组损失训练网络,并使用步骤2重叠惩罚损失优化多粒度空间注意力模块,总损失函数计算公式如下:
[0171][0172]
式中,下标xent表示交叉熵损失;tri表示难样本三元组损失;上标global表示全局分支输出特征;上标graph表示图分支输出特征;上标frame表示帧级特征;l
op
表示重叠惩罚损失;
[0173]
综上所述,本发明公开了一种基于注意力时空图网络的视频行人重识别方法。本发明通过设计多粒度空间注意力图神经网络模块,挖掘帧内行人不同身体区域间的结构信息,有效减少破坏身体结构,降低背景噪声的干扰。然后通过设计多粒度时间注意力图神经网络模块,有效增强具有判别力的图像帧特征,融合多粒度时态信息,同时抑制异常帧的特征表达。最后通过综合交叉熵损失,难样本三元组损失和重叠惩罚损失优化模型参数,使模型可以学习到具有判别力和鲁棒性的行人视频级特征,提高了视频行人重识别算法的性能。
[0174]
首先利用多粒度空间注意力图神经网络模块,采用重叠惩罚损失挖掘帧内行人不同身体区域间的结构信息,利用图网络融合节点信息,有效减少破坏身体结构,降低背景噪声的干扰。
[0175]
其次采用多粒度时间注意力图神经网络模块,有效增强具有判别力的图像帧特征,融合多粒度时态信息,同时抑制异常帧的特征表达,得到行人视频序列级特征。
[0176]
最后通过结合交叉熵损失,难样本三元组损失和重叠惩罚损失优化模型参数,使模型可以学习到具有判别力和鲁棒性的行人视频级特征,提高了视频行人重识别算法的准确率。

技术特征:
1.一种基于注意力时空图网络的视频行人重识别方法,其特征在于,步骤如下:步骤1:使用基于imagenet预训练模型的cnn特征提取器从行人视频序列中提取各帧图像特征;cnn特征提取器为使用imagenet预训练模型的resnet50网络,删除其倒数第一层分类层后,将最终步长设置为1以增加特征的分辨率;训练集中每个行人视频序列均含有t帧图像,给定一个行人视频序列x
i
={i1,i2,...i
t
},将其t帧图像输入到resnet50网络中,假设提取第i帧图像特征为f
i
,则行人视频序列x
i
的特征为各帧级特征的集合:式中,t表示行人视频序列中图像帧数量;f表示行人视频序列特征;f
i
表示由行人视频序列第i帧提取的特征图,它的维度为c
×
h
×
w,其中c为特征图的通道数,h为特征图的高度,w为特征图的宽度;该特征图将作为全局分支和图分支的输入;步骤2:将步骤1得到的视频行人序列特征f输入到多粒度空间注意力模块中寻找各帧级行人关键区域信息;多粒度空间注意力模块由基于重叠惩罚损失的r个特征学习器构成;特征学习器由2个1
×
1的卷积层组成,并通过relu激活进行分隔,对于行人视频序列中第i帧特征图f
i
,每个具有相同结构的特征学习器分别学习f
i
中行人图像的判别区域,其中,第r个特征学习器生成的空间注意力图为:g
r
(h,w)=l
r
(f
i
)(2)式中,l
r
表示第r个特征学习器;g
r
表示对应的空间注意力图,其维度为h
×
w,其中h表示空间注意力图的高度,与特征图f
i
的高度一致,w表示空间注意力图的宽度,与特征图f
i
的宽度一致;将第r个特征学习器生成的空间注意力图g
r
(h,w)进行softmax归一化处理,计算公式如下:式中,表示[0,1]正则化后的空间注意力图;将r个特征学习器得到的公式(3)归一化空间注意力图进行融合,计算公式如下:式中,表示归一化空间注意力图中第a行第b列元素;表示融合后的归一化空间注意力图;经过公式(3)分别得到r个特征学习器生成的归一化空间注意力图,使用重叠惩罚损失优化以增加关键区域的区分性,计算公式如下:式中,r为特征学习器的数量;

表示元素相乘,任意两个归一化空间注意力图进行元素相乘,共有种选择;
步骤3:使用步骤2得到的融合后的归一化空间注意力图和步骤1得到的行人视频序列特征f提取全局分支特征;经过步骤2得到融合后的归一化空间注意力图提取步骤1得到的行人视频序列中第i帧图像特征f
i
,将二者沿通道维度进行元素相乘运算,计算公式如下:式中,

表示元素相乘;将公式(6)得到的特征图与输入的图像特征f
i
混合,依次进行空间全局平均池化和时间平均池化操作,计算公式如下:式中,s
global
表示全局分支视频序列特征;tap()表示时间平均池化;gap()表示空间全局平均池化;步骤4:使用公式(3)得到的正则化空间注意力图得到扩展关键区域,并利用步骤1得到的帧特征图f
i
构造空间图神经网络节点;扩展步骤2中空间注意力图g
r
(h,w),计算扩展关键区域,计算公式如下:式中,w
max
表示空间注意力图g
r
(h,w)最大响应值的空间横坐标;h
max
表示空间注意力图g
r
(h,w)最大响应值的空间纵坐标;r表示第r个特征学习器;表示扩展后的空间注意力掩码,其中y1表示横坐标,y2表示纵坐标;提取步骤1得到的第i帧图像特征f
i
,构造空间图神经网络节点编码,计算公式如下:式中,

表示元素相乘;f
i
表示第i帧图像特征;m
r
表示扩展后的空间注意力掩码,r为第r个特征学习器,共有r个特征学习器;gap()表示空间全局平均池化;表示由第r个特征学习器生成的空间图神经网络节点,上标p表示节点;步骤5:使用步骤4得到的空间图神经网络节点结合全局图像特征,构建空间图神经网络模块;将步骤1得到的第i帧图像特征f
i
进行空间全局平均池化,得到全局空间图节点,计算公式如下:f
global
=gap(f
i
)
ꢀꢀꢀꢀ
(10)式中,f
global
表示全局空间图节点;gap()表示空间全局平均池化;f
i
表示第i帧图像特征;空间图神经网络节点数量n
s
,计算公式如下:
n
s
=r+1
ꢀꢀꢀ
(11)式中,n
s
表示空间图神经网络节点数量,下标s表示空间;r表示特征学习器数量;空间图神经网络各节点特征表示为:式中,f
p
表示空间图神经网络各节点初始化特征的集合,上标p表示节点;n
s
表示空间图神经网络节点数量;中上标s表示空间;z
s
表示空间图神经网络节点特征,其维度为n
s
×
d,d表示空间图神经网络各节点通道数;计算空间图神经网络各节点间成对关系,计算公式如下:计算空间图神经网络各节点间成对关系,计算公式如下:计算空间图神经网络各节点间成对关系,计算公式如下:式中,和分别表示第l个和第q个空间图神经网络节点,其维度为1
×
d,d表示空间图神经网络节点通道数,和的上标s表示空间;表示节点和之间的边关系;k
s
和q
s
表示特征空间转换;和表示权重矩阵,其维度为d
×
d;(
·
)
t
表示矩阵转置操作;引入归一化操作,将空间图神经网络节点边关系的每行权重限制在(0,1)范围内,计算公式如下:式中,t表示温度参数;下标l和q表示第l个和第q个空间图神经网络节点;a
s
表示正则化关系矩阵,其维度为n
s
×
n
s
;使用表示空间图神经网络节点边关系的正则化关系矩阵更新公式(12)得到的空间图神经网络各节点特征z
s
,更新方法如下:式中,l表示第l个空间图神经网络节点;表示原始第l个空间图神经网络节点特征;表示更新后的空间图神经网络节点特征;表示可学习的权重矩阵,其维度为d
×
d,d为通道数,下标v
s
表示空间;利用步骤2多粒度空间注意力模块和空间图神经网络模块,基于空间注意力引导的图关系模型输出帧级特征计算公式如下:式中,maxpool()表示最大池化操作;为公式(17)得到的更新的空间图神经网络节
点特征集合;表示空间注意力引导的图关系模型输出的帧级特征,其维度为1
×
d;步骤6:使用步骤5输出的帧级特征和时间自注意力模块,构建多粒度注意力时间图网络节点;提取步骤5输出的帧级特征在时间维度集合,构建行人视频序列特征:式中,x表示经过步骤5得到的帧级特征的集合,x的维度为t
×
d;t表示视频序列包含的图像帧数;对公式(19)得到的帧级特征集合转换特征空间,构建时间注意力掩码,计算公式如下:w
clip
=k
a
(x)q
a
(x)
t
ꢀꢀꢀ
(20)(20)式中,w
clip
为行人视频序列的时间注意力掩码;x为公式(19)的行人视频序列特征;k
a
(x)和q
a
(x)表示特征空间,其维度为t
×
d,t为视频序列包含的图像帧数,d为通道数,下标a为注意力;和分别为k
a
(x)和q
a
(x)的权重参数矩阵;(
·
)
t
表示矩阵转置操作;提取公式(20)的输出沿时间维度执行归一化操作,得到正则化的时间注意力掩码,再沿第一维度执行平均操作输出行人视频序列最终的时间注意力掩码其维度为1
×
t,t表示行人视频序列包含的图像帧数;基于构建多粒度注意力时间图网络节点,计算公式如下:式中,sort()表示按时间注意力权重对行人视频序列图像帧降序排序;top
k
()表示融合前k(k=2,4,...,t)个公式(19)输出的行人视频序列各帧级特征;mean()表示使用平均操作建立时间图网络节点特征;表示第k个时间节点特征,上标表示当前变量属于时间图参数;步骤7:提取步骤6的输出多粒度注意力时间图网络节点特征和步骤5处理方式相同,得到时间图正则化关系矩阵更新时间图网络节点特征;执行节点间关系融合;最终得到行人视频序列级特征其维度为1
×
d;步骤8:使用交叉熵损失和难样本三元组损失训练网络,并使用步骤2重叠惩罚损失优化多粒度空间注意力模块,总损失函数计算公式如下:式中,下标xent表示交叉熵损失;tri表示难样本三元组损失;上标global表示全局分支输出特征;上标graph表示图分支输出特征;上标frame表示帧级特征;l
op
表示重叠惩罚损失。

技术总结
本发明属于人工智能与视频行人重识别领域,公开一种基于注意力时空图网络的视频行人重识别方法,提出一种多粒度注意力时空图网络方法,旨在不破坏行人身体结构的同时关注前景信息,减少背景干扰,融合多粒度时态信息,同时抑制异常帧的特征表达。步骤如下:提取行人原始帧级特征;提取各帧级行人关键区域信息;提取全局分支特征;多粒度空间注意力图网络更新帧级特征;多粒度时间注意力图网络获取行人视频序列级特征;损失函数训练网络。通过使用本发明可减少破坏身体结构,降低背景噪声的干扰,并抑制异常帧信息表达,显著提升视频行人重识别的性能。本发明作为一种基于注意力时空图网络的视频行人重识别方法,可广泛应用于视频行人重识别领域。频行人重识别领域。频行人重识别领域。


技术研发人员:葛宏伟 齐彧 刘雨轩 候亚庆
受保护的技术使用者:大连理工大学
技术研发日:2023.05.09
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐