基于多帧交互与多层融合的视频行人重识别方法及系统
未命名
09-22
阅读:58
评论:0
1.本发明属于计算机视觉技术领域,具体涉及一种基于多帧交互与多层融合的视频行人重识别方法及系统。
背景技术:
2.行人重识别任务其目的是在不同摄像头之间寻找同一行人的图片或视频序列。行人中识别的应用场景较为广泛,包括嫌疑人追踪、安全监控等。行人重识别方法可以分为基于图片和基于视频的两种行人重识别方法。基于图片的行人重识别方法由于仅使用单张图片去搜寻目标行人,因此这些方法对于图片内存在的质量问题较为敏感,包括遮挡、背景复杂和拍摄视角变化等问题。然而,基于视频行人重识别方法能够从多张帧图片当中获取到行人的时空信息,使得行人的特征表示更加丰富,并且能够减轻单张图片质量问题带来的影响。
3.视频行人重识别方法可分为两类:基于序列的方法和基于帧的方法。对于基于序列的方法而言,旨在通过3d卷积或者循环神经网络直接学习时空特征表示。对于基于帧的方法而言,其特点在于首先提取单帧特征表示,然后结合同一视频内多个单帧特征;目前,有一些方法在单帧特征提取部分仅探索帧内特征,忽视了帧间的时序交互;最近,有部分方法通过引入帧间时序交互去探索上下文信息,获得了较好的表现;然而,这些方法主要以卷积神经网络作为骨干网络,虽然可以从局部视角获取到行人的细节特征,但是由于卷积神经网络其感知范围有限,缺乏获取全局范围依赖关系的能力。
4.通过利用自注意力机制的优点,transformer方法能够从全局范围内探索空间内部特征之间的关系,该方法被引入到了视频行人重识别领域。如j.wu等人(j.wu,l.he,w.liu,y.yang,z.lei,t.mei,and s.z.li,cavit:contextual alignment vision transformer for video object re-identification,in proceedings of the european conference on computer vision,2022,549
–
566.)提出cavit模型其采用时空转移注意模块进行相邻帧之间的信息交互,但是采用相邻帧时序交互的方法没有建立当前处理帧与非相邻帧之间的上下文关系,忽略了非相邻帧也包含丰富的时序特征,t.he等人(t.he,x.jin,x.shen,j.huang,z.chen,and x.s.hua,dense interaction learning for video-based person re-identification,inproceedings ofthe ieee international conference on computervision,2021,1490
–
1501.)将经过池化和压缩后所有帧的特征进行时空交互,但是该方法会忽略行人的细节信息。t.zhang等人(t.zhang,l.wei,l.xie,z.zhuang,y.zhang,b.li,and q.tian,spatiotemporal transformer for video-based person reidentification,arxiv preprint arxiv:2103.16469(2021).)在进行时空交互时选择一次性建立视频内所有帧之间的关系,但是该方法容易忽略成对的帧与帧之间的关系。
5.目前,一些基于transformer的方法使用多个transformer层提取高层语义特征,但是忽略了行人的局部细节特征的发掘。一些视频行人重识别工作尝试将transformer和
cnn进行结合,如t.he等人(t.he,x.jin,x.shen,j.huang,z.chen,and x.s.hua,dense interaction learning for video-based person re-identification,in proceedings of the ieee international conference on computer vision,2021,1490
–
1501.)提出dense attention融合底中层中所有的cnn模块特征和高层的自注意力模块特征去生成不同粒度的时空特征,但是用于发掘行人身体部位信息的细粒度特征和底层的空间特征没有被充分的利用。
技术实现要素:
6.本发明的目的在于提供一种基于多帧交互与多层融合的视频行人重识别方法及系统,该方法及系统有利于获得更加稳定、鲁棒、准确的视频行人重识别结果。
7.为了实现上述目的,本发明采用的技术方案是:一种基于多帧交互与多层融合的视频行人重识别方法,包括以下步骤:
8.1)从数据集中抽取多个行人的视频序列,形成由视频序列组成的训练数据集;
9.2)构建基于多帧交互与多层融合的视频行人重识别网络模型,所述视频行人重识别网络模型主要包括帧内空间交互模块、多帧时序交互模块、多级别局部增强模块、分割策略模块和多帧分类头结合模块;通过使用训练数据集对视频行人重识别网络模型进行训练,得到网络模型参数;
10.3)将训练好的视频行人重识别网络模型用于检索测试视频中含有该行人的视频,实现视频行人重识别。
11.进一步地,步骤1)中,所述数据集为mars视频行人重识别数据集,从mars视频行人重识别数据集中抽取k个行人的多个视频序列,每个行人包含j个视频序列,每个视频序列包含f张帧图片。
12.进一步地,步骤2)中,所述视频行人重识别网络模型包含单帧特征提取部分和多帧结合部分,所述单帧特征提取部分包含帧内空间交互模块、多帧时序交互模块、多级别局部增强模块和分割策略模块,所述多帧结合部分包含多帧分类头结合模块、分类损失和三元组损失;所述单帧特征提取部分以帧内空间交互模块作为骨干网络,并在网络模型的浅层、中层、高层中设置多帧时序交互模块和多级别局部增强模块,用于发掘各层中帧间长范围交互信息和帧内不同层全局和局部信息,在网络模型的高层中设置分割策略模块用于发掘行人身体部位特征;所述视频行人重识别网络模型的工作过程为:
13.a)首先对视频内每张单帧图片进行处理,通过对单帧图片进行切割获取一个固定大小块的序列,再通过卷积操作和展平操作生成2d维度的块特征嵌入,加入分类头信息、摄像头信息嵌入和位置信息嵌入生成帧内空间交互模块的输入,然后通过帧内空间交互模块对输入的视频内多张单帧图片的特征嵌入分别基于视觉transformer进行帧内特征提取,经过若干帧内空间交互模块后,在浅层、中层、高层网络,将输出的视频内多张单帧特征输入多帧时序交互模块;
14.b)各层多帧时序交互模块分别对每个单帧特征进行同一视频剩余帧共性特征的获取,然后将视频内多个单帧特征分别输入多级别局部增强模块;
15.c)各层多级别局部增强模块在低、中、高层网络对每个单帧特征进行多级别特征融合和行人特征的局部增强,然后将每个单帧特征输入帧内空间交互模块;
16.d)将最后的帧内空间交互模块输出的高层特征通过分割策略模块对单帧特征进行包括无分割、水平分割、竖直分割和块分割的四种分割方式的分割,将分割的每个部分输入帧内空间交互模块;
17.e)通过多帧分类头结合模块将视频内每张单帧图片特征进行结合,生成视频序列级别特征,用于视频行人重识别检索任务;将经过多帧分类头结合模块输出的各分割策略特征分别进行三元组损失和分类损失计算,通过优化器减小正样本之间的距离,增大负样本之间的距离,并且减少模型分类行人的误差。
18.进一步地,步骤b)中,利用f-1个多头帧间对齐注意力操作和多层感知机操作进行当前处理帧与视频内剩余所有帧的时序交互;
19.以当前处理帧的后一帧作为第一个交互帧进行多头帧间对齐注意力操作和多层感知机操作,将交互后的输出特征继续按顺序与接下来的帧进行多头帧间对齐注意力操作和多层感知机操作,直到与当前处理帧的前一帧交互完成,输出特征表示为sr;
20.首先获取输入特征,包括当前处理帧和待交互的视频剩余帧其中n表示视频内某一帧,r表示第r个多帧时序交互模块,f表示视频内帧的数量;利用线性映射对每个帧生成q,k,v特征;
21.帧索引序列表示为pn=[n,n+1,n+2,
…
,n-1],对于当前处理第n帧与视频内剩余某一帧交互得到的特征表示为:
[0022][0023][0024]
其中,由层归一化生成,下标n和pn[t+1]表示第n帧和第pn[t+1]帧的索引,表示当前处理第n帧与第pn[t+1]帧交互后得到的特征;miaa(
·
,
·
,
·
)表示多头帧间对齐注意力操作,表示残差连接,ln表示层归一化,mlp(
·
)表示多层感知机操作,t取pn中0到f-2位置对应的索引值;
[0025]
多头帧间对齐注意力操作包含y个头,即其包含的帧间对齐注意力操作同时进行了y次,并将多个帧间对齐注意力操作输出的特征进行结合,当前处理第n帧与同一视频内剩余某一帧的多头帧内对齐操作的过程表示为:
[0026][0027][0028]
其中,we是可学习参数,heady表示miaa中的第y个头,iaa(
·
,
·
,
·
)表示帧间对齐注意力操作;
[0029]
多头帧内对齐操作中帧间对齐注意力操作的过程表示为:
[0030][0031]
其中,表示正则化,softmax(
·
)表示归一化指数函数。
[0032]
进一步地,步骤c)中,所述多级别局部增强模块的实现方法为:
[0033]
利用步骤b)中得到的包含行人共性特征的视频内多帧特征sr,对每个单帧特征利用局部增强操作发掘帧内局部特征,对于网络模型内第一个多级别局部增强模块,利用局部增强操作得到的特征m1表示为:
[0034][0035]
其中,表示第r个多帧时序交互模块在去除每个帧分类头之后保留每帧的特征嵌入;resh(
·
)表示reshape操作;conv(
·
)表示局部增强操作,其包含3层的2d卷积、批量归一化和激活函数;表示残差连接;
[0036]
对于网络模型内第二个往后的多级别局部增强模块,输入特征增加了上一层多级别局部增强模块输出的特征,首先当前层特征和前一层多级别局部增强模块特征m
r-1
通过相加进行前后层的融合操作,之后进行局部增强操作,最后使用残差连接得到输出特征mr,利用融合操作和局部增强操作得到的特征mr表示为:
[0037][0038]
其中,m
r-1
表示第r-1层的多级别局部增强模块的输出特征;fus(
·
,
·
)表示融合操作。
[0039]
进一步地,步骤e)中,所述多帧分类头结合模块的实现方法为:
[0040]
将获取到的多个单帧的四种分类头,包括基于无分割的分类头基于水平分割的分类头基于竖直分割的分类头和基于块分割的分类头根据分割策略放到4个不同组中,每个组包含了视频内所有帧中相同分割策略的分类头,之后将每组的视频级别的特征分别进行取平均操作,利用获取到对应分割策略的平均特征进行三元组损失的计算;最后利用批归一化和分类器层获取到多个概率值b,进行分类损失的计算。
[0041]
本发明还提供了一种基于多帧交互与多层融合的视频行人重识别系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
[0042]
与现有技术相比,本发明具有以下有益效果:本方法及系统有效利用了帧间长范围交互学习以及帧内不同层全局和局部信息,可以获得鲁棒和可判别的行人特征,不仅能够有效解决不同帧之间的错位问题,也能够缓解行人遮挡、背景复杂等噪声问题,从而获得更加稳定、鲁棒、准确的视频行人重识别结果。
附图说明
[0043]
图1是本发明实施例中基于多帧交互与多层融合的视频行人重识别网络模型的架构图。
具体实施方式
[0044]
下面结合附图及实施例对本发明做进一步说明。
[0045]
应该指出,以下详细说明都是示例性的,旨在对本技术提供进一步的说明。除非另
有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0046]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0047]
本实施例提供了一种基于多帧交互与多层融合的视频行人重识别方法,包括以下步骤:
[0048]
1)从数据集中抽取多个行人的视频序列,形成由视频序列组成的训练数据集。
[0049]
2)构建基于多帧交互与多层融合的视频行人重识别网络模型,所述视频行人重识别网络模型主要包括帧内空间交互模块、多帧时序交互模块、多级别局部增强模块、分割策略模块和多帧分类头结合模块;通过使用训练数据集对视频行人重识别网络模型进行训练,得到网络模型参数。本实施例中,视频行人重识别网络模型的架构如图1所示。
[0050]
3)将训练好的视频行人重识别网络模型用于检索测试视频中含有该行人的视频,实现视频行人重识别。
[0051]
步骤1)中,所述数据集为mars视频行人重识别数据集,从mars视频行人重识别数据集中抽取k个行人的多个视频序列,每个行人包含j个视频序列,每个视频序列包含f张帧图片。
[0052]
步骤2)中,所述视频行人重识别网络模型包含单帧特征提取部分和多帧结合部分,所述单帧特征提取部分包含帧内空间交互模块、多帧时序交互模块、多级别局部增强模块和分割策略模块,所述多帧结合部分包含多帧分类头结合模块、分类损失和三元组损失;所述单帧特征提取部分以帧内空间交互模块作为骨干网络,并在网络模型的浅层、中层、高层中设置多帧时序交互模块和多级别局部增强模块,用于发掘各层中帧间长范围交互信息和帧内不同层全局和局部信息,在网络模型的高层中设置分割策略模块用于发掘行人身体部位特征。所述视频行人重识别网络模型的工作过程为:
[0053]
a)首先对视频内每张单帧图片进行处理,通过对单帧图片进行切割获取一个固定大小块的序列,再通过卷积操作和展平操作生成2d维度的块特征嵌入,加入分类头信息、摄像头信息嵌入和位置信息嵌入生成帧内空间交互模块的输入,然后通过帧内空间交互模块对输入的视频内多张单帧图片的特征嵌入分别基于视觉transformer进行帧内特征提取,经过若干帧内空间交互模块后,在浅层、中层、高层网络,将输出的视频内多张单帧特征输入多帧时序交互模块。
[0054]
b)各层多帧时序交互模块分别对每个单帧特征进行同一视频剩余帧共性特征的获取,然后将视频内多个单帧特征分别输入多级别局部增强模块。
[0055]
步骤b)中,利用f-1个多头帧间对齐注意力操作和多层感知机操作进行当前处理帧与视频内剩余所有帧的时序交互。
[0056]
以当前处理帧的后一帧作为第一个交互帧进行多头帧间对齐注意力操作和多层感知机操作,将交互后的输出特征继续按顺序与接下来的帧进行多头帧间对齐注意力操作和多层感知机操作,直到与当前处理帧的前一帧交互完成,输出特征表示为sr。
[0057]
首先获取输入特征,包括当前处理帧和待交互的视频剩余帧
其中n表示视频内某一帧,r表示第r个多帧时序交互模块,f表示视频内帧的数量;利用线性映射对每个帧生成q,k,v特征。
[0058]
帧索引序列表示为pn=[n,n+1,n+2,
…
,n-1],n表示视频中的某一帧,对于当前处理第n帧与视频内剩余某一帧交互得到的特征表示为:
[0059][0060][0061]
其中,由层归一化生成,下标n和pn[t+1]表示第n帧和第pn[t+1]帧的索引,表示当前处理第n帧与第pn[t+1]帧交互后得到的特征;miaa(
·
,
·
,
·
)表示多头帧间对齐注意力操作,表示残差连接,ln表示层归一化,mlp(
·
)表示多层感知机操作,t取pn中0到f-2位置对应的索引值。
[0062]
多头帧间对齐注意力操作包含y个头,即其包含的帧间对齐注意力操作同时进行了y次,并将多个帧间对齐注意力操作输出的特征进行结合,当前处理第n帧与同一视频内剩余某一帧的多头帧内对齐操作的过程表示为:
[0063][0064][0065]
其中,we是可学习参数,heady表示miaa中的第y个头,iaa(
·
,
·
,
·
)表示帧间对齐注意力操作。
[0066]
多头帧内对齐操作中帧间对齐注意力操作的过程表示为:
[0067][0068]
其中,表示正则化,softmax(
·
)表示归一化指数函数。
[0069]
c)各层多级别局部增强模块在低、中、高层网络对每个单帧特征进行多级别特征融合和行人特征的局部增强,然后将每个单帧特征输入帧内空间交互模块。
[0070]
步骤c)中,所述多级别局部增强模块的实现方法为:
[0071]
利用步骤b)中得到的包含行人共性特征的视频内多帧特征sr,对每个单帧特征利用局部增强操作发掘帧内局部特征,对于网络模型内第一个多级别局部增强模块,利用局部增强操作得到的特征m1表示为:
[0072][0073]
其中,表示第r个多帧时序交互模块在去除每个帧分类头之后保留每帧的特征嵌入;resh(
·
)表示reshape操作;conv(
·
)表示局部增强操作,其包含3层的2d卷积、批量归一化和激活函数;表示残差连接;
[0074]
对于网络模型内第二个往后(r≥2)的多级别局部增强模块,输入特征增加了上一层多级别局部增强模块输出的特征,首先当前层特征和前一层多级别局部增强模块特征m
r-1
通过相加进行前后层的融合操作,之后进行局部增强操作,最后使用残差连接得
到输出特征mr,利用融合操作和局部增强操作得到的特征mr表示为:
[0075][0076]
其中,m
r-1
表示第r-1层的多级别局部增强模块的输出特征;fus(
·
,
·
)表示融合操作。
[0077]
d)将最后的帧内空间交互模块输出的高层特征通过分割策略模块对单帧特征进行包括无分割、水平分割、竖直分割和块分割的四种分割方式的分割,将分割的每个部分输入帧内空间交互模块。
[0078]
e)通过多帧分类头结合模块将视频内每张单帧图片特征进行结合,生成视频序列级别特征,用于视频行人重识别检索任务;将经过多帧分类头结合模块输出的各分割策略特征分别进行三元组损失和分类损失计算,通过优化器减小正样本之间的距离,增大负样本之间的距离,并且减少模型分类行人的误差。
[0079]
步骤e)中,所述多帧分类头结合模块的实现方法为:
[0080]
将获取到的多个单帧的四种分类头,包括基于无分割的分类头基于水平分割的分类头基于竖直分割的分类头和基于块分割的分类头根据分割策略放到4个不同组中,每个组包含了视频内所有帧中相同分割策略的分类头,之后将每组的视频级别的特征分别进行取平均操作,利用获取到对应分割策略的平均特征进行三元组损失的计算;最后利用批归一化和分类器层获取到多个概率值b,进行分类损失的计算。
[0081]
本实施例还提供了一种基于多帧交互与多层融合的视频行人重识别系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
[0082]
本实施例中,采用mars数据集在行人query视频序列搜索gallery视频序列设置下进行对比验证,表1中展示出了在mars数据集上本发明提出的方法与其他视频行人重识别方法的对比结果。从表1中可以看到,本发明方法相比于其他视频行人重识别方法有较高的精确性和鲁棒性,具体体现为rank-1和map最佳。
[0083]
表1
[0084]
方法rank-1(%)map(%)本发明91.0987.55sinet91.0086.20cavit90.8087.20sgmn90.7685.38asanet-a-pmi90.6086.00stmn90.5084.50strf90.3086.10bicnet-tks90.2086.00ssn3d90.1086.20sgwcnn90.0085.70
agw+87.6083.00
[0085]
在表1中,sinet对应为s.bai等人提出的方法(s.bai,b.ma,h.chang,r.huang,and x.chen,salientto-broad transition for video person re-identification,in proceedings of the ieee conference on computervision and pattern recognition,2022,pp.7339
–
7348.)
[0086]
cavit对应为j.wu等人提出的方法(j.wu,l.he,w.liu,y.yang,z.lei,t.mei,and s.z.li,cavit:contextual alignment vision transformer for video object re-identification,in proceedings ofthe european conference on computer vision,2022,pp.549
–
566.)
[0087]
sgmn对应为c.chen等人提出的方法(c.chen,m.ye,m.qi,j.wu,y.liu,and j.jiang,saliency and granularity:discovering temporal coherence for video-based person re-identification,ieee transactions on circuits and systems for video technology.32(9)(2022)6100
–
6112.)
[0088]
asanet-a-pmi对应为t.chai等人提出的方法(t.chai,z.chen,a.li,j.chen,x.mei,and y.wang,video person re-identification using attribute-enhanced features,ieee transactions on circuits and systems forvideo technology 32(11)(2022)7951
–
7966.)
[0089]
stmn对应为c.eom等人提出的方法(c.eom,g.lee,j.lee,and b.ham,video-based person re-identification with spatial and temporal memory networks,in proceedings of the ieee international conference on computer vision,2021,pp.12036
–
12045.)
[0090]
strf对应为a.aich等人提出的方法(a.aich,m.zheng,s.karanam,t.chen,a.k.r.chowdhury,and z.wu,spatio-temporal representation factorization for video-based person re-identification,in proceedings of the ieee international conference on computer vision,2021,pp.152
–
162.)
[0091]
bicnet-tks对应为r.hou等人提出的方法(r.hou,h.chang,b.ma,r.huang,and s.shan,bicnet-tks:learning efficient spatial-temporal representation for video person re-identification,in proceedings of the ieee conference on computer vision and pattern recognition,2021,pp.2014
–
2023.)
[0092]
ssn3d对应为x.jiang等人提出的方法(x.jiang,y.qiao,j.yan,q.li,w.zheng,and d.chen,ssn3d:self-separated network to align parts for 3d convolution in video person re-identification,in proceedings ofthe association for the advancement ofartificial intelligence,2021,pp.1691
–
1699.)
[0093]
sgwcnn对应为y.yao等人提出的方法(y.yao,x.jiang,h.fujita,and z.fang,a sparse graph wavelet convolution neural network for video-based person re-identification,pattern recognition.129(2022)108708.)
[0094]
agw+对应为m.ye等人提出的方法(m.ye,j.shen,g.lin,t.xiang,l.shao,and s.c.hoi,deep learning for person re-identification:a survey and outlook,ieee transactions on patternanalysis and machine intelligence 44(6)(2022)2872
–
2893.)
[0095]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0096]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0097]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0098]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0099]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
技术特征:
1.一种基于多帧交互与多层融合的视频行人重识别方法,其特征在于,包括以下步骤:1)从数据集中抽取多个行人的视频序列,形成由视频序列组成的训练数据集;2)构建基于多帧交互与多层融合的视频行人重识别网络模型,所述视频行人重识别网络模型主要包括帧内空间交互模块、多帧时序交互模块、多级别局部增强模块、分割策略模块和多帧分类头结合模块;通过使用训练数据集对视频行人重识别网络模型进行训练,得到网络模型参数;3)将训练好的视频行人重识别网络模型用于检索测试视频中含有该行人的视频,实现视频行人重识别。2.根据权利要求1所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤1)中,所述数据集为mars视频行人重识别数据集,从mars视频行人重识别数据集中抽取k个行人的多个视频序列,每个行人包含j个视频序列,每个视频序列包含f张帧图片。3.根据权利要求1所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤2)中,所述视频行人重识别网络模型包含单帧特征提取部分和多帧结合部分,所述单帧特征提取部分包含帧内空间交互模块、多帧时序交互模块、多级别局部增强模块和分割策略模块,所述多帧结合部分包含多帧分类头结合模块、分类损失和三元组损失;所述单帧特征提取部分以帧内空间交互模块作为骨干网络,并在网络模型的浅层、中层、高层中设置多帧时序交互模块和多级别局部增强模块,用于发掘各层中帧间长范围交互信息和帧内不同层全局和局部信息,在网络模型的高层中设置分割策略模块用于发掘行人身体部位特征;所述视频行人重识别网络模型的工作过程为:a)首先对视频内每张单帧图片进行处理,通过对单帧图片进行切割获取一个固定大小块的序列,再通过卷积操作和展平操作生成2d维度的块特征嵌入,加入分类头信息、摄像头信息嵌入和位置信息嵌入生成帧内空间交互模块的输入,然后通过帧内空间交互模块对输入的视频内多张单帧图片的特征嵌入分别基于视觉transformer进行帧内特征提取,经过若干帧内空间交互模块后,在浅层、中层、高层网络,将输出的视频内多张单帧特征输入多帧时序交互模块;b)各层多帧时序交互模块分别对每个单帧特征进行同一视频剩余帧共性特征的获取,然后将视频内多个单帧特征分别输入多级别局部增强模块;c)各层多级别局部增强模块在低、中、高层网络对每个单帧特征进行多级别特征融合和行人特征的局部增强,然后将每个单帧特征输入帧内空间交互模块;d)将最后的帧内空间交互模块输出的高层特征通过分割策略模块对单帧特征进行包括无分割、水平分割、竖直分割和块分割的四种分割方式的分割,将分割的每个部分输入帧内空间交互模块;e)通过多帧分类头结合模块将视频内每张单帧图片特征进行结合,生成视频序列级别特征,用于视频行人重识别检索任务;将经过多帧分类头结合模块输出的各分割策略特征分别进行三元组损失和分类损失计算,通过优化器减小正样本之间的距离,增大负样本之间的距离,并且减少模型分类行人的误差。4.根据权利要求3所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤b)中,利用f-1个多头帧间对齐注意力操作和多层感知机操作进行当前处理帧与视频内剩余所有帧的时序交互;
以当前处理帧的后一帧作为第一个交互帧进行多头帧间对齐注意力操作和多层感知机操作,将交互后的输出特征继续按顺序与接下来的帧进行多头帧间对齐注意力操作和多层感知机操作,直到与当前处理帧的前一帧交互完成,输出特征表示为s
r
;首先获取输入特征,包括当前处理帧和待交互的视频剩余帧其中n表示视频内某一帧,r表示第r个多帧时序交互模块,f表示视频内帧的数量;利用线性映射对每个帧生成q,k,v特征;帧索引序列表示为p
n
=[n,n+1,n+2,
…
,n-1],对于当前处理第n帧与视频内剩余某一帧交互得到的特征表示为:表示为:其中,由层归一化生成,下标n和p
n
[t+1]表示第n帧和第p
n
[t+1]帧的索引,表示当前处理第n帧与第p
n
[t+1]帧交互后得到的特征;miaa(
·
,
·
,
·
)表示多头帧间对齐注意力操作,表示残差连接,ln表示层归一化,mlp(
·
)表示多层感知机操作,t取p
n
中0到f-2位置对应的索引值;多头帧间对齐注意力操作包含y个头,即其包含的帧间对齐注意力操作同时进行了y次,并将多个帧间对齐注意力操作输出的特征进行结合,当前处理第n帧与同一视频内剩余某一帧的多头帧内对齐操作的过程表示为:某一帧的多头帧内对齐操作的过程表示为:其中,w
e
是可学习参数,head
y
表示miaa中的第y个头,iaa(
·
,
·
,
·
)表示帧间对齐注意力操作;多头帧内对齐操作中帧间对齐注意力操作的过程表示为:其中,表示正则化,softmax(
·
)表示归一化指数函数。5.根据权利要求3所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤c)中,所述多级别局部增强模块的实现方法为:利用步骤b)中得到的包含行人共性特征的视频内多帧特征s
r
,对每个单帧特征利用局部增强操作发掘帧内局部特征,对于网络模型内第一个多级别局部增强模块,利用局部增强操作得到的特征m1表示为:其中,表示第r个多帧时序交互模块在去除每个帧分类头之后保留每帧的特征嵌入;resh(
·
)表示reshape操作;conv(
·
)表示局部增强操作,其包含3层的2d卷积、批量归一化和激活函数;表示残差连接;
对于网络模型内第二个往后的多级别局部增强模块,输入特征增加了上一层多级别局部增强模块输出的特征,首先当前层特征和前一层多级别局部增强模块特征m
r-1
通过相加进行前后层的融合操作,之后进行局部增强操作,最后使用残差连接得到输出特征m
r
,利用融合操作和局部增强操作得到的特征m
r
表示为:其中,m
r-1
表示第r-1层的多级别局部增强模块的输出特征;fus(
·
,
·
)表示融合操作。6.根据权利要求3所述的基于多帧交互与多层融合的视频行人重识别方法,其特征在于,步骤e)中,所述多帧分类头结合模块的实现方法为:将获取到的多个单帧的四种分类头,包括基于无分割的分类头基于水平分割的分类头基于竖直分割的分类头和基于块分割的分类头根据分割策略放到4个不同组中,每个组包含了视频内所有帧中相同分割策略的分类头,之后将每组的视频级别的特征分别进行取平均操作,利用获取到对应分割策略的平均特征进行三元组损失的计算;最后利用批归一化和分类器层获取到多个概率值b,进行分类损失的计算。7.一种基于多帧交互与多层融合的视频行人重识别系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6任一项所述的方法步骤。
技术总结
本发明涉及一种基于多帧交互与多层融合的视频行人重识别方法及系统,该方法包括以下步骤:1)从数据集中抽取多个行人的视频序列,形成由视频序列组成的训练数据集;2)构建基于多帧交互与多层融合的视频行人重识别网络模型,所述视频行人重识别网络模型主要包括帧内空间交互模块、多帧时序交互模块、多级别局部增强模块、分割策略模块和多帧分类头结合模块;通过使用训练数据集对视频行人重识别网络模型进行训练,得到网络模型参数;3)将训练好的视频行人重识别网络模型用于检索测试视频中含有该行人的视频,实现视频行人重识别。该方法及系统有利于获得更加稳定、鲁棒、准确的视频行人重识别结果。视频行人重识别结果。视频行人重识别结果。
技术研发人员:陈思 达慧 王大寒 朱顺痣 吴芸 庄蔚蔚
受保护的技术使用者:厦门理工学院
技术研发日:2023.06.25
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/