基于中心对齐与运动挖掘的时空动作检测方法及系统与流程
未命名
09-03
阅读:78
评论:0

1.本发明涉及视频处理技术领域的一种时空动作检测技术,具体地说,涉及一种基于中心对齐与运动挖掘的时空动作检测方法及系统,同时提供了一种相应的计算机终端及计算机可读存储介质。
背景技术:
2.时空动作检测的目标是在空间和时间上对动作实例进行定位,并识别帧序列中的动作标签。目前主流的时空动作检测方法可分为基于2d骨干的小管道检测器和基于3d骨干的方法。基于3d骨干的方法一般需要单独的actor检测器,导致候选密集,在实际应用场景中难以实现实时推理。得益于anchor-free方法的发展,基于骨架的二维管状探测器在速度和精度方面显示出潜力。最近提出的一种基于2d-cnn的精确动作检测器——moc检测器(actions as moving points,2020),它将每个动作实例视为一个移动点。moc检测器为实时动作检测提供了强大的基线,并实现了令人印象深刻的性能。
3.虽然moc检测器已经取得了良好的性能,但动作实例的质量仍然不尽如人意,特别是快速动作实例。首先,受快速运动的影响,2d-cnn容易产生时空表现不一致的混乱特征。考虑到角色时空特征的剧烈变化,直接聚合混乱特征来预测动作中心容易产生帧间特征的相互干扰。在剧烈运动场景下,相邻帧之间会发生相互干扰,导致动作位置错误。因此,为了防止相互干扰,必须在相邻帧之间校准动作中心。
4.其次,时空特征需要高效、充分的运动挖掘来提高动作分类性能。自注意力由于能够对长期依赖进行建模而被广泛采用。然而,自注意力关注所有的特性依赖关系,包括不相关的特性。关注全局信息也会导致很高的计算复杂度。
技术实现要素:
5.针对现有技术中时空动作检测技术存在的上述不足,本发明提出了一种基于中心对齐与运动挖掘的时空动作检测方法及系统,同时提供了一种相应的计算机终端及计算机可读存储介质。
6.根据本发明的一个方面,提供了一种基于中心对齐与运动挖掘的时空动作检测方法,包括:
7.获取连续的t帧视频帧;
8.对所述t帧视频帧进行空间特征提取;
9.对所述空间特征进行逐帧处理,得到每一帧动作的边界框大小和位置;
10.采用中心对齐的方式,将所述空间特征中相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征;
11.采用运动挖掘的方式,对所述中心对齐的运动特征进行判别性运动特征挖掘,并过滤与关注动作不相关的运动特征,得到时空特征;
12.计算所述时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量;
13.检测所述时空特征中关键帧运动中心点的空间位置和动作类别;
14.基于所述边界框大小和位置、每一帧上的运动中心点距离关键帧运动中心点的运动矢量以及关键帧运动中心点的空间位置和动作类别,构成每一帧视频帧的检测结果,完成时空动作检测。
15.优选地,所述对所述t帧视频帧进行空间特征提取,包括:
16.采用预训练的骨干网络,对所述t帧视频帧的特征进行提取;
17.对提取到的所述特征进行堆叠,得到空间特征。
18.优选地,所述采用中心对齐的方式,将相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征,包括:
19.基于可变形卷积,构建中心对齐模型;
20.获得领域范围内有效的前景特征,作为学习样本,对所述中心对齐模型进行预训练;
21.将所述第i帧和关键帧输入至所述中心对齐模型,自适应地引导相邻帧上的动作中心对齐关键帧;
22.利用第i帧的每个像素对关键帧的响应强度,去除不相关响应,得到中心对齐的运动特征。
23.优选地,所述采用运动挖掘的方式,对所述中心对齐的运动特征进行判别性运动特征挖掘,并过滤与关注动作不相关的运动特征,得到具有判别性的时空特征,包括:
24.构建运动挖掘模型;
25.采用目标检测coco数据集对所述运动挖掘模型进行预训练;
26.将所述中心对齐的运动特征输入至所述运动挖掘模型,获得运动特征的有价值运动区域;
27.对与关注动作不相关的有价值运动区域进行过滤,获得具有判别性的时空特征。
28.优选地,所述对与关注动作不相关的有价值运动区域进行过滤,包括:
29.利用时间方差特征图生成偏置量,捕获运动区域;
30.利用可变形注意力,挖掘与时间表征不一致的运动区域,获得一个或多个偏移分支;
31.为每一个偏移分支生成s个独立的掩码,采用不相干运动掩码滤除不相关噪声,从而获得具有判别性的时空特征。
32.优选地,所述计算所述初始时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量,包括:
33.构建全连接层网络模型,用于对每一帧上的运动中心点距离关键帧运动中心点的运动矢量进行回归;
34.构建l1损失函数,用于约束所述全连接层网络模型学习每一帧上的运动中心点距离关键帧运动中心点的运动矢量;
35.通过上述步骤得到所述初始时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量。
36.优选地,所述检测关键帧运动中心点的空间位置和动作类别,包括:
37.构建全连接层网络模型,用于学习类相关运动中心点热力图;
38.构建focal-loss损失函数,用于约束所述全连接层网络模型学习类相关运动中心点热力图;
39.根据获得的所述相关运动中心点热力图,检测关键帧运动中心点的空间位置和动作类别。
40.根据本发明的另一个方面,提供了一种基于中心对齐与运动挖掘的时空动作检测系统,包括:
41.数据获取模块,该模块用于获取连续的t帧视频帧;
42.骨干网络模块,该模块用于对所述t帧视频帧进行特征提取;
43.框回归模块,该模块用于对所述空间特征进行逐帧处理,得到每一帧动作的边界框大小和位置;
44.中心对齐模块,该模块采用中心对齐的方式,将所述空间特征中相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征;
45.运动挖掘模块,该模块采用运动挖掘的方式,用于对所述中心对齐的运动特征进行判别性运动特征挖掘,得到具有判别性的时空特征;
46.运动矢量计算模块,该模块用于计算所述时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量;
47.关键帧运动中心点检测模块,该模块用于检测所述时空特征中关键帧运动中心点的空间位置和动作类别;
48.时空动作检测模块,该模块基于所述边界框大小和位置、每一帧上的运动中心点距离关键帧运动中心点的运动矢量以及关键帧运动中心点的空间位置和动作类别,构成每一帧视频帧的检测结果,完成时空动作检测。
49.根据本发明的第三个方面,提供了一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述中任一项所述的方法,或,运行上述的系统。
50.根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述中任一项所述的方法,或,运行上述的系统。
51.与现有技术相比,本发明具有如下至少一种有益效果:
52.本发明采用中心对齐与运动挖掘的时空动作检测技术,解决了时空上下文特征未对齐导致的表征混乱和动作管道错位问题,从而得到了更精确的动作检测。
53.本发明提出的中心对齐分支模型,利用可变形卷积在像素级将相邻帧特征与关键帧特征对齐,得到了更精确的动作中心。
54.本发明提出的运动挖掘分支模型,捕捉有判别性的运动特征,利用时间方差引导的可变形自注意力,充分挖掘了时间表征不一致的运动区域,与原始的自注意力方法捕获所有空间依赖关系相比,运动挖掘分支模型只关注前景运动区域,计算复杂度较低。
附图说明
55.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
56.图1为本发明一优选实施例中基于中心对齐与运动挖掘的时空动作检测方法的工
作流程图。
57.图2为本发明一优选实施例中基于中心对齐与运动挖掘的时空动作检测方法及系统的工作原理图。
58.图3为本发明一优选实施例中中心对齐分支模型的工作示意图。
59.图4为本发明一优选实施例中运动挖掘分支模型的工作示意图。
60.图5为本发明一优选实施例中基于中心对齐与运动挖掘的时空动作检测系统的组成模块示意图。
具体实施方式
61.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
62.本发明一实施例提供了一种基于中心对齐与运动挖掘的时空动作检测方法,该方法中心对齐与运动挖掘,使动作中心在帧间对齐,并获取具有判别性的运动特征,解决了快速运动产生的误检问题,并且显著降低了计算复杂度,更加适合于实际场景中的应用。
63.如图1和图2所示,该实施例提供的基于中心对齐与运动挖掘的时空动作检测方法,包括:
64.s1,获取连续的t帧视频帧;
65.s2,对t帧视频帧进行空间特征提取;
66.s3,对空间特征进行逐帧处理,得到每一帧动作的边界框大小和位置;
67.s4,采用中心对齐的方式,将空间特征中相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征;
68.s5,采用运动挖掘的方式,对中心对齐的运动特征进行判别性运动特征挖掘,并过滤与关注动作不相关的运动特征,得到时空特征;
69.s6,计算时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量;
70.s7,检测时空特征中关键帧运动中心点的空间位置和动作类别;
71.s8,基于边界框大小和位置、每一帧上的运动中心点距离关键帧运动中心点的运动矢量以及关键帧运动中心点的空间位置和动作类别,构成每一帧视频帧的检测结果,完成时空动作检测。
72.时空动作检测结果由一系列的单帧检测结果构成,单帧检测结果即为每一帧的框大小、位置和动作类别。关键帧运动中心点位置加上各帧相对于关键帧的运动矢量得到各帧的运动中心位置。各帧中心位置与框大小与类别共同构成每一帧的检测结果。
73.在s2的一优选实施例中,对t帧视频帧进行空间特征提取,包括:
74.s21,采用预训练的骨干网络,对t帧视频帧的特征进行提取;在一优选实施例中,骨干网络可以采用dla-34或者resnet,进一步地,采用带空洞卷积的dla-34网络,能够获得较佳的性能。
75.s22,对提取到的特征进行堆叠,得到空间特征。
76.在s4的一优选实施例中,采用中心对齐的方式,将相邻帧上的动作中心对齐关键
帧,并去除不相关响应,得到中心对齐的运动特征,包括:
77.s41,基于可变形卷积,构建中心对齐模型;在一优选实施例中,中心对齐模型包括:拼接模块、多层卷积模块和可变形卷积模块;其中,拼接模块用于拼接关键帧的空间特征与相邻帧的空间特征;多层卷积模块用于学习可变形卷积模块核的可学习参数偏移量和调制标量;通过对可变形卷积模块核的可学习参数的调制,完成中心对齐过程;获得的对齐特征将以残差方式加入到相邻帧特征上;
78.s42,获得领域范围内有效的前景特征,作为学习样本,对中心对齐模型进行预训练;
79.s43,将第i帧和关键帧输入至中心对齐模型,自适应地引导相邻帧上的动作中心对齐关键帧;
80.s44,利用第i帧的每个像素对关键帧的响应强度,去除不相关响应,得到中心对齐的运动特征。
81.在s5的一优选实施例中,采用运动挖掘的方式,对中心对齐的运动特征进行判别性运动特征挖掘,并过滤与关注动作不相关的运动特征,得到具有判别性的时空特征,包括:
82.s51,构建运动挖掘模型;在一优选实施例中,运动挖掘模型包括:多层卷积层模块、采样函数模块和自注意力机制模块;其中,多层卷积模块用于将输入特征分别投影到三个线性空间上,获得query(查询向量q)、key(索引向量k)、value(内容向量v),其中查询向量q将进行时序上的方差运算获得时序方差图,时序方差图经过多层卷积模块后得到采样函数的输入偏置,完成判决性运动点的选取;采样函数模块用于在输入偏置的引导下分别完成索引向量k和内容向量v的采样,得到采样后的索引向量与内容向量自注意力机制模块用于将查询向量q与采样后的索引向量进行矩阵乘法获得注意力图,注意力图与采样后的内容向量进行矩阵乘法后再与原特征相加得到运动挖掘特征;
83.s52,采用目标检测coco数据集对运动挖掘模型进行预训练;
84.s53,将中心对齐的运动特征输入至运动挖掘模型,获得运动特征的有价值运动区域;
85.s54,对与关注动作不相关的有价值运动区域进行过滤,获得具有判别性的时空特征。
86.在s54的一优选实施例中,对与关注动作不相关的有价值运动区域进行过滤,包括:
87.s541,利用时间方差特征图生成偏置量,捕获运动区域;
88.s542,利用可变形注意力,挖掘与时间表征不一致的运动区域,获得一个或多个偏移分支;
89.s543,为每一个偏移分支生成s个独立的掩码,采用不相干运动掩码滤除不相关噪声,从而获得具有判别性的时空特征。进一步地,掩码与输入特征直接进行相乘即可滤除不相关噪声。
90.在s6的一优选实施例中,计算初始时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量,包括:
91.构建全连接层网络模型,用于对每一帧上的运动中心点距离关键帧运动中心点的
运动矢量进行回归;
92.构建l1损失函数,用于约束全连接层网络模型学习每一帧上的运动中心点距离关键帧运动中心点的运动矢量;
93.通过上述步骤得到初始时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量。
94.在s7的一优选实施例中,检测关键帧运动中心点的空间位置和动作类别,包括:
95.构建全连接层网络模型,用于学习类相关运动中心点热力图;
96.构建focal-loss损失函数,用于约束全连接层网络模型学习类相关运动中心点热力图;
97.根据获得的相关运动中心点热力图,检测关键帧运动中心点的空间位置和动作类别。
98.在上述步骤中:
99.关键帧指t帧中的中心帧,即第t/2帧,一般取t为奇数,t/2向下取整。相邻帧指t帧中除了关键帧之外的其它帧都叫相邻帧。
100.判别性指对动作分类与定位任务有增益,一般来说特征越具有判别性,越能获得更高的精度性能。判别性运动特征指从运动区域中提取到的有效特征,如对于踢足球动作,大腿与足部的挥动、足球的运动等会被认为是判别性的运动特征。
101.运动矢量,是关键帧运动中心与相邻帧运动中心的二维坐标差值。
102.动作类别,由数据集定义的各种类别,如对于ucf101-24数据集中的投篮、梳头发等。
103.下面对本发明上述实施例提供的技术方案进一步详细说明。
104.如图1和图2所示,本发明上述实施例中基于中心对齐与运动挖掘的时空动作检测方法,包括如下步骤:
105.第一步,获取连续的t帧视频帧。
106.第二步,将t帧视频帧输入预训练的骨干网络,进行特征提取。
107.第三步,将s2中提取到的特征输入进三个分支,这三个分支分别为框分支、运动回归分支以及类感知动作中心点定位分支(简称中心点定位分支),用于对边界框大小和位置、中心点的运动矢量以及中心点的空间位置和类别进行获取。
108.在第三步中:
109.运动分支和中心点定位分支中均使用了中心对齐模型和运动挖掘模型。其中:
110.中心对齐模型用于进行中心对齐,将相邻帧上的动作中心对齐关键帧;
111.运动挖掘模型,用于挖掘判别性运动特征,并利用掩码机制过滤与关注动作无关的运动信息。
112.进一步地,将提取到的空间特征输入进三个分支,分别对边界框大小和位置、中心点的运动矢量以及中心点的空间位置和类别进行获取。在一具体应用实施例中,可以采用moc检测器作为搭载三个分支的基础架构。当然,在其他实施例中,也可以采用其他检测器架构,如act检测器。
113.在一具体实施例中,构建三个分支进行时空动作检测,可以参照以下操作:
114.第三.1步,设计一个框回归分支,用于逐帧处理,得到每一帧的动作的边界框大小
和位置。
115.第三.2步,设计一个运动回归分支,用于估计每一帧上的运动中心点距离关键帧运动中心点的运动矢量;
116.第三.3步,设计一个类感知动作中心点定位分支,用于检测关键帧中心点的空间位置和类别。
117.采用了moc检测器作为基础架构,利用anchor-free的结构,使方法的精度和速度能够满足实时性要求。
118.进一步地,在中心点定位分支和运动分支的工作过程中,使用了中心对齐模型和运动挖掘模型。这两个模型可以布置在这两个分支部分中或作为独立部分布置于两个分支部分的前端。
119.在一具体实施例中,在中心点定位分支和运动分支中使用了中心对齐模型和运动挖掘模型,可以参考以下操作:
120.第三.i步,将提取的空间特征作为中心对齐模型的输入,得到中心对齐的运动特征;
121.第三.ii步,将中心对齐的运动特征作为运动挖掘模型的输入,得到具有判别性的时空特征;
122.第三.iii步,将具有判别性的时空特征分别作为运动回归分支和中心点定位分支的输入。
123.采用的中心对齐模型,其隐式地学习运动线索,从领域范围内获得有效的前景特征,可以自适应地引导帧间特征的对齐。采用运动挖掘模块,可以挖掘判别性的时空特征,从而过滤掉不相干的运动信息。
124.进一步地,中心对齐模型进行中心对齐,将相邻帧上的动作中心对齐关键帧。当然,该一具体应用实例中,可以采用基于调制的中心对齐模型(即基于可变形卷积的中心对齐模型),也可以采用其他中心对齐模型。
125.在一具体实施例中,中心对齐模型的实现可以参照以下操作:
126.构建基于调制的中心对齐模型。利用可变形卷积来获得局部的像素级对齐。如图3所示,将第i帧和关键帧作为中心对齐模块的输入,其中的offset反映了位置移动。scalars为调制等级,反映了第i帧的每个像素对关键帧的响应强度,作为过滤器去除不相关的响应。
127.该基于调制的中心对齐模型,自适应地引导帧间特征对齐,隐式学习运动线索,从邻域范围内获得有效的前景特征。
128.进一步地,运动挖掘模型挖掘判别性运动特征,其在有价值运动区域的指导下获得判别性时空特征,并利用掩码机制过滤与关注动作无关的运动信息。在一具体应用实例中,可以采用稀疏有价值运动挖掘模型,也可以采用其他运动挖掘模型。其中,利用时间方差特征图生成偏置量;利用可变形自注意力机制,降低计算复杂度;利用不相干运动掩码,过滤掉不相干噪声。
129.在一具体实施例中,运动挖掘模型的实现可以参照以下操作:
130.构建稀疏有价值运动挖掘模型,在有价值运动区域的指导下获得判别性时空特征。这些重要的运动区域由偏移网络以变形采样点的形式学习。根据变形的采样点位置,对
k和v投影后的特征图进行插值采样。然后,采用标准的自注意机制参与q和k的注意操作以及值的聚合过程,其中,q(query):自注意力机制中的查询向量;k(key):自注意力机制中的索引向量;v(value):自注意力机制中的内容向量;三者在数学上是输入特征在不同线性平面上的特征投影。此外,该模型还利用掩码机制过滤掉与关注动作无关的运动信息。如图4所示。
131.具体的:
132.第三.一步,利用时间方差特征图生成偏置量。与使用线性投影进行单点查询的偏移量生成不同,本发明采用了一个感受野更大的子网络来生成偏移量,利用时间方差特征图作为输入来捕获运动区域。
133.第三.二步,利用可变形注意力模块,有效降低了计算复杂度。
134.第三.三步,设计了一种不相干运动掩码来滤除不相关噪声,从而获得更具辨识性的运动信息。一个包含5x5内核卷积层的子网络用于为每个偏移分支生成s个独立的掩码。最后得到判别性运动的特征。
135.本发明上述实施例通过利用中心对齐模型(优选为基于调制的中心对齐模型),有效解决了快速运动产生的错误检测问题;此外,利用运动挖掘模型,获得了具有判别性的运动特征。最终解决了现有方法中时空上下文特征没对齐导致的表征混乱和动作管道错位问题。
136.本发明上述实施例利用运动挖掘模型(优选为稀疏有价值运动挖掘模型)来挖掘判别性运动特征,并利用掩码机制过滤与关注动作无关的运动信息,有效利用了运动依赖性,并显著降低了计算复杂度。
137.本发明一实施例提供了一种基于中心对齐与运动挖掘的时空动作检测系统。
138.如图5所示,该实施例提供的基于中心对齐与运动挖掘的时空动作检测系统,可以包括:
139.数据获取模块,该模块用于获取连续的t帧视频帧;
140.骨干网络模块,该模块用于对t帧视频帧进行特征提取;
141.框回归模块,该模块用于对空间特征进行逐帧处理,得到每一帧动作的边界框大小和位置;
142.中心对齐模块,该模块采用中心对齐的方式,将空间特征中相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征;
143.运动挖掘模块,该模块采用运动挖掘的方式,用于对中心对齐的运动特征进行判别性运动特征挖掘,得到具有判别性的时空特征;
144.运动矢量计算模块,该模块用于计算时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量;
145.关键帧运动中心点检测模块,该模块用于检测时空特征中关键帧运动中心点的空间位置动作和类别;
146.时空动作检测模块,该模块基于边界框大小和位置、每一帧上的运动中心点距离关键帧运动中心点的运动矢量以及关键帧运动中心点的空间位置和动作类别,构成每一帧视频帧的检测结果,完成时空动作检测。
147.在一优选实施例中,框回归模块作为框回归分支;中心对齐模块、运动挖掘模块和
运动矢量计算模块共同作为运动回归分支;中心对齐模块、运动挖掘模块和关键帧运动中心点检测模块共同作为中心点定位分支。
148.在一优选实施例中,框回归模块作为框回归分支;运动矢量计算模块作为运动回归分支;关键帧运动中心点检测模块作为中心点定位分支;中心对齐模块和运动挖掘模块位于运动回归分支和中心点定位分支的前端。
149.需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的各组成部分等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,也可以参照方法的技术方案实现系统的组成,即,系统中的实施例和方法中的实施例可理解互为优选例,在此不予赘述。
150.本发明一实施例提供了一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行本发明上述实施例中任一项的方法,或,运行本发明上述实施例中任一项的系统。
151.可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram),如静态随机存取存储器(英文:static random-access memory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:double data rate synchronous dynamic random access memory,缩写:ddr sdram)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
152.上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
153.处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤或系统各种的各个模块。具体可以参见前面方法和系统实施例中的相关描述。
154.处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
155.本发明一实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法,或,运行本发明上述实施例中任一项的系统。
156.本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
157.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
158.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
159.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
160.本发明上述实施例提供的中心对齐与运动挖掘的时空动作检测方法及系统,通过将提取的特征输入进三个分支,分别对边界框大小、动作矢量和中心点空间位置和类别进行获取,其中,采用中心对齐模型,使动作中心在帧间对齐,并利用运动挖掘模型获取具有判别性的运动特征,解决了快速运动产生的误检问题,并且显著降低了计算复杂度,更加适合于实际场景中的应用。
161.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
162.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
技术特征:
1.一种基于中心对齐与运动挖掘的时空动作检测方法,其特征在于,包括:获取连续的t帧视频帧;对所述t帧视频帧进行空间特征提取;对所述空间特征进行逐帧处理,得到每一帧动作的边界框大小和位置;采用中心对齐的方式,将所述空间特征中相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征;采用运动挖掘的方式,对所述中心对齐的运动特征进行判别性运动特征挖掘,并过滤与关注动作不相关的运动特征,得到时空特征;计算所述时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量;检测所述时空特征中关键帧运动中心点的空间位置和动作类别;基于所述边界框大小和位置、每一帧上的运动中心点距离关键帧运动中心点的运动矢量以及关键帧运动中心点的空间位置和动作类别,构成每一帧视频帧的检测结果,完成时空动作检测。2.根据权利要求1所述的基于中心对齐与运动挖掘的时空动作检测方法,其特征在于,所述对所述t帧视频帧进行空间特征提取,包括:采用预训练的骨干网络,对所述t帧视频帧的特征进行提取;对提取到的所述特征进行堆叠,得到空间特征。3.根据权利要求1所述的基于中心对齐与运动挖掘的时空动作检测方法,其特征在于,所述采用中心对齐的方式,将相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征,包括:基于可变形卷积,构建中心对齐模型;获得领域范围内有效的前景特征,作为学习样本,对所述中心对齐模型进行预训练;将所述第i帧和关键帧输入至所述中心对齐模型,自适应地引导相邻帧上的动作中心对齐关键帧;利用第i帧的每个像素对关键帧的响应强度,去除不相关响应,得到中心对齐的运动特征。4.根据权利要求1所述的基于中心对齐与运动挖掘的时空动作检测方法,其特征在于,所述采用运动挖掘的方式,对所述中心对齐的运动特征进行判别性运动特征挖掘,并过滤与关注动作不相关的运动特征,得到具有判别性的时空特征,包括:构建运动挖掘模型;采用目标检测coco数据集对所述运动挖掘模型进行预训练;将所述中心对齐的运动特征输入至所述运动挖掘模型,获得运动特征的有价值运动区域;对与关注动作不相关的有价值运动区域进行过滤,获得具有判别性的时空特征。5.根据权利要求4所述的基于中心对齐与运动挖掘的时空动作检测方法,其特征在于,所述对与关注动作不相关的有价值运动区域进行过滤,,包括:利用时间方差特征图生成偏置量,捕获运动区域;利用可变形注意力,挖掘与时间表征不一致的运动区域,获得一个或多个偏移分支;为每一个偏移分支生成s个独立的掩码,采用不相干运动掩码滤除不相关噪声,从而获
得具有判别性的时空特征。6.根据权利要求1所述的基于中心对齐与运动挖掘的时空动作检测方法,其特征在于,所述计算所述初始时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量,包括:构建全连接层网络模型,用于对每一帧上的运动中心点距离关键帧运动中心点的运动矢量进行回归;构建l1损失函数,用于约束所述全连接层网络模型学习每一帧上的运动中心点距离关键帧运动中心点的运动矢量;通过上述步骤得到所述初始时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量。7.根据权利要求1所述的基于中心对齐与运动挖掘的时空动作检测方法,其特征在于,所述检测关键帧运动中心点的空间位置和动作类别,包括:构建全连接层网络模型,用于学习类相关运动中心点热力图;构建focal-loss损失函数,用于约束所述全连接层网络模型学习类相关运动中心点热力图;根据获得的所述相关运动中心点热力图,检测关键帧运动中心点的空间位置和动作类别。8.一种基于中心对齐与运动挖掘的时空动作检测系统,其特征在于,包括:数据获取模块,该模块用于获取连续的t帧视频帧;骨干网络模块,该模块用于对所述t帧视频帧进行特征提取;框回归模块,该模块用于对所述空间特征进行逐帧处理,得到每一帧动作的边界框大小和位置;中心对齐模块,该模块采用中心对齐的方式,将所述空间特征中相邻帧上的动作中心对齐关键帧,并去除不相关响应,得到中心对齐的运动特征;运动挖掘模块,该模块采用运动挖掘的方式,用于对所述中心对齐的运动特征进行判别性运动特征挖掘,得到具有判别性的时空特征;运动矢量计算模块,该模块用于计算所述时空特征中每一帧上的运动中心点距离关键帧运动中心点的运动矢量;关键帧运动中心点检测模块,该模块用于检测所述时空特征中关键帧运动中心点的空间位置动作和类别;时空动作检测,该模块基于所述边界框大小和位置、每一帧上的运动中心点距离关键帧运动中心点的运动矢量以及关键帧运动中心点的空间位置和动作类别,构成每一帧视频帧的检测结果,完成时空动作检测。9.一种计算机终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求8所述的系统。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求8所述的系统。
技术总结
本发明公开了一种基于中心对齐与运动挖掘的时空动作检测方法及系统,其中方法包括:将T帧视频帧输入预训练的骨干网络,进行特征提取;将提取的特征输入进三个分支,分别对边界框大小、动作矢量、中心点空间位置和动作类别进行获取;其中,在中心点定位分支和运动分支中采用中心对齐模型进行中心对齐,将相邻帧上的动作中心对齐关键帧;采用运动挖掘模型挖掘判别性运动特征,并利用掩码机制过滤与关注动作无关的运动信息。本发明使动作中心在帧间对齐,并获取具有判别性的运动特征,解决了快速运动产生的误检问题,并且显著降低了计算复杂度,更加适合于实际场景中的应用。更加适合于实际场景中的应用。更加适合于实际场景中的应用。
技术研发人员:赵伟基 周红波 黄科锋 张重阳 张保柱 孙恺毓 刘振宇 顾钦子 刘印 陈寿峰 常盛
受保护的技术使用者:宁波海棠信息技术有限公司
技术研发日:2023.06.02
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种道路积雪处理装置的制作方法 下一篇:基于跨模态表征对齐的英越端到端语音翻译方法