基于多通道有向图卷积的人体行为识别方法及系统
未命名
10-21
阅读:81
评论:0
1.本发明属于人体行为识别技术领域,尤其涉及一种基于多通道有向图卷积的人体行为识别方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.人体行为识别是指通过特定的算法,从人体本身的特征和所完成动作的特征出发,识别出视频中人物具体动作的识别性任务。在计算机视觉领域,人体行为识别是一个被广泛关注的热点问题,已经在人机交互、智能安防、医疗卫生和运动分析等各领域取得了广泛的运用。行为识别任务一般有如下的基本过程:数据图像的预处理、运动中的人体检测、运动特征提取、特征的训练与分类、行为识别。但传统的识别方法是基于rgb数据集的,这种数据易受包括背景、光照等环境因素的影响。而人体骨架关节点数据是人体的高级特征,几乎不受外观影响,同时也能更好的避免背景、光照以及视角变化所产生的噪声影响,具有很好的鲁棒性,而且在计算和存储方面也是十分有效的。
4.因此,对基于骨架数据的人体行为识别方法的研究不仅在理论学术研究中具有重要意义,而且在实际应用中也具有较大价值。本文中提到的方法是基于骨架数据集的。
5.基于骨架数据的人体行为识别算法的输入通常是一系列点的坐标集合,这些坐标的表示骨架关节点的位置。常见的处理骨架关节点的深度学习方法主要分为三种:卷积神经网络(convolutional neural network,cnn)、循环神经网络(recurrent neural network,rnn)和图卷积网络(graph convolutional network,gcn)。由于不同的深度学习网络的输入是不同的,所以关节点数据的表示方法是不同的。卷积神经网络的输入是结构规则的图片,关节点数据用伪图像表示;循环神经网络的输入是相互联系的数据流,关节点数据用向量序列表示;图卷积神经网络的输入是图结构,关节点数据用拓扑图表示。
6.但是,发明人发现,上面所说的“伪图像”和“向量序列”都属于基于欧式空间的数据。在对基于欧氏空间的规则数据进行特征提取领域,卷积神经网络与循环神经网络都已经取得了巨大的成功。但在基于骨架数据的人体行为识别领域,我们关注的重点是视频片段上的人体骨架关节点数据,我们也是对骨架关节点数据进行特征提取。但骨架关节点在内部结构上是不规则的,是基于非欧式空间的数据。我们把这种结构称为图结构,又称拓扑结构。图结构内部每一个节点附近的其它节点的分布可能是独一无二的,每一个节点的分布情况都是不确定的,这就是图结构与上述“二维图片”最大的不同,它不具备平移不变性。卷积神经网络或者循环神经网络对这种结构的数据进行特征提取的能力大大下降,这就导致传统的基于卷积神经网络和基于循环神经网络的人体行为识别算法的准确率大大降低。
技术实现要素:
7.本发明为了解决上述问题,提供了一种基于多通道有向图卷积的人体行为识别方
法及系统,所述方案基于提出的多通道有向图卷积模型来进行人体行为的特征的提取,所述方案将多通道有向空间卷积模块和多尺度对比时间卷积的结合,通过多通道有向空间卷积模块得到通道特定全局特征和局部特征,然后将两种特征进行融合,并将融合数据输入多尺度对比时间卷积模块中以提取丰富的时域信息进而获得多尺度时间特征,所述方案能够有效聚合不同帧之间的运动信息,有效提高行为识别的精度。
8.根据本发明实施例的第一个方面,提供了一种基于多通道有向图卷积的人体行为识别方法,包括:
9.获取待识别的人体骨架数据序列,并进行相应预处理,获得关节流、骨骼流以及运动流数据;
10.基于预处理的骨架数据进行有向图构建,获得人体骨架数据对应的关联矩阵;
11.将所述关节流、骨骼流以及运动流分别输入预先训练的多通道有向图卷积模型,其中,所述多通道有向图卷积模型包括若干层顺序连接的时空卷积块,每个时空卷积块包括顺序连接的用于提取空间信息并聚合的多通道有向空间卷积模块以及用于获取时域信息的多尺度时间卷积模块,同时,除第一层外的每个时空卷积块还包括将前一时空卷积块输出数据经残差卷积处理后的特征信息与多尺度时间卷积模块的输出进行合并的处理过程;所述多通道有向空间卷积模块中,以所述关联矩阵作为所有通道的共享拓扑,通过将共享拓扑的结构作为先验知识对每个通道的拓扑进行建模;
12.基于所述多通道有向图卷积模型输出的特征信息,利用预先设定的分类器,获得不同流所对应的各类别的分数,通过将不同流对应类别的分数相加,以分数最大的类别作为最终的人体行为识别结果。
13.进一步的,在每个时空卷积块中,输入数据通过多通道有向空间卷积模块,获得通道特定全局特征和局部特征,并将全局特征和局部特征融合后输入多尺度时间卷积模块,获得多尺度时间特征。
14.进一步的,所述多尺度时间模块包括并列设置的用于提取多尺度时间特征的第一分支和第二分支、用于去除序列帧中冗余信息的第三分支、用于处理当前帧特征的第四分支以及获取非局部特征的第五分支。
15.进一步的,所述多尺度时间模块中的第五分支的输出分别与其它分支的输出进行比较,利用对比学习最大化帧间的不同特征并增强特征表示。
16.进一步的,所述多通道有向空间卷积模块包括若干通道特定拓扑分支和有向边缘卷积分支,所述通道特定拓扑分支首先利用动态拓扑推断每个通道特定的拓扑结构,然后通过全局注意力图卷积非自然连接的关节进行建模,并通过更新函数提取通道上的全局特征特定的拓扑结构;所述有向边缘卷积分支通过在骨架图中构造多个局部图来聚合局部特征。
17.进一步的,所述基于预处理的骨架数据进行有向图构建,具体为:将骨骼作为有向图的边,关节作为有向图的顶点,每个有向边由靠近骨架重心的顶点指向远离骨架重心的顶点。
18.进一步的,所述预先设定的分类器采用全连接层。
19.根据本发明实施例的第二个方面,提供了一种基于多通道有向图卷积的人体行为识别系统,包括:
20.数据获取单元,其用于获取待识别的人体骨架数据序列,并进行相应预处理,获得关节流、骨骼流以及运动流数据;
21.有向图构建单元,其用于基于预处理的骨架数据进行有向图构建,获得人体骨架数据对应的关联矩阵;
22.特征提取单元,其用于将所述关节流、骨骼流以及运动流分别输入预先训练的多通道有向图卷积模型,其中,所述多通道有向图卷积模型包括若干层顺序连接的时空卷积块,每个时空卷积块包括顺序连接的用于提取空间信息并聚合的多通道有向空间卷积模块以及用于获取时域信息的多尺度时间卷积模块,同时,除第一层外的每个时空卷积块还包括将前一时空卷积块输出数据经残差卷积处理后的特征信息与多尺度时间卷积模块的输出进行合并的处理过程;所述多通道有向空间卷积模块中,以所述关联矩阵作为所有通道的共享拓扑,通过将共享拓扑的结构作为先验知识对每个通道的拓扑进行建模;
23.分类识别单元,其用于基于所述多通道有向图卷积模型输出的特征信息,利用预先设定的分类器,获得不同流所对应的各类别的分数,通过将不同流对应类别的分数相加,以分数最大的类别作为最终的人体行为识别结果。
24.根据本发明实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于多通道有向图卷积的人体行为识别方法。
25.根据本发明实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于多通道有向图卷积的人体行为识别方法。
26.与现有技术相比,本发明的有益效果是:
27.(1)本发明提供了一种基于多通道有向图卷积的人体行为识别方法及系统,所述方案基于提出的多通道有向图卷积模型来进行人体行为的特征的提取,所述方案将多通道有向空间卷积模块和多尺度对比时间卷积的结合,通过多通道有向空间卷积模块得到通道特定全局特征和局部特征,然后将两种特征进行融合,并将融合数据输入多尺度对比时间卷积模块中以提取丰富的时域信息进而获得多尺度时间特征,所述方案能够有效聚合不同帧之间的运动信息,有效提高行为识别的精度。
28.(2)本发明所述方案中,在多尺度对比时间卷积模块不同尺度的时间特征之间引入对比学习,以有效增强不同特征之间的交流,增强特征表示,进一步提高提取特征描述效果。
29.(3)本发明所述方案中,在多通道有向空间卷积模块中设计有通道特定拓扑分支,该分支摒弃静态拓扑(即不同通道内相同拓扑的聚合)并选择动态拓扑以提高方法的灵活性,在该分支中,首先推断每个通道特定的拓扑结构,然后利用全局注意力图卷积以更好地对非自然连接的关节进行建模,并提取通道上的全局特征特定的拓扑结构;同时,作为补充,在多通道有向空间卷积模块中添加了有向边缘卷积分支来提取通道特定拓扑分支无法捕获的更深层次的局部特征。
30.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
31.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
32.图1为本发明实施例中所述的通用骨架和有向骨架图示意图;
33.图2为本发明实施例中所述的基于多通道有向图卷积的行为识别方法的流程图;
34.图3为本发明实施例中所述的基于多通道有向图卷积的行为识别方法中每层基本时空卷积块的架构图;
35.图4为本发明实施例中所述的通道特定拓扑建模模块的架构图。
具体实施方式
36.下面结合附图与实施例对本发明做进一步说明。
37.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
38.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
39.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
40.实施例一:
41.本实施例的目的是提供一种基于多通道有向图卷积的人体行为识别方法。
42.一种基于多通道有向图卷积的人体行为识别方法,包括:
43.获取待识别的人体骨架数据序列,并进行相应预处理,获得关节流、骨骼流以及运动流数据;
44.基于预处理的骨架数据进行有向图构建,获得人体骨架数据对应的关联矩阵;
45.将所述关节流、骨骼流以及运动流分别输入预先训练的多通道有向图卷积模型,其中,所述多通道有向图卷积模型包括若干层顺序连接的时空卷积块,每个时空卷积块包括顺序连接的用于提取空间信息并聚合的多通道有向空间卷积模块以及用于获取时域信息的多尺度时间卷积模块,同时,除第一层外的每个时空卷积块还包括将前一时空卷积块输出数据经残差卷积处理后的特征信息与多尺度时间卷积模块的输出进行合并的处理过程;所述多通道有向空间卷积模块中,以所述关联矩阵作为所有通道的共享拓扑,通过将共享拓扑的结构作为先验知识对每个通道的拓扑进行建模;
46.基于所述多通道有向图卷积模型输出的特征信息,利用预先设定的分类器,获得不同流所对应的各类别的分数,通过将不同流对应类别的分数相加,以分数最大的类别作为最终的人体行为识别结果。
47.不同于其他的方法,本实施例所提出的方法将骨骼表示为有向图,边和顶点分别表示骨骼和关节。每个有向边从靠近骨架重心的顶点指向远离骨架重心的顶点。并且,我们为代表骨架重心的顶点添加了一个自循环,以保持关节和骨骼的数量一致。
48.本实施例中,基于多通道有向图卷积的行为识别方法包括关节流、骨骼流和运动
流,每个流都有十层基本的时空卷积块。每个时空卷积块都有一个多通道有向空间卷积模块、一个多尺度对比时间卷积模块和一个残差连接组成,值得注意的是,第一个层的时空卷积块没有残差连接。
49.在每个时空卷积块里,数据首先输入到多通道有向空间卷积模块中,得到通道特定全局特征和局部特征,然后将两种特征进行融合。我们将融合数据输入多尺度对比时间卷积模块中以提取丰富的时域信息以获得多尺度时间特征。此外,我们在不同尺度的时间特征之间引入对比学习,以增强特征交流。之后再经过激活函数送入下一层的基本时空卷积块。
50.本实施例中,在多通道有向空间卷积模块中设计通道特定拓扑分支,该分支摒弃静态拓扑(即不同通道内相同拓扑的聚合)并选择动态拓扑以提高方法的灵活性。在该分支中,首先推断每个通道特定的拓扑结构,然后提出全局注意力图卷积以更好地对非自然连接的关节进行建模,并提取通道上的全局特征特定的拓扑结构。作为补充,在多通道有向空间卷积模块中添加了有向边缘卷积分支来提取通道特定拓扑分支无法捕获的更深层次的局部特征。有向边缘卷积分支通过在骨架图中构造多个局部图来聚合局部特征,保持局部结构。为了对具有不同持续时间的动作进行建模,在方法中加入多尺度对比时间卷积块,用来处理来自多通道有向空间卷积模块的时域信息,它包含5个分支,其中非局部分支获得长跳跃连接特征,并使用对比学习将它与从其他分支提取的特征聚合。在经过层层网络的训练之后,再经过全局平均池化防止过拟合,最后经过全连接层进行分类操作。
51.具体的,为了便于理解,以下结合附图从具体实施的角度对本实施例所述方案进行详细说明:
52.步骤一:骨架数据的预处理;
53.在实际应用过程中,人体骨架信息很容易通过硬件设备(如kinetics)或者软件(openpose)获得,此处不再赘述,为了方便,所述本实施例中使用的数据集为ntu-rgb+d 60/120数据集,该数据集由许多文本文件构成,每个文件中包含骨架数据的帧数、执行动作的人数、每个关节点的(x,y,z)坐标等,数据集的预处理部分就是要把文本数据封装成(c,t,v,m)的4维矩阵格式,使其可以输入进网络,其中c代表通道数,t代表帧数,v代表节点数,m代表运动的人数。此为关节流的输入数据。然后通过公式,计算出骨骼流和运动流的输入数据,分别输入到对应的流中。
54.骨架数据的预处理是为了提取出网络训练所需的骨骼点坐标、帧长度、关节点数等具体的信息,在具体实施中,通过用pytorch所带的dataset和dataloader模块封装成可以输入进网络的格式,也就是(n,c,t,v,m)五维向量,其中,n、c、t、v、m字母分别代表一次训练的批处理数、通道数、帧数、节点数、一帧中的运动人数。此为关节流的输入数据。然后通过公式e
1,2
=(x
1-x2,y
1-y2,z
1-z2)和公式m
t
=(x
t+1-x
t
,y
t+1-y
t
,z
t+1-z
t
),计算出骨骼流和运动流的输入数据,分别输入到对应的流中。
55.步骤二:有向图的构建;
56.该步骤将骨架数据表示为有向无环图,其中,关节为顶点,骨骼为边。每条边的方向由顶点与骨架重心之间的距离决定,其中离重心较近的顶点指向离重心点较远的顶点。选择使用关联矩阵表示相邻两个关节之间骨骼的方向。给定一个具有v个顶点和e条边的有向图,那么关联矩阵是一个v
×
e的矩阵a。定义由源顶点组成的关联矩阵叫做矩阵as,由目
标顶点组成的关联矩阵叫做矩阵a
t
。这三个矩阵合并在一起,组成大小为(3,v,e)的联合矩阵输入进网络。
57.在具体实施中,通过使用关联矩阵表示相邻两个关节之间骨骼的方向。为了保持关节和骨骼的数量一致,为代表骨架重心的顶点添加了一个自循环。给定一个具有v个顶点和e条边的有向图,那么a的关联矩阵是一个v
×
e的矩阵,其元素(例如:a
ij
=1,i=1,...,v,j=1,...,e)表示相应的顶点(vi)和边(ej)之间的关系。如果vi是ej的源顶点,或者ej是vi的传出边,那么a
ij
=-1;如果vi是ej的目标顶点,或者ej是vi的传入边,这里a
ij
=1;如果没有连接就是0。为了区分源顶点和目标顶点,定义由源顶点组成的关联矩阵叫做矩阵as,由目标顶点组成的关联矩阵叫做矩阵a
t
。as是保留矩阵a中取-1位置的绝对值,a
t
是保留矩阵a中取值为1的位置。这三个矩阵合并在一起,组成大小为(3,v,e)的联合矩阵输入进网络。其中,所述联合矩阵联合矩阵在通道特定的拓扑建模中使用,三个并行分支对联合矩阵中每一个矩阵分别进行建模,也就是一个分支对应一个矩阵。
58.步骤三:多通道有向空间卷积模块分别提取空间信息并聚合
59.本步骤将网络输入进来的数据,分别通过两个不同的分支进行空间维度上信息的处理。第一个分支为通道特定拓扑分支,该分支首先利用动态拓扑推断每个通道特定的拓扑结构,然后提出全局注意力图卷积以更好地对非自然连接的关节进行建模,并通过更新函数提取通道上的全局特征特定的拓扑结构。第二个分支为有向边缘卷积分支,将平均池作为计算效率的时间维,然后通过基于欧氏距离的k-nn(k-nearest neighbors algorithm)构造具有局部边的局部图,并通过可训练参数聚合局部边和基于局部边的同一性边。最后对两个分支提取的信息进行聚合并送入时间模块中。
60.所述多通道有向空间卷积模块由通道特定拓扑分支和有向边缘卷积分支组成。这两个分支分别负责捕获全局特定通道特征和局部特征。
61.(1)通道特定的拓扑建模。获取全局特征的分支由三个并行子分支组成,它们对三个通道(即节点坐标(x,y,z)三个坐标维度)中的每一个进行卷积。与直接对结果求和的传统图卷积不同,我们是将通道维度中的结果连接起来以获得全局特定通道特征。
62.我们将联合矩阵中的三个关联矩阵分别作为所有通道的共享拓扑。通过将共享拓扑的结构作为先验知识,然后通过每个通道的特定关联对其进行细化,从而对每个通道的拓扑进行建模。整个过程由提取函数e(
·
)和更新函数u(
·
)组成。其中,提取函数使用全局注意力图卷积对输入特征x∈r
t
×n×c的非自然连接关节之间的通道相关性进行建模,以获得通道相关性矩阵q∈r
t
×
nxc
。更新函数将特定通道相关性与共享拓扑相关联,以获得全局特定通道拓扑s∈r
t
×n×c,
63.s=ak+
∝
·qꢀꢀ
(1)
64.其中,ak是第k个通道关联矩阵,
∝
是表示连接强度的可训练参数。
65.全局通道特定特征是通过将每个通道的全局通道特定拓扑sc与对应的通道特征xc相结合而获得的,其中代表第c个通道。每个通道响应不同运动下关节和骨骼之间的运动学关系。
66.67.其中,||是串联操作。最终输出z随输入动态变化。
68.(2)全局注意力图卷积。将拓扑图a
in
与三个可学习的权重矩阵wq,wk和wv,矩阵相乘,得到查询q、键k和值v。从a
in
中提取的值v的权重通过计算查询q和键k的转置之间的相似度获得,然后权重和对应的值v进行加权求和,得到最终的注意力图a
atten
,
[0069][0070]
为了适应特定通道拓扑结构,我们使用多头自注意力机制,允许模型在不同的表示子空间中学习相关信息,
[0071][0072]
全局注意力利用作为卷积操作的邻域信息。更新规则如下:
[0073][0074]
其中,w
(l)
是第l层的权重矩阵,σ(
·
)代表激活函数。
[0075]
(3)有向边缘卷积。有向边缘卷积通过构建局部图来维护局部结构,从而专注于局部特征的聚合。因此,在计算(更新)关节vi的局部特征时,考虑了vi的当前特征,以及当前有向拓扑图中距离vi最近的k个关节的特征。特征空间中距离vi最近的k个点可以组成一个局部图,利用边缘特征提取函数得到vi与附近k个节点的边缘特征。该过程计算如下:
[0076][0077][0078]
其中φ(vi,vk)代表线性变换。
[0079]
步骤四:多尺度对比时间卷积模块处理时域信息
[0080]
在得到空间维度上的特征之后,本模块包含5个分支,可以分为四个组。第一组提取多尺度时间特征,第二组去除序列帧中的冗余信息,第三组处理当前帧的特征,第四组设特别计了非局部分支获取非局部特征。然后将非局部分支的输出分别与另一个分支的输出进行比较,利用对比学习最大化帧间的不同特征并增强特征表示,增强两个分支之间的信息交换。
[0081]
具体的,多尺度对比时间卷积模块是用于提取不同持续时间(即帧)的人类行为之间的帧间关系。该模块包含五个分支,可分为四组。第一组提取多尺度时间特征:该组的每个分支包含一个1
×
1卷积以减少通道维度,并包含一个卷积核大小为5
×
1,具有不同扩张数的卷积。第二组去除序列帧中的冗余信息:该组在1
×
1卷积后包含一个3
×
1的最大池化层,以提取最显着的信息。第三组处理当前帧的特征:该组只有一个1
×
1的卷积来处理每一帧的信息。第四组获取非局部特征:在最开始加入一个1
×
1的自适应平均池化层,设计非局部分支,利用平均值自适应获取代表帧,从而在时间维度上获取长跳跃连接。
[0082]
随后使用infonce损失函数来计算非局部分支与其他分支之间的组合损失,
[0083][0084]
其中,和分别是两个分支输出的特征表示,fd是对和之间的一致性进行
评分的判别器函数,定义为两个向量之间的点积。σ(
·
)是激活函数。通过计算组合损失,它们可以获得彼此的信息,以提高它们通过卷积运算进行特征提取的性能。
[0085]
此外,由于动作识别是一项多分类任务(即每个数据都有一个标签,但标签有多个类别),我们将crossentropyloss用于多分类任务lm。我们将多分类任务和对比学习任务统一到一个主-辅助学习框架中,前者是主要任务,后者是次要任务。形式上,联合学习目标定义为:
[0086]
l=lc+βlmꢀꢀ
(8)
[0087]
其中,β控制对比学习任务的重要性。
[0088]
步骤五:执行分类操作
[0089]
本步骤得到经过十层时空卷积块操作后的结果数据,数据的格式为(n
×
m,c,t,v),其中n,m,c,t,v分别代表的含义为数据的批处理大小、视频中的运动人数、通道数、帧数和节点数。对此数据进行全局平均池化,对每一个通道图中所有的像素值求平均值,得到新的通道图,以达到对数据降维的效果,再经过dropout层使网络中的部分神经元失活,得到输出为(输出通道数,分类数),最后经过全连接层进行分类,得到每个类别的分数。将三个流的对应类别的分数相加,最终分数最大的类别即为所识别的动作。
[0090]
实施例二:
[0091]
本实施例的目的是提供一种基于多通道有向图卷积的人体行为识别系统。
[0092]
一种基于多通道有向图卷积的人体行为识别系统,包括:
[0093]
数据获取单元,其用于获取待识别的人体骨架数据序列,并进行相应预处理,获得关节流、骨骼流以及运动流数据;
[0094]
有向图构建单元,其用于基于预处理的骨架数据进行有向图构建,获得人体骨架数据对应的关联矩阵;
[0095]
特征提取单元,其用于将所述关节流、骨骼流以及运动流分别输入预先训练的多通道有向图卷积模型,其中,所述多通道有向图卷积模型包括若干层顺序连接的时空卷积块,每个时空卷积块包括顺序连接的用于提取空间信息并聚合的多通道有向空间卷积模块以及用于获取时域信息的多尺度时间卷积模块,同时,除第一层外的每个时空卷积块还包括将前一时空卷积块输出数据经残差卷积处理后的特征信息与多尺度时间卷积模块的输出进行合并的处理过程;所述多通道有向空间卷积模块中,以所述关联矩阵作为所有通道的共享拓扑,通过将共享拓扑的结构作为先验知识对每个通道的拓扑进行建模;
[0096]
分类识别单元,其用于基于所述多通道有向图卷积模型输出的特征信息,利用预先设定的分类器,获得不同流所对应的各类别的分数,通过将不同流对应类别的分数相加,以分数最大的类别作为最终的人体行为识别结果。
[0097]
进一步的,本实施例所述系统的相关技术细节在实施例一中进行了详细说明,故此处不再赘述。
[0098]
在更多实施例中,还提供:
[0099]
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
[0100]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用
处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0101]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0102]
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
[0103]
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0104]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0105]
上述实施例提供的一种基于多通道有向图卷积的人体行为识别方法及系统可以实现,具有广阔的应用前景。
[0106]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于多通道有向图卷积的人体行为识别方法,其特征在于,包括:获取待识别的人体骨架数据序列,并进行相应预处理,获得关节流、骨骼流以及运动流数据;基于预处理的骨架数据进行有向图构建,获得人体骨架数据对应的关联矩阵;将所述关节流、骨骼流以及运动流分别输入预先训练的多通道有向图卷积模型,其中,所述多通道有向图卷积模型包括若干层顺序连接的时空卷积块,每个时空卷积块包括顺序连接的用于提取空间信息并聚合的多通道有向空间卷积模块以及用于获取时域信息的多尺度时间卷积模块,同时,除第一层外的每个时空卷积块还包括将前一时空卷积块输出数据经残差卷积处理后的特征信息与多尺度时间卷积模块的输出进行合并的处理过程;所述多通道有向空间卷积模块中,以所述关联矩阵作为所有通道的共享拓扑,通过将共享拓扑的结构作为先验知识对每个通道的拓扑进行建模;基于所述多通道有向图卷积模型输出的特征信息,利用预先设定的分类器,获得不同流所对应的各类别的分数,通过将不同流对应类别的分数相加,以分数最大的类别作为最终的人体行为识别结果。2.如权利要求1所述的一种基于多通道有向图卷积的人体行为识别方法,其特征在于,在每个时空卷积块中,输入数据通过多通道有向空间卷积模块,获得通道特定全局特征和局部特征,并将全局特征和局部特征融合后输入多尺度时间卷积模块,获得多尺度时间特征。3.如权利要求1所述的一种基于多通道有向图卷积的人体行为识别方法,其特征在于,所述多尺度时间模块包括并列设置的用于提取多尺度时间特征的第一分支和第二分支、用于去除序列帧中冗余信息的第三分支、用于处理当前帧特征的第四分支以及获取非局部特征的第五分支。4.如权利要求3所述的一种基于多通道有向图卷积的人体行为识别方法,其特征在于,所述多尺度时间模块中的第五分支的输出分别与其它分支的输出进行比较,利用对比学习最大化帧间的不同特征并增强特征表示。5.如权利要求1所述的一种基于多通道有向图卷积的人体行为识别方法,其特征在于,所述多通道有向空间卷积模块包括若干通道特定拓扑分支和有向边缘卷积分支,所述通道特定拓扑分支首先利用动态拓扑推断每个通道特定的拓扑结构,然后通过全局注意力图卷积非自然连接的关节进行建模,并通过更新函数提取通道上的全局特征特定的拓扑结构;所述有向边缘卷积分支通过在骨架图中构造多个局部图来聚合局部特征。6.如权利要求1所述的一种基于多通道有向图卷积的人体行为识别方法,其特征在于,所述基于预处理的骨架数据进行有向图构建,具体为:将骨骼作为有向图的边,关节作为有向图的顶点,每个有向边由靠近骨架重心的顶点指向远离骨架重心的顶点。7.如权利要求1所述的一种基于多通道有向图卷积的人体行为识别方法,其特征在于,所述预先设定的分类器采用全连接层。8.一种基于多通道有向图卷积的人体行为识别系统,其特征在于,包括:数据获取单元,其用于获取待识别的人体骨架数据序列,并进行相应预处理,获得关节流、骨骼流以及运动流数据;有向图构建单元,其用于基于预处理的骨架数据进行有向图构建,获得人体骨架数据
对应的关联矩阵;特征提取单元,其用于将所述关节流、骨骼流以及运动流分别输入预先训练的多通道有向图卷积模型,其中,所述多通道有向图卷积模型包括若干层顺序连接的时空卷积块,每个时空卷积块包括顺序连接的用于提取空间信息并聚合的多通道有向空间卷积模块以及用于获取时域信息的多尺度时间卷积模块,同时,除第一层外的每个时空卷积块还包括将前一时空卷积块输出数据经残差卷积处理后的特征信息与多尺度时间卷积模块的输出进行合并的处理过程;所述多通道有向空间卷积模块中,以所述关联矩阵作为所有通道的共享拓扑,通过将共享拓扑的结构作为先验知识对每个通道的拓扑进行建模;分类识别单元,其用于基于所述多通道有向图卷积模型输出的特征信息,利用预先设定的分类器,获得不同流所对应的各类别的分数,通过将不同流对应类别的分数相加,以分数最大的类别作为最终的人体行为识别结果。9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于多通道有向图卷积的人体行为识别方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于多通道有向图卷积的人体行为识别方法。
技术总结
本发明提供了一种基于多通道有向图卷积的人体行为识别方法及系统,包括:获取待识别的人体骨架数据序列,并进行相应预处理,获得关节流、骨骼流以及运动流数据;基于预处理的骨架数据进行有向图构建,获得人体骨架数据对应的关联矩阵;将所述关节流、骨骼流以及运动流分别输入预先训练的多通道有向图卷积模型,基于所述多通道有向图卷积模型输出的特征信息,利用预先设定的分类器,获得不同流所对应的各类别的分数,通过将不同流对应类别的分数相加,以分数最大的类别作为最终的人体行为识别结果。别结果。别结果。
技术研发人员:吕蕾 李恬晨 耿佩 侯昕冉
受保护的技术使用者:山东师范大学
技术研发日:2023.07.11
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/