一种基于改进长期循环卷积网络视频动作识别方法
未命名
08-02
阅读:76
评论:0

1.本发明涉及计算机视觉领域,是一种基于优化长期循环卷积网络(英文全称,lrcns)视频动作识别方法,用于解决视频动作识别过程中不准确的问题设计。
背景技术:
2.人体动作识别的目的是确定人体动作类别,以获取人体行为信息,被广泛应用于视频监控、生活辅助、远程医疗、机器人技术等领域。视频中的人体动作识别旨在将包含人体动作的输入视频分类到预定义的目标类别之一。目前提出了长期循环卷积网络(lrcns),这是一类用于视觉识别和描述的架构,它结合了卷积层和远程时间递归,并且是端到端可训练的。使用卷积神经网络层提取出视频的每一帧的图片特征,每一帧的视觉特征就可以作为长短期记忆网络层(英文全称,lstm)的每一个输入,再让lstm层学习这个视频段里所有帧的时序关系,以此达到动作识别的效果。
3.卷积神经网络在许多计算机视觉应用中取得了巨大的成功,特别是在图像分类方面。卷积层的设计通过有限的感受野来施加局部性和通过权值共享来施加平移等价。在设计对图像进行操作的模型时,这两个属性都被证明是至关重要的归纳偏差。然而,卷积核的局部性质阻止它捕获图像中的全局上下文,这通常是更好地识别图像中的对象所必需的。因此在lrcns网络中的卷积神经网络层部分提取特征时忽略了图像上下文特征的提取,因而导致整个视频动作识别不够准确的问题。
技术实现要素:
4.针对上述问题,本发明使用二维相对自注意力机制增强卷积算子,提出了改进的长期循环卷积网络。自注意力是一种捕获远程交互的先进技术,但主要应用于序列建模和生成建模任务。自注意力背后的关键思想是产生一个从隐藏单元计算出来的值的加权平均值。与池化或卷积算子不同,加权平均运算中使用的权重是通过隐藏单元之间的相似函数动态生成的。因此,输入信号之间的相互作用取决于信号本身,而不是像卷积那样由它们的相对位置预先确定。特别地,这使得自注意力能够在不增加参数数量的情况下捕获远程交互。此外,在自注意力中注入二维位置相对编码而保持处理视频帧时的平移等价性。该方法通过在lrcns中卷积运算时注入相对位置信息的同时保持平移等价的二维相对自注意力机制增强卷积算子使卷积提取特征时可以关注到局部特征和全局上下文从而提高整个模型对于视频动作识别的精度。
5.发明目的:通过在lrcns中卷积运算时结合自注意力机制使得在模型卷积层提取特征时关注到局部特征和全局上下文,同时在自注意力机制时嵌入二维相对位置编码来保持对视频帧的识别时的平移等价性从而提高整个模型对于视频动作识别的精度。
6.本发明的技术方案为:一种基于改进长期循环卷积网络视频动作识别方法,包括以下步骤:
7.步骤1,使用单头自注意力机制计算一个视频帧的加权平均值。
8.步骤2,在单头自注意力机制中嵌入二维相对位置编码。
9.步骤3,将多个单头注意力拼接形成多头注意力计算一个视频帧的特征映射结果。
10.步骤4,将嵌入相对位置信息的同时保持平移等价的二维相对自注意力机制增强卷积算子使卷积特征图和自注意力产生的特征图结果拼接使模型最终在卷积运算时可以关注到局部特征和全局上下文。
11.1、首先,定义如下命名规则:h,w,f
in
表示激活映射的输入过滤器的高度,宽度,数量。nh,dv,dk分别表示多头注意中的头数,值深度,查询深度和键深度。假设nh将dv和dk平均分割,并将表示每个注意头的值,查询和键的深度。步骤1中假设给定一个形状的张量(h,w,f
in
)(方便起见省略批处理维度),将其拉平为一个的矩阵,并执行transformer中的多头注意力。单头自注意力的输出表示为:
[0012][0013]
是可学习的线性变换,将输入x映射到查询q=xwq,键k=xwk,值v=xwv,以此得到一个视频帧通过单头自注意力计算出的加权平均值。多头注意力允许模型联合关注来自不同位置的不同表示子空间的信息。
[0014]
2、其次,步骤1如果不使用位置信息,那将导致自注意力得排列是等价的,对于诸如图像这种高度结构化数据得建模是无效的。已经提出的引入正弦波扩展位置信息和将位置通道连接到激活映射的coordconv,但是这些位置编码对于图像分类和目标检测没有帮助,可能的原因是这些位置编码虽然不是排列等变的,但是不满足平移等变。平移等变是处理图像时所必须的特性。为此,通过独立的添加相关高度信息和相关宽度信息二维相对位置编码嵌入步骤1的单头自注意力中的表达式:
[0015][0016]
是沿高度和宽度维度的相对逻辑矩阵,满足是沿高度和宽度维度的相对逻辑矩阵,满足qi是q矩阵的第i行,和分别是相关高度j
y-iy和相关宽度j
x-i
x
的学习嵌入。像素i=(i
x
,iy)对像素j=(j
x
,jy)的注意力逻辑表达式:
[0017][0018]
kj是k矩阵的第j行。相对位置嵌入rh和rw是在头之间学习和共享的,而不是在层之间。
[0019]
3、再者,步骤3将步骤2所有头的输出进行拼接投影得到结果如下:
[0020]
mha(x)=concat[o1,
…
,o
nh
]wo[0021]
是可学习的参数,o1,...,o
nh
是第一个单头自注意力计算结果到第nh个单头自注意力计算结果,mha(x)被重塑为(h,w,dv)的形状张量,以匹配原始的空间维度。即通过求得多个单头自注意力的输出,对它们的结果进行拼接后再通过一个可学习的线性变换wo得到最后的视频帧特征映射结果。
[0022]
4、最后,步骤4通过步骤3和卷积得到的特征形成终的增强卷积表达式如下:
[0023]
aacon(x)=concat[conv(x),mha(x)]
[0024]
aaconv(x)是对输入张量x进行卷积得到的视频帧的特征映射结果和步骤3中的mha(x)进行拼接得到的视频帧的特征映射结果。对于每个空间位置(h,w),通过查询和键计算图像上的nh(多头注意力的头的个数)个注意图。这些注意图用于计算值v的nh加权平均值。然后将结果连接起来,重新塑造以匹配原始体积的空间维度,并与点式卷积混合。多头注意并行应用于标准卷积运算,输出连接。
[0025]
有益效果:相较于目前流行的长期循环卷积网络,本发明在网络的卷积部分结合多头自注意力,能够捕获远程交互,最后和卷积特征进行拼接,使在模型卷积运算时可以关注到局部特征和全局上下文从而提高模型对视频动作识别的准确率。
附图说明
[0026]
图1为本发明优化后的lrcns模型流程图。
[0027]
图2为本发明的自注意力增强卷积架构。
[0028]
图3为本发明第l层lrcns的改进模型。
具体实施方式
[0029]
下面结合附图对本发明作进一步的说明。
[0030]
本发明所述的基于自注意力增强卷积优化的长期循环卷积网络的动作识别方法技术思路如下:
[0031]
lrcns使用卷积神经网络层提取出视频的每一帧的图片特征,每一帧的视觉特征就可以作为长短期记忆网络层(英文全称,lstm)的每一个输入,再让lstm层学习这个视频段里所有帧的时序关系,以此达到动作识别的效果。然而,卷积核的局部性质阻止它捕获图像中的全局上下文,这通常是更好地识别图像中的对象所必需的。因此在lrcns网络中的卷积神经网络层部分嵌入相对位置信息的同时保持平移等价的二维相对自注意力机制增强卷积算子使卷积特征图和自注意力产生的特征图结果拼接使模型最终在卷积运算时可以关注到局部特征和全局上下文。
[0032]
如图1所示,本发明所述的基于自注意力增强卷积优化的长期循环卷积网络的动作识别方法,具体过程如下:
[0033]
步骤1,使用单头自注意力机制计算一个视频帧的加权平均值。
[0034]
步骤2,在单头自注意力机制中嵌入二维相对位置编码。
[0035]
步骤3,将多个单头注意力拼接形成多头注意力计算一个视频帧的特征映射结果。
[0036]
步骤4,将嵌入相对位置信息的同时保持平移等价的二维相对自注意力机制增强卷积算子使卷积特征图和自注意力产生的特征图结果拼接使模型最终在卷积运算时可以关注到局部特征和全局上下文。
[0037]
1、首先,定义如下命名规则:h,w,f
in
表示激活映射的输入过滤器的高度,宽度,数
量。nh,dv,dk分别表示多头注意中的头数,值深度,查询深度和键深度。假设nh将dv和dk平均分割,并将表示每个注意头的值,查询和键的深度。步骤1中假设给定一个形状的张量(h,w,f
in
)(方便起见省略批处理维度),将其拉平为一个的矩阵,并执行transformer中的多头注意力。单头自注意力的输出表示为:
[0038][0039]
是可学习的线性变换,将输入x映射到查询q=xwq,键k=xwk,值v=xwv,以此得到一个视频帧通过单头自注意力计算出的加权平均值。多头注意力允许模型联合关注来自不同位置的不同表示子空间的信息。
[0040]
2、其次,步骤1如果不使用位置信息,那将导致自注意力得排列是等价的,对于诸如图像这种高度结构化数据得建模是无效的。已经提出的引入正弦波扩展位置信息和将位置通道连接到激活映射的coordconv,但是这些位置编码对于图像分类和目标检测没有帮助,可能的原因是这些位置编码虽然不是排列等变的,但是不满足平移等变。平移等变是处理图像时所必须的特性。为此,通过独立的添加相关高度信息和相关宽度信息二维相对位置编码嵌入步骤1的单头自注意力中的表达式:
[0041][0042]
是沿高度和宽度维度的相对逻辑矩阵,满足是沿高度和宽度维度的相对逻辑矩阵,满足qi是q矩阵的第i行,和分别是相关高度j
y-iy和相关宽度j
x-i
x
的学习嵌入。像素i=(i
x
,iy)对像素j=(j
x
,jy)的注意力逻辑表达式:
[0043][0044]
kj是k矩阵的第j行。相对位置嵌入rh和rw是在头之间学习和共享的,而不是在层之间。
[0045]
3、再者,步骤3将步骤2所有头的输出进行拼接投影得到结果如下:
[0046]
mha(x)=concat[o1,
…
,o
nh
]wo[0047]
是可学习的参数,是第一个单头自注意力计算结果到第nh个单头自注意力计算结果,mha(x)被重塑为(h,w,dv)的形状张量,以匹配原始的空间维度。即通过求得多个单头自注意力的输出,对它们的结果进行拼接后再通过一个可学习的线性变换wo得到最后的视频帧特征映射结果。
[0048]
4、最后,步骤4通过步骤3和卷积得到的特征形成终的增强卷积表达式如下:
[0049]
aacon(x)=concat[conv(x),mha(x)]
[0050]
aaconv(x)是对输入张量x进行卷积得到的视频帧的特征映射结果和步骤3中的
mha(x)进行拼接得到的视频帧的特征映射结果。对于每个空间位置(h,w),通过查询和键计算图像上的nh(多头注意力的头的个数)个注意图。这些注意图用于计算值v的nh加权平均值。然后将结果连接起来,重新塑造以匹配原始体积的空间维度,并与点式卷积混合。多头注意并行应用于标准卷积运算,输出连接。
[0051]
其中,嵌入相对位置信息的同时保持平移等价的二维相对自注意力机制增强卷积算子使卷积特征图和自注意力产生的特征图结果拼接的结构如图2所示,最终的提取特征的结果可以关注到局部特征和全局上下文。
[0052]
优化后的lrcns的第l层网络架构如图3所示。输入一帧视频,经过alexnet前五层,其中每层卷积使用卷积运算捕获局部特征,自注意力捕获图像的全局上下文,再将卷积特征图和自注意力产生的特征图结果拼接送入alexnet全连接的fc6层,再经过长短期网络提取时间特征,为了对整个视频剪辑进行单个标签预测,最后对所有帧的标签概率(网络的softmax层的输出)进行平均,并选择最可能的标签。
技术特征:
1.一种基于改进长期循环卷积网络视频动作识别方法,其特征在于,包括以下步骤:步骤1,使用单头自注意力机制计算一个视频帧的加权平均值;步骤2,在单头自注意力机制中嵌入二维相对位置编码;步骤3,将多个单头注意力拼接形成多头注意力计算一个视频帧的特征映射结果;步骤4,将嵌入相对位置信息的同时保持平移等价的二维相对自注意力机制增强卷积算子使卷积特征图和自注意力产生的特征图结果拼接使模型最终在卷积运算时可以关注到局部特征和全局上下文。2.根据权利要求1所述的一种基于改进长期循环卷积网络视频动作识别方法,其特征在于,步骤1的具体过程为:定义如下命名规则:h,w,f
in
表示激活映射的输入过滤器的高度,宽度,数量;n
h
,d
v
,d
k
分别表示多头注意中的头数,值深度,查询深度和键深度;假设n
h
将d
v
和d
k
平均分割,并将表示每个注意头的值,查询和键的深度;假设给定一个形状的视频帧张量(h,w,f
in
),将其拉平为一个的矩阵,并执行transformer中的多头注意力,单头自注意力的输出表示为:行transformer中的多头注意力,单头自注意力的输出表示为:是可学习的线性变换,将输入x映射到查询q=xw
q
,键k=xw
k
,值v=xw
v
,以此得到一个视频帧通过单头自注意力计算出的加权平均值,多头注意力允许模型联合关注来自不同位置的不同表示子空间的信息。3.根据权利要求1所述的一种基于改进长期循环卷积网络视频动作识别方法,其特征在于,步骤2的具体过程为:如果不使用位置信息,那将导致自注意力得排列是等价的,对于诸如图像这种高度结构化数据得建模是无效的,已经提出的引入正弦波扩展位置信息和将位置通道连接到激活映射的coordconv,但是这些位置编码对于图像分类和目标检测没有帮助,可能的原因是这些位置编码虽然不是排列等变的,但是不满足平移等变;平移等变是处理图像时所必须的特性;为此,通过独立的添加相关高度信息和相关宽度信息二维相对位置编码嵌入步骤1的单头自注意力中的表达式:单头自注意力中的表达式:是沿高度和宽度维度的相对逻辑矩阵,满足是沿高度和宽度维度的相对逻辑矩阵,满足q
i
是q矩阵的第i行,和分别是相关高度j
y-i
y
和相关宽度j
x-i
x
的学习嵌入,像素i=(i
x
,i
y
)对像素j=(j
x
,j
y
)的注意力逻辑表达式:
k
j
是k矩阵的第j行,相对位置嵌入r
h
和r
w
是在头之间学习和共享的,而不是在层之间。4.根据权利要求1所述的一种基于改进长期循环卷积网络视频动作识别方法,其特征在于,步骤3具体过程为:将步骤1所有头的输出进行拼接投影得到结果如下:将步骤1所有头的输出进行拼接投影得到结果如下:是可学习的线性变换,是第一个单头自注意力计算结果到第n
h
个单头自注意力计算结果,mha(x)被重塑为(h,w,d
v
)的形状张量,以匹配原始的空间维度,即通过求得多个单头自注意力的输出,对它们的结果进行拼接后再通过一个可学习的线性变换w
o
得到最后的视频帧特征映射结果。5.根据权利要求1所述的一种基于改进长期循环卷积网络视频动作识别方法,其特征在于,步骤4的具体过程为:通过步骤3和卷积得到的特征形成终的增强卷积表达式如下:aacon(x)=concat[conv(x),mha(x)]aaconv(x)是对输入张量x进行卷积得到的视频帧的特征映射结果和步骤3中的mha(x)进行拼接得到的视频帧的特征映射结果,对于每个空间位置(h,w),通过查询和键计算图像上的n
h
(多头注意力的头的个数)个注意图;这些注意图用于计算值v的n
h
加权平均值;然后将结果连接起来,重新塑造以匹配原始体积的空间维度,并与点式卷积混合,多头注意并行应用于标准卷积运算,输出连接。
技术总结
本发明公开了一种基于改进长期循环卷积网络视频动作识别方法,包括以下步骤:步骤1,使用单头自注意力机制计算一个视频帧的加权平均值。步骤2,在单头自注意力机制中嵌入二维相对位置编码。步骤3,将多个单头注意力拼接形成多头注意力计算一个视频帧的特征映射结果。步骤4,将嵌入相对位置信息的同时保持平移等价的二维相对自注意力机制增强卷积算子使卷积特征图和自注意力产生的特征图结果拼接使模型最终在卷积运算时可以关注到局部特征和全局上下文。相较于目前流行的长期循环卷积网络,本发明在网络的卷积部分结合多头自注意力,使在模型卷积运算时可以关注到局部特征和全局上下文从而提高模型对视频动作识别的准确率。确率。确率。
技术研发人员:刘一松 蔡凯祥 高含露 李远祥
受保护的技术使用者:江苏大学
技术研发日:2023.05.06
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种智慧农业地质监测设备的制作方法 下一篇:一种护膝护肘连体抢险救援服的制作方法