嵌入双重注意力机制的深度学习视频微小运动放大方法

未命名 10-08 阅读:90 评论:0


1.本发明属于微小运动放大技术领域,涉及一种嵌入双重注意力机制的深度学习视频微小运动放大方法。


背景技术:

2.由于视觉的局限性,使得人类裸眼很难感知动作幅度微小的运动。视频运动放大技术允许人们感知肉眼看不见的微小运动,不仅可应用于模式匹配和边缘检测等工程监测上,还广泛应用于微表情识别、视频伪造判别、建筑、医疗非接触式心率测量等领域。
3.现有的视频运动放大方法主要分为三类:
4.1)拉格朗日放大:该类方法通过跟踪特征点的运动轨迹,将每个特征点的运动划分为不同的运动层,然后手动选择某个运动层进行放大。该思想易于理解但此方法计算量大,时间复杂度高。
5.2)欧拉放大:该类方法将视频中每个像素看作一个独立的时间序列信号,利用带通滤波器从中分离出感兴趣的频域信号,并将其放大。该方法虽较好地放大了微弱的运动,但其太依赖于手动选择的过滤器,生成的图像容易产生伪影和噪声。
6.3)学习放大,该类方法利用深度学习端到端地进行运动放大,不需要手动选择过滤器。其在放大系数、运动状态较小时效果较好,但当放大系数较大时,则会导致视频帧亮度、色彩和纹理的失真。


技术实现要素:

7.本发明基于坐标注意力机制将位置信息引入通道注意力特征图,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示等特点先将视频a输入嵌入坐标注意力机制的编码器网络增强特征提取,再将获得的特征图经过嵌入有自注意力机制的放大器网络以捕获前后帧形状差异特征的全局上下文信息,有效消减了视频帧伪影、噪声和细节轮廓变形等问题。最后将得到的特征图输入到解码器网络结构中进行解码操作,最终得到放大后的视频结果b。
8.本发明包括如下步骤:
9.步骤1.读取要处理的视频,记为视频a;
10.步骤2.将视频a输入嵌入坐标注意力机制的编码器,将位置信息引入通道注意力特征图,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示,减少放大视频帧的亮度、色彩和纹理的失真;
11.嵌入坐标注意力机制的编码器具体为:
12.在编码器纹理特征提取部分融合坐标注意力机制模块ca,将位置信息嵌入到通道注意力中,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示。ca模块流程为:输入纹理特征ti,(i∈{a,b}),分两次同时进行ap池化操作后进行c融合操作,再进行cb卷积操作,接着进行bn标准化操作,再分两次同
时进行cb卷积操作和sigmod激活操作,接着进行re重新调整注意力权重。
13.为了使纹理特征和形状特征更好地分离,与扰动后的帧的纹理特征相同,将干扰的帧ic和真实放大帧im也利用编码器进行特征提取,其形状特征sc、sm和纹理特征用来损失函数的计算,最终输出形状特征si,(i∈{a,b,c,m})和纹理特征t
i*
,i∈{a,b,c,m};
14.纹理特征t
i*
=h(g1(f(ii)))*(g1(f(ii)));形状特征si=g2(f(ii));
15.其中ii,i∈{a,b,c,m}分别表示输入前一帧ia、后一帧ib、干扰帧ic、真实放大帧im;t
i*
,i∈{a,b,c,m}分别表示前一帧、后一帧、干扰帧、真实放大帧图像改进后提取的纹理特征;f(ii)表示经过两个卷积块和三个残差块后提取的特征,g1(.)表示经过一个卷积块下采样和两个残差块后的纹理特征输出;h(.)表示经过坐标注意力机制后生成的纹理空间选择性注意力图;g2(.)表示经过一个卷积块和两个残差块后的形状特征。
16.步骤3.对步骤2所获的特征图输入嵌入有自注意力机制的放大器,捕获前后帧形状差异特征的全局上下文信息,消减视频帧伪影、噪声和细节轮廓变形;
17.具体为:在非线性放大器中嵌入了自注意力机制模块sa,在提取了形状特征差异后,添加放大因子对其进行权值叠加,最后与前一帧的形状特征进行叠加。
18.放大后的形状特征
19.其中g3(.)表示形状特征差异经过卷积块后的输出;h2(.)表示自注意力图;α表示放大系数;h1(.)表示经过卷积块和残差块后放大的形状特征差异,使放大过程呈现非线性状态。
20.步骤4.对步骤3得到的特征图输入解码器网络结构中进行解码操作,最终得到放大后的视频结果b。
21.本发明在编码器和放大器中加入双重注意力机制,以解决在放大倍数过大的情况下容易出现轮廓变形、颜色丢失、伪影等问题。将坐标注意力机制嵌入到深度网络的编码器中,在通道注意力特征图中加入位置信息,在此基础上,获取移动目标的远程依赖关系和准确位置,通过将二者互补的分析利用,实现对纹理特征的提取,提高移动物体的纹理特征表达能力,从而很好的降低视频图像帧的亮度,颜色和纹理的畸变。同时将自注意力机制加入到放大器中,获取前、后帧形态差别的整体背景信息,能有效减少图像中的假象,噪声和边缘畸变。通过在真实环境中采集的视频进行的试验显示,与已有的技术相比,该技术在对运动放大处理后的视频进行主观性观察和客观评估时,表现出更好的效果。
附图说明
22.图1为本发明整体框架图;
23.图2为图1编码器中嵌入的坐标注意力机制模块框架图;
24.图3为图1放大器中嵌入的自注意力机制模块框架图
25.图1和图2中,
“‑”
表示减运算,“+”表示加运算,
“×”
表示乘运算,“z”表示放大因子,“cb”表示卷积块,“rb”表示残差块,
“↑”
表示上采样,“c”表示融合,“ca”表示坐标注意力机制模块,“sa”表示自注意力机制模块,“ap”表示池化,“bn”表示标准化,“s”表示sigmoid激活,“re”表示重新调整注意力权重;
26.图4为实施例中采用不同方法对喉咙视频进行放大的实验结果对比图;
27.图5为实施例中采用不同方法对婴儿视频进行放大的实验结果对比图;
28.图6为实施例中采用不同方法对相机视频进行不同倍数放大后局部区域的实验结果对比图;
29.图7为实施例中采用不同方法对手腕视频进行不同倍数放大后局部区域的实验结果对比图;
30.图8为实施例中采用不同方法对婴儿视频放大80倍实验结果的切片对比图;
31.图9为实施例中采用不同方法对喉咙视频放大80倍实验结果的切片对比图;
32.图10为采用学习放大和本发明方法对阴影和地铁视频放大100倍的实验结果对比;
33.图11为实施例中全局区域、运动区域、背景区域的分区示意图。
具体实施方式
34.以下结合附图对本发明进行进一步的描述。
35.如图1所示,嵌入双重注意力机制的深度学习视频微小运动放大方法,具体包括如下步骤:
36.步骤1.读取要处理的视频,记为视频a;
37.步骤2.将视频a输入嵌入坐标注意力机制的编码器网络部分,将位置信息引入通道注意力特征图,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示;
38.嵌入坐标注意力机制的编码器具体为:
39.在编码器纹理特征提取部分融合坐标注意力机制模块ca,将位置信息嵌入到通道注意力中,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示,从而有效减少放大视频帧的亮度、色彩和纹理的失真。
40.如图2所示,ca模块流程为:输入纹理特征ti,(i∈{a,b}),分两次同时进行ap池化操作后进行c融合操作,再进行cb卷积操作,接着进行bn标准化操作,再分两次同时进行cb卷积操作和sigmod激活操作,接着进行re重新调整注意力权重。
41.同时,为了使纹理特征和形状特征更好地分离,与扰动后的帧的纹理特征相同,将干扰的帧ic和真实放大帧im也利用该编码器进行特征提取,其sc、sm和用来损失函数的计算,最终输出形状特征si,(i∈{a,b,c,m})和纹理特征t
i*
,i∈{a,b,c,m};
42.纹理特征t
i*
=h(g1(f(ii)))*(g1(f(ii)));形状特征si=g2(f(ii));
43.其中ii,i∈{a,b,c,m}分别表示输入前一帧、后一帧、干扰帧、真实放大帧;t
i*
,i∈{a,b,c,m}分别表示前一帧、后一帧、干扰帧、真实放大帧图像改进后提取的纹理特征;f(ii)表示经过两个卷积块和三个残差块后提取的特征,g1(.)表示经过一个卷积块下采样和两个残差块后的纹理特征输出;h(.)表示经过坐标注意力机制后生成的纹理空间选择性注意力图;g2(.)表示经过一个卷积块和两个残差块后的形状特征。
44.步骤3.对步骤2所获的特征图输入嵌入有自注意力机制的放大器部分,捕获前后帧形状差异特征的全局上下文信息,有效消减视频帧伪影、噪声和细节轮廓变形等问题;
45.为了模拟欧拉放大中的带通滤波器功能,同时捕获前后帧形状差异特征的全局上下文信息,具体为:
46.在非线性放大器中嵌入了如图3所示的自注意力机制模块sa,有效地消减了视频帧伪影、噪声和细节轮廓变形等问题。在提取了形状特征差异后,添加放大因子对其进行权值叠加,最后与前一帧的形状特征进行叠加。
47.放大后的形状特征
48.其中g3(.)表示形状特征差异x经过卷积块后的输出;h2(.)表示自注意力图;α表示放大系数;h1(.)表示经过卷积块和残差块后放大的形状特征差异,可以使放大过程呈现非线性状态。
49.步骤4.对步骤3得到的特征图输入解码器网络结构中进行解码操作,最终得到放大后的视频结果b。
50.为了客观的检验本发明的方法,本实施例中选取了多个微小运动数据集如:婴儿视频、相机视频、手腕视频和喉咙视频,对微小运动放大后的视频进行定性比较和定量比较,所有视频是在真实环境中采集得到的。
51.实验对比如下:
52.如图4和5所示,将喉咙和婴儿视频放大100倍,欧拉放大在生成视频最后一帧时,放大运动的同时也严重放大了噪声。学习放大会导致婴儿床边缘信息、脸部、脚部等纹理以及锁骨轮廓细节特征丢失严重。自编码放大的方法虽相比于学习放大,在保留婴儿脸部、脚部以及锁骨轮廓等细节特征时有所改善,但婴儿床边缘仍然严重变形。本发明方法相较于其他现有方法而言,可以较好地保留婴儿的脸部、脚部以及锁骨床边缘的细节特征,同时减少床边缘轮廓变形问题。在较高的放大系数下,也能有较好的放大效果,有效地消减视频帧噪声、细节轮廓变形以及色彩、纹理细节丢失等问题。
53.如图6和图7所示,将相机和手腕视频分别放大30倍、50倍、80倍,学习放大在放大相机视频时,地板纹路已经模糊不清,背景纹理信息丢失严重,并且随着放大因子的增加,细节丢失越来越严重。在放大手腕视频时,人手臂局部位置产生了不同程度上的凹陷变形。本发明方法相较于学习放大而言,在较高放大倍数下改善了生成的相机视频图像背景
54.如图8和9所示,将婴儿和喉咙视频放大80倍,在放大倍数较大时,欧拉方法在放大运动时的同时也放大了噪声,产生严重的震铃伪影和模糊,学习放大和自编码放大相较于欧拉放大,虽然减少了一些模糊,但还是存在震铃伪影,而本发明方法在较好地放大感兴趣区域的运动同时,减少了震铃伪影和模糊。
55.本实施例中在阴影和地铁等视频上做了补充试验:
56.如图10所示。在放大为100倍时,本发明方法改善了阴影视频的树枝伪影。在放大地铁视频时,由于部分视频帧运动幅度比较大,导致放大后的部分视频帧严重变形,但是本发明方法依然具有一定的改善。
57.选用最常用的视频质量评价方法psnr和ssim作为定量实验的评价指标,计算视频原始帧和放大后的视频帧之间的psnr和ssim值:
[0058][0059]
[0060][0061]
c1=(k1l)2,c2=(k2l)2。
[0062]
其中x,y分别表示原始帧和放大帧;mse表示原始帧和放大帧的均方误差;psnr表示平均峰值信噪比,与mse成反比,放大视频帧的质量越好,mse越小,psnr则越大,表明参与计算的两幅图像差异越小;μi,i∈x,y表示对应帧的均值;δi,i∈x,y表示对应帧的方差;δ
xy
表示原始帧和放大帧的协方差;ssim表示结构相似度,其值介于0到1之间,且越接近1表示原始帧和放大视频帧越接近。
[0063]
但这一评价方法显然与微小运动放大本身存在一定不匹配问题:放大视频帧的运动部分和原始帧相差较大,直接计算全局的psnr和ssim值时,会同时计算了差异较大的运动部分,从而使得计算的psnr和ssim值不准确,且偏低。由于运动区域的上述指标难以反映放大方法的性能,为此本实施例中计算了如图11所示三类区域的psnr和ssim值,分别为放大后视频帧与原始帧的全局区域、运动区域、背景区域。
[0064]
在不同放大倍数时的视频质量客观评价计算结果如表1所示:
[0065]
表1
[0066][0067]
根据表1可知:运动部分的psnr和ssim值要比全局部分的低,而背景部分的psnr和ssim值比全局部分的高。放大倍数越大,运动区域的上述性能指标值越低。因此,后续本发明采取只计算视频中背景部分(去除运动部分后)的原始帧与放大后的视频帧的psnr和ssim值(运动区域的评价主要采用上节的定性评价)。
[0068]
对婴儿和喉咙两个现有常规视频分别进行实验,实验结果如表2所示:
[0069]
表2
[0070][0071]
尤其在放大20倍及以上时,本发明方法要明显优于现有方法,在运动放大处理后视频的主观视觉及客观评价中有较好的性能,减少了放大后视频帧的振铃伪影和模糊。

技术特征:
1.嵌入双重注意力机制的深度学习视频微小运动放大方法,其特征在于:具体包括如下步骤:步骤1.读取要处理的视频,记为视频a;步骤2.将视频a输入嵌入坐标注意力机制的编码器,将位置信息引入通道注意力特征图,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示,减少放大视频帧的亮度、色彩和纹理的失真;步骤3.对步骤2所获的特征图输入嵌入有自注意力机制的放大器,捕获前后帧形状差异特征的全局上下文信息,消减视频帧伪影、噪声和细节轮廓变形;步骤4.对步骤3得到的特征图输入解码器网络结构中进行解码操作,最终得到放大后的视频结果b。2.如权利要求1所述的嵌入双重注意力机制的深度学习视频微小运动放大方法,其特征在于:所述步骤2中嵌入坐标注意力机制的编码器具体为:在编码器纹理特征提取部分融合坐标注意力机制模块ca,将位置信息嵌入到通道注意力中,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示;ca模块流程为:输入纹理特征t
i
,(i∈{a,b}),分两次同时进行ap池化操作后进行c融合操作,再进行cb卷积操作,接着进行bn标准化操作,再分两次同时进行cb卷积操作和sigmod激活操作,接着进行re重新调整注意力权重;为了使纹理特征和形状特征更好地分离,与扰动后的帧的纹理特征相同,将干扰的帧i
c
和真实放大帧i
m
也利用编码器进行特征提取,其形状特征s
c
、s
m
和纹理特征用来损失函数的计算,最终输出形状特征s
i
,(i∈{a,b,c,m})和纹理特征t
i*
,i∈{a,b,c,m};纹理特征t
i*
=h(g1(f(i
i
)))*(g1(f(i
i
)));形状特征s
i
=g2(f(i
i
));其中i
i
,i∈{a,b,c,m}分别表示输入前一帧i
a
、后一帧i
b
、干扰帧i
c
、真实放大帧i
m
;t
i*
,i∈{a,b,c,m}分别表示前一帧、后一帧、干扰帧、真实放大帧图像改进后提取的纹理特征;f(i
i
)表示经过两个卷积块和三个残差块后提取的特征,g1(.)表示经过一个卷积块下采样和两个残差块后的纹理特征输出;h(.)表示经过坐标注意力机制后生成的纹理空间选择性注意力图;g2(.)表示经过一个卷积块和两个残差块后的形状特征。3.如权利要求1所述的嵌入双重注意力机制的深度学习视频微小运动放大方法,其特征在于:所述步骤3在非线性放大器中嵌入了自注意力机制模块sa,在提取了形状特征差异后,添加放大因子对其进行权值叠加,最后与前一帧的形状特征进行叠加;放大后的形状特征其中g3(.)表示形状特征差异经过卷积块后的输出;h2(.)表示自注意力图;α表示放大系数;h1(.)表示经过卷积块和残差块后放大的形状特征差异,使放大过程呈现非线性状态。

技术总结
本发明涉及嵌入双重注意力机制的深度学习视频微小运动放大方法。本发明在深度网络的编码器部分加入了坐标注意力机制,把位置信息引入通道注意力特征图,捕获运动目标的远程依赖关系和精确的位置信息,并互补地用于纹理特征提取,增强运动对象纹理特征表示,从而有效减少放大视频的亮度、色彩和纹理的失真;同时在放大器部分嵌入自注意力机制,捕获前后帧形状差异特征的全局上下文信息,有效消减视频帧伪影、噪声和细节轮廓变形等问题。测试结果表明,本发明在运动放大处理后视频的主观视觉及客观评价中有较好的性能,减少了放大后视频帧的振铃伪影和模糊。的振铃伪影和模糊。的振铃伪影和模糊。


技术研发人员:孙水发 郭媛 程铭 王奔 丁丹丹 但志平 崔文超
受保护的技术使用者:三峡大学
技术研发日:2023.06.15
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐