基于边缘信息和多尺度交叉融合网络的帧插入方法及系统

未命名 10-21 阅读:49 评论:0


1.本发明属于计算机视觉技术领域,尤其涉及一种基于边缘信息和多尺度交叉融合网络的帧插入方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.视频帧插值是一种在两个连续输入帧之间合成一个或多个原本不存在的中间帧以提高视频的平滑度和清晰度的技术。作为视频处理领域的研究热点,它被广泛应用于动画制作、高质量慢动作效果的生成、视频帧率转换、新视角合成等领域。尽管对视频帧插值技术有很多研究,但在处理包含复杂运动和遮挡的场景时仍然存在许多挑战。例如,当视频中出现快速移动的对象、遮挡、模糊和其他情况时,传统方法通常会产生不自然的伪影或失真。
4.近年来,随着深度学习技术和计算硬件的发展,出现了许多新的基于学习的vfi方法,它们使用深度神经网络来实现视频帧插值。这些方法通常分为三类:基于流的方法、基于核的方法以及两者相结合的方法。
5.基于流的方法的核心思想是使用连续帧中对应实体之间的运动信息来估计中间帧中实体的位置和形状。然而,该方法通常需要估计两个输入帧之间的光流,这是一项计算密集且不准确的任务,当光流估计不准确时,它们无法准确处理复杂的运动和遮挡,导致插值结果差强人意。而且它往往无法实现实时或高分辨率的性能,这限制了它在视频增强和应用中的潜力。
6.基于核的方法通过对每个输出像素周围的局部补丁执行卷积运算来合成中间帧。然而,它仅限于处理小于内核大小的运动。当运动幅度超过卷积核大小时,它无法有效处理大型运动场景,从而导致产生的结果中出现模糊和失真现象。此外,仅依赖局部信息进行帧插值的基于内核的方法可能会忽略全局上下文和时空相关性,从而导致不自然的插值结果。


技术实现要素:

7.为克服上述现有技术的不足,本发明提供了一种基于边缘信息和多尺度交叉融合网络的帧插入方法及系统。
8.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
9.本发明第一方面提供了一种基于边缘信息和多尺度交叉融合网络的帧插入方法,包括:
10.获取待插值视频的连续的两帧图像,对获取的连续的两帧图像进行裁剪和尺度变换,得到裁剪后的原尺度图像以及尺度变换后的图像;
11.将原尺度图像输入至特征提取器中进行特征提取,利用基于边缘信息的特征增强
模块对提取得到的特征进行增强,得到增强后的特征;
12.对增强后的特征进行尺度变换后,分别对增强后特征以及尺度变换后的特征进行像素级参数提取,接着使用自适应流协作根据提取的像素级参数对裁剪后的原尺度图像以及尺度变换后的图像进行帧扭曲操作,得到三个尺度的扭曲帧;
13.将三个尺度的扭曲帧输入至多尺度交叉融合网络中以合成插值帧;
14.所述特征提取器基于u-net架构设计,包括:编码器、解码器和卷积块注意模块;所述编码器和解码器之间通过卷积块注意模块连接;所述编码器和解码器分别用于提取原尺度图像的不同分辨率的编码特征和解码特征;所述卷积块注意模块用于级联相同维度的编码特征和解码特征;
15.所述利用基于边缘信息的特征增强模块对提取得到的特征进行增强,包括:利用基于边缘信息的特征增强模块将所述编码器提取的编码特征合成边缘特征,然后将边缘特征分别与所述解码器提取的不同维度的解码特征进行融合,得到多个初步增强的特征图;最后将多个初步增强的特征图进行拼接及卷积后获得最终的增强后的特征。
16.本发明第二方面提供了一种基于边缘信息和多尺度交叉融合网络的帧插入系统,包括:
17.图像获取模块,被配置为:获取待插值视频的连续的两帧图像,对获取的连续的两帧图像进行裁剪和尺度变换,得到裁剪后的原尺度图像以及尺度变换后的图像;
18.特征增强模块,被配置为:将原尺度图像输入至特征提取器中进行特征提取,利用基于边缘信息的特征增强模块对提取得到的特征进行增强,得到增强后的特征图;
19.所述特征提取器基于u-net架构设计,包括:编码器、解码器和卷积块注意模块;所述编码器和解码器之间通过卷积块注意模块连接;所述编码器和解码器分别用于提取原尺度图像的不同分辨率的编码特征和解码特征;所述卷积块注意模块用于级联相同维度的编码特征和解码特征;
20.所述利用基于边缘信息的特征增强模块对提取得到的特征进行增强,包括:利用基于边缘信息的特征增强模块将所述编码器提取的编码特征合成边缘特征,然后将边缘特征分别与所述解码器提取的不同维度的解码特征进行融合,得到多个初步增强的特征图;最后将多个初步增强的特征图进行拼接及卷积后获得最终的增强后的特征图;
21.帧扭曲模块,被配置为:对增强后的特征进行尺度变换后,分别对增强后特征以及尺度变换后的特征进行像素级参数提取,接着使用自适应流协作根据提取的像素级参数对裁剪后的原尺度图像以及尺度变换后的图像进行帧扭曲操作,得到三个尺度的扭曲帧;
22.插值帧合成模块,被配置为:将三个尺度的扭曲帧输入至多尺度交叉融合网络中以合成插值帧。
23.本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法中的步骤。
24.本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法中的步骤。
25.以上一个或多个技术方案存在以下有益效果:
26.(1)本发明给定两个连续的帧i0和i1作为输入,该方法用于生成不存在的中间帧i
t
以提高视频的流畅度和清晰度,其中0《t《1。为了提高系统的性能并最大限度地减少信息损失,以u-net架构为基础构建视频帧插入系统的整体框架,并在u-net架构中使用卷积块注意模块(cbam)来代替传统的跳跃连接,以建立编码器和解码器之间的关系。
27.(2)为了进一步增强特征,本发明提出基于边缘信息的特征增强模块,该模块使用编码特征合成边缘特征,并将其与不同维度的解码特征融合以进行特征增强。将增强特征沿通道维度进行拼接并执行一次卷积操作得到最终增强特征,后续三组子网络以此估计图像参数,然后使用自适应流协作(adacof)完成三个尺度输入帧的扭曲操作。最后将三个尺度的扭曲帧输入到本发明提出的多尺度交叉融合网络的不同分支中以合成高质量的插值结果。
28.(3)本发明将基于边缘信息的特征增强模块集成到u-net架构中以补偿在连续下采样过程中丢失的信息,获得更完整的特征图。然后,使用由三个gr idnet分支组成的多尺度交叉融合帧合成网络来生成高质量的插值帧。在合成网络架构的中间,三个分支之间进行特征的交换与融合,增强了网络建模时空关系和视频帧之间详细变化的能力。本发明提出的基于边缘信息的特征增强模块能够使模型获得更加完整的特征图,从而提高有效地提高视频帧率和质量。
29.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
30.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
31.图1为第一个实施例的基于边缘信息和多尺度交叉融合网络的帧插入方法流程图。
32.图2为第一个实施例的卷积块注意模块(cbam)结构示意图。
33.图3为第一个实施例的特征融合模块结构示意图。
34.图4为第一个实施例的子网络结构示意图。
35.图5为第一个实施例的gridnet网络结构示意图。
36.图6为第一个实施例的gridnet网络内部残差块结构示意图。
具体实施方式
37.实施例一
38.如图1所示,本实施例公开了一种基于边缘信息和多尺度交叉融合网络的帧插入方法,包括:
39.步骤1、获取待插值视频的连续的两帧图像,对获取的连续的两帧图像进行裁剪和尺度变换,得到裁剪后的原尺度图像以及尺度变换后的图像;
40.步骤2、将原尺度图像输入至特征提取器中进行特征提取,利用基于边缘信息的特征增强模块对提取的特征进行增强,得到增强后的特征;
41.步骤3、对增强后的特征进行尺度变换后,分别对增强后特征以及尺度变换后的特
征进行像素级参数提取,接着使用自适应流协作根据提取的像素级参数对裁剪后的原尺度图像以及尺度变换后的图像进行帧扭曲操作,得到三个尺度的扭曲帧;
42.步骤4、将三个尺度的扭曲帧输入至多尺度交叉融合网络中以合成插值帧。
43.在步骤1中,对获取的连续的两帧图像进行随机裁剪包括:将前后两原始帧图像分别进行随机裁剪得到256
×
256的图像块;
44.将裁剪后的图像进行尺度变换包括:将裁剪后的图像块分别进行上采样和下采样以获得两倍尺度和二分之一尺度的图像块,尺度变换后的图像块用于后续的帧扭曲操作。
45.步骤2中,特征提取器为基于编解码器内部级联的特征提取器;本实施例基于u-net架构设计了一个特征提取器,包括:编码器、解码器、卷积块注意模块,编码器和解码器之间通过卷积块注意模块(cbam)连接;本实施例使用卷积块注意模块(cbam)来代替传统的跳跃连接,以建立编码器和解码器之间的联系,减少信息丢失并进行特征增强。
46.编码器和解码器分别用于提取图像的不同分辨率的编码特征和解码特征;卷积块注意模块用于级联相同维度的编码特征和解码特征。
47.基于边缘信息的边缘特征增强模块用于利用编码特征合成边缘特征,然后将边缘特征分别与不同维度的解码特征进行融合,得到多个初步增强后的特征图;最后将多个初步增强后的特征图进行拼接及卷积后获得最终增强后的特征。
48.步骤201、本实施例利用特征提取器进行特征提取的步骤包括:
49.步骤2011.将原尺度的图像输入到特征提取器中以获得不同分辨率的编码特征和解码特征;
50.需要说明的是,本实施例中,编码器是由5个卷积层和5个平均池化层构成,经过第一个卷积层后特征为32维度,经过第二个卷积层后特征为64维度,以此类推,特征图维度成倍递增,直至特征达到512维度;每经过一次池化层编码特征的分辨率减小为原来的一半。在解码器部分特征从512维度逐步递减,直至特征达到64维度。
51.步骤2012.在相同维度的编码特征和解码特征之间,利用卷积块注意模块(cbam)对编码特征提取权重图,通过像素级乘法进行特征增强,得到增强后的编码特征;
52.步骤2013.将增强后的编码特征通过像素级加法在对应维度上与解码特征进行融合,得到级联后的解码特征。
53.具体的,卷积块注意模块(cbam)能够自适应地获得整个编码器不同层的空间权重图和信道权重图,它提取权重图并对不同维度的编码特征进行增强以保留运动和遮挡信息。图2显示了cbam的详细架构,它包含通道注意模块(cam)和空间注意模块(sam)的两个子模块。
54.通道注意模块(cam)包括:并行的平均池化模块和最大池化模块以及sigmoid激活函数;通过平均池化模块和最大池化模块并行聚合编码特征f中的通道信息,然后聚合的通道信息经过sigmoid激活函数得到通道注意特征图;将通道注意特征图fc与编码特征f进行逐像素相乘获得的中间特征图f'作为空间注意力模块(sam)的输入;
55.空间注意力模块(sam)包括并行的平均池化层和最大池化层、通道拼接层、卷积层以及sigmoid函数;
56.平均池化层和最大池化层分别聚合一个通道的统计信息,然后基于通道拼接层得到两个特征映射,最后,通过卷积层将通道缩减为一个通道,并使用sigmoid函数生成空间
注意特征图fs,空间注意特征图fs与通道注意模块(cam)的输出f'通过逐像素乘法运算获得增强后的编码特征f


57.其中,卷积块注意模块(cbam)的两个阶段可以表示为:
[0058][0059][0060][0061]
其中,mc和ms分别代表通道注意模块(cam)和空间注意模块(sam),cbam是整个卷积块注意模块。w0和w1表示第一阶段第一行的两个1
×
1卷积的权重,两行的卷积层共享权重。w7×7表示空间注意模块中7
×
7卷积层的权重,f和f'表示cam和sam的输入,而σ(
·
)和*表示sigmoid函数和卷积运算,和分别表示元素加法和乘法,avgpool(
·
)和maxpool(
·
)分别代表平均池化和最大池化。
[0062]
步骤202:基于边缘信息的特征增强模块。
[0063]
本实施例中利用基于边缘信息的特征增强模块实现特征增强的步骤包括:
[0064]
步骤2021.对最高维度的编码特征进行上采样使其与最低维度的编码特征具有相同尺寸,两特征拼接后经过三次1
×
1卷积合成边缘特征;
[0065]
步骤2022.分别将不同维度的解码特征上采样到边缘特征的尺寸,边缘特征分别与不同维度的解码特征融合拼接并执行三次卷积操作后获得增强后的特征图;
[0066]
步骤2023.将增强后的特征图沿通道维度进行拼接并执行一次卷积操作获得最终的增强特征。
[0067]
具体的,为了进一步进行特征增强,本实施例在u-net架构的基础上集成了一个基于边缘信息的特征增强模块。在u-net架构中提取特征映射时,每次下采样都会丢失一些无法从上采样中检索到的边缘信息,因此本实施例尝试使用编码特征合成边缘信息,并将其分别与不同维度的解码特征融合进行特征增强,以更好地缓解这一问题。
[0068]
在合成边缘特征时,由于高维度特征的分辨率较低,并且其中包含的边缘信息相对粗糙,所以本实施例使用富含空间细节和结构信息的最低维度编码特征来合成边缘特征。然而,底层特征虽然可以捕获边缘信息,但其中包含大量的噪声和冗余信息,会影响边缘的定义和精度。因此,仅依靠最低维度特征来生成边缘特征是不够的。因此,本实施例使用最高维度的编码特征引导最低维度特征来生成精细边缘特征,这是因为最高级别的特征可以提供更多的语义和全局信息,过滤掉一些噪声和冗余边缘。
[0069]
边缘信息的合成过程用数学形式表示为:
[0070]ef
=γ(fh,f
l
)
[0071]
其中,fh和
l
分别代表最低维度编码特征和最高维度编码特征,ef代表边缘特征,γ为特征融合模块。
[0072]
如图3所示,在特征融合模块(feature fusion module,ffm)中,首先对较小分辨率的编码特征进行上采样,使两个编码特征具有相同的大小。然后,将两个编码特征经过拼接并进行三次3
×
3卷积得到最终的融合后的精细边缘特征。
[0073]
将生成的精细边缘特征与不同维度的级联后的解码特征融合,以补偿下采样过程中的信息损失,在融合特征的过程中得到初步的增强的特征映射。最后,将初步的增强特征
沿通道维度进行拼接串联并经过一次卷积操作得到最终的增强后的特征,这个过程可以用以下公式来表示:
[0074]fe1
=γ(ef,f1)
[0075]fe2
=γ(ef,f2)
[0076]fe3
=γ(ef,f3)
[0077]fe4
=γ(ef,f4)
[0078]
fe=conv(cat[f
e1
,f
e2
,f
e3
,f
e4
])
[0079]
其中,fi(i=1,2,3,4)表示不同维度的解码特征,f
ei
(i=1,2,3,4)代表初步的增强后的特征,conv(
·
)代表卷积运算,cat[
·
]代表特征拼接运算。最终的增强后的特征fe用于估计不同分辨率输入帧上每个目标像素的像素级参数。
[0080]
在步骤3中,基于增强特征的多尺度帧扭曲操作包括如下步骤:
[0081]
步骤301、将增强后的特征进行尺度变换,得到两倍尺度和二分之一尺度的增强后的特征,接着将增强后的原尺度特征及尺度变换后的特征作为三组子网络的输入,通过三组子网络估计每个尺度输入帧上每个目标像素在水平、垂直方向的偏移向量和每个目标像素卷积核的权重。
[0082]
步骤302、采用自适应流协作作为扭曲模块,该模块利用偏移向量扩大运动采样范围,且每个像素不共享权重以将三个尺度的输入图像扭曲为输出图像;
[0083]
步骤303、进行像素级运算,得到三个尺度的扭曲帧。
[0084]
具体的,将获得的增强特征通过三组子网络估计不同尺度输入帧上每个目标像素的像素级参数,并引用自适应流协作来对输入帧执行扭曲操作,最终得到三个尺度的扭曲帧。其中,估计出的每个目标像素的偏移向量用来扩展信息的采样位置,每个像素的权重不再共享,其操作可以用以下方程式进行数学表示:
[0085][0086]
其中,式中(i,j)为目标像素点,k为卷积核的大小,w
m,
(i,j)为目标像素(i,j)处第(m,n)个卷积核的权重,(α
m,

m,
)为可指向网格点外任意位置的偏移向量,d为膨胀值。
[0087]
如图4所示为本实施例中一组子网络的结构图,每组子网络中包含六个分支,用于估计对两个输入帧执行扭曲操作所需的像素级参数,(α,β)表示水平和垂直方向上的偏移向量,ω表示卷积核的权重。
[0088]
子网络中第一分支包括依次连接的深度过参数化卷积层、线性整流函数、深度过参数化卷积层、线性整流函数、深度过参数化卷积层、线性整流函数、上采样层以及深度过参数化卷积层;
[0089]
子网络中第二分支结构、第四分支结构和第五分支结构与子网络中第一分支的结构相同;
[0090]
子网络中第三分支结构包括依次连接的深度过参数化卷积层、线性整流函数、深度过参数化卷积层、线性整流函数、深度过参数化卷积层、线性整流函数、上采样层、深度过参数化卷积层以及softmax激活函数;子网络中第六分支结构与第三分支结构相同。
[0091]
其他两组子网络与该组子网络的结构相同,区别在于参数不同。
[0092]
在步骤4中,利用多尺度交叉融合网络合成差值帧包括如下步骤:
[0093]
步骤401、将三尺度扭曲帧输入到多尺度交叉融合网络的不同分支中;
[0094]
步骤402、架构中间,处理不同尺度的扭曲帧的分支之间进行特征的交换和融合;
[0095]
步骤403、获取每个分支的输出,并将它们组合起来生成最终的插值结果。
[0096]
具体的,为了生成高质量的输出帧,本实施例构建了由三个分支组成的多尺度交叉融合帧合成网络。使用三行六列的gridnet作为合成网络的基本单元,每个分支均为三行六列的gridnet,其中每行由六个具有通道注意力机制的残差块组成,每列通过下采样或上采样连接到不同的行,如图5所示。
[0097]
将三个尺度的扭曲帧作为合成网络的输入,分别馈送到不同的分支。在gridnet的编码器端,从图像中提取全局特征和语义信息,可以用数学公式表示为:
[0098][0099][0100][0101]
其中,fi(i=-1,0,1)分别为二分之一尺度、原尺度、二倍尺度的中间特征,i
′i(i=-1,0,1)为三个尺度的扭曲帧,表示三个gridnet分支的编码器部分,它们可以将输入的扭曲帧转换为低分辨率特征图。
[0102]
在合成网络架构中间,对原尺度分支的中间特征进行下采样后与小尺度分支的特征融合,并进行上采样后与大尺度分支的特征进行融合。这样,小尺度和大尺度分支也可以利用原尺度分支的特征信息。此外,小尺度分支和大尺度分支的特征分别经过上采样和下采样后与原尺度分支的特征融合,使原尺度分支能够获得更详细和全局的信息。
[0103]
架构中间的融合策略定义如下:
[0104]
ff-1
=ds(f0)+f-1
[0105]
ff0=ds(f1)+us(f-1
)+f0[0106]
ff1=us(f0)+f1[0107]
其中,i(i=-1,0,1)表示三个尺度融合后的特征,ds(
·
)和us(
·
)分别表示上采样和下采样过程。
[0108]
最后,获取每个分支的输出,并将它们组合起来生成最终的插值帧。其操作可以用以下方程式进行数学表示:
[0109][0110]
其中,i
t
表示最终的插值结果,b代表输出块,用于对三个分支的输出进行融合;并且代表三个分支的解码器部分,它们可以将低分辨率特征恢复为高分辨率输出图像。
[0111]
可以理解的是,本实施例中的特征提取器以及多尺度交叉融合网络均为训练后的,本实施例使用vimeo-90k数据集作为训练集,这是一个大规模的高质量的视频处理数据集。vimeo-90k包含了51312组三帧视频片段,分辨率为256*448,其中第一帧和第三帧作为输入,第二帧作为真实帧用于对训练结果进行微调。此外,本实施例对数据集进行了随机裁剪,得到分辨率为256*256的图像块,并通过水平和垂直随机翻转样本以及打乱时间顺序来
增加数据多样性。测试集为常见的开源数据集midd l ebury、davi s和ucf101。
[0112]
实施例二
[0113]
本实施例公开了一种基于边缘信息和多尺度交叉融合网络的帧插入系统,包括:
[0114]
图像获取模块,被配置为:获取待插值视频的连续的两帧图像,对获取的连续的两帧图像进行裁剪和尺度变换,得到裁剪后的原尺度图像以及尺度变换后的图像;
[0115]
特征增强模块,被配置为:将原尺度图像输入至特征提取器中进行特征提取,利用基于边缘信息的特征增强模块对提取得到的特征进行增强,得到增强后的特征;
[0116]
所述特征提取器基于u-net架构设计,包括:编码器、解码器和卷积块注意模块;所述编码器和解码器之间通过卷积块注意模块连接;所述编码器和解码器分别用于提取原尺度图像的不同分辨率的编码特征和解码特征;所述卷积块注意模块用于级联相同维度的编码特征和解码特征;
[0117]
所述利用基于边缘信息的特征增强模块对提取得到的特征进行增强,包括:利用基于边缘信息的特征增强模块将编码器提取的编码特征合成边缘特征,然后将边缘特征分别与所述解码器提取的不同维度的解码特征进行融合,得到多个初步增强的特征图;最后将多个初步增强的特征图进行拼接及卷积后获得最终的增强后的特征;
[0118]
帧扭曲模块,被配置为:对增强后的特征进行尺度变换后,分别对增强后特征以及尺度变换后的特征进行像素级参数提取,接着使用自适应流协作根据提取的像素级参数对裁剪后的原尺度图像以及尺度变换后的图像进行帧扭曲操作,得到三个尺度的扭曲帧;
[0119]
插值帧合成模块,被配置为:将三个尺度的扭曲帧输入至多尺度交叉融合网络中以合成插值帧。
[0120]
实施例三
[0121]
本实施例的目的是提供计算机可读存储介质。
[0122]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法中的步骤。
[0123]
实施例四
[0124]
本实施例的目的是提供电子设备。
[0125]
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法中的步骤。
[0126]
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0127]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0128]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范
围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征:
1.一种基于边缘信息和多尺度交叉融合网络的帧插入方法,其特征在于,包括:获取待插值视频的连续的两帧图像,对获取的连续的两帧图像进行裁剪和尺度变换,得到裁剪后的原尺度图像以及尺度变换后的图像;将原尺度图像输入至特征提取器中进行特征提取,利用基于边缘信息的特征增强模块对提取得到的特征进行增强,得到增强后的特征;对增强后的特征进行尺度变换后,分别对增强后特征以及尺度变换后的特征图进行像素级参数提取,接着使用自适应流协作根据提取的像素级参数对裁剪后的原尺度图像以及尺度变换后的图像进行帧扭曲操作,得到三个尺度的扭曲帧;将三个尺度的扭曲帧输入至多尺度交叉融合网络中以合成插值帧;所述特征提取器基于u-net架构设计,包括:编码器、解码器和卷积块注意模块;所述编码器和解码器之间通过卷积块注意模块连接;所述编码器和解码器分别用于提取原尺度图像的不同分辨率的编码特征和解码特征;所述卷积块注意模块用于级联相同维度的编码特征和解码特征;所述利用基于边缘信息的特征增强模块对提取得到的特征进行增强,包括:利用基于边缘信息的特征增强模块将所述编码器提取的编码特征合成边缘特征,然后将边缘特征分别与所述解码器提取的不同维度的解码特征进行融合,得到多个初步增强的特征图;最后将多个初步增强的特征图进行拼接及卷积后获得最终的增强后的特征。2.如权利要求1所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法,其特征在于,对获取的连续的两帧图像进行裁剪包括:将连续的两帧图像分别进行随机裁剪得到预设大小的图像块,分别对裁剪得到的图像块进行上采样和下采样获得不同尺度的图像块。3.如权利要求1所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法,其特征在于,所述卷积块注意模块用于级联相同维度的编码特征和解码特征,包括:在相同维度的编码特征和解码特征之间,利用所述卷积块注意模块对编码特征提取权重图,通过像素级乘法对权重图进行特征增强,得到增强后的编码特征;将增强后的编码特征通过像素级加法在对应维度上与解码特征进行融合,得到级联后的解码特征。4.如权利要求3所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法,其特征在于,所述卷积块注意模块包括级联的通道注意力模块和空间注意力模块;所述通道注意力模块包括并行的平均池化模块和最大池化模块以及sigmoid激活函数;输入的编码特征通过平均池化模块和最大池化模块并行聚合通道信息,聚合的通道信息经过sigmoid激活函数得到通道注意特征图;将输入的编码特征与通道注意特征图逐像素相乘获得的中间特征图作为空间注意力模块的输入;所述空间注意力模块包括并行的平均池化层和最大池化层以及通道拼接层、卷积层和sigmoid函数;所述平均池化层和最大池化层分别聚合一个通道的统计信息,然后基于通道拼接层得到两个特征映射,最后,通过卷积层将通道缩减为一个通道,并使用sigmoid函数生成空间注意特征图,空间注意特征图通过逐像素乘法运算获得增强后的编码特征。
5.如权利要求1所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法,其特征在于,所述基于边缘信息的特征增强模块用于将所述编码器提取的编码特征合成边缘特征,包括:将编码器最高维度的编码特征进行上采样使其与最低维度的编码特征具有相同尺寸,然后将最低维度的编码特征与上采样后的最高维度的编码特征进行拼接,拼接后的特征经过卷积操作后合成边缘特征。6.如权利要求1所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法,其特征在于,所述多尺度交叉融合网络由三个分支组成,每个分支均为三行六列的gridnet结构,每行由六个具有通道注意力机制的残差块组成,每列通过下采样或上采样连接到不同的行。7.如权利要求6所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法,其特征在于,所述将三个尺度的扭曲帧输入至多尺度交叉融合网络中以合成插值帧,包括:三个尺度的扭曲帧分别被输入到不同的分支中,对原尺度分支的中间特征进行下采样后与小尺度分支的中间特征融合,得到小尺度分支的输出,再进行上采样与大尺度分支的中间特征进行融合,得到大尺度分支的输出;小尺度分支和大尺度分支的中间特征分别经过上采样和下采样后与原尺度分支的中间特征融合,得到原尺度分支的输出;将三个分支的输出组合生成最终的插值帧。8.一种基于边缘信息和多尺度交叉融合网络的帧插入系统,其特征在于:包括:图像获取模块,被配置为:获取待插值视频的连续的两帧图像,对获取的连续的两帧图像进行裁剪和尺度变换,得到裁剪后的原尺度图像以及尺度变换后的图像;特征增强模块,被配置为:将原尺度图像输入至特征提取器中进行特征提取,利用基于边缘信息的特征增强模块对提取得到的特征进行增强,得到增强后的特征;所述特征提取器基于u-net架构设计,包括:编码器、解码器和卷积块注意模块;所述编码器和解码器之间通过卷积块注意模块连接;所述编码器和解码器分别用于提取原尺度图像的不同分辨率的编码特征和解码特征;所述卷积块注意模块用于级联相同维度的编码特征和解码特征;所述利用基于边缘信息的特征增强模块对提取得到的特征进行增强,包括:利用基于边缘信息的特征增强模块将所述编码器提取的编码特征合成边缘特征,然后将边缘特征分别与所述解码器提取的不同维度的解码特征进行融合,得到多个初步增强的特征图;最后将多个初步增强的特征图进行拼接及卷积后获得最终的增强后的特征;帧扭曲模块,被配置为:对增强后的特征进行尺度变换后,分别对增强后特征以及尺度变换后的特征进行像素级参数提取,接着使用自适应流协作根据提取的像素级参数对裁剪后的原尺度图像以及尺度变换后的图像进行帧扭曲操作,得到三个尺度的扭曲帧;插值帧合成模块,被配置为:将三个尺度的扭曲帧输入至多尺度交叉融合网络中以合成插值帧。9.计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法中的步骤。10.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其
特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于边缘信息和多尺度交叉融合网络的帧插入方法中的步骤。

技术总结
本发明属于计算机视觉技术领域,具体为一种基于边缘信息和多尺度交叉融合网络的帧插入方法及系统,包括:获取连续的两帧图像,对图像进行裁剪和尺度变换,得到裁剪后的原尺度图像以及尺度变换后的图像;对原尺度图像进行特征提取,利用基于边缘信息的特征增强模块对提取的特征进行增强得到增强后的特征;对增强后的特征进行尺度变换后,分别对不同尺度的增强后的特征进行像素级参数提取,接着使用自适应流协作根据提取的像素级参数对不同尺度的图像进行帧扭曲操作,得到三个尺度的扭曲帧;将三个尺度的扭曲帧输入多尺度交叉融合网络中以合成插值帧。本发明的基于边缘信息的特征增强模块能够使模型获得更加完整的特征图,从而提高模型性能。提高模型性能。提高模型性能。


技术研发人员:杨晓晖 王绍文 王清 徐涛 冯志全
受保护的技术使用者:济南大学
技术研发日:2023.07.24
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐