令单一图像超分辨率模型适配视频超分辨率任务的方法
未命名
08-29
阅读:86
评论:0

1.本发明涉及图像复原技术,具体是一种令单一图像超分辨率模型适配视频超分辨率任务的方法。
背景技术:
2.数字图像设备已经被应用在天气预测、灾难救援、安全监控与医学诊病等多个领域。然而数字设备本身种类繁多,又常受到设备抖动、运动的物体、暗光和噪声等影响而导致捕获的视频质量参差不齐,影响后续的分析和应用。因此视频超分辨率技术的研究具有重要的理论和实际应用价值。
3.许多基于学习的方法已经被提出来解决视频超分辨率问题,这些方法利用了深度卷积神经网络(cnn)强大的特征表示能力,当前解决视频超分辨率问题的做法有:(1)改编单一图像超分辨率模型,使其适配视频超分辨率问题,这些方法将单一图像超分辨率模型作为子网使用或使用单一图像超分辨率模型的模块提取特征,如sajjadi等人提出的fr视频超分辨率将enhancenet改编为子网、haris等人提出的rbpn应用了dbpn中提出的迭代上采样和下采样技术;(2)不改编单一图像超分辨率模型,从头设计视频超分辨率方法,如kim等人提出的3dsrnet,3dsrnet可以捕获lr和hr帧之间的时空非线性特征、liu等人提出的st-cnn,st-cnn引入了时空卷积作为更好的时空信息提取的注意力机制。
4.由于视频超分辨率模型必须同时捕获时间和空间信息,从头设计视频超分辨率方法需要更多的工作,而基于单一图像超分辨率模型设计视频超分辨率方法时可以专注于捕获时间信息,因此,许多研究人员转向修改单一图像超分辨率模型以适应视频超分辨率任务,但是,这些模型在性能上,可能不如从头开始设计的视频超分辨率方法有效,此外,要修改单一图像超分辨率模型以适配视频超分辨率任务,研究人员必须首先了解单一图像超分辨率模型,选择合适的技术并加以适当应用,这需要额外的工作。
技术实现要素:
5.本发明的目的是针对现有技术的不足,而提供一种令单一图像超分辨率模型适配视频超分辨率任务的方法。这种方法将现有不同的单一图像超分辨率模型适配到视频超分辨率任务中并取得令人满意的性能,从而减少改编单一图像超分辨率模型适配视频超分辨率任务的难度。
6.实现本发明目的的技术方案是:
7.一种令单一图像超分辨率模型适配视频超分辨率任务的方法,包括如下步骤:
8.1)浅层特征提取:采用增强深度残差超分辨率模型的浅层特征提取模块,即一个卷积层,对所有的低分辨率输入帧xi进行特征提取,得到对应帧的浅层特征f
s,i
,如公式(1)所示:
9.f
s,i
=fe
shallow
(xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1),
10.2)时间特征提取:时间特征提取过程包括偏移估计、空间聚合和时间聚合三个过
程,具体为:
11.2-1)偏移估计将中心低分辨率帧x0和每个相邻帧xi作为输入,经过1个卷积层conv1和5个残差块rb5,
…
,rb1执行特征提取后得到中心特征f
o,0
和邻近特征f
o,i
,随后将中心特征和邻近特征连接cat送入1个卷积层conv2和2个可变形卷积层dconv2,dconv1进行卷积估计,得到偏移量f
off,i
,对应操作如公式(2)、(3)所示:
12.f
o,i
=rb5(
…
rb1(conv1(xi))
…
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2),
13.f
off,i
=dconv2(dconv1(conv2(cat(f
o,i
,f
o,0
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
14.2-2)空间聚合将步骤1)提取的浅层特征f
s,i
和2-1)得到的偏移量f
off,i
作为输入,利用偏移量f
off,i
使得可变形卷积的感受野与物体的形状相近的特点,采用对齐可变形卷积dconva提取浅层特征可以使得从不同帧提取到的相同特征在空间上对齐,随后应用可变形卷积dconv3过滤无用信息并保留所需特征,从而得到空间聚合特征f
t,i
,如公式(4)所示:
15.f
t,i
=dconv3(dconva(f
s,i
,f
off,i
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4),
16.2-3)时间聚合步骤以步骤2-2)所得空间聚合特征f
t,-n
,
…
,f
t,n
为输入,利用一个用于自适配地对通道上的特征进行加权的残差通道注意力rcab以及一个用于通道缩减的卷积层conv堆叠两次进行信息聚合,得到包含时空信息的特征f
t
,聚合过程中为减少信息损失,通道收缩分两步完成:首先减缩减到正常特征通道的两倍,然后再缩减一次,对应操作如公式(5)、(6)所示:
17.fe
temporal aggregation
=conv(rcab(conv(rcab())))
ꢀꢀꢀꢀꢀꢀꢀ
(5),
18.f
t
=fe
temporal aggregation
(f
t,-n
,
…
,f
t,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);
19.3)深层特征提取:采用增强深度残差超分辨率模型的深层特征提取模块,即采用32个残差块rb
32
,
…
rb1以及一个卷积层对步骤2)得到的时空特征f
t
进行特征提取,如公式(7)所示:
20.fe
deep
(f
t
)=conv(rb
32
(
…
rb1(f
t
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7);
21.4)超分辨率帧重建:将步骤3)得到的输出fe
deep
和步骤1)得到的浅层特征f
s,i
连接后送入增强深度残差超分辨率的重建模块中进行超分辨率帧重建,增强深度残差超分辨率的重建模块由一个卷积层、一个像素重组层堆叠两次后再加一个卷积层组成,重建计算过程如公式(8)所示:
22.xi=conv(pixel shuffle(conv(pixel shuffle(conv((fe
deep
(f
t
)+f
s,i
)))))) (8)。
23.本技术方案在单一图像超分辨率模型和视频超分辨率模型之间架起了一座桥梁,提出了一种通用的视频超分辨率适应方法来利用两个任务的固有异同,为了使视频超分辨率自适应模型能够利用来自相邻帧的信息,提出了即插即用的时间特征提取模块,具有较强的泛化能力。
24.这种方法将现有不同的单一图像超分辨率模型适配到视频超分辨率任务中并取得令人满意的性能,从而减少改编单一图像超分辨率模型适配视频超分辨率任务的难度。
附图说明
25.图1为实施例中适配后的增强深度残差超分辨率模型示意图;
26.图2为实施例中时间特征提取过程示意图;
27.图3为单一图像超分辨率模型的通用架构;
28.图4为遵循图3架构的模型适配视频超分辨率任务后的示意图。
具体实施方式
29.下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
30.实施例:
31.一种令单一图像超分辨率模型适配视频超分辨率任务的方法,以适配后的增强深度残差超分辨率为例,其模型图如图1所示,包括如下步骤:
32.1)浅层特征提取:采用增强深度残差超分辨率模型的浅层特征提取模块,即一个卷积层,对所有的低分辨率输入帧xi进行特征提取,得到对应帧的浅层特征f
s,i
;如公式(1)所示:
33.f
s,i
=fe
shallow
(xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1),
34.2)时间特征提取:如图2所示,时间特征提取过程包括偏移估计、空间聚合和时间聚合三个过程,具体为:
35.2-1)偏移估计将中心低分辨率帧x0和每个相邻帧xi作为输入,经过1个卷积层conv1和5个残差块rb5,
…
,rb1执行特征提取后得到中心特征f
o,0
和邻近特征f
o,i
,随后将中心特征和邻近特征连接cat送入1个卷积层conv2和2个可变形卷积层dconv2,dconv1进行卷积估计,得到偏移量f
off,i
,对应操作如公式(2)、(3)所示:
36.f
o,i
=rb5(
…
rb1(conv1(xi))
…
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2),
37.f
off,i
=dconv2(dconv1(conv2(cat(f
o,i
,f
o,0
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
38.2-2)空间聚合将步骤1)提取的浅层特征f
s,i
和2-1)得到的偏移量f
off,i
作为输入,利用偏移量f
off,i
使得可变形卷积的感受野与物体的形状相近的特点,采用对齐可变形卷积dconva提取浅层特征可以使得从不同帧提取到的相同特征在空间上对齐,随后应用可变形卷积dconv3过滤无用信息并保留所需特征,从而得到空间聚合特征f
t,i
,如公式(4)所示:
39.f
t,i
=dconv3(dconva(f
s,i
,f
off,i
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4),
40.2-3)时间聚合步骤以步骤2-2)所得空间聚合特征f
t,-n
,
…
,f
t,n
为输入,利用一个用于自适配地对通道上的特征进行加权的残差通道注意力rcab以及一个用于通道缩减的卷积层conv堆叠两次进行信息聚合,得到包含时空信息的特征f
t
,聚合过程中为减少信息损失,通道收缩分两步完成:首先减缩减到正常特征通道的两倍,然后再缩减一次,对应操作如公式(5)、(6)所示:
41.fe
temporal aggregation
=conv(rcab(conv(rcab())))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5),
42.f
t
=fe
temporal aggregation
(f
t,-n
,
…
,f
t,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);
43.3)深层特征提取:采用增强深度残差超分辨率模型的深层特征提取模块,即使用32个残差块rb
32
,
…
rb1以及一个卷积层对步骤2)得到的时空特征f
t
进行特征提取,如公式(7)所示:
44.fe
deep
(f
t
)=conv(rb
32
(
…
rb1(f
t
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7),
45.4)超分辨率帧重建:将步骤3)得到的输出fe
deep
和步骤1)得到的浅层特征f
s,i
连接后送入增强深度残差超分辨率的重建模块中进行超分辨率帧重建,该重建模块由一个卷积层、一个像素重组层堆叠两次后再加一个卷积层组成,重建计算过程如公式(8)所示:
46.xi=conv(pixel shuffle(conv(pixel shuffle(conv((fe
deep
(f
t
)+f
s,i
)))))) (8)。
47.本例中,视频超分辨率适配模型架构为视频超分辨率模型的开发提供了一种新的途径,减少了新单一图像超分辨率技术应用的延迟,根据本方案,视频超分辨率模型可以分为两部分,第一部分是单一图像超分辨率模型,即去掉图4虚线方框中模块后的模型,由于该模型遵循单一图像超分辨率模型的通用架构,可以很容易地适应视频超分辨率模型,无论这个模型是否已经提出或将被提出;第二部分是图2所示的即插即用的时间特征提取模块,具体表现为:当需要进行视频超分辨率任务时,将该模块插入到模型的浅层特征提取模块和深层特征提取模块之间即可,插入该模块后的模型如图4所示,时间特征提取模块插即用的特性使一个模型可以同时执行单一图像超分辨率和视频超分辨率任务。此外,本技术方案的时间特征提取模块仅涉及可变形卷积和通道注意力进行信息聚合,因此可以采用更先进的技术来利用更多的相邻信息,从而获得更好的视频超分辨率性能。
48.本例中,为了评估本例方法的泛化性,将本例方法应用于5个典型的单一图像超分辨率模型:srresnet、edsr、rcan、rdn和swinir,这五个模型都遵循了单一图像超分辨率模型的通用架构,通用架构图如图3所示,对于每个单一图像超分辨率模型,适配到如图4所述的通用架构,逐帧生成sr视频,在vid4和spmc-11基准测试集上进行了验证实验,单一图像超分辨率模型及对应的视频超分辨率适配在vid4基准和spmc-11基准上的数值结果如表1所示,适配模型在视频超分辨率任务中的表现优于原始模型,这得益于时间特征提取模块,从数值上看,psnr值至少提高了1.16db,而ssim值提高了0.036,这表明本例方法在不同的单一图像超分辨率模型上具有很好的通用性,适配方法的结果反映了原始模型的能力,从可视化结果来看,适配模型在视频超分辨率任务中的图像重建结果比单一图像超分辨率的更清晰,尤其是纹理等细节方面,在视觉上更有吸引力,在适配后的模型中,swinir-视频超分辨率的表现最好,优于其他模型,srresnet-视频超分辨率和edsr-视频超分辨率的性能弱于rcan-视频超分辨率和rdn-视频超分辨率,有效说明了本例方法的泛化性与鲁棒性:
49.表1单一图像超分辨率模型和相应视频超分辨率适配模型的性能
[0050][0051]
为进一步说明本例方法的有效性,在消融研究中采用edsr作为基线来评估所提出的时间特征提取模块的有效性,为了比较不同的变化,制作了三种不同的模型,在第一个变化中,记为model 1,在没有偏移估计子模块支持的情况下,将来自相邻帧的浅层特征馈送到空间聚合子模块,然后将邻近特征与使用1
×
1卷积核进行融合;在第二个变化中,引入了偏移估计子模块,利用中心帧和邻近帧指导空间聚合,记为model 2;第三种变化记为edsr-视频超分辨率、结合了所有的组件,包括更好的融合策略,rcab和渐进通道收缩,如表2所示,单独采用空间聚合并没有带来很大的性能提升,但是在偏移估计子模块的支持下,性能有了明显的提升,此外,时间聚合子模块进一步提升了性能,这充分说明了本例方法中时间特征提取模块的有效性:
[0052]
表2模块在适配模型的有效性
[0053][0054]
此外,为说明本例方法的优良性能,将视频超分辨率自适应模型与6个最先进的算法:vescpn、stan、dr视频超分辨率、toflow、stmn、sof-视频超分辨率、tdan、d3dnet和fr视频超分辨率进行比较,以评估它们在视频超分辨率任务中的性能和鲁棒性,表3给出了vid4和spmc-11基准上的定量指标,除了被和*标记的数值,其它数值取自发明人实验报告的结果,其中标记为的值在文献deformable 3d convolution for video super-resolution中有报道,*表示本例方法的实验结果,如表3所示,改编后的模型在vid4和spmc-11基准测试集上都取得了令人满意的度量结果,其中改进的swinir-视频超分辨率在psnr指标上优于所有方法,虽然swinir-视频超分辨率的ssim指标在vid4基准上略低于fr视频超分辨率,但仍是次优方法,本例方法在所有的视频超分辨率自适配方法都取得了具有竞争力的性能,有效说明本例方法是优秀的,与最先进的视频超分辨率模型相比,本例方法可实现更好的性能。
[0055]
表3vid4和spmc-11基准上的量化指标
[0056]
[0057]
技术特征:
1.一种令单一图像超分辨率模型适配视频超分辨率任务的方法,其特征在于,包括如下步骤:1)浅层特征提取:采用增强深度残差超分辨率模型的浅层特征提取模块,即一个卷积层,对所有的低分辨率输入帧x
i
进行特征提取,得到对应帧的浅层特征f
s,i
,如公式(1)所示:f
s,i
=fe
shallow
(x
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1),2)时间特征提取:时间特征提取过程包括偏移估计、空间聚合和时间聚合三个过程,具体为:2-1)偏移估计将中心低分辨率帧x0和每个相邻帧x
i
作为输入,经过1个卷积层conv1和5个残差块rb5,
…
,rb1执行特征提取后得到中心特征f
o,0
和邻近特征f
o,i
,随后将中心特征和邻近特征连接cat送入1个卷积层conv2和2个可变形卷积层dconv2,dconv1进行卷积估计,得到偏移量f
off,i
,对应操作如公式(2)、(3)所示:f
o,i
=rb5(
…
rb1(conv1(x
i
))
…
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2),f
off,i
=dconv2(dconv1(conv2(cat(f
o,i
,f
o,0
))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);2-2)空间聚合将步骤1)提取的浅层特征f
s,i
和2-1)得到的偏移量f
off,i
作为输入,利用偏移量f
off,i
使得可变形卷积的感受野与物体的形状相近的特点,采用对齐可变形卷积dconva提取浅层特征可以使得从不同帧提取到的相同特征在空间上对齐,随后应用可变形卷积dconv3过滤无用信息并保留所需特征,从而得到空间聚合特征f
t,i
,如公式(4)所示:f
t,i
=dconv3(dconva(f
s,i
,f
off,i
))
ꢀꢀꢀꢀꢀꢀꢀ
(4),2-3)时间聚合步骤以步骤2-2)所得空间聚合特征f
t,-n
,
…
,f
t,n
为输入,利用一个用于自适配地对通道上的特征进行加权的残差通道注意力rcab以及一个用于通道缩减的卷积层conv堆叠两次进行信息聚合,得到包含时空信息的特征f
t
,通道收缩分两步完成:首先减缩减到正常特征通道的两倍,然后再缩减一次,对应操作如公式(5)、(6)所示:fe
temporal aggregation
=conv(rcab(conv(rcab())))
ꢀꢀꢀꢀꢀ
(5),f
t
=fe
temporal aggregation
(f
t,-n
,
…
,f
t,n
)
ꢀꢀꢀꢀꢀꢀ
(6);3)深层特征提取:采用增强深度残差超分辨率模型的深层特征提取模块,即采用32个残差块rb
32
,
…
rb1以及一个卷积层对步骤2)得到的时空特征f
t
进行特征提取,如公式(7)所示:fe
deep
(f
t
)=conv(rb
32
(
…
rb1(f
t
)))
ꢀꢀꢀꢀꢀꢀ
(7);4)超分辨率帧重建:将步骤3)得到的输出fe
deep
和步骤1)得到的浅层特征f
s,i
连接后送入增强深度残差超分辨率的重建模块中进行超分辨率帧重建,增强深度残差超分辨率的重建模块由一个卷积层、一个像素重组层堆叠两次后再加一个卷积层组成,重建计算过程如公式(8)所示:x
i
=conv(pixel shuffle(conv(pixel shuffle(conv((fe
deep
(f
t
)+f
s,i
))))))
ꢀꢀꢀ
(8)。
技术总结
本发明公开了一种令单一图像超分辨率模型适配视频超分辨率任务的方法,其特征在于,包括如下步骤:1)浅层特征提取;2)时间特征提取;3)深层特征提取;4)超分辨率帧重建。这种方法将现有不同的单一图像超分辨率模型适配到视频超分辨率任务中并取得令人满意的性能,从而减少改编单一图像超分辨率模型适配视频超分辨率任务的难度。分辨率任务的难度。分辨率任务的难度。
技术研发人员:刘振丙 王文颢 黄杰钰 路皓翔 范涛
受保护的技术使用者:桂林电子科技大学
技术研发日:2023.05.31
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/