图像超分方法、模型训练方法及相关产品与流程

未命名 09-22 阅读:123 评论:0


1.本技术涉及图像处理技术领域,具体涉及一种图像超分方法、模型训练方法及相关产品。


背景技术:

2.随着人工智能技术的发展,图像处理技术也越发的成熟和多样化。目前,逐渐走入人们视野的一种图像处理技术是图像超分技术,即将低分辨率的图像重建为高分辨率的图像。图像超分任务实际需求中的数据主要分为单帧图像和视频序列。根据输入数据的不同,图像超分技术可以细分为图像超分辨(single image super resolution,sisr)和视频超分辨(video super resolution,vsr)两个方向。不同任务下的算法设计的侧重点也有所不同。
3.相较于sisr算法,vsr算法可以利用视频帧序列在时间上的互补信息进行运动补偿,来降低遮挡、光照、视差等外界因素对超分效果的影响。目前对于sisr算法,有各种网络可支持视频超分辨,这些网络要么在模型结构上引入较多的观察,要么在信息传播上进行了相应设计。比如,基于滑动窗口的光流估计方法,会对引入相邻帧进行光流估计,从而完成对当前帧的超分重建。再如,基于循环网络进行超分重建,会将前一时刻的隐藏状态传递给下一时刻进行超分重建。然而,上述网络设计仍旧是以学术探索为主,具体为,这些网络在设计时会在理想场景下验证效果,比如,所有的训练数据都是基于相同的编码链路进行编码的,最后基于理想场景下的训练数据对模型进行训练。然而,由于真实场景会存在各种噪声,且视频的编码方式较复杂且方式较多,待超分重建的图像与理想的训练数据存在较大的差异,比如,待超分重建的图像所使用的编码链路与理想场景下采用不同的编码链路。
4.因此,目前使用在理想场景下设计的模型,对真实场景下的图像进行超分,导致对图像超分精度较低,超分出的图像视觉效果较差,进而导致视频超分的精度较低,视觉效果较差。


技术实现要素:

5.本技术实施例提供了一种图像超分方法、模型训练方法及相关产品,通过感知视频帧的压缩特征,即压缩程度,提高从视频帧提取的目标特征的精度,进而提高图像的超分重建精度,进而提高视频超分的精度,以及视觉效果。
6.第一方面,本技术实施例提供一种图像超分方法,包括:
7.获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值;
8.基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,所述第t个视频帧i
t
为所述多个视频帧中的任意一个;
9.基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t

10.基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。
11.第二方面,本技术实施例提供一种模型训练方法,所述模型包括压缩编码器和排序器,所述方法包括:
12.构造训练样本集,其中,所述训练样本集包括至少一个第一视频帧样本对和至少一个第二视频帧样本对,任意一个第一视频帧样本对中的两个视频帧样本的恒定速率因子crf相同,且帧类型不同;任意一个第二视频帧样本对中的两个视频帧样本的crf不同,且帧类型相同;
13.针对所述训练样集中的任意一个视频帧样本对,获取所述视频帧样本对中的第一视频帧样本对应的第一帧类型和第一crf,以及所述视频帧样本对中的第二视频帧样本对应的第二帧类型和第二crf;
14.根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失;
15.基于与所述视频帧样本对对应的损失,对所述初始压缩编码器进行训练,得到所述压缩编码器。
16.第三方面,本技术实施例提供一种图像超分装置,包括:获取单元和处理单元;
17.所述获取单元,用于获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值;
18.所述处理单元,用于基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,所述第t个视频帧i
t
为所述多个视频帧中的任意一个;
19.基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t

20.基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。
21.第四方面,本技术实施例提供的一种模型训练装置,包括:获取单元和处理单元;
22.所述获取单元,用于构造训练样本集,其中,所述训练样本集包括至少一个第一视频帧样本对和至少一个第二视频帧样本对,任意一个第一视频帧样本对中的两个视频帧样本的恒定速率因子crf相同,且帧类型不同;任意一个第二视频帧样本对中的两个视频帧样本的crf不同,且帧类型相同;
23.所述处理单元,用于针对所述训练样集中的任意一个视频帧样本对,获取所述视频帧样本对中的第一视频帧样本对应的第一帧类型和第一crf,以及所述视频帧样本对中的第二视频帧样本对应的第二帧类型和第二crf;
24.根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失;
25.基于与所述视频帧样本对对应的损失,对所述初始压缩编码器进行训练,得到所述压缩编码器。
26.第五方面,本技术实施例提供一种电子设备,包括:处理器和存储器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储
的计算机程序,以使得所述电子设备执行如第一方面或第二方面所述的方法。
27.第六方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面或第二方面所述的方法。
28.第七方面,本技术实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
29.实施本技术实施例,具有如下有益效果:
30.可以看出,在本技术实施例中,本技术对图像进行超分时,在对视频帧i
t
进行特征提取前,先基于视频帧i
t
的帧类型,确定出视频帧i
t
的目标压缩特征c
t
,即感知出视频帧i
t
在真实场景下传输时的压缩程度,即确定出真实场景下由crf和帧类型所决定的压缩程度。然后,基于视频帧i
t
的压缩程度,再对视频帧i
t
进行特征提取,得到视频帧i
t
对应的目标特征f
t
,最后基于目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧。由于本技术先获取了视频帧i
t
在真实场景下传输时的的目标压缩特征c
t
,则在对视频帧i
t
进行特征提取时,会基于压缩特征c
t
的指导,对视频帧i
t
有针对性地进行特征提取,从而提取出的目标特征f
t
更加精确,基于这样的目标特征去对视频帧i
t
进行超分重建,可提高真实场景超分重建的精度以及视觉效果,进而提高了视频超分的精度和视觉效果。
附图说明
31.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为本技术实施例提供的一种基于滑动窗口的视频超分方法的示意图;
33.图2为本技术实施例提供的一种基于相邻帧进行超分的示意图;
34.图3为本技术实施例提供的一种基于超分特征提取模型的图像超分方法的示意图;
35.图4为本技术实施例提供的一种基于压缩编码器获取目标压缩特征c
t
的示意图;
36.图5为本技术实施例提供的一种基于压缩特征融合网络获取目标特征f
t
的示意图;
37.图6为本技术实施例提供的一种模型训练方法的流程示意图;
38.图7为本技术实施例提供的一种基于样本对进行模型训练的示意图;
39.图8为本技术实施例提供的一种图像超分的场景示意图;
40.图9a为本技术实施例提供的一种图像超分方法的流程示意图;
41.图9b为本技术实施例提供的另一种图像超分方法的流程示意图;
42.图9c为本技术实施例提供的一种目标超分辨模型的结构图;
43.图9d为本技术实施例提供的一种将第二个视频帧复制到第一个视频帧之前的示意图;
44.图10为本技术实施例提供的一种图像超分装置的功能单元组成框图;
45.图11为本技术实施例提供的一种模型训练装置的功能单元组成框图;
46.图12为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
47.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
48.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
49.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
50.视频帧:视频帧为从视频中分帧出的图像,因此视频帧又可以称为图像或者图像帧,针对视频来说,视频帧又与时刻是一一对应的。因此,针对多个视频帧中的第t个视频帧,也可称为t时刻的视频帧,则第t个视频帧的前一个视频帧,也可称为t时刻的前一时刻,即t-1时刻的视频帧,则第t个视频帧的后一个视频帧,也可称为t时刻的后一时刻,即t+1时刻的视频帧。
51.低分辨率(low resolution,lr)图像:本技术将分辨率小于第一阈值的视频帧或者图像称为lr图像,将视频帧分辨率小于第一阈值的视频称为lr视频。
52.超分辨率(super resolution,sr)图像:本技术中将分辨率大于第二阈值的视频帧称为sr图像,将视频帧分辨率大于第二阈值的视频称为sr视频。
53.图像超分:图像超分是指将图像从低分辨率的图像重建为超分辨率的图像,因此,本技术中图像超分又可称为超分重建,或者,图像超分重建,或者,超分,等等。
54.光流估计:图像的光流用于表示在连续的两帧图像中,同一像素的位置的偏移量或者位移量,即运动差异。例如,针对当前帧图像和前一帧图像,可以获取同一像素在当前帧图像中的位置与该像素在前一帧图像中的位置的偏移角度、以及在x轴方向上的偏移量

x,以及在y轴方向上的偏移量

y,基于偏移角度、偏移量

x以及偏移量

y,将该像素对应的偏移量映射到对应的颜色值,从而得到与该像素对应的光流。将当前帧图像中的每个像素对应的光流进行组合,可得到与当前帧图像对应的光流图,也可以简称为预该当前帧图像对应的光流。
55.运动向量:运动向量用于表示在连续的两个图像之间,物体或场景中的像素在时间上的位移量。这个位移量可以用一个向量来表示,其中,向量的大小表示位移的大小,向量的方向表示位移的方向。需要说明,使用运动向量表示位移量时,一般是以图像块为单位的,即将这连续的两个图像均划分为多个图像块,然后获取对应图像块之间的位移量,将对
应图像块之间的位移量通过运动向量进行表示。
56.残差图:残差图用于表示两个连续的图像帧之间,像素之间的差异。例如,可以将两帧图像对应像素的像素值进行相减,可得到残差图。
57.帧类型:目前视频编码器采用图片组(group of pictures,gop)作为基本结构,其中,gop由一组完整的图像帧构成,这一组完整的图像帧中包括三种不同的帧类型:i帧、p帧和b帧,也可以理解为i类型、p类型和b类型。其中,i帧一般是视频中的第一帧,在编码时对该帧的压缩较少,类似于独立图像压缩,直接对该帧中的内容进行压缩编码。p帧,一种预测帧,编码器基于p帧与前一帧的差异进行编码,不需要在p帧中存储不变的背景像素,从而节省了存储空间。本技术中p帧与前一帧的差异主要包括像素的位移量和像素的像素值的差异,因此p帧对应的编码数据包括p帧与前一帧之间的运动向量和残差信息。b帧,一种双向预测帧,则编码器基于该b帧与前一帧的差异,以及后一帧的差异来对b帧的内容进行编码,减少了更多不需要编码的内容,节省了更多的存储空间。本技术中b帧与前一帧的差异主要包括像素的位移量和像素的像素值的差异。因此,b帧对应的编码数据中也包含有b帧与前一帧之间的运动向量和残差信息。
58.恒定速率因子(constant rate factor,crf):一种用来调整视频编码时的压缩程度的因子,由于压缩程度决定了视频的质量,crf也可以理解为调整视频的感知质量的因子,因此crf也可以理解为一种用来调整视频质量的因子。crf的取值为[0,51]中的一个数字,且取值越大,压缩程度越大,视频的感知质量越差,编码损失也就越大,取值越小,压缩程度越小,编码损失也就越小,视频的感知质量也就越好,例如,crf取值为0,即crf0表示无损编码。
[0059]
目前,图像超分技术可以细分为sisr和vsr。其中,图像超分sisr主要是基于单帧图像做超分辨的方法,算法的目的是利用图像自身的自相似性信息和结构性信息来生产低分辨到高分辨所缺失的细节;而vsr是sisr在时间上的拓展任务,需要同时考虑帧内的自相似性和帧间的时空互补信息来填充缺失细节。相较于sisr算法,vsr算法可以利用视频帧序列在时间上的互补信息进行运动补偿,来降低遮挡、光照、视差等外界因素对超分效果的影响。基于vsr算法的这种特性,目前设计了多种网络实现视频超分。下面结合附图分别说明两种视频超分方法。
[0060]
参阅图1,图1为本技术实施例提供的一种基于滑动窗口的视频超分方法的示意图。
[0061]
针对视频的视频帧序列,先以一个长度为2n+1的滑动窗,按照步长为1进行从头至尾的采样。每次采样得到2n+1个视频帧,然后将2n+1个视频帧中间的视频帧称为参考帧剩余的2n个视频帧为相邻帧。然后,利用2n个相邻视频帧的时空信息和参考帧的空间信息,对参考帧进行超分,得到与参考帧对应的超分图像如图1所示,当n=3时,则通过滑动窗口可采样出7个视频帧,针对参考帧将相邻的前3个视频帧、后3个视频以及参考帧输入到视频超分辨网络进行超分,得到与参考帧对应的超分图像
[0062]
更具体地,基于相邻视频帧的时空信息和参考帧的空间信息进行超分的过程可参考图2示出的过程,图2以两个相邻帧,即和为例进行说明。
[0063]
如图2所示,将和输入到光流网络(flow net)进行运动估计(motion estimation),得到和之间的光流,将该光流以及输入到扭曲网络(spatial transformer network,stn)进行扭曲(warp),得到扭曲后的视频帧使用同样的操作,得到与对应的视频帧然后,将以及输入到时空(spatio-temporal)融合网络进行超分重建,得到与对应的超分图像
[0064]
除了图1和图2示出的网络模型用于实现视频的超分重建,目前还有很多网络可支持视频超分辨,比如,循环网络。然而,这些网络要么在模型结构上引入较多的观察,比如,图1和图2会引入相邻帧,要么在信息传播上进行了相应设计。比如,循环网络会将前一时刻的隐藏状态传递给下一时刻。然而,目前所有的网络模型的设计仍旧是以学术探索为主。具体可以理解为,这些网络在设计时会在理想场景下验证效果,比如,所有的训练数据都是基于相同的编码链路进行编码的。最后基于理想场景下的训练数据对模型进行训练。然而,由于真实超分场景会存在各种噪声,且视频的编码方式复杂且类型较多,则真实场景下的待超分重建的图像与理想的训练数据存在较大的差异,比如,待超分重建的图像使用的编码链路与理想的训练数据是采用不同的编码链路。使用理想场景下训练出的网络模型,对真实场景下的图像进行超分,导致对图像超分精度较低,超分出的图像视觉效果较差,进而导致视频超分的精度较低,视觉效果较差。
[0065]
参阅图3,图3为本技术实施例一种基于超分特征提取模型的图像超分方法的示意图。如图3所示,超分特征提取模型包括压缩编码器、上采样网络和压缩特征融合网络。
[0066]
示例性的,如图3所示,获取到待超分视频后,先对视频进行分帧,得到多个视频帧,以及基于每个视频帧的编码数据,得到每个视频帧的帧类型,其中,每个视频帧的分辨率小于第一阈值;针对多个视频帧中的第t个视频帧i
t
,将视频帧i
t
的帧类型以及视频帧i
t
输入到压缩编码器进行目标压缩特征提取,得到第一压缩特征。然后,将第一压缩特征输入到上采样网络进行上采样,得到目标压缩特征c
t
。然后,将目标压缩特征c
t
和视频帧i
t
输入到压缩特征融合网络,对视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t
;最后,基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。
[0067]
下面分别结合压缩编码器以及压缩特征融合网络的具体模型结构以及说明本技术。
[0068]
参阅图4,图4为本技术实施例提供的一种基于压缩编码器获取目标压缩特征c
t
的示意图。如图4所示,压缩编码器包括一个或多个多层感知机(multi layer perceptron,mlp)、嵌入层(embedding)以及卷积层,其中,卷积层的数量可以为多个。需要说明,图4中仅示出了两个mlp,且未示出卷积层和嵌入层。
[0069]
示例性的,如图4所示,将视频帧i
t
的帧类型输入到嵌入层进行嵌入,得到嵌入特征。然后,将嵌入特征输入到mlp进行特征提取,得到第一特征向量e
t
。将视频帧i
t
输入到卷积层进行特征提取,得到第一特征图v
t
。然后,基于所述第一特征向量e
t
和所述第一特征图v
t
,得到第一压缩特征。如图4所示,将第一特征向量e
t
和第一特征图v
t
进行融合,并将融合特征输入到卷积层进行特征提取,得到第一压缩特征。最后,将第一压缩特征输入到上采样网络进行上采样,得到目标压缩特征c
t

[0070]
参阅图5,图5为本技术实施例提供的一种基于压缩特征融合网络获取目标特征f
t
的示意图。如图5所示,压缩特征融合网络包括卷积层,以及一个或多个压缩感知模块残差块(compression-aware module residual block,cam rb)。其中,每个压缩感知模块残差块包括一个或多个压缩感知模块和一个或多个卷积层,其中,一个或多个压缩感知模块与一个或多个卷积层一一对应,即每个压缩感知模块后面连接一个卷积层,且这个卷积层又与下一个压缩感知模块连接。其中,任意一个压缩感知模块残差块中的任意一个压缩感知模块也包括有多个卷积层。
[0071]
示例性的,如图5所示,首先将视频帧i
t
输入到卷积层进行特征提取,得到第三特征图。然后,将第三特征图以及目标压缩特征c
t
输入到第一个压缩感知模块残差块进行特征融合,得到与第一个压缩感知模块残差块对应的第一初始融合特征然后,将第一初始融合特征与第三特征图进行融合,得到第一个压缩感知模块残差块对应的第一目标融合特征然后,将第一目标融合特征以及目标压缩特征c
t
输入到第二个压缩感知模块残差块进行特征融合,可得到与第二个压缩感知模块残差块对应的第二目标融合特征依次类推,直至经过该一个或多个压缩感知模块残差块进行特征融合后,可得到目标特征f
t

[0072]
具体地,如图5所示,针对第一个压缩感知模块残差块,先将目标压缩特征c
t
分别输入到第一个压缩感知模块残差块中的第一个压缩感知模块中的一个或多个卷积层(例如,图5中示出,第一个压缩感知模块中分别通过两个卷积层对目标压缩特征c
t
进行特征提取)进行特征提取,得到第一目标压缩特征和第二目标压缩特征然后,将第三特征图与第一目标压缩特征进行特征融合,得到与第一个压缩感知模块对应的过渡特征图。然后,将该过渡特征图与第二目标压缩特征进行特征融合,得到与第一个压缩感知模块对应的第二初始融合特征图然后,将该输入到与该第一个压缩感知模块连接的卷积层,得到与第一个压缩感知模块对应的第二目标融合特征图然后,将第二目标融合特征图以及目标压缩特征c
t
输入到第一个压缩感知模块残差块中的第二个压缩感知模块继续进行特征融合,直至经过第一个压缩感知模块残差块中的一个或多个压缩感知模块以及一个或多个卷积层进行特征融合后,得到与第一个压缩感知模块残差块对应的第一目标融合特征即第一个压缩感知模块残差块中的最后一个卷积层所输出的特征为该
[0073]
应说明,上述压缩编码器和压缩特征融合网络均是通过端到端的训练得到的。下面先介绍对上述压缩编码器的训练过程,对于压缩特征融合网络的训练过程,后面再进行叙述,在此不作过多描述。首先说明,为了训练压缩编码器,如图7所示,在训练过程还构造了池化层和排序器(ranker),其中,该池化层可以为全局池化(avg pooling),其中,池化层和排序器的数量均可以为一个或多个,本技术均以一个为例进行说明。
[0074]
参阅图6,图6为本技术实施例提供的一种模型训练方法的流程示意图。该方法应用于模型训练装置。该方法包括但不限于以下步骤中的内容:
[0075]
601:构造训练样本集。
[0076]
示例性的,如图7所示,获取至少一个第一视频帧样本对和至少一个第二视频帧样本对作为该训练集。本技术中主要以一个第一视频帧样本对和一个第二视频帧样本对为例
进行说明。其中,每个视频帧样本对中包含两个视频帧样本,为了便于描述,本技术将视频帧样本对中的两个视频样本分别称为第一视频帧样本和第二视频帧样本。
[0077]
其中,任意一个第一视频帧样本对中的两个视频帧样本的恒定速率因子crf相同,且帧类型不同;任意一个第二视频帧样本对中的两个视频帧样本的crf不同,且帧类型相同。
[0078]
应说明,视频帧的帧类型也会决定该视频帧对应的编码内容,从而会影响该视频帧的压缩程度。而且,视频帧对应的crf本身就会影响该视频帧的压缩程度。因此,任意一个视频帧的压缩程度主要是与该视频帧对应的crf以及帧类型决定的。
[0079]
因此,为了让压缩编码器能够成功感知任意一个视频帧的压缩程度,本质上就是让压缩编码器能够成功感知出不同帧类型以及不同crf的视频帧的压缩程度。具体地来讲,若压缩编码器能够成功感知不同帧类型以及不同crf的视频帧的压缩程度,那么对于帧类型相同,但crf不同的两个视频帧来说,压缩编码器是能够感知出这两个视频帧的压缩程度是不同的;对于crf相同,但帧类型不同的两个视频帧来说,压缩编码器是能够感知出这两个视频帧的压缩程度是不同。
[0080]
进一步地,对于帧类型为i类型、p类型,以及b类型来说,i类型对应的视频帧的编码内容较多、p类型次之、b类型最少。因此,则i类型对应的压缩程度小于p类型对应的压缩程度,则p类型对应的压缩程度是小于b类型对应的压缩程度。进一步地,为了更好的描述帧类型对应的压缩程度,可以构造帧类型与映射分之间的映射关系,其中,每个帧类型的映射分用于表征与该帧类型对应的压缩程度。例如,i类型、p类型,以及b类型对应的映射分分别为:0、1、2。而crf越大,压缩程度越大,crf本身就可以表征压缩程度。
[0081]
因此,更具体地来讲,若压缩编码器能够成功感知不同帧类型以及不同crf的视频帧的压缩程度,则对于帧类型相同,但crf不同的两个视频帧,压缩编码器是能够感知出这两个视频帧中crf较大的视频帧的压缩程度是大于crf较小的视频帧的压缩程度;对于crf相同,但帧类型不同的两个视频帧,压缩编码器是能够成功感知出这两个视频帧中帧类型对应的映射分较大的视频帧的压缩程度大于帧类型对应的映射分较小的视频帧的压缩程度。
[0082]
应说明,构造上述第一视频帧样本对,主要是训练压缩编码器,让压缩编码器能够感知出相同crf,但帧类型不同的视频帧,具有不同的压缩程度;构造第二视频帧样本对,主要是训练压缩编码器,让压缩编码器能够感知出帧类型相同,但crf不同的视频帧,具有不同的压缩程度。
[0083]
602:针对所述训练样集中的任意一个视频帧样本对,获取所述视频帧样本对中的第一视频帧样本对应的第一帧类型和第一crf,以及所述视频帧样本对中的第二视频帧样本对应的第二帧类型和第二crf。
[0084]
其中,该任意一个视频帧样本对为第一视频帧样本对或者第二视频帧样本对。可以理解,若该视频帧样本对为第一视频帧样本对,则该第一帧类型和第二帧类型不同,但第一crf和第二crf相同;若该视频帧样本对为第二视频帧样本对,则该第一帧类型和第二帧类型相同,但第一crf和第二crf不同。
[0085]
603:根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失。
[0086]
首先说明,为了便于区分,本技术将初始构建的,即还未经训练的编码器称为初始压缩编码器,将训练好的编码器称为压缩编码器,为了便于区分,也可以将训练好的编码器称为目标压缩编码器,后续将使用该压缩编码器对待超分视频的视频帧进行超分重建。
[0087]
示例性的,对该第一视频帧样本进行特征提取,得到第四特征图。例如,可基于图4示出的模型结构,通过初始压缩编码器的卷积层对第一视频帧样本进行特征提取,得到第四特征图。同样,也可通过初始压缩编码器的卷积层对所述第二视频帧样本进行特征提取,得到第五特征图。
[0088]
示例性的,对所述第一帧类型进行编码,得到第二特征向量。例如,通过初始压缩编码器的的嵌入层对第一帧类型进行嵌入,得到第一嵌入特征。然后,再通过初始压缩编码器的mlp对第一嵌入特征进行特征提取,得到第二特征向量。同样地,对第二帧类型进行编码,得到第三特征向量,即通过初始压缩编码器的嵌入层和mlp对第二帧类型进行编码,得到第三特征向量。
[0089]
最后,基于所述第一帧类型、所述第二帧类型、所述第一crf、所述第二crf、所述第四特征图、所述第二特征向量、所述第五特征图以及所述第三特征向量,得到与所述视频帧样本对对应的损失。
[0090]
示例性的,基于所述第二特征向量和所述第四特征图,得到第二压缩特征。可选地,基于图4所示的模型结构,将第二特征向量和第四特征图进行融合,得到第一融合特征图。具体地,先对第二特征向量进行复制与组合,得到第一矩阵,其中,第一矩阵的尺寸与第四特征图相同,且第一矩阵中的每行或者每列为该第二特征向量。然后,将该第一矩阵与第四特征图进行融合,得到第一融合特征图。最后,再对第一融合特征进行特征提取,得到该第二压缩特征,例如,通过初始压缩编码器的卷积层对第一融合特征,得到第二压缩特征。同样,基于所述第五特征图和所述第三特征向量,得到第三压缩特征,其中,获取第三压缩特征的过程与获取第二压缩特征的过程类似,不再叙述。
[0091]
进一步地,基于所述第二压缩特征,得到与所述第一视频帧样本对应的第一排序分,其中,所述第一排序分用于表征所述第一视频帧样本的压缩程度。例如,如图7所示,先将第二压缩特征输入到池化层进行池化,得到第四压缩特征。然后,再将第四压缩特征输入到排序器中进行排序,得到与第一视频帧样本对应的第一排序分si。同样地,基于所述第三压缩特征,得到与所述第二视频帧样本对应的第二排序分sj,其中,所述第二排序分用于表征所述第二视频帧样本的压缩程度。例如,如图7所示,先将第二压缩特征输入到池化层进行池化,得到第五压缩特征。然后,再将第五压缩特征输入到排序器中进行排序,得到与第二视频帧样本对应的第二排序分sj。
[0092]
针对本技术的排序分,视频帧对应的压缩程度越大,则与该视频帧对应的排序分越大。
[0093]
最后,根据所述第一排序分数、所述第二排序分数、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失。
[0094]
可选地,若所述第一帧类型与所述第二帧类型相同,则根据所述第一排序分数、所述第二排序分数、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失。具体地,根据所述第一crf和所述第二crf的大小关系,确定第一系数,其中,若所述第一crf小于所述第二crf,则所述第一系数为1;若所述第一crf大于所述第二crf,则所述第一系数
为-1。然后,根据所述第一系数、所述第一排序分数和所述第二排序分数之间的差值以及预设阈值,得到与所述视频帧样本对对应的损失,即将该差值与第一系数进行乘积运算,并与预设值求和,并将最终的求和结果与零进行比较,将最大值作为该损失。可选地,若所述第一crf与所述第二crf相同,则根据所述第一排序分数、所述第二排序分数、所述第一帧类型以及所述第二帧类型,得到与所述视频帧样本对对应的损失。具体地,获取与所述第一帧类型对应的第一映射分,其中,所述第一映射分用于表征与所述第一帧类型对应的压缩程度;获取与所述第二帧类型对应的第二映射分,其中,所述第二映射分用于表征与所述第二帧类型对应的压缩程度;根据所述第一映射分和所述第二映射分之间的大小关系,确定第二系数,其中,若所述第一映射分小于所述第二映射分,则所述第二系数为1;若所述第一映射分大于所述第二映射分,则所述第二系数为-1。最后,根据所述第二系数、所述第一排序分数和所述第二排序分数之间的差值以及预设阈值,得到与所述视频帧样本对对应的损失。同样,将该差值与二系数进行乘积运算,并与预设值求和,并将最终的求和结果与零进行比较,将最大值作为该损失。
[0095]
示例性的,上述损失可以通过公式(1)表示:
[0096]
lr=max(0,(s
i-sj)*k+ε)
ꢀꢀꢀ
公式(1);
[0097]
其中,
[0098]
其中,lr为上述损失,ε为预设阈值,max为取最大值操作,k表示第一系数或第二系数,si为第一排序分,sj为第二排序分,qf(i)为第一映射分,qf(j)为第二映射分,qc(i)为第一crf,qc(j)为第二crf;
[0099]
其中,当第一帧类型和第二帧类型相同,则k为第一系数,则从qf(i)或者qc(i)、qf(j)或者qc(j)中选出qc(i)和qc(j)进行比较,且若qc(i)小于qc(j),则第一系数k为1,若qc(i)大于qc(j),则第一系数k为-1;当第一crf和第二crf相同,则k为第二系数,则从qf(i)或者qc(i)、qf(j)或者qc(j)中选出qf(i)和qf(j)进行比较,且若qf(i)小于qf(j),则第二系数k为1,若qf(i)大于于qf(j),则第二系数k为-1。
[0100]
可以理解,当第一帧类型和第二帧类型相同时,并且在qc(i)小于qc(j)(即第一视频帧样本的压缩程度小于第二视频帧的压缩程度)时,设置第一系数k为1。因此,若排序器排序出的第一排序分si小于第二排序分sj,则说明排序器的评分是正确的,也就是说,压缩编码器提取出的压缩特征是正确的。而且,此时(s
i-sj)*k+ε是小于零的,则此时损失是0,刚好也印证压缩编码器是能够正确感知出到视频帧的压缩信息,不需要反向训练;反之,若排序器排序出的第一排序分si大于第二排序分sj,则说明排序器的评分是错误的,也就是说,压缩编码器提取出的压缩特征也是错误的,而且,此时(s
i-sj)*k+ε是大于零的,则此时损失是大于0的,也印证压缩编码器是不能正确感知出视频帧的压缩信息,因此,需要基于该损失对压缩编码器进行反向训练。在qc(i)大于qc(j)(即第一视频帧样本的压缩程度大于第二视频帧的压缩程度)时,设置第一系数k为-1。因此,若排序器排序出的第一排序分si大于第二排序分sj,则说明排序器的评分是正确的,也就是说,压缩编码器提取出的压缩特征是正确的。而且,此时(s
i-sj)*k+ε是小于零的,则此时损失是0,刚好也印证压缩编码器是能够正确感知出到视频帧的压缩信息,不需要反向训练;反之,若排序器排序出的第一排序分si小于第二排序分sj,则说明排序器的评分是错误的,也就是说,压缩编码器提取出的压缩特征
也是错误的,而且,此时(s
i-sj)*k+ε是大于零的,则此时损失是大于0的,也印证压缩编码器是不能正确感知出视频帧的压缩信息,因此,需要基于该损失对压缩编码器进行反向训练。
[0101]
可以理解,当第一crf和第二crf相同时,并且在qf(i)小于qf(j)(即第一视频帧样本的压缩程度小于第二视频帧的压缩程度)时,设置第二系数k为1,因此,若排序器排序出的第一排序分si小于第二排序分sj,则说明排序器的评分是正确的,也就是说,压缩编码器提取出的压缩特征是正确的。而且,此时(s
i-sj)*k+ε是小于零的,则此时损失是0,刚好也印证压缩编码器是能够正确感知出到视频帧的压缩信息,不需要反向训练;反之,若排序器排序出的第一排序分si大于第二排序分sj,则说明排序器的评分是错误的,也就是说,压缩编码器提取出的压缩特征也是错误的,而且,此时(s
i-sj)*k+ε是大于零的,则此时损失是大于0的,也印证压缩编码器是不能正确感知出视频帧的压缩信息,因此,需要基于该损失对压缩编码器进行反向训练。在qf(i)大于qf(j)(即第一视频帧样本的压缩程度大于第二视频帧的压缩程度)时,设置第二系数k为-1。因此,若排序器排序出的第一排序分si大于第二排序分sj,则说明排序器的评分是正确的,也就是说,压缩编码器提取出的压缩特征是正确的。而且,此时(s
i-sj)*k+ε是小于零的,则此时损失是0,刚好也印证压缩编码器是能够正确感知出到视频帧的压缩信息,不需要反向训练;反之,若排序器排序出的第一排序分si小于第二排序分sj,则说明排序器的评分是错误的,也就是说,压缩编码器提取出的压缩特征也是错误的,而且,此时(s
i-sj)*k+ε是大于零的,则此时损失是大于0的,也印证压缩编码器是不能正确感知出视频帧的压缩信息,因此,需要基于该损失对压缩编码器进行反向训练。
[0102]
604:基于与所述视频帧样本对对应的损失,对所述初始压缩编码器进行训练,得到所述压缩编码器。
[0103]
可选地,基于该视频帧样本对应的损失,基于梯度下降法对初始压缩编码器进行训练,直接收敛,即能够正确感知视频帧的压缩信息,得到该压缩编码器。可选地,也可以获取训练集中所有视频帧样本对对应的损失,然后,对该所有视频帧样本对对应的损失进行求平均,得到最终的损失,基于该最终的损失对初始压缩编码器进行训练,得到该压缩编码器。
[0104]
应说明,在训练好压缩编码器后,在后续实际应用中对待超分视频的视频帧进行超分重建时,无需使用图7示出的池化层和排序器,即将图7示出的池化层和排序器剪枝掉即可。
[0105]
需要说明的是,上述的模型训练装置可以是本技术的图像超分装置,即本技术的模型训练方法可以在本技术的图像超分装置上执行,也可以在其他设备上执行,即该本技术的模型训练方法也可以在其他设备(比如,服务器或者服务器集群)上执行。当在其他设备上执行时,当得到训练好的压缩编码器后,可将该压缩编码器本地部署到该图像超分装置上,从而使图像超分装置调用该压缩编码器,实现对图像进行超分重建。
[0106]
参阅图8,图8为本技术实施例提供的一种图像超分的场景示意图。
[0107]
如图8所示,发送端10向图像超分装置20发送压缩视频的编码数据。图像超分装置20接收到压缩视频的编码数据后,对编码数据进行转码,得到待超分视频,即低分辨率的视频。然后,图像超分装置20对待超分视频进行分帧,得到多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值;最后,针对第t个视频帧i
t
,图像超分装置20基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压
缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,该压缩程度是由视频帧i
t
对应的帧类型和crf共同决定的;基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t
;最后,基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。最后,图像超分装置20可将每个视频帧对应的目标视频帧进行视频合成,得到目标视频。
[0108]
需要说明,上述的发送端10可以为用户设备;图像超分装置20可以为用户设备,也可以为服务器。应理解,若图像超分装置20为用户设备,则图像超分装置20接收到待超分视频后,使用本地计算资源对待超分视频进行超分重建,得到具有超分辨率的目标视频;若图像超分装置20为服务器时,则服务器可以利用云计算、云服务资源,对待超分视频进行超分重建,得到具有超分辨率的目标视频,然后当服务器获取到用户针对该目标视频的下载请求时,可将目标视频下发给相应用户,或者,主动将目标视频推送给相应的用户。应理解,在实际应用中,由于视频超分所需的算力较大,因此一般会在服务器端对视频进行超分重建。因此,本技术以图像超分装置20为服务器为例进行说明。
[0109]
可选地,本技术的用户设备可以为智能手机(如android手机、ios手机、windows phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备mid(mobile internet devices,简称:mid)或穿戴式设备等。上述用户设备仅是举例,而非穷举,包含但不限于上述用户设备。在实际应用中,上述用户设备还可以包括:智能车载终端、计算机设备等等。可选地,本技术的服务器可以为云计算服务器、内容分发网络(content delivery network,cdn)服务器、网络时间协议(network time protocol,ntp)、域名解析系统(domain name system,dns)服务器,等其他各种类型的服务器。
[0110]
参阅图9a,图9a为本技术实施例提供的一种图像超分方法的流程示意图。该方法应用于图像超分装置。该方法包括但不限于以下步骤内容:
[0111]
901:获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值。
[0112]
示例性的,图像超分装置先从发送端接收压缩视频的编码数据。然后,对该编码数据进行转码,可得到待超分视频;然后,对待超分视频进行分帧,可得到多个视频帧。可选地,在实际应用中,对待超分视频进行连续分帧,或者,不连续分帧,得到该多个视频帧,因此,该多个视频帧按时间的先后顺序进行排列,故本技术对图像超分时,按照时序依次对该多个视频帧进行超分。本技术中主要对待超分视频进行连续分帧为例进行说明。
[0113]
902:基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,所述第t个视频帧i
t
为所述多个视频帧中的任意一个。
[0114]
示例性的,对所述视频帧i
t
的帧类型进行编码,得到第一特征向量e
t
,结合图4示出的压缩编码器结构,则可先对视频帧i
t
输入到嵌入层进行嵌入,得到嵌入特征;然后,再通过mlp对嵌入特征进行特征提取,得到第一特征向量e
t
;对所述视频帧i
t
进行特征提取,得到第一特征图v
t
,则可通过压缩编码器的卷积层对频帧i
t
进行特征提取,得到第一特征图v
t
。然后,基于所述第一特征向量e
t
和所述第一特征图v
t
,得到第一压缩特征。具体地,将第一特征向量e
t
和所述第一特征图v
t
进行融合,得到融合特征。可选地,将第一特征向量e
t
进行多次复制与组合,得到第二矩阵,其中,得到第二矩阵的方式与上述得到第一矩阵的方式类
似,不再叙述。然后,将第二矩阵与第一特征图v
t
进行融合,得到融合特征。然后,对该融合特征进行特征提取,得到第一压缩特征。例如,通过压缩编码器的卷积层对该融合特征进行特征提取,得到第一压缩特征。对所述第一压缩特征进行上采样,得到所述目标压缩特征c
t
,即将第一压缩特征输入到上采样网络进行上采样,得到该目标压缩特征c
t

[0115]
903:基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t

[0116]
示例性的,首先对视频帧i
t
进行特征提取,得到第三特征图。结合图5示出的压缩特征融合网络,则可将视频帧i
t
输入到压缩特征融合网络的卷积层进行特征提取,得到第三特征图。然后,基于所述第三特征图和所述目标压缩特征c
t
,执行一次或多次第一特征融合操作,得到所述目标特征f
t
,其中,每次第一特征融合操作基于压缩特征融合网络中的一个压缩感知模块残差块实现,下面结合图5示出的模型结构,以及以第i次第一特征融合操作为例说明本技术第一特征融合操作的具体实现过程,其中,第i次第一特征融合操作为该一次或多次第一特征融合操作中的任意一个。
[0117]
示例性的,基于执行第i-1次第一特征融合操作得到的第一目标融合特征图与所述目标压缩特征c
t
,执行第i次第一特征融合操作,得到与所述第i次第一特征融合操作对应的第一初始融合特征图应理解,当i=1时,即执行第一次第一特征融合操作时,则所述第一目标融合特征图为所述第三特征图。可选地,该第i次第一融合操作又包含有一次或多次第二特征融合操作,其中,该次或多次第二特征融合操作是基于第i次第一融合操作对应的压缩感知模块残差块中的一个或多个压缩感知模块实现。
[0118]
下面以第j次第二特征融合操作为例说明每个压缩感知模块残差块中的任意一个第二特征融合操作的实现过程,其中,第j次第二特征融合操作为第i次第一特征融合操作对应的一次或多次第二特征融合操作中的任意一次第二特征融合操作。
[0119]
示例性的,在进行第j次第二特征融合操作时,对所述目标压缩特征c
t
进行特征提取,得到与所述第j次第二特征融合操作对应的目标压缩特征可选地,在本技术的一个实施方式中,该目标压缩特征包括第一目标压缩特征和第二目标压缩特征具体地,如图5所示,可将目标压缩特征c
t
输入到与第j次第二特征融合操作对应的压缩感知模块的卷积层进行特征提取,得到第一目标压缩特征和第二目标压缩特征其中,该和是通过不同的卷积层对目标压缩特征c
t
进行特征提取得到的。
[0120]
进一步地,对执行j-1次第二特征融合操作得到的第二目标融合特征图与所述目标压缩特征进行特征融合,得到与所述j次第二特征融合操作对应的第二初始融合特征图应理解,当j=1时,即执行第一次第二特征融合操作时,则所述第二目标融合特征图为所述第一目标融合特征图即第i个压缩感知模块残差块的原始输入数据。具体地,先对所述第二目标融合特征图和所述第一目标压缩特征进行融合,得到与所述第j次第二特征融合操作对应的过渡特征图,如图5所示,对和进行乘积处理,即对应元素相乘,得到过渡特征图。然后,再对所述过渡特征图与所述第二目
标压缩特征进行融合,得到所述第二初始融合特征图即将过渡特征图和进行叠加,即按元素叠加,得到了第i次第一特征融合操作中的第j个第二特征融合操作的输出结果。
[0121]
示例性的,每个压缩感知模块的特征融合过程,可通过公式(2)表示:
[0122]
cam(flγi,βj)=γi⊙
f+βjꢀꢀ
公式(2);
[0123]
其中,cam表示每个压缩感知模块,f为该压缩感知模块的输入数据,γi为与该压缩感知模块对应的第一目标压缩特征,βj为与该压缩感知模块对应的第二目标压缩特征,

表示矩阵乘法运算。
[0124]
可以理解,每个压缩感知模块残差块中的每个压缩感知模块cam执行了两次特征融合过程,一次乘积过程和一次叠加过程,因此每个压缩感知模块cam进行特征融合本质上是模拟卷积过程,从而实现将特征融合到一起。当然在实际应用中,也可以采用其他的特征融合方式,比如,特征拼接方式,本技术并不对压缩感知模块cam进行特征融合的方式进行限定。
[0125]
进一步地,对所述第二初始融合特征图进行特征提取,得到与所述j次第二特征融合操作对应的第二目标融合特征图即通过与该第j个cam连接的卷积层对该进行特征提取,得到第二目标融合特征图然后,将第二目标融合特征图和目标压缩特征c
t
作为下一个cam的输入数据,即第j+1个cam,从而执行j+1次第二特征融合操作,直至进行所述一次或多次第二特征融合操作,得到所述第一初始融合特征图
[0126]
进一步地,如图5所示,在得到第一初始融合特征图之后,基于残差连接结构,将第一初始融合特征图与所述第一目标融合特征图(第i次第一特征融合操作的输入数据)进行融合(叠加),得到与第i次第一特征融合操作对应的第一目标融合特征图(即第i次第一特征融合操作的输出结果)。
[0127]
最后,将第i次第一特征融合操作的输出结果,即第一目标融合特征图以及目标压缩特征c
t
输入给第i+1次第一特征融合操作,从而执行第i+1次第一特征融合操作,直至进行所述一次或多次第一特征融合操作,得到所述目标特征f
t

[0128]
904:基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。
[0129]
示例性的,在得到目标特征f
t
后,可将目标特征f
t
输入到目标超分辨网络对视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,后面会介绍基于目标超分辨网络对视频帧i
t
进行图像超分的过程,在此不作过多描述。
[0130]
可以看出,在本技术实施例中,本技术对图像进行超分时,在对视频帧i
t
进行特征提取前,先基于视频帧i
t
的帧类型,确定出视频帧i
t
的目标压缩特征c
t
,即感知出视频帧i
t
在真实场景下传输时的压缩程度,即确定出真实场景下由crf和帧类型所决定的压缩程度。然后,基于视频帧i
t
的压缩程度,再对视频帧i
t
进行特征提取,得到视频帧i
t
对应的目标特征f
t
,最后基于目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧。由于本技术先获取了视频帧i
t
在真实场景下传输时的的目标压缩特征c
t
,则在对
视频帧i
t
进行特征提取时,会基于压缩特征c
t
的指导,对视频帧i
t
有针对性地进行特征提取,从而提取出的目标特征f
t
更加精确,基于这样的目标特征去对视频帧i
t
进行超分重建,可提高真实场景超分重建的精度以及视觉效果,进而提高了视频超分的精度和视觉效果。
[0131]
在本技术的一个实施方式中,针对上述多个视频帧,可以按照时序的先后顺序,依次为每个视频帧超分出对应的目标视频帧。然后,将多个视频帧对应的多个目标视频帧进行合并,得到目标视频,从而将待超分视频(低分辨率视频)重建为超分辨率的目标视频。
[0132]
参阅图9b,图9b为本技术实施例提供的另一种图像超分方法的流程示意图。本实施例中与上述重复的内容,不再重复描述。该方法包括但不限于以下步骤内容:
[0133]
1001:获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值。
[0134]
1002:基于所述多个视频帧中的第t个视频帧i
t
与第t-1个视频帧i
t-1
之间的初始运动向量m
t
和残差图r
t
,将所述第t-1个视频帧i
t-1
对应的隐藏状态h
t-1
与所述第t个视频帧i
t
进行对齐,得到与所述第t个视频帧i
t
对应的参考特征图
[0135]
可选地,获取参考特征图可通过目标超分辨模型实现。
[0136]
下面结合目标模型的目标超分辨模型的结构叙述获取参考特征图的过程。
[0137]
参阅图9c,图9c为本技术实施例提供的一种目标超分辨模型的结构图。
[0138]
如图9c所示,目标超分辨率模型包括第一特征提取网络、第二特征提取网络、第三特征提取网络、扭曲网络和上采样网络。下面结合图4示出超分辨率模型的结构,具体说明本技术对图像进行超分过程。
[0139]
示例性的,如图9c所示,首先将视频帧i
t
与第t-1个视频帧i
t-1
之间的初始运动向量m
t
,以及第t-1个视频帧i
t-1
对应的目标特征图h
t-1
(即对视频帧i
t-1
进行超分后得到的隐藏状态)输入到扭曲网络,对目标特征图h
t-1
进行扭曲,得到第一特征图;将视频帧i
t
输入到第一特征提取网络进行特征提取,得到第二特征图。然后,将所述第一特征图和所述第二特征图进行拼接,得到第三特征图。然后,将所述第三特征图输入到第二特征提取网络进行特征提取,得到第四特征图。将残差图r
t
输入到激活网络进行激活,得到特征矩阵。然后将所述第四特征图和所述特征矩阵进行乘积处理,得到第五特征图;将所述第五特征图与所述初始运动向量m
t
进行叠加,得到目标运动向量然后,将所述目标运动向量和目标特征图h
t-1
输入到扭曲网络进行扭曲,得到参考特征图
[0140]
进一步地,将视频帧i
t-1
、视频帧i
t
以及参考特征图输入到第三特征提取网络进行特征提取与融合,得到与视频帧i
t
对应的目标特征图h
t
,即t时刻的隐藏状态。然后,将目标特征图h
t
输入到上采样网络进行上采样(即超分重建),得到第一视频帧;同时,将视频帧i
t
输入到上采样网络进行上采样,得到第二视频帧,其中,第一视频帧和第二视频帧的分辨率大于第二阈值。
[0141]
最后,将第一视频帧和第二视频帧进行融合,得到与视频帧i
t-1
对应的目标帧,完成对视频帧i
t-1
的超分重建。
[0142]
需要说明的是,本技术的目标超分辨率模型中的部分网络的模型参数是固定的,无需训练。例如,上述的扭曲网络以及激活网络的模型参数是固定的。可选地,可通过封装好的扭曲函数实现上述扭曲网络的扭曲功能,通过封装好的激活函数实现上述激活网络的激活功能,例如,激活函数可以为sigmoid、relu、tanh或者其他激活函数,本技术中以激活
函数为sigmoid为例进行说明。可选地,上述第一特征提取网络、第二特征提取网络以及第三特征提取网络可以由卷积网络构成。
[0143]
下面结合图9c示出的模型结构,叙述本技术对超分辨率模型进行训练的过程。该模型训练过程包括但不限于以下步骤中的内容:
[0144]
s1:构造第一训练集以及第二训练集,其中,所述第一训练集包括x个第一视频样本,所述第二训练集包括y个第二视频样本,其中,x大于第三阈值,y小于第四阈值。
[0145]
其中,第一训练集可以看做一个第一批次(batch),第二训练集可以看做一个第二批次。在实际应用中,可以构建多个第一训练集和多个第二训练集,即使用多个第一批次和多个第二批次进行模型训练,本技术只以一个第一批次和一个第二批次为例进行说明。
[0146]
s2:从每个第一视频样本中采集a个第一视频帧样本,其中,每个第一视频帧样本的分辨率小于第一阈值,a小于第五阈值。
[0147]
其中,从每个第一视频样本中采集数量相对较少的视频帧样本。
[0148]
应说明,每个视频中的多个视频帧的内容是比较相似的,不同视频之间的视频帧的内容是不同的。针对于此,第一训练集主要是让模型见识到内容不同的图像,可以学习到为不同类型的图像进行超分重建的能力。因此可以在第一训练集中设置数量较多的第一视频样本,即设置x大于第三阈值,这样就可以让模型见识到大量类型不同的图像,而且由于是为了让模型见识到大量类型不同的图像,没必要从每个第一视频样本中采集过多的视频帧样本,因此针对每个第一视频样本可设置较大的采样间隔,这样进一步保证采集出的视频帧样本是不同的,故对每个第一视频帧样本设置第一采样间隔,其中,第一采样间隔大于第一预设采样间隔,基于每个第一视频帧样本对应的第一采样间隔进行采样,得到a个第一视频帧样本,则可使a小于第五阈值,且a个第一视频帧样本是不相似的,即类型不同的视频帧样本。
[0149]
s3:从每个第二视频样本中采集b个第二视频帧样本,其中,每个第二视频帧样本的分辨率小于第一阈值,b大于第六阈值。
[0150]
其中,从每个第二视频样本中采集数量相对较多的视频帧样本。
[0151]
应说明,第二训练集主要在第一训练集对超分辨率模型进行训练后的基础上,让模型学到为比较相似的图像进行超分重建的能力,因此可以在第二训练集中设置相对较少的第二视频样本,即设置y小于第四阈值,但是由于是为了让模型能够精准地为比较相似的图像进行超分重建,因此需要让模型见识到大量比较相似或者相近的图像,故针对每个第二视频样本可设置较小的采样间隔,这样进一步保证采集出的视频帧样本是相似或者相同的,故对每个第二视频帧样本设置第二采样间隔,其中,第二采样间隔小于第二预设采样间隔,则基于每个第二视频帧样本对应的第二采样间隔进行采样,得到b个第一视频帧样本,则可使b大于第六阈值,从而从每个第二视频样本中采集较多的相似的第二视频帧样本,这样相似的第二视频帧样本越多,越能够让模型学到为比较相似的图像进行超分重建的能力,即让模型学习到精细化区分的能力,对模型进行精细化训练。
[0152]
s4:基于每个第一视频样本对应的a个第一视频帧样本,对初始超分辨率模型进行训练,得到中间超分辨率模型。
[0153]
首先说明,为了避免每个第一视频样本对应的a个第一视频帧样本中的第一个第一视频帧不存在前一帧的问题,即避免第一帧没有足够的信息累积而产生误差,本技术中,
针对每个第一视频样本对应的a个第一视频帧样本,将该a个第一视频帧样本中的第二个第一视频帧样本复制到第一个第一视频帧样本之前,作为第一个第一视频帧样本前一个视频帧样本,换句话说,作为第零个第一视频帧样本。然后,设置第一个第一视频帧样本与第零个第一视频帧样本之间的初始运动向量、残差图以及第零个第一视频帧样本对应的目标特征图均设置为预设值,其中,该预设值为0。然后,将第二个第一视频帧样本复制到第一个第一视频帧样本之前后,仅为第一个第一视频帧样本到第a个第一视频帧样本进行超分重建,基于该第一个第一视频帧样本到第a个第一视频帧样本的超分重建结果计算模型的损失,第零个第一视频帧样本则不参与损失的计算。
[0154]
举例来说,如图9d所示,a=6时,则每个第一视频样本包括:第一视频帧样本1、第一视频帧样本2、第一视频帧样本3、第一视频帧样本4、第一视频帧样本5、第一视频帧样本6,则将第一视频帧样本2复制到第一视频帧样本1组成一个新的视频帧序列,针对这个新的视频帧序列,仅使用第一视频帧样本1、第一视频帧样本2、第一视频帧样本3、第一视频帧样本4、第一视频帧样本5、第一视频帧样本6的超分重建结果计算模型的损失。
[0155]
示例性的,针对每个第一视频样本,基于每个第一视频样本对应的a个第一视频帧样本中的第i-1个第一视频帧样本与第i个第一视频帧样本之间的初始运动向量mi和残差图ri,将所述第i-1个第一视频帧样本对应的目标特征图h
i-1
与所述第i个第一视频帧样本进行对齐,得到与所述第i个第一视频帧样本对应的参考特征图其中,将目标特征图h
i-1
与所述第i个第一视频帧样本进行对齐可以参考将第t-1个视频帧i
t-1
对应的目标特征图h
t-1
与所述第t个视频帧i
t
进行对齐的过程,不再叙述。然后,基于所述参考特征图所述第i个第一视频帧样本以及所述第i-1个第一视频帧样本,得到与所述第i个第一视频帧样本对应的目标特征图hi,其中,得到第i个第一视频帧样本对应的目标特征图hi的过程可参考得到与所述第t个视频帧i
t
对应的目标特征图h
t
的过程,也不再叙述。然后,基于所述目标特征图hi以及所述第i个第一视频帧样本,得到与所述第i个第一视频帧样本对应的预测帧,其中,得到与所述第i个第一视频帧样本对应的预测帧的过程可参考得到与所述第t个视频帧i
t
对应的目标视频帧的过程,不再叙述。
[0156]
进一步地,基于每个第一视频帧样本帧对应的预测帧的分辨率和每个第一视频帧样本对应的真实分辨率,得到与每个第一视频帧样本帧对应的损失。然后,基于每个第一视频帧样本帧对应的损失,得到与每个第一视频样本对应的损失,例如,将a个第一视频帧样本对应的损失求平均作为每个第一视频样本对应的损失。最后,基于每个第一视频样本对应的损失,对所述初始超分辨率模型进行训练,得到所述中间超分辨率模型。可选地,可基于每个第一视频样本对应的损失对初始超分辨率模型进行逐次训练,即逐样本训练;可选地,可基于每个第一视频样本对应的损失,得到第一训练集对应的损失,例如,将x个第一视频样本对应的损失求平均。然后基于第一训练集对应的损失对初始超分辨率模型进行训练,即逐批次训练。
[0157]
s5:基于每个第二视频样本对应的b个第二视频帧样本,对初始超分辨率模型进行训练,得到目标超分辨率模型。
[0158]
同样地,为了避免每个第二视频样本对应的b个第二视频帧样本中的第一个第二视频帧不存在前一帧的问题,即避免第一帧没有足够的信息累积而产生误差,同样可以将第二个第二视频帧复制到第一个第二视频帧之前,具体复制与参数的设置过程,可参考上
述对每个第一视频样本对应的a个第一视频帧样本的设置过程,不再详细叙述。
[0159]
然后,针对每个第二视频样本,基于每个第二视频样本对应的b个第二视频帧样本中的第j-1个第二视频帧样本与第j个第二视频帧样本之间的初始运动向量mj和残差图rj,将所述第j-1个第二视频帧样本对应的目标特征图h
j-1
与所述第j个第二视频帧样本进行对齐,得到与所述第j个第二视频帧样本对应的参考特征图基于所述参考特征图所述第j个第二视频帧样本以及所述第j-1个第二视频帧样本,得到与所述第j个第二视频帧样本对应的目标特征图hj;基于所述目标特征图hj以及所述第j个第二视频帧样本,得到与所述第j个第二视频帧样本对应的预测帧;基于每个第二视频帧样本帧对应的预测帧的分辨率和每个第二视频帧样本对应的真实分辨率,得到与每个第二视频帧样本帧对应的损失;基于每个第二视频帧样本帧对应的损失,得到与每个第二视频样本对应的损失;基于每个第二视频样本对应的损失,对所述中间超分辨率模型进行训练,得到所述目标间超分辨率模型。
[0160]
上述对中间超分辨率模型进行训练的任意一个过程可参考上述使用第一视频帧样本对初始超分辨率模型进行训练的过程,不再叙述。
[0161]
应说明,上述目标超分辨率模型可以实现对视频帧的超分,因此后续实际应用中使用对视频帧超分重建的模型均是上述目标超分辨率模型,为了简便描述,将该目标超分辨率模型也可称为超分辨率模型。
[0162]
可选地,在得到目标超分辨率模型后,可以在使用视频样本较多,且采集出的视频帧较多的批次,对该目标超分辨率模型再次进行整体训练,从整体上让模型学会上述两种能力。
[0163]
可以看出,在本技术实施例中,先使用帧类型较多的第一训练集对初始超分辨率模型进行训练,先让模型见识到各种类型的视频帧,相当于对模型进行预热,并且每个第一视频样本对应的第一视频帧样本数量较少,可以降低训练过程中的计算开销;然后,再使用帧类型较少的第二训练集对中间超分辨率模型进行训练,相当于对模型的识别进行精细化训练,让模型能够为相似的视频帧,重建出与各个视频帧对应的超分图像,提高模型的超分精度,而且,由于第二训练集中的第二视频样本的数量较少,可以减少样本数据的数量。
[0164]
首先说明,视频帧i
t-1
对应的目标特征图h
t-1
为对视频帧i
t-1
进行图像超分后,得到的隐藏状态,即t-1时刻的隐藏状态。后面会介绍如何得到每个视频帧(可以理解为每个时刻)的隐藏状态,在此不作过多描述。
[0165]
更具体地,从压缩视频的编码数据中获取与第t个视频帧i
t
对应的编码数据,然后从该编码数据获取与该视频帧i
t
对应的元数据,即视频帧i
t
中的图像块相对于视频帧i
t-1
中的图像块的位移量以及视频帧i
t
中的像素相对于视频帧i
t-1
中的像素在像素值上的差异。然后,基于视频帧i
t
中的图像块相对于视频帧i
t-1
中的图像块的位移量,确定第t个视频帧i
t
与第t-1个视频帧i
t-1
之间的初始运动向量m
t
。在一个实施方式中,为了能够更好地将初始运动向量m
t
融合,将视频帧i
t
中的图像块相对于视频帧i
t-1
中的图像块的位移量映射到对应的颜色值进行表示。因此,将视频帧i
t
中的图像块相对于视频帧i
t-1
中的图像块的位移量映射到映射为对应的颜色值,则可得到该初始运动向量m
t
,则初始运动向量m
t
可以理解为一个二维矩阵,该矩阵中的元素表示与该元素对应的位移量所对应的颜色值,其中,与该元素对应的位移量为与该元素对应的像素在视频帧i
t
中的位置相对于在第t-1个视频帧i
t-1
中的
位置之间的位移量。因此,初始运动向量m
t
表征了视频帧i
t
中的像素相对于视频帧i
t-1
的位移量。进一步地,视频帧i
t
中的像素相对于视频帧i
t-1
中的像素在像素值上的差异,得到第t个视频帧i
t
与第t-1个视频帧i
t-1
之间的残差图r
t
,则残差图r
t
表征了像素在第t个视频帧i
t
和第t-1个视频帧i
t-1
中的像素值的差异。
[0166]
示例性的,首先基于初始运动向量m
t
,对所述目标特征图h
t-1
进行扭曲,即将目标特征图h
t-1
与视频帧i
t
进行对齐,得到第一特征图。可选地,可将初始运动向量m
t
和目标特征图h
t-1
输入到扭曲网络进行扭曲,得到该第一特征图。具体地,基于初始运动向量m
t
中表征的各个像素的位移量,对目标特征图h
t-1
的位置进行扭曲,以将各个像素点对齐到视频帧i
t
中的各个像素点所在的位置。例如,某个像素在目标特征图h
t-1
的位置为(x,y),而目标特征图h
t-1
中表征该像素对应的位移量为(

x,

y),则将该像素点从位置(x,y)扭曲到(

x+x,

+y),即将位置(x,y)的像素值填充到(

x+x,

+y),从而得到第一特征图。
[0167]
应说明,仅从初始运动向量的角度来扭曲,这种方式认为像素在前后两帧中只是发生了位移或者说发生了偏移,像素的像素值并没有发生变化,即前后两帧相同的像素的像素值是相同。然而,在实际应用中,前后两帧中像素发生偏移时,由于环境噪声的影响,像素的像素值也会受到影响。比如,t-1时刻像素的位置为(x,y),t时刻像素的位置为(

x+x,

+y),然而在t-1时刻的光照强度为l1,在t时刻的光照强度为l2,其中,l1≠l2,这样像素在t-1时刻到t时刻,不仅发生了位移,还会对应不同的像素值。
[0168]
因此,光从初始运动向量的角度将t-1时刻的隐藏状态进行扭曲与对齐,这个时候并没有把像素的差异的因素考虑进来,因此这个时候并不能直接使用对齐后的第一特征图与视频帧i
t
进行信息融合,实现超分。
[0169]
因此,为了考虑像素的差异,本技术中还会对残差图r
t
进行激活处理,得到特征矩阵,即对残差图r
t
中的各个元素进行激活处理,确定视频帧i
t
中像素值存在差异的像素。例如,使用sigmoid函数对残差图r
t
进行激活,得到特征矩阵。然后,对第t个视频帧i
t
进行特征提取,得到第二特征图;可选地,将第t个视频帧i
t
输入到第一特征网络进行特征提取,得到第二特征图。然后,基于所述第一特征图、所述特征矩阵以及所述第二特征图,对所述初始运动向量m
t
进行修正,得到目标运动向量即将存在像素值差异的像素的像素值差异信息融入到目标运动向量中,从而使目标运动向量即能表征像素的位移量,又能表征像素的像素值的差异。
[0170]
具体地,对第一特征图和第二特征图进行拼接,得到第三特征图。然后,对第三特征图进行特征提取,得到第四特征图。可选地,将第三特征图输入到第二特征提取网络进行特征提取,得到第四特征图,即对融合后的特征图进行特征提取,这样得到第四特征图中的各个像素的像素值既包含了视频帧i
t
的特征,也包含了视频帧i
t-1
的特征,并且该像素值还可以用来修正运动向量。然后,基于所述第四特征图和所述特征矩阵,得到第五特征图,即将第四特征图和所述特征矩阵进行乘积处理,得到第五特征图,从而确定出存在像素值差异的像素。最后,将第五特征图与初始运动向量m
t
进行叠加,得到所述目标运动向量
[0171]
应理解,上述对超分辨率模型的训练过程,超分辨率模型的损失的大小,主要取决于修正后的运动向量的精确的高低,如果修正后的运动向量的精度越高,则重建出的超分辨图像与真实的超分辨图像越接近,损失也就越小,反之,修正后的运动向量的精度越低,则重建出的超分辨图像与真实的超分辨图像越不接近,损失也就越大。因此,随着对超分辨
率模型的训练和学习,在完成对超分辨率模型的训练后,第一特征提取网络和第二特征提取网络除了具备体征提取功能,还可以使提取出的特征能够修正运动向量。因此,针对视频帧i
t
,则可使用第五特征图对初始运动向量m
t
进行修正,即使用第五特征图中像素值存在差异的像素的像素值对初始运动向量m
t
进行修正,得到目标运动向量
[0172]
最后,使用目标运动向量对所述目标特征图h
t-1
进行扭曲,得到所述参考特征图其中,对目标特征图h
t-1
进行扭曲的过程,与上述基于所述初始运动向量m
t
,对所述目标特征图h
t-1
进行扭曲的过程类似,不再叙述。
[0173]
在本技术的一个实施方式中,针对该多个视频帧中的第一个视频帧来说,该第一个视频帧并不存在前一帧,因此为了图像超分重建的完整性,以及避免第一帧没有足够的信息累积而产生误差,则可以按照图9d示出的方法,将所述多个视频帧中的第二个视频帧i2复制到所述第一个视频帧i1之前,作为第零个视频帧i0;将所述第一个视频帧i1与所述第零个视频帧i0之间的初始运动向量m1、残差图r1以及与所述第零个视频帧i0对应的目标特征图h0均设置为预设值。其中,该预设值可以为零。
[0174]
1003:基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,所述第t个视频帧i
t
为所述多个视频帧中的任意一个。
[0175]
1004:基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t

[0176]
其中,上述1003~1004的实现过程步骤901~904的实现过程,在此不做过多描述。
[0177]
1005:基于所述目标特征f
t
以及所述参考特征图得到与所述第t个视频帧i
t
对应的目标特征图h
t

[0178]
示例性的,将目标特征f
t
以及所述参考特征图进行拼接,然后再对拼接特征进行特征提取,可得到目标特征图h
t

[0179]
应说明,在本实施方式中,主要以不拼接视频帧i
t-1
的特征来获取视频帧i
t
对应的目标特征图h
t
为例进行说明,当然在实际应用中,还可以将目标特征f
t
、所述参考特征图以及视频帧i
t-1
的目标特征进行拼接,获取目标特征图h
t
。应理解,获取视频帧i
t-1
的目标特征获取与上述步骤1003~1004获取视频帧i
t
的目标特征的过程类似,不再叙述。
[0180]
此外,为了便于统一描述,本技术也可以将视频帧i
t
对应的目标特征图h
t
称作目标特征图两者是一致的,可以不用区分。
[0181]
需要说明,针对压缩特征融合网络,可以在对上述压缩编码器和目标超分辨模型训练好之后,使用视频帧样本对该压缩特征融合网络进行端到端训练。示例性的,先使用压缩编码器对视频帧样本进行压缩特征提取,得到压缩特征。然后,将压缩特征和视频帧样本输入到该压缩特征融合网络,得到视频帧样本的目标特征。同样,通过标超分辨模型获取视频帧样本对应的参考特征图。最后,基于目标特征以及参考特征图对视频帧样本进行超分重建,得到重建结果。最后,基于重建结果和真实结果,得到损失,基于该损失对压缩特征融合网络进行端到端训练。
[0182]
1006:基于所述目标特征图h
t
以及所述第t个视频帧i
t
,得到与所述第t个视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。
[0183]
示例性的,对所述目标特征图进行上采样,得到第一视频帧,其中,所述第一视频帧的分辨率大于第二阈值;对所述视频帧i
t
进行上采样,得到第二视频帧,其中,所述第二视频帧的分辨率大于所述第二阈值;将所述第一视频帧和所述第二视频帧进行融合,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于所述第二阈值。
[0184]
1007:基于所述目标特征图h
t
以及所述视频帧i
t
的帧类型,以及所述隐藏状态h
t-1
,确定与所述视频帧i
t
对应的隐藏状态h
t

[0185]
应理解,当前帧从上一帧获取到的隐藏状态,其实是保留了当前帧前面所有帧的特征,比如,t时刻所生成的隐藏状态会既包含t-1时刻的隐藏状态对应的特征,还融合有t时刻的特征,而且在保留特征时,对前面所有帧的特征都是同等对待,平等地保留下来。这样也就造成如果某个历史帧本身包含有噪声的话,这个噪声就会一直被保留下来,给隐藏状态带来误差,这种误差会随着递归的传播逐渐被放大,使用这样的信息指导当前帧的超分重建,导致图像超分重建的精度较低,重建出的超分图像的视觉效果较差。
[0186]
本技术中在实际研究发现,不同类型的帧由于编码方式不同,包含的噪声也是不同的。例如,对于i帧来说,是基于自己本身的内容进行编码的,故转码出来的i帧一般来说是不包含噪声的,然而对于b帧来说,是通过与前一帧和后一帧的差异对b帧进行编码的,故b帧的内容被严重压缩,故转码出的b帧很大程度上会包含有大量的噪声,如果在生成隐藏状态时,将b帧的特征无差别的保留下来的话,则生成的与b帧对应的隐藏状态中会存在噪声。换句话说,与b帧对应的隐藏状态中包含有误差信息,在对该b帧后的其他帧进行超分重建时,会借鉴与b帧对应的隐藏状态,则b帧后的其他帧的超分重建就会使用到不精确的隐藏状态进行超分重建,从而导致超分重建的精度较低,超分重建出的超分图像的视觉效果较差。而且,目前对视频进行编码时,视频帧的帧类型的排列顺序一般是i、b、b、p、b、b、p
……
。可以看出,在对视频进行编码时,会存在大量的b帧,因此若每次到b帧都积累有误差信息,则误差信息会一直不断累积,并且一直递归的传播下去,则误差信息就会被逐渐放大,导致后面的视频帧的超分重建效果更差。
[0187]
因此,本技术中在得到视频帧i
t
对应的目标特征图h
t
之后,并不会直接将目标特征图h
t
作为视频帧i
t
对应的隐藏状态,即t时刻的隐藏状态。而是对视频帧i
t
对应的目标特征图h
t
进行主动干预,得到t时刻的隐藏状态。
[0188]
示例性的,从视频帧i
t
对应的编码数据中获取视频帧i
t
的帧类型。可选地,若所述视频帧i
t
的帧类型为i类型或者p类型,则将所述目标特征图作为所述视频帧i
t
对应的隐藏状态h
t
,因为视频帧i
t
的帧类型为i类型或者p类型,则认为该视频帧i
t
不包含噪声或者包含的噪声极少,本技术对这种类型的视频帧的隐藏状态不作干预,直接将视频帧i
t
对应的目标特征图作为视频帧i
t
对应的隐藏状态h
t
。可选地,若该视频帧i
t
的帧类型为b类型,则对所述目标特征图以及所述隐藏状态h
t-1
进行加权处理,得到与所述视频帧i
t
对应的隐藏状态h
t
。由于b类型的视频帧包含有较多的噪声,因此需要对该视频帧的隐藏状态进行干预,即仍然将t-1时刻,即视频帧i
t-1
对应的隐藏状态h
t-1
,再次保留部分到t时刻,即保留到视频帧i
t
对应的隐藏状态h
t
中。示例性的,视频帧i
t
对应的隐藏状态h
t
可以通过公式(3)表示:
[0189][0190]
其中,α为预设超参,i、p、b分别表示i类型、p类型和b类型,i
t
=b表示视频帧i
t-1
的帧类型为b类型,i
t
=i or p表示视频帧i
t-1
的帧类型为i类型或者p类型。
[0191]
可以看出,当视频帧i
t
的帧类型为b类型时,则说明视频帧i
t
包含有较多的噪声,因此通过公式(1)的加权处理,可以使隐藏状态h
t
中包含有较少的视频帧i
t
的特征,减少噪声含量,减少误差,而且,主动融合隐藏状态h
t-1
,即去融合正确的特征,从而使隐藏状态h
t
比较精确,从而第t+1个视频帧使用隐藏状态h
t-1
进行超分重建时,重建出的超分图像比较精确,进而保证了视频超分的精度,提高了视频超分的视觉效果。
[0192]
应理解,在确定出t时刻的隐藏状态h
t
之后,可将隐藏状态h
t
传递给t+1时刻,以便t+1时刻进行超分重建,即对第t+1个视频帧进行超分重建,其中,对第t+1个视频帧进行超分重建与对第t个视频帧进行超分重建的过程类似,不再叙述。
[0193]
可以看出,在本技术实施例中,在对图像超分时,当确定出t时刻对应的视频帧i
t
对应的目标特征图后,并不会直接将该目标特征图作为该视频帧i
t
,即作为t时刻的隐藏状态h
t
,而是,基于视频帧i
t
的帧类型,以及视频帧i
t-1
对应的隐藏状态h
t-1
,对该目标特征图进行调整,这样主动基于帧类型对各个时刻的隐藏状态修改和调整,从而使各个时刻的隐藏状态尽可能的包含较少的噪声信息。例如,当视频帧i
t
的帧类型为b类型时,则说明视频帧i
t
包含有较多的噪声,可以主动使隐藏状态h
t
中包含有较少的视频帧i
t
的特征,从而减少噪声的含量,由于减少了各个时刻的隐藏状态所包含的噪声,因此各个时刻的隐藏状态包含有较少的误差信息,甚至不包含误差信息。由于隐藏状态包含有较少的误差信息或者不包含误差信息,则使用前一个视频帧对应的隐藏状态指导对当前视频帧进行图像超分时,重建出的超分图像比较精确,进而使超分出的视频的精度较高,提高了视频超分的视觉效果。
[0194]
参阅图10,图10为本技术实施例提供的一种图像超分装置的功能单元组成框图。图像超分装置1000包括:获取单元1001和处理单元1002,其中:
[0195]
获取单元1001,用于获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值;
[0196]
处理单元1002,用于基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,所述第t个视频帧i
t
为所述多个视频帧中的任意一个;
[0197]
基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t

[0198]
基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。
[0199]
在本技术的一个实施方式中,在基于所述多个视频帧中的第t个视频帧i
t
帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
方面,处理单元1002,用于:
[0200]
对所述视频帧i
t
的帧类型进行编码,得到第一特征向量e
t

[0201]
对所述视频帧i
t
进行特征提取,得到第一特征图v
t

[0202]
基于所述第一特征向量e
t
和所述第一特征图v
t
,得到第一压缩特征;
[0203]
对所述第一压缩特征进行上采样,得到所述目标压缩特征c
t

[0204]
在本技术的一个实施方式中,在基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t
方面,处理单元1002,具体用于:
[0205]
对所述视频帧i
t
进行特征提取,得到第三特征图;
[0206]
基于所述第三特征图和所述目标压缩特征c
t
,执行一次或多次第一特征融合操作,得到所述目标特征f
t

[0207]
在本技术的一个实施方式中,在基于所述第三特征图和所述目标压缩特征c
t
执行一次或多次第一特征融合操作,得到所述目标特征f
t
方面,处理单元1002,具体用于:
[0208]
基于执行第i-1次第一特征融合操作得到的第一目标融合特征图与所述目标压缩特征c
t
,执行第i次第一特征融合操作,得到与所述第i次第一特征融合操作对应的第一初始融合特征图当i=1时,所述第一目标融合特征图为所述第三特征图;
[0209]
将所述第一初始融合特征图与所述第一目标融合特征图进行融合,得到与所述第i次第一特征融合操作对应的第一目标融合特征图
[0210]
基于所述第一目标融合特征图与所述目标压缩特征c
t
,执行第i+1次第一特征融合操作,直至进行所述一次或多次第一特征融合操作,得到所述目标特征f
t

[0211]
在本技术的一个实施方式中,在基于执行第i-1次第一特征融合操作得到的第一目标融合特征图与所述目标压缩特征c
t
,执行第i次第一特征融合操作,得到与所述第i次第一特征融合操作对应的第一初始融合特征图方面,处理单元1002,具体用于:
[0212]
基于所述第一目标融合特征图和所述目标压缩特征c
t
,执行一次或多次第二特征融合操作,得到所述第一初始融合特征图
[0213]
在本技术的一个实施方式中,在基于所述第一目标融合特征图和所述目标压缩特征c
t
,执行一次或多次第二特征融合操作,得到所述第一初始融合特征图方面,处理单元1002,具体用于:
[0214]
在进行第j次第二特征融合操作时,对所述目标压缩特征c
t
进行特征提取,得到与所述第j次第二特征融合操作对应的目标压缩特征
[0215]
对执行j-1次第二特征融合操作得到的第二目标融合特征图与所述目标压缩特征进行特征融合,得到与所述j次第二特征融合操作对应的第二初始融合特征图当j=1时,所述第二目标融合特征图为所述第一目标融合特征图
[0216]
对所述第二初始融合特征图进行特征提取,得到与所述j次第二特征融合操作对应的第二目标融合特征图
[0217]
基于所述第二目标融合特征图以及所述目标压缩特征c
t
,执行j+1次第二特征融合操作,直至进行所述一次或多次第二特征融合操作,得到所述第一初始融合特征

[0218]
在本技术的一个实施方式中,目标压缩特征包括第一目标压缩特征和第二目标压缩特征所述对执行j-1次第二特征融合操作得到的第二目标融合特征图与所述目标压缩特征进行特征融合,得到与所述j次第二特征融合操作对应的第二初始融合特征图处理单元1002,具体用于:
[0219]
对所述第二目标融合特征图和所述第一目标压缩特征进行融合,得到与所述第j次第二特征融合操作对应的过渡特征图;
[0220]
对所述过渡特征图与所述第二目标压缩特征进行融合,得到所述第二初始融合特征图
[0221]
在本技术的一个实施方式中,处理单元1002,还用于:
[0222]
将每个视频帧对应的目标视频帧进行视频合成,得到目标视频。
[0223]
在本技术的一个实施方式中,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
是通过压缩编码器实现的。
[0224]
参阅图11,图11为本技术实施例提供的一种模型训练装置的功能单元组成框图。模型训练装置1100包括:获取单元1101和处理单元1102,其中:
[0225]
获取单元1101,用于构造训练样本集,其中,所述训练样本集包括至少一个第一视频帧样本对和至少一个第二视频帧样本对,任意一个第一视频帧样本对中的两个视频帧样本的恒定速率因子crf相同,且帧类型不同;任意一个第二视频帧样本对中的两个视频帧样本的crf不同,且帧类型相同;
[0226]
处理单元1102,用于针对所述训练样集中的任意一个视频帧样本对,获取所述视频帧样本对中的第一视频帧样本对应的第一帧类型和第一crf,以及所述视频帧样本对中的第二视频帧样本对应的第二帧类型和第二crf;
[0227]
根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失;
[0228]
基于与所述视频帧样本对对应的损失,对所述初始压缩编码器进行训练,得到所述压缩编码器。
[0229]
在本技术的一个实施方式中,在根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失方面,处理单元1102,具体用于:
[0230]
对所述第一视频帧样本进行特征提取,得到第四特征图;
[0231]
对所述第一帧类型进行编码,得到第二特征向量;
[0232]
对所述第二视频帧样本进行特征提取,得到第五特征图;
[0233]
对所述第二帧类型进行编码,得到第三特征向量;
[0234]
基于所述第一帧类型、所述第二帧类型、所述第一crf、所述第二crf、所述第四特征图、所述第二特征向量、所述第五特征图以及所述第三特征向量,得到与所述视频帧样本对对应的损失。
[0235]
在本技术的一个实施方式中,在基于所述第一帧类型、所述第二帧类型、所述第一
crf、所述第二crf、所述第四特征图、所述第二特征向量、所述第五特征图以及所述第三特征向量,得到与所述视频帧样本对对应的损失方面,处理单元1102,具体用于:
[0236]
基于所述第二特征向量和所述第四特征图,得到第二压缩特征;
[0237]
基于所述第二压缩特征,得到与所述第一视频帧样本对应的第一排序分,其中,所述第一排序分用于表征所述第一视频帧样本的压缩程度;
[0238]
基于所述第五特征图和所述第三特征向量,得到第三压缩特征;
[0239]
基于所述第三压缩特征,得到与所述第二视频帧样本对应的第二排序分,其中,所述第二排序分用于表征所述第二视频帧样本的压缩程度。
[0240]
根据所述第一排序分数、所述第二排序分数、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失。
[0241]
在本技术的一个实施方式中,在根据所述第一排序分数、所述第二排序分数、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失方面,处理单元,具体用于:
[0242]
若所述第一帧类型与所述第二帧类型相同,则根据所述第一排序分数、所述第二排序分数、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失;
[0243]
若所述第一crf与所述第二crf相同,则根据所述第一排序分数、所述第二排序分数、所述第一帧类型以及所述第二帧类型,得到与所述视频帧样本对对应的损失。
[0244]
在本技术的一个实施方式中,在根据所述第一排序分数、所述第二排序分数、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失方面,处理单元1002,具体用于:
[0245]
根据所述第一crf和所述第二crf的大小关系,确定第一系数;
[0246]
根据所述第一系数、所述第一排序分数和所述第二排序分数之间的差值以及预设阈值,得到与所述视频帧样本对对应的损失。
[0247]
在本技术的一个实施方式中,在根据所述第一排序分数、所述第二排序分数、所述第一帧类型以及所述第二帧类型,得到与所述视频帧样本对对应的损失方面,处理单元1102,具体用于:
[0248]
获取与所述第一帧类型对应的第一映射分,其中,所述第一映射分用于表征与所述第一帧类型对应的压缩程度;
[0249]
获取与所述第二帧类型对应的第二映射分,其中,所述第二映射分用于表征与所述第二帧类型对应的压缩程度;
[0250]
根据所述第一映射分和所述第二映射分之间的大小关系,确定第二系数;
[0251]
根据所述第二系数、所述第一排序分数和所述第二排序分数之间的差值以及预设阈值,得到与所述视频帧样本对对应的损失。
[0252]
在本技术的一个实施方式中,若所述第一crf小于所述第二crf,则所述第一系数为1;若所述第一crf大于所述第二crf,则所述第一系数为-1;
[0253]
若所述第一映射分小于所述第二映射分,则所述第二系数为1;若所述第一映射分大于所述第二映射分,则所述第二系数为-1。
[0254]
参阅图12,图12为本技术实施例提供的一种电子设备的结构示意图。如图12所示,电子设备1200包括收发器1201、处理器1202和存储器1203。它们之间通过总线1204连接。存
储器1203用于存储计算机程序和数据,并可以将存储器1203存储的数据传输给处理器1202。其中,电子设备可以为上述图10所述的实施例的图像超分装置1000或者,上述图11所述的实施例的模型训练装置1100。
[0255]
可选地,电子设备可以为上述图10所述的实施例的图像超分装置1000,则上述收发器1201可为图10所述的实施例的图像超分装置1000的获取单元1001,收发器1201的具体功能可参照上述获取单元1001的具体功能,不再叙述。则上述处理器1202可以为图10所述的实施例的图像超分装置1000的处理单元1002,处理器1202的具体功能可参照上述处理单元1002的具体功能,也不再叙述。
[0256]
可选地,电子设备可以为上述图11所述的实施例的模型训练装置1100,则上述收发器1201可为图11所述的实施例的模型训练装置1100的获取单元1101,收发器1201的具体功能可参照上述获取单元1101的具体功能,不再叙述。则上述处理器1202可以为图11所述的实施例的模型训练装置1100的处理单元1102,处理器1202的具体功能可参照上述处理单元1102的具体功能,也不再叙述。
[0257]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种图像超分方法的部分或全部步骤。
[0258]
本技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种图像超分方法的部分或全部步骤。
[0259]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0260]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0261]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0262]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0263]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
[0264]
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0265]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:read-only memory,简称:rom)、随机存取器(英文:random access memory,简称:ram)、磁盘或光盘等。
[0266]
以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种图像超分方法,其特征在于,包括:获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值;基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,所述第t个视频帧i
t
为所述多个视频帧中的任意一个;基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t
;基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个视频帧中的第t个视频帧i
t
帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,包括:对所述视频帧i
t
的帧类型进行编码,得到第一特征向量e
t
;对所述视频帧i
t
进行特征提取,得到第一特征图v
t
;基于所述第一特征向量e
t
和所述第一特征图v
t
,得到第一压缩特征;对所述第一压缩特征进行上采样,得到所述目标压缩特征c
t
。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t
,包括:对所述视频帧i
t
进行特征提取,得到第三特征图;基于所述第三特征图和所述目标压缩特征c
t
,执行一次或多次第一特征融合操作,得到所述目标特征f
t
。4.根据权利要求3所述的方法,其特征在于,所述基于所述第三特征图和所述目标压缩特征c
t
执行一次或多次第一特征融合操作,得到所述目标特征f
t
,包括:基于执行第i-1次第一特征融合操作得到的第一目标融合特征图与所述目标压缩特征c
t
,执行第i次第一特征融合操作,得到与所述第i次第一特征融合操作对应的第一初始融合特征图当i=1时,所述第一目标融合特征图为所述第三特征图;将所述第一初始融合特征图与所述第一目标融合特征图进行融合,得到与所述第i次第一特征融合操作对应的第一目标融合特征图基于所述第一目标融合特征图与所述目标压缩特征c
t
,执行第i+1次第一特征融合操作,直至进行所述一次或多次第一特征融合操作,得到所述目标特征f
t
。5.根据权利要求4所述的方法,其特征在于,所述基于执行第i-1次第一特征融合操作得到的第一目标融合特征图与所述目标压缩特征c
t
,执行第i次第一特征融合操作,得到与所述第i次第一特征融合操作对应的第一初始融合特征图包括:基于所述第一目标融合特征图和所述目标压缩特征c
t
,执行一次或多次第二特征融合操作,得到所述第一初始融合特征图6.根据权利要求5所述的方法,其特征在于,所述基于所述第一目标融合特征图和所述目标压缩特征c
t
,执行一次或多次第二特征融合操作,得到所述第一初始融合特征图
包括:在进行第j次第二特征融合操作时,对所述目标压缩特征c
t
进行特征提取,得到与所述第j次第二特征融合操作对应的目标压缩特征对执行j-1次第二特征融合操作得到的第二目标融合特征图与所述目标压缩特征进行特征融合,得到与所述j次第二特征融合操作对应的第二初始融合特征图当j=1时,所述第二目标融合特征图为所述第一目标融合特征图对所述第二初始融合特征图进行特征提取,得到与所述j次第二特征融合操作对应的第二目标融合特征图基于所述第二目标融合特征图以及所述目标压缩特征c
t
,执行j+1次第二特征融合操作,直至进行所述一次或多次第二特征融合操作,得到所述第一初始融合特征图7.根据权利要求6所述的方法,其特征在于,所述目标压缩特征包括第一目标压缩特征和第二目标压缩特征所述对执行j-1次第二特征融合操作得到的第二目标融合特征图与所述目标压缩特征进行特征融合,得到与所述j次第二特征融合操作对应的第二初始融合特征图包括:对所述第二目标融合特征图和所述第一目标压缩特征进行融合,得到与所述第j次第二特征融合操作对应的过渡特征图;对所述过渡特征图与所述第二目标压缩特征进行融合,得到所述第二初始融合特征图8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:将每个视频帧对应的目标视频帧进行视频合成,得到目标视频。9.根据权利要求1-8任一项所述的方法,其特征在于,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
是通过压缩编码器实现的。10.一种模型训练方法,其特征在于,所述模型包括压缩编码器和排序器,所述方法包括:构造训练样本集,其中,所述训练样本集包括至少一个第一视频帧样本对和至少一个第二视频帧样本对,任意一个第一视频帧样本对中的两个视频帧样本的恒定速率因子crf相同,且帧类型不同;任意一个第二视频帧样本对中的两个视频帧样本的crf不同,且帧类型相同;针对所述训练样集中的任意一个视频帧样本对,获取所述视频帧样本对中的第一视频帧样本对应的第一帧类型和第一crf,以及所述视频帧样本对中的第二视频帧样本对应的第二帧类型和第二crf;根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失;基于与所述视频帧样本对对应的损失,对所述初始压缩编码器进行训练,得到所述压缩编码器。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失,包括:对所述第一视频帧样本进行特征提取,得到第四特征图;对所述第一帧类型进行编码,得到第二特征向量;对所述第二视频帧样本进行特征提取,得到第五特征图;对所述第二帧类型进行编码,得到第三特征向量;基于所述第一帧类型、所述第二帧类型、所述第一crf、所述第二crf、所述第四特征图、所述第二特征向量、所述第五特征图以及所述第三特征向量,得到与所述视频帧样本对对应的损失。12.根据权利要求11所述的方法,其特征在于,所述基于所述第一帧类型、所述第二帧类型、所述第一crf、所述第二crf、所述第四特征图、所述第二特征向量、所述第五特征图以及所述第三特征向量,得到与所述视频帧样本对对应的损失,包括:基于所述第二特征向量和所述第四特征图,得到第二压缩特征;基于所述第二压缩特征,得到与所述第一视频帧样本对应的第一排序分,其中,所述第一排序分用于表征所述第一视频帧样本的压缩程度;基于所述第五特征图和所述第三特征向量,得到第三压缩特征;基于所述第三压缩特征,得到与所述第二视频帧样本对应的第二排序分,其中,所述第二排序分用于表征所述第二视频帧样本的压缩程度;根据所述第一排序分数、所述第二排序分数、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失。13.根据权利要求12所述的方法,其特征在于,所述根据所述第一排序分数、所述第二排序分数、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失,包括:若所述第一帧类型与所述第二帧类型相同,则根据所述第一排序分数、所述第二排序分数、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失;若所述第一crf与所述第二crf相同,则根据所述第一排序分数、所述第二排序分数、所述第一帧类型以及所述第二帧类型,得到与所述视频帧样本对对应的损失。14.根据权利要求12所述的方法,其特征在于,所述根据所述第一排序分数、所述第二排序分数、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失,包括:根据所述第一crf和所述第二crf的大小关系,确定第一系数;根据所述第一系数、所述第一排序分数和所述第二排序分数之间的差值以及预设阈值,得到与所述视频帧样本对对应的损失。15.根据权利要求13或14所述的方法,其特征在于,所述根据所述第一排序分数、所述第二排序分数、所述第一帧类型以及所述第二帧类型,得到与所述视频帧样本对对应的损失,包括:获取与所述第一帧类型对应的第一映射分,其中,所述第一映射分用于表征与所述第一帧类型对应的压缩程度;获取与所述第二帧类型对应的第二映射分,其中,所述第二映射分用于表征与所述第
二帧类型对应的压缩程度;根据所述第一映射分和所述第二映射分之间的大小关系,确定第二系数;根据所述第二系数、所述第一排序分数和所述第二排序分数之间的差值以及预设阈值,得到与所述视频帧样本对对应的损失。16.根据权利要求14或15所述的方法,其特征在于,若所述第一crf小于所述第二crf,则所述第一系数为1;若所述第一crf大于所述第二crf,则所述第一系数为-1;若所述第一映射分小于所述第二映射分,则所述第二系数为1;若所述第一映射分大于所述第二映射分,则所述第二系数为-1。17.一种图像超分装置,其特征在于,包括:获取单元和处理单元;所述获取单元,用于获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值;所述处理单元,用于基于所述多个视频帧中的第t个视频帧i
t
的帧类型,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
的目标压缩特征c
t
,其中,所述目标压缩特征c
t
用于表征所述视频帧i
t
的压缩程度,所述第t个视频帧i
t
为所述多个视频帧中的任意一个;基于所述目标压缩特征c
t
,对所述视频帧i
t
进行特征提取,得到所述视频帧i
t
对应的目标特征f
t
;基于所述目标特征f
t
,对所述视频帧i
t
进行图像超分,得到与所述视频帧i
t
对应的目标视频帧,其中,所述目标视频帧的分辨率大于第二阈值。18.一种模型训练装置,其特征在于,包括:获取单元和处理单元;所述获取单元,用于构造训练样本集,其中,所述训练样本集包括至少一个第一视频帧样本对和至少一个第二视频帧样本对,任意一个第一视频帧样本对中的两个视频帧样本的恒定速率因子crf相同,且帧类型不同;任意一个第二视频帧样本对中的两个视频帧样本的crf不同,且帧类型相同;所述处理单元,用于针对所述训练样集中的任意一个视频帧样本对,获取所述视频帧样本对中的第一视频帧样本对应的第一帧类型和第一crf,以及所述视频帧样本对中的第二视频帧样本对应的第二帧类型和第二crf;根据所述第一视频帧样本、所述第二视频帧样本、所述第一帧类型、所述第二帧类型、所述第一crf以及所述第二crf,得到与所述视频帧样本对对应的损失;基于与所述视频帧样本对对应的损失,对所述初始压缩编码器进行训练,得到所述压缩编码器。19.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-9或10-16中任一项所述的方法。20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-9或10-16中任一项所述的方法。

技术总结
本申请实施例公开了一种图像超分方法、模型训练方法及相关产品。该方法包括:获取多个视频帧,其中,任意一个视频帧的分辨率小于第一阈值;基于所述多个视频帧中的第t个视频帧I


技术研发人员:磯部駿
受保护的技术使用者:小红书科技有限公司
技术研发日:2023.06.18
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐