基于ConvNeXt的深度视频修复检测方法及系统

未命名 09-29 阅读:82 评论:0

基于convnext的深度视频修复检测方法及系统
技术领域
1.本发明涉及数字视频的篡改检测技术领域,具体涉及一种基于convnext的深度视频修复篡改检测方法及系统。


背景技术:

2.视频修复是一种常见的视频编辑技术,其目的是根据现有视频中视觉上可信的像素来修复、填补视频中缺失或受损的区域,保证视频内容在时间和空间上的一致性,使得修复后的视频呈现出自然的视觉效果。随着深度学习技术被广泛应用到视频处理领域,视频修复的效果取得了前所未有的提升,仅靠肉眼几乎难以辨别视频内容的真实性。因此,深度视频修复篡改检测已经成为多媒体内容分析和信息安全等领域中非常重要的研究课题。
3.目前大部分的深度视频修复篡改检测都是将视频拆分成一系列连续的视频帧,然后运用图像修复检测技术处理。但由于分析过程中缺乏时间相关性,模型无法学习有效特征,均未取得较好的效果。少数基于视频的方法使用黑塞矩阵、时空局部二值模式(local binary pattern,lbp)相干性分析辅助检测。但在面对基于深度学习的视频修复篡改技术或修复区域面积较小、风格差异较大的视频数据时性能均会大幅下降甚至失效。因为深度视频修复篡改技术能够获取视频相邻帧的信息,引入了与传统修复技术不同的痕迹。因此,有必要提供一种新的深度视频修复篡改检测方法及系统解决上述问题。


技术实现要素:

4.本发明的目的旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种基于convnext的深度视频修复检测方法及系统,结合视频时域和空域的多尺度特征,提高对目标视频修复篡改检测的准确度、完整性和模型的泛化能力。
5.为实现上述目的,本发明的第一方面,提供一种基于convnext的深度视频修复检测方法,其特征在于,包括以下步骤:
6.s1:首先对数据集内视频进行分帧处理。数据集中包含视频序列v={vi|i=1,2,

,n},其中n表示视频的数量。每个视频经分帧处理后得到视频帧序列i={ii|i=1,2,

,n},其中n表示视频帧的数量。然后把所有视频帧以视频为单位划分为训练集、验证集和测试集。
7.s2:构建基于convnext的深度视频修复检测网络,所述视频修复检测网络包含时序残差提取模块、滤波残差提取模块、convnext双流特征提取模块、特征融合模块以及金字塔结构特征恢复模块。
8.s3:构建视频修复检测网络训练使用的损失函数以及参数优化算法,使用训练集和验证集的视频帧训练视频修复检测网络,视频修复检测网络每次处理时间窗口为奇数数量的视频帧,训练完成后保存网络模型和最佳权重参数。
9.s4:对训练好的视频修复检测网络进行测试,输入测试集的视频帧,输出检测掩膜,并评估视频修复检测网络的性能。
10.作为优选的技术方案,步骤s2中,所述的时序残差提取模块,包含三维(3d)卷积层和空域富模型srm(spatial rich model)滤波层。输入先经过3d卷积处理,再经过srm滤波处理,输出时序残差特征f
t

11.作为优选的技术方案,步骤s2中,所述的滤波残差提取模块,包含高斯拉普拉斯log(laplacian of gaussian)滤波层和拉普拉斯laplacian滤波层。输入先经过log滤波处理,再经过laplacian滤波处理,输出滤波残差特征f
p

12.作为优选的技术方案,步骤s2中,所述convnext双流特征提取模块,包括两个单流时序残差特征提取网络,每个单流时序残差特征提取网络由四个阶段的convnext块组成。第一个单流时序残差特征提取网络的输入为时序残差特征f
t
,第二个单流时序残差特征提取网络的输入为滤波残差特征f
p
,分别经过四个阶段convnext块的特征提取,分别输出第一个多层次时序残差特征和第二个多层次滤波残差特征
13.作为优选的技术方案,步骤s2中,所述特征融合模块,输入为第一个多层次时序残差特征f1和第二个多层次滤波残差特征f2,相同层次的时序残差特征和滤波残差特征按点逐位相加,输出多层次融合特征f={fi|i=1,2,3,4}。
14.作为优选的技术方案,步骤s2中,所述金字塔结构特征恢复模块,包含金字塔特征抽象结构(ppm)、跨层次特征上采样融合结构以及特征恢复结构。输入为多层次融合特征f,高层次特征f4先经过ppm结构得到抽象特征f
′4,再将f1、f2、f3、f
′4送入跨层次特征上采样融合结构。在跨层次特征上采样融合结构中,先对f1、f2、f3进行卷积得到f
′1、f
′2、f
′3,然后将f
′4上采样后与f
′3融合得到f
″3,再将f
″3上采样后与f
′2融合得到f
″2,最后将f
″2上采样后与f
′1融合得到f
″1。在特征恢复结构中,将f
″2、f
″3、f
′4上采样后与f
″1在通道维度上拼接,通过反卷积层和softmax层得到检测掩膜。
15.作为优选的技术方案,步骤s3中,所述视频修复检测网络训练使用的损失函数,包含dice损失函数和iou损失函数,二者组成混合损失函数,具体表示为:
[0016][0017][0018][0019]
其中,n表示预测结果总像素数量,y表示标签掩膜的像素值,表示预测掩膜的像素值,j表示第j个像素,ε是平滑系数,防止分母为0,权重λ1和λ2的值均取0.5。
[0020]
本发明的第二方面,提供一种基于convnext的深度视频修复检测系统,包括视频处理模块、时序特征提取模块、滤波特征提取模块、特征融合模块、金字塔结构特征恢复模块和检测结果生成模块。
[0021]
所述视频处理模块用于将视频按照帧率分成连续的视频帧,并以图片的形式保存在一个文件夹中。
[0022]
所述时序特征提取模块,与滤波特征提取模块并列。输入一个固定序列的视频帧,
先利用3d卷积和srm滤波,然后利用预先训练好的convnext特征提取网络,输出多层次时序残差特征。
[0023]
所述滤波特征提取模块,与时序特征提取模块并列。输入一个固定序列的视频帧,先利用log滤波和laplacian滤波,然后利用预先训练好的convnext特征提取网络,输出多层次滤波残差特征。
[0024]
所述特征融合模块,输入多层次时序残差特征和多层次滤波残差特征,将同层次的时序残差特征与滤波残差特征进行融合,输出多层次的融合特征。
[0025]
所述金字塔结构特征恢复模块,输入多层次融合特征,利用预先训练好的金字塔特征抽象结构、跨层次特征上采样融合结构和特征恢复结构,判断待检测视频帧是否经过修复,输出对应视频帧的检测掩膜,并以图片的形式保存在一个文件夹中。
[0026]
所述检测结果生成模块,将视频帧对应的检测掩膜合成为一个视频,得到最终的检测结果。
[0027]
本发明与现有技术相比,具有如下优点和有益效果:
[0028]
(1)本发明通过log和lapacian滤波提取图像像素值的突变信息,得到空域上的滤波残差特征。通过3d卷积和srm滤波提取时间维度上的运动残差信息,得到时域上的时序残差特征。设计了convnext双流特征提取模块,充分挖掘滤波残差特征和时序残差特征所包含的信息。并且使用特征融合模块对时空特征进行合并,利用单张视频帧的空域特征、噪声特征以及多张视频帧的时域特征对视频修复进行检测,检测结果具有较高的准确性和完整性。
[0029]
(2)本发明充分挖掘不同层次特征之间的联系,深层网络产生的高层次特征具有较强的语义表征能力,浅层网络产生的低层次特征具有较强的几何细节表征能力,金字塔结构特征恢复模块使用跨层次特征上采样融合结构充分结合两种特征的优势,对检测网络学习视频修复操作的特点提供了很大帮助,保证了视频修复检测网络的高性能。
[0030]
(3)本发明采用混合损失函数训练检测网络,由于视频修复区域通常只占整个视频帧的小部分,因此存在正负样本强烈不平衡的问题,采用l
dice
可以很好的解决。同时,采用l
iou
可以促进检测网络的输出掩膜向标签靠近,提高检测网络的准确性。
附图说明
[0031]
图1为本发明基于convnext的深度视频修复检测方法的模型整体结构图;
[0032]
图2为本发明基于convnext的深度视频修复检测方法的流程图;
[0033]
图3为srm滤波核参数图;
[0034]
图4(a)为log滤波核参数图;
[0035]
图4(b)lapacian滤波核参数图;
[0036]
图5为convnext-t的网络结构图;
[0037]
图6(a)为测试样本原视频帧;
[0038]
图6(b)为测试样本修复后视频帧;
[0039]
图6(c)为测试样本标签掩膜;
[0040]
图6(d)为测试样本滤波残差;
[0041]
图7为本发明系统示意图。
具体实施方式
[0042]
为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0043]
实施例1:
[0044]
本实施例提供一种基于convnext的深度视频修复检测方法,视频修复检测网络结构如图1所示。固定序列的视频帧并列输入时序残差提取模块和滤波残差提取模块,得到时序残差和滤波残差。然后通过单流时序残差特征提取网络和单流滤波残差提取网络同时对时序残差和滤波残差进行特征提取,得到多层次时序残差特征和多层次滤波残差特征。再通过特征融合模块对同层次的时序残差特征和滤波残差特征进行特征融合,得到多层次融合特征。最后通过金字塔结构特征恢复模块先对高层次特征进行抽象,然后进行跨层次特征上采样融合,再将特征恢复到输入视频帧大小,得到最终检测掩膜。
[0045]
本实施例运用三种不同的视频修复算法在youtubevos数据集的基础上制作修复检测所需要的数据集。实验在ubuntu系统上进行,使用3.8版本的python语言和1.8.0版本的pytorch人工神经网络库,cuda版本为11.2,显卡使用单张nvidia 3090显卡。
[0046]
本实施例提供一种基于convnext的深度视频修复检测方法,其流程如图2所示,包括以下步骤:
[0047]
步骤s1:首先对数据集内视频进行分帧处理。数据集中包含视频序列v={vi|i=1,2,

,n},其中n表示视频的数量。每个视频经分帧处理后得到视频帧序列i={ii|i=1,2,

,n},其中n表示视频帧的数量。然后把所有视频帧以视频为单位划分为训练集、验证集和测试集。
[0048]
具体的,数据集内包括未修复视频和修复过的视频,共2000个视频,按照8:1:1的比例划分,1600个视频分为训练集,200个视频分为验证集,200个视频分为测试集。
[0049]
步骤s2:构建基于convnext的深度视频修复检测网络,所述视频修复检测网络包含时序残差提取模块、滤波残差提取模块、convnext双流特征提取模块、特征融合模块以及金字塔结构特征恢复模块。
[0050]
具体的,所述的时序残差提取模块,由3d卷积层和srm滤波层依次组成。由于检测的是视频数据,相邻视频帧之间的内容在时间维度上存在连续性,使用3d卷积可以在时间维度上聚合视频帧,提取时间序列上物体运动的残差信息。srm是一种高维度的空域隐写分析图像特征,现广泛被应用于图像篡改检测领域,可以分析领域像素之间的相关性是否受到破坏。srm滤波层的滤波器结构如图3所示,类似于卷积操作,三个滤波器分别对应rgb三个通道,用于增强修复痕迹。
[0051]
具体的,所述的滤波残差提取模块,由log滤波层和laplacian滤波层依次组成。laplacian滤波属于锐化滤波,是图像像素的二阶导数矩阵,包含着图像像素值的突变信息,是边缘提取常用的滤波算法,其滤波核如图4(a)所示。由于视频修复通常会造成修复区域边缘模糊,通过laplacian滤波,可以突出修复区域的边缘信息,为模型学习修复特征提供有利帮助。为了防止laplacian滤波计算二次微分时使图像的噪声更加明显,先使用log滤波使图像更加平滑,再使用laplacian滤波增强修复区域边缘,log滤波核如图4(b)所示。
[0052]
具体的,所述的convnext双流特征提取模块,由单流时序残差特征提取网络和单
流滤波残差特征提取网络并列组成,二者均采用convnext-t的网络结构,如图5所示。
[0053]
具体的,所述的金字塔结构特征恢复模块,由金字塔特征抽象结构(ppm)、跨层次特征上采样融合结构以及特征恢复结构组成。ppm的结构如图1所示,由不同尺度的池化层、卷积层(包含归一化和激活函数)和上采样层组成,目的是为了聚合不同区域的上下文信息,提高网络获取全局信息的能力。在高层次特征上使用不同尺度的池化,得到多个不同尺寸的特征图,再在通道维度上拼接这些特征,最终得到高层次抽象特征。跨层次上采样特征融合结构,将多层次融合特征按照从高到低的顺序,依次双线性插值填充上采样与上一层次特征融合,从而达到兼顾全局语义信息与局部细节信息的目的。特征恢复结构,通过反卷积层、归一化以及激活函数处理融合特征,再经过一个softmax层计算概率,根据概率判断像素点是否被修复,得到检测掩膜。
[0054]
步骤s3:构建视频修复检测网络训练使用的损失函数以及参数优化算法,使用训练集和验证集的视频帧训练视频修复检测网络,视频修复检测网络每次处理时间窗口为奇数数量的视频帧,训练完成后保存网络模型和最佳权重参数。
[0055]
具体的,视频修复检测网络训练的损失函数采用dice损失函数和iou损失函数结合的混合损失函数。dice损失函数源于dice系数,其是一种用于评估两个样本相似性的度量函数,dice损失函数可以缓解正负样本数量不平衡带来的消极影响,由于视频修复区域的面积通常只占视频帧的一小部分,使用dice损失函数可以解决这个问题。iou损失函数可以促进检测结果掩膜与对应标签有更大的交集,同时预测更准确的区域边缘。使用混合损失函数可以提升模型检测结果的准确性和完整性。
[0056]
步骤s4:对训练好的视频修复检测网络进行测试,输入测试集的视频帧,输出检测掩膜,并评估视频修复检测网络的性能。
[0057]
本实施例在由fuseformer和e2fgvi视频修复算法修复的youtubevos数据集上进行模型训练,其库内(youtubevos)和跨库(davis)测试结果如下表1所示,数据集后注释为使用的视频修复算法。实验中,图6(a)为测试样本选取的原视频帧,图6(b)为测试样本经过修复后的视频帧,图6(c)为测试样本得到的标签掩膜,图6(d)为测试样本滤波残差。
[0058]
表1youtubevos(fuseformer,e2fgvi)数据集训练模型测试结果
[0059][0060]
由表1可知,本实施例在youtubevos(fuseformer,e2fgvi)数据集上训练的模型,在库内测试中取得较好的性能。由于davis数据集视频风格与youtubevos数据集相差较大,跨库测试中模型的性能受到一定的影响,但仍优于现有其他视频修复检测方法,验证了本发明的有效性。
[0061]
实施例2:
[0062]
本实施例还提供一种基于convnext的深度视频修复检测系统,如图7所示,包括视
频处理模块、时序特征提取模块、滤波特征提取模块、特征融合模块、金字塔结构特征恢复模块和检测结果生成模块。
[0063]
所述视频处理模块用于将视频按照帧率分成连续的视频帧,并以图片的形式保存在一个文件夹中。
[0064]
所述时序特征提取模块,与滤波特征提取模块并列。输入一个固定序列的视频帧,先利用3d卷积和srm滤波,提取视频帧之间的时序残差,然后利用预先训练好的convnext特征提取网络,输出多层次时序残差特征。
[0065]
所述滤波特征提取模块,与时序特征提取模块并列。输入一个固定序列的视频帧,先利用log滤波和laplacian滤波,提取视频帧的滤波残差,然后利用预先训练好的convnext特征提取网络,输出多层次滤波残差特征。
[0066]
所述特征融合模块,输入多层次时序残差特征和多层次滤波残差特征,将同层次的时序残差特征与滤波残差特征进行融合,输出多层次的融合特征。
[0067]
所述金字塔结构特征恢复模块,输入多层次融合特征,利用预先训练好的金字塔特征抽象结构、跨层次特征上采样融合结构和特征恢复结构,计算视频帧每个像素点是原始图片的概率和是经过修复图片的概率,判断待检测视频帧是否经过修复,输出对应视频帧的检测掩膜,并以图片的形式保存在一个文件夹中。
[0068]
所述检测结果生成模块,将视频帧对应的检测掩膜合成为一个视频,得到最终的检测结果。
[0069]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:
1.基于convnext的深度视频修复检测方法,其特征在于,包括以下步骤:s1:对数据集内视频进行分帧处理,数据集中包含视频序列v={v
i
|i=1,2,

,n},其中n表示视频的数量,每个视频经分帧处理后得到视频帧序列i={i
i
|i=1,2,

,n},其中n表示视频帧的数量;然后把所有视频帧以视频为单位划分为训练集、验证集和测试集;s2:构建基于convnext的深度视频修复检测网络,所述视频修复检测网络包含时序残差提取模块、滤波残差提取模块、convnext双流特征提取模块、特征融合模块以及金字塔结构特征恢复模块;s3:构建视频修复检测网络训练使用的损失函数以及参数优化算法,使用训练集和验证集的视频帧训练视频修复检测网络,视频修复检测网络每次处理时间窗口为奇数数量的视频帧,训练完成后保存网络模型和最佳权重参数;s4:对训练好的视频修复检测网络进行测试,输入测试集的视频帧,输出检测掩膜,并评估视频修复检测网络的性能。2.根据权利要求1所述的基于convnext的深度视频修复检测方法,其特征在于,在步骤s2中,所述的时序残差提取模块,包含3d卷积层和空域富模型srm滤波层,输入先经过3d卷积处理,再经过srm滤波处理,输出时序残差特征f
t
;所述的滤波残差提取模块,包含高斯拉普拉斯log滤波层和拉普拉斯laplacian滤波层,输入先经过log滤波处理,再经过laplacian滤波处理,输出滤波残差特征f
p
;所述convnext双流特征提取模块,包括两个单流时序残差特征提取网络,每个单流时序残差特征提取网络由四个阶段的convnext块组成;第一个单流时序残差特征提取网络的输入为时序残差特征f
t
,第二个单流时序残差特征提取网络的输入为滤波残差特征f
p
,分别经过四个阶段convnext块的特征提取,分别输出第一个多层次时序残差特征和第二个多层次滤波残差特征所述特征融合模块,输入为第一个多层次时序残差特征f1和第二个多层次滤波残差特征f2,相同层次的时序残差特征和滤波残差特征按点逐位相加,输出多层次融合特征f={f
i
|i=1,2,3,4};所述金字塔结构特征恢复模块,包含金字塔特征抽象结构ppm、跨层次特征上采样融合结构以及特征恢复结构;输入为多层次融合特征f,高层次特征f4先经过ppm结构得到抽象特征f4′
,再将f1、f2、f3、f4′
送入跨层次特征上采样融合结构;在跨层次特征上采样融合结构中,先对f1、f2、f3进行卷积得到f1′
、f2′
、f3′
,然后将f4′
上采样后与f3′
融合得到f3″
,再将f3″
上采样后与f2′
融合得到f2″
,最后将f2″
上采样后与f1′
融合得到f1″
;在特征恢复结构中,将f2″
、f3″
、f4′
上采样后与f1″
在通道维度上拼接,通过反卷积层和softmax层得到检测掩膜。3.根据权利要求2所述的基于convnext的深度视频修复检测方法,其特征在于,步骤s3中,所述损失函数,包含dice损失函数和iou损失函数,二者组成混合损失函数,具体表示为:
其中,n表示预测结果总像素数量,y表示标签掩膜的像素值,表示预测掩膜的像素值,j表示第j个像素,ε是平滑系数,λ1和λ2为权重。4.基于convnext的深度视频修复检测系统,用于实现权利要求1至3任一所述方法,其特征在于,包括视频处理模块、时序特征提取模块、滤波特征提取模块、特征融合模块、金字塔结构特征恢复模块和检测结果生成模块;所述视频处理模块用于将视频按照帧率分成连续的视频帧,并保存;所述时序特征提取模块,输入为一个固定序列的视频帧,利用三维卷积、srm滤波,以及预先训练好的convnext特征提取网络,输出多层次时序残差特征;所述滤波特征提取模块,输入为一个固定序列的视频帧,利用log滤波、laplacian滤波,以及预先训练好的convnext特征提取网络,输出多层次滤波残差特征;所述特征融合模块,输入多层次时序残差特征和多层次滤波残差特征,将同层次的时序残差特征与滤波残差特征进行融合,输出多层次的融合特征;所述金字塔结构特征恢复模块,输入为多层次融合特征,利用预先训练好的金字塔特征抽象结构、跨层次特征上采样融合结构和特征恢复结构,判断待检测视频帧是否经过修复,输出对应视频帧的检测掩膜。

技术总结
本发明公开了基于ConvNeXt的深度视频修复检测方法及系统,该方法首先对数据集内视频进行分帧处理,得到视频帧序列。其次构建包含时序残差提取模块、滤波残差提取模块、ConvNeXt双流特征提取模块、特征融合模块以及金字塔结构特征恢复模块的视频修复检测网络。然后构建损失函数以及参数优化算法。最后对训练好的视频修复检测网络进行测试,并评估网络性能。该系统包括视频处理模块、时序特征提取模块、滤波特征提取模块、特征融合模块、金字塔结构特征恢复模块和检测结果生成模块。本发明检测结果具有较高的准确性和完整性,保证了视频修复检测网络的高性能。频修复检测网络的高性能。频修复检测网络的高性能。


技术研发人员:朱娅妮 韩霆锋 高旭东 姚晔
受保护的技术使用者:杭州电子科技大学
技术研发日:2023.05.12
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐