一种视频监控中河道异常行为的识别方法
未命名
09-24
阅读:73
评论:0
1.本发明属于计算机视觉视频行为识别技术领域,具体涉及一种视频监控中河道异常行为识别方法。
背景技术:
2.河道包涵着运输、排水、防洪等多方面功能,所以河道治理工作自古至今都是十分重视的工作。虽然各地对河道保护、治水等工作做了很多努力,但由于人们环保意识不强,向河内乱扔垃圾、乱排污水等破坏水环境行为屡有发生、屡禁不止,有游客随手扔下的废弃饮料瓶、袋装食品塑料袋、餐巾纸、香烟壳等,有住户扔下的泔脚垃圾等,河道水质问题还是个长久存在的难题。所以对于破坏水环境的行为进行识别十分有必要,河道异常行为主要包括泼污水、扔垃圾和游泳三类。
3.以往行为识别分类方法,需要提取图像中的手工特征,在视频理解领域里称为局部空时特征,如尺度不变特征变换、加速鲁棒特征、方向梯度直方图等特征,再利用这些特征结合分类器如支持向量机进行分类。提取局部空时特征的方法有很多种,如:空时兴趣点,这是图像中的harris检测器在视频中的拓展,称为3d-harris;将方向梯度直方图和光流直方图作为视频特征被加入到stips中;将sift与hog也被拓展成了 sift-3d与hog-3d来处理行为识别的问题。这些方法提取的特征点位置都是稀疏的,因此得到的信息不够全面,并且检测到的是相似的运动信息。在传统方法中,效果最优越的莫过于密集轨迹算法和改进的密集轨迹算法,密集轨迹算法采用稠密采样特征点,有效的克服了上述方法的缺点。而改进的密集轨迹算法,它对相机运动进行估计,并消除了相机运动带来的影响,最后采用fisher向量代替了之前的bof来进行特征编码,效果得到了提升。该算法提出后,由于其优秀的性能,很长一段时间被作为视频的特征提取模块。
4.alexnet模型的提出使得深度学习在静态图像识别领域有了重大突破,因此,对于视频领域的深度网络设计,也已经有了积极的研究。在该领域,最先使用的深度学习方法是,利用图片训练得到的卷积神经网络来对视频的每一帧进行特征提取,然后再将这些特征通过池化、高维特征编码或递归神经网络等方式按照时间顺序整合成一个固定大小的描述子。但是这么做的效果并不是很好,并没有体现出深度学习网络的优越性。随后出现的双流网络、卷积三维网络以及长短期循环卷积网络,使得深度学习在视频理解领域有了新的突破。近几年,时序分段网络tsn与在线视频理解有效卷积网络eco的提出,有效提高了视频行为识别的性能。
5.尽管行为识别取得了一定程度上的研究进展,但是此课题中普遍存在的一些问题,由于一个行为的发生可能会跨越很长的时间断,并且存在着样本差异性、行为多样性、背景干扰、特征表达困难等问题,行为分类检测难度会比较大,同时要想实现视频的实时处理,必须更多考虑网络的复杂度。
技术实现要素:
6.发明目的:为了克服现有技术中存在的行为跨越时长问题,以及特征表达困难的问题,提供一种视频监控中河道异常行为识别方法,针对图像特征问题,在分析单帧的2d 网络中加入rm关系模块,学习图像中不同特征之间的关系,在学习时序信息的3d中加入nl非局部模块,以此捕获长距离依赖关系,加强时序信息的学习。
7.技术方案:为实现上述目的,本发明提供一种视频监控中河道异常行为识别方法,包括如下步骤:
8.s1:构建整体网络,使用eco-lite模型作为骨干网络,并在模型前半段的2d卷积网络累加rm关系模块,后半段3d卷积网络中累加nl非局部模块;
9.s2:对原始视频数据进行处理,划分动作类别;
10.s3:将视频转化为帧,数据扩充,生成训练集、测试集文件;
11.s4:将训练集作为输入送到整体网络中,设置学习率对整体网络进行训练和验证,通过反向传播来更新整体网络参数,并将参数保存为权重文件;
12.s5:使用已验证准确率最高的权重文件初始化整体网络,将测试集输入到整体网络中学习视频中的时序信息,进行行为识别;
13.进一步地,所述步骤s1整体网络的结构为:
14.(1)使用eco-lite模型作为整体骨干网络
15.(2)采用bn-inception从开始到inception-3c层的部分作为模型前半段的2d卷积网络,并在其后累加rm(relationmodule)关系模块,融合图像的不同特征,同时输入输出的维度不变。
16.(3)3d-resnet18中的几层被用来作为模型后半段3d卷积网络,并在3d网络的 conv3_x层加入nl(non-local)非局部模块,以此捕获长距离依赖。将2d网络输出的一组单帧图像的特征堆叠起来输入3d网络,提取视频的时序信息,3d网络输出是不同类别标签的热向量。
17.进一步地,所述步骤s1中rm(relation module)关系模块操作,具体操作为:
18.公式(1)中fa是图像特征(appearance feature),fg是位置特征(geometric feature),这两种特征是后续算法的基础。
[0019][0020][0021][0022][0023][0024][0025]
用公式(3)来描述第n个目标和所有目标之间的关系特征(relation feature),其
由表示第m个目标的图像特征,wv是一个线性变换操作,用1*1的卷积层实现。ω
mn
是用来描述不同目标之间的关系权重(relationweight),对应公式(4),关系特征 fr和原有的图像特征fa融合并传递给下一层网络,公式(3)中的wv对应公式(2)中的v,ω
mn
对应soft max(),公式(4)中ωa、ωg分别对应公式(5)和公式(6)。
[0026]
进一步地,所述步骤s1中的nl非局部模块,具体操作为:
[0027]
视频中相关的物体可能出现在较远的空间和较长的时间,在3d网络的conv3_x层加入nl模块,以捕获长距离依赖关系,nl具体操作如下:
[0028][0029]
其中x表示输入信号(即上一层的features),y表示输出信号,其size和x相同。 f(xi,xj)用来计算i和所有可能关联的位置j之间成对的关系,i和j的位置距离越远, f值越小,表示j位置对i影响越小。g(xj)用于计算输入信号在j位置的特征值,c(x) 是归一化参数。
[0030]
将nl操作变形成一个non-local block,插入到已有的结构中。non-local block为:
[0031]
zi=wzyi+xiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0032]
其中yi已经在(7)式中给出了,+xi则表示的是一个残余连接。
[0033]
进一步地,所述步骤s2中对原始视频数据进行处理,具体为:
[0034]
由于获取的原始数据来自河道监控视频,其中视频场景复杂,且动作发生区间不明确,需要对视频进行剪裁,使每个视频都只包含单个标签行为的开始和结束,河道异常行为主要包括泼污水、游泳以及扔垃圾三类,所以需对这三类行为的视频段进行处理并分类保存。
[0035]
进一步地,所述步骤s3中的数据扩充,过程如下:
[0036]
获取的原始视频中各类行为数量相差较大,扔垃圾行为的发生较为普遍,其他类别相对较少,造成数据不均衡,为保证训练的数据量避免过拟合的发生,对泼污水、扔垃圾数据集进行扩充。采用镜像、对比度变换的方法对数据进行扩充,对比度增强为原来的1.5倍。
[0037]
进一步地,所述步骤s4中整体网络中的帧随机取样,过程如下:
[0038]
一段帧数可变的完整视频被作为网络的输入。视频被分成n个大小相同的子段si, i=1,..,n,在每个子段中,正好有一帧被随机采样。从中抽出n个帧,只进行中心剪裁,然后送入整个网络。这种抽样提供了对变化的鲁棒性,并使网络能够充分地利用所有帧。
[0039]
本发明的有益效果:本发明的一种视频监控中河道异常行为识别方法,使用经过预训练的eco_lite模型为基础,节约了时间成本。在其2d网络部分加入rm关系模块,学习不同特征之间的关系,在其3d网络部分加入nl非局部模块,以此捕获长距离依赖。本发明方法相较于其他方法,在保证速度的同时在识别准确率上得到了提升。
附图说明
[0040]
图1为整体实施流程图
[0041]
图2为本发明的整体网络模型图;
[0042]
图3为rm关系模块模型图;
[0043]
图4为nl非局部模块模型图;
具体实施方式
[0044]
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
[0045]
本发明提供一种视频监控中河道异常行为识别方法,首先构建整体网络,包括一个学习单帧特征的2d网络、一个学习时序信息的3d网络,具体如图2所示;在2d网络中加入rm关系模块,学习不同特征之间的关系,3d网络中加入nl非局部模块,捕获长距离依赖关系。
[0046]
基于上述方法,本实施例将上述方法应用于河道异常行为识别,具体的过程如下:
[0047]
步骤1:使用eco-lite模型作为整体骨干网络;
[0048]
采用bn-inception从开始到inception-3c层的部分作为模型前半段的2d卷积网络,并在其后累加rm(relation module)关系模块,融合图像的不同特征,同时输入输出的维度不变;
[0049]
3d-resnet18中的几层被用来作为模型后半段3d卷积网络,并在3d网络的 conv3_x层累加nl(non-local)非局部模块,以此捕获长距离依赖。将2d网络输出的一组单帧图像的特征堆叠起来输入3d网络,提取视频的时序信息,3d网络输出是不同类别标签的热向量。。
[0050]
步骤2:对原始视频数据进行剪裁,使每个视频都只包含泼污水、游泳以及扔垃圾三类中单个行为的开始和结束,并分类保存;
[0051]
步骤3:将视频转化为帧,通过镜像、对比度变换对数据进行扩充,对比度增强为原来的1.5倍,生成训练集、测试集文件;
[0052]
步骤4:将训练集作为输入送到整体网络中,设置学习率对整体网络进行训练和验证,通过反向传播来更新整体网络参数,并将参数保存为权重文件;
[0053]
步骤5:使用已验证准确率最高的权重文件初始化整体网络,将测试集输入到整体网络中学习视频中的时序信息,进行行为识别;
[0054]
以下依次对rm关系模块、nl非局部模块网络进行详细说明:
[0055]
1、rm关系模块
[0056]
图3为rm关系模块的示意图,公式(1)中fa是常规的图像特征(appearancefeature), fg是位置特征(geometric feature),这两种特征是后续算法的基础。
[0057][0058]vout
=soft max()v
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0059][0060]
[0061][0062][0063]
用公式(3)来描述第n个目标和所有目标之间的关系特征(relation feature),其中表示第m个目标的图像特征。wv是一个线性变换操作,用1*1的卷积层实现,ω
mn
是用来描述不同目标之间的关系权重(relation weight),对应公式(4),关系特征fr和原有的图像特征fa融合并传递给下一层网络,公式(3)中的wv对应公式(2)中的v,ω
mn
对应soft max(),公式(4)中ωa、ωg分别对应公式(5)和公式(6)。
[0064]
2、nl非局部模块
[0065]
图4是nl非局部模块示意图,视频中相关的物体可能出现在较远的空间和较长的时间,在3d网络的conv3_x层加入nl模块,能更好的处理时空域的信息,nl具体操作如下:
[0066][0067]
其中x表示输入信号(即上一层的features),y表示输出信号,其size和x相同。 f(xi,xj)用来计算i和所有可能关联的位置j之间成对的关系,i和j的位置距离越远, f值越小,表示j位置对i影响越小。g(xj)用于计算输入信号在j位置的特征值,c(x) 是归一化参数。
[0068]
将nl操作变形成一个non-local block,以便插入到已有的结构中。non-local block 为:
[0069]
zi=wzyi+xiꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0070]
其中yi已经在(7)式中给出了,+xi则表示的是一个残余连接。
技术特征:
1.一种视频监控中河道异常行为识别方法,包括如下步骤:s1:构建整体网络,使用eco-lite模型作为骨干网络,并在模型前半段的2d卷积网络累加rm关系模块,后半段3d卷积网络中累加nl非局部模块;s2:对原始视频数据进行处理,划分动作类别;s3:将视频转化为帧,数据扩充,生成训练集、测试集文件;s4:将训练集作为输入送到整体网络中,设置学习率对整体网络进行训练和验证,通过反向传播来更新整体网络参数,并将参数保存为权重文件;s5:使用已验证准确率最高的权重文件初始化整体网络,将测试集输入到整体网络中学习视频中的时序信息,进行行为识别。2.根据权利要求1所述的一种视频监控中河道异常行为识别方法,其特征在于,所述步骤s1的整体网络结构为:(1)使用eco-lite模型作为整体骨干网络(2)采用bn-inception从开始到inception-3c层的部分作为模型前半段的2d卷积网络,并在其后累加rm(relation module)关系模块,融合图像的不同特征,同时输入输出的维度不变。(3)3d-resnet18中的几层被用来作为模型后半段3d卷积网络,并在3d网络的conv3_x层加入nl(non-local)非局部模块,以此捕获长距离依赖。将2d网络输出的一组单帧图像的特征堆叠起来输入3d网络,提取视频的时序信息,3d网络输出是不同类别标签的热向量。3.根据权利要求2所述的一种视频监控中河道异常行为识别方法,其特征在于,所述rm(relation module)关系模块,具体操作如下:公式(1)中f
a
是常规的图像特征(appearance feature),f
g
是位置特征(geometric feature),这两种特征是后续算法的基础。feature),这两种特征是后续算法的基础。feature),这两种特征是后续算法的基础。feature),这两种特征是后续算法的基础。feature),这两种特征是后续算法的基础。feature),这两种特征是后续算法的基础。用公式(3)来描述第n个目标和所有目标之间的关系特征(relation feature),其中表示第m个目标的图像特征,wv是一个线性变换操作,使用1*1的卷积层实现,ω
mn
是用来描述不同目标之间的关系权重(relation weight),对应公式(4),关系特征f
r
和原有的图像特征f
a
融合并传递给下一层网络,公式(3)中的wv对应公式(2)中的v,ω
mn
对应soft max(),公式(4)中ω
a
、ω
g
分别对应公式(5)和公式(6)。
4.根据权利要求2所述的一种视频监控中河道异常行为识别方法,其特征在于,所述nl(non-local)非局部模块:对于视频中相关的物体可能出现在较远的空间和较长的时间,在3d网络的conv3_x层加入nl模块,能更好的处理时空域的信息,nl具体操作如下:其中x表示输入信号(即上一层的features),y表示输出信号,其size和x相同。f(x
i
,x
j
)用来计算i和所有可能关联的位置j之间成对的关系,i和j的位置距离越远,f值越小,表示j位置对i影响越小。g(x
j
)用于计算输入信号在j位置的特征值,c(x)是归一化参数。将nl操作变形成一个non-local block,以便插入到已有的结构中。non-local block为:z
i
=w
z
y
i
+x
i
ꢀꢀ
(8)其中y
i
已经在(7)式中给出了,+x
i
则表示的是一个残余连接。5.根据权利要求1所述的一种视频监控中河道异常行为识别方法,其特征在于,所述步骤s2中对原始视频数据进行处理,具体为:由于获取的原始数据来自河道监控视频,其中视频场景复杂,且动作发生区间不明确,需要对视频进行剪裁,使每个视频都只包含单个标签行为的开始和结束,河道异常行为主要包括泼污水、游泳以及扔垃圾三类,所以需对这三类行为的视频段进行处理并分类保存。6.根据权利要求1所述的一种视频监控中河道异常行为识别方法,其特征在于,所述步骤s3中数据扩充:获取的原始视频中各类行为数量相差较大,扔垃圾行为的发生较为普遍,其他类别相对较少,造成数据不均衡,为保证训练的数据量避免过拟合的发生,对泼污水、扔垃圾数据集进行扩充。采用镜像、对比度变换的方法对数据进行扩充,对比度增强为原来的1.5倍。7.根据权利要求1所述的一种视频监控中河道异常行为识别方法,其特征在于,所述步骤s4中整体网络中的帧随机取样,过程如下:一段帧数可变的完整视频被作为网络的输入。视频被分成n个大小相同的子段s
i
,i=1,..,n,在每个子段中,正好有一帧被随机采样。从中抽出n个帧,只进行中心剪裁,然后送入整个网络。这种抽样提供了对变化的鲁棒性,并使网络能够充分地利用所有帧。
技术总结
本发明为一种视频监控中河道异常行为的识别方法,其内容包括:使用ECO-Lite模型作为骨干网络,模型前半段2D网络累加RM关系模块,后半段3D网络中累加NL非局部模块,构建整体网络;对原始视频数据进行处理,划分动作类别;将视频转化为帧,数据扩充,生成训练集、测试集文件;将训练集输入送到整体网络中,设置学习率进行训练和验证,通过反向传播更新整体网络参数,并将参数保存为权重文件;使用已验证准确率最高的权重文件初始化整体网络,将测试集输入到整体网络中测试,进行行为识别。河道异常行为主要包括泼污水、游泳以及扔垃圾三类,本方法在出现预设的异常行为时自动分析,提高了视频分析系统的智能化水平。视频分析系统的智能化水平。视频分析系统的智能化水平。
技术研发人员:李臣明 倪铭雯 高红民
受保护的技术使用者:河海大学
技术研发日:2022.03.09
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/