一种融合全局及局部特征的轻量化火焰识别深度学习模型

未命名 09-29 阅读:96 评论:0


1.本发明属于图像识别处理技术领域,具体涉及一种融合全局及局部特征的轻量化火焰识别深度学习模型。


背景技术:

2.近年来,基于图像处理的火焰识别技术通过对现场图像进行综合分析,为火灾检测提供了更为精确、高效的手段。与传统基于物理传感器的火灾识别方法相比,基于图像处理的火焰识别技术覆盖距离和范围广、稳定性高、部署较为方便。
3.传统基于机器视觉的火焰检测方法主要通过捕捉火焰形状、颜色、亮度等多个特征进而实现火焰识别。具体方法如下所述:
4.一、针对不同颜色模型的特点,各种火焰图像处理分别基于rgb、hsv、ycbcr、yuv等颜色模型有效地实现火焰图像的识别和检测。
5.二、根据火焰形状的独特性,也可以用来辅助火焰图像的识别和检测。火焰形状特征主要包括火焰大小、形状、边缘、纹理、轮廓等特征。
6.三、可以利用火焰蔓延扩散的运动信息进行火灾识别和检测。火焰蔓延扩散运动特性主要包括火焰扩散速度、移动方向、形态变化等。这些运动特性可以通过数字图像处理技术进行分析和提取,从而实现对火焰的运动轨迹、速度、加速度等参数的计算和分析。其中最常用运动目标检测方法有光流法、帧间差分法、背景减除法等。
7.然而,早期这种手工提取特征存在一下问题:如实现难度较大、识别精度不高、模型鲁棒性较差,很难满足实际应用要求。
8.当前基于深度学习的图像处理方法相比传统方法优势日益明显,其具备两大优点:一是不再需要手动提取火焰特征,深度学习的自动特征提取大大降低了构建算法的难度;二是深度学习在视觉领域的检测精度、召回率等各种指标性能都超越了传统算法。以alexnet、vgg、googlenet、resnet等经典深度卷积神经网络在很多视觉任务方面都取得了明显效果,但是这些大型网络参数量、计算量庞大,不易部署到边缘设备上运行。虽然mobilenet、shufflenet、xception等轻量化网络相继提出,但是介于卷积神经网络固有的局部特性,他们在全局特征提取方面存在较大缺陷。
9.总之,建立轻量级、低延迟的网络模型对于火焰快速识别任务迫切且至关重要。


技术实现要素:

10.目前,传统火焰识别方法准确率较低;基于深度神经网络模型大多不能同步提取火焰图像全局和局部特征进而避免误检、漏检,而且模型往往参数量较大,不利于移动端部署。针对上述问题,本发明提供了一种融合全局及局部特征的轻量化火焰识别深度学习模型。
11.为了达到上述目的,本发明采用了下列技术方案:
12.一种融合全局及局部特征的轻量化火焰识别深度学习模型,包括以下步骤:
13.步骤1,采集、收集火焰图像数据,构建火焰识别数据集;
14.步骤2,构造能提取火焰图像全局特征的轻量级transformer模块e-tb;
15.步骤3,构建基于轻量级transformer模块e-tb和卷积神经网络的全局和局部特征提取及融合模块ctb;
16.步骤4,通过shufflenetv2模块和ctb模块的串联堆叠实现了从浅到深的逐级特征提取,并最终构建火焰图像全局和局部特征提取的网络框架sconvtrans;
17.步骤5,将构建的火焰识别数据集划分为训练集和测试集,并利用该数据对构建的网络框架sconvtrans进行训练和测试,得到轻量化火焰识别深度学习模型。
18.进一步,所述步骤2,构造能提取火焰图像全局特征的轻量级transformer模块e-tb(efficient transformer block);具体方法是:
19.首先对输入特征图xu∈rd×h×w划分patch块,其中,d:特征图通道数;h:特征图高度;w:特征图宽度,经过unfold操作之后其维度变为d
×n×
p,d还是通道维度不变,n为patch块的个数,即p为patch块展平后的大小,即ρ2;然后使用高效轻量化注意力机制去捕获数据全局信息,最后再经过fold操作将特征维度还原为d
×h×
w。
20.再进一步,所述高效轻量化注意力机制具体是:先经过高效多头自注意力机制emhsa(efficient multi-head self-attention),然后通过平均池化降低了k、v的维度,一方面提取了k、v中显著信息,另一方面实现了自注意力机制的轻量化设计;再经过多层感知机mlp(multilayer perceptron),从而实现全局特征信息的提取。
21.进一步,e-tb整体过程表示为:
[0022][0023][0024]
式中:μ,分别代表输入特征,emhsa以及mlp的输出特征。
[0025]
进一步,所述高效多头自注意力机制emhsa表示为:
[0026]
emhsa(z)=concat(head1(z1),head2(z2),......,headi(zi))w
°
,i=1,2,......,h
ꢀꢀꢀꢀ
(4)
[0027]
head(x)=attention(x
·
wq,ps(x
·
wk),ps(x
·
wv))
ꢀꢀꢀꢀ
(5)
[0028][0029]
式中:z表示在通道维度上将输入特征划分为多头形式;head表示低计算量的自注意力算子;wq,wk,wv是用于上下文编码的线性层;ps是一个步距为s的全局池化操作;公式(4)是标准的多头自注意力计算公式,式中dk为token序列的长度;
[0030]
具体是先将输入特征经过线性变换得到维度为n
×
d的q,k,v三个矩阵,其中对k和v分别经过步距为s的平均池化操作以降低在注意力操作中的计算成本,经过平均池化操作后k和v维度为最后经过多头自注意力机制mhsa(multi-head self-attention)以捕捉更丰富的特征信息。
[0031]
进一步,所述多层感知机mlp(multilayer perceptron)用于提取更基本和更明显
的特征,具体是先经过bn(batch normalization)层做归一化处理,再经过两个1
×
1卷积做先升维再降维处理,以更好的提取特征信息,其中激活函数使用silu激活函数。
[0032]
进一步,所述ctb模块由两条分支构成,上分支为用于全局表征处理的transformer分支,下分支为用于局部表征处理的卷积分支,最后将两条分支提取到的信息进行融合,以达到全局和局部信息的交互;
[0033]
所述ctb模块表示为:
[0034]
y=concat(transformer(r
·
x),sv2((1-r)
·
x))+x,0≤r≤1
ꢀꢀꢀꢀ
(1)
[0035]
式中:x为输入特征,r为在通道维度对输入特征进行降维的收缩比例,y为输出特征。
[0036]
进一步,所述ctb模块具体是:
[0037]
先对输入维度为c
×h×
w的特征图x,分别通过上分支的r*c个1
×
1卷积和下分支的(1-r)*c个1
×
1卷积做降维处理,r是一个大于0小于等于1的一个收缩比,从而去减少计算量;同时这样的一个做法是也为了避免直接在通道维度上进行split分割而造成的分支上的信息丢失。然后通过上分支transformer运算,获得全局表征信息;下分支通过sv2卷积块进行运算获得局部表征信息,sv2也就是shufflenetv2中的卷积块,其模块图如图3所示;然后将两条分支的信息进行concat拼接,再进行1
×
1卷积进行信息融合,从而使全局信息和局部信息交互;最后再与原始输入特征x进行相加,通过1
×
1卷积进行信息融合得到最终特征y。
[0038]
进一步,所述火焰图像全局和局部特征提取的网络框架sconvtrans;
[0039]
首先通过3
×
3的卷积实现深度特征提取,通过最大化下采样maxpool删剔除冗余特征,重复堆叠3次shufflenet v2(sv2)模块和ctb模块,再通过1
×
1的卷积实现通道调整,并通过全局平均池化完成空间特征降维;最后,模型通过全连接层完成分类,实现火焰快速识别。
[0040]
进一步,所述火焰图像全局和局部特征提取的网络框架sconvtrans整体分为五个阶段,第一阶段经过卷积和池化操作降维为原始输入图像的四分之一;第二阶段至第四阶段分别经过shufflenetv2下采样块和ctb模块分别降维为原始输入图像的八分之一、十六分之一、三十二分之一,使整体构成金字塔结构来获取不同尺度的特征,促使模型具有更好的泛化能力和鲁棒性;第五阶段通过全连接层fc实现最终火焰识别类别的输出。
[0041]
与现有技术相比本发明具有以下优点:
[0042]
第一、自制火焰识别数据集。本文数据集结合了三部分数据来源,
[0043]
1)公共数据集(fire image data set for dunnings 2018 study);
[0044]
2)现场自行采集的黑火药燃烧数据集,并对该部分数据通过随机裁剪,翻转,亮度变化等数据增强方式进行扩充;
[0045]
3)网络收集。
[0046]
本实验自制数据集共计19182张图片,其中正样本这样包括自然火焰和黑火药燃烧火焰两大类,共9887张;负样本包括非火类自然图片和干扰性较大的类火图片(如夕阳、朝阳、灯光,不锈钢反射光等),共9295张。
[0047]
第二、实现了火焰图像全局和局部特征同步提取。本专利自主设计了轻量化深度神经网络模型,充分融合了卷积神经网络(cnn)的局部特征提取能力和transformer的长距
离关系建模能力;
[0048]
第三、本专利提出的轻量化深度神经网络可以在模型容量较小的基础上,实现较优的性能指标(如准确率、召回率等)。本专利提出的模型sconvtrans-s在参数量,计算量上与mobilenetv2大致相等,但准确率可以达到93.5%,比vgg16,resnet50,mobilenetv3,shufflenetv2分别高出2.4%,0.4%,1.7%,0.7%。而sconvtrans-l在参数量计算量只有4.6m和0.7g的情况下,准确率、精确率、召回率、f1分别可以达到0.945、0.934、0.962、0.948,在指标方面均高于vgg16,resnet50,mobilenetv3,shufflenetv2等经典轻量化模型。
附图说明
[0049]
图1融合卷积和transformer的轻量化火焰识别网络(sconvtrans)结构图;
[0050]
图2ctb模块的整体构成图;
[0051]
图3为sv2卷积模块结构图示意图;
[0052]
图4轻量级的transformer块结构示意图;
[0053]
图5unfold和fold操作示意图;
[0054]
图6mlp层结构图
[0055]
图7数据集样本代表性图片;
[0056]
图8模型迭代过程中的精度变化示意图;
[0057]
图9模型各阶段参数量示意图;
[0058]
图10模型混淆矩阵展示示意图;
[0059]
图11收缩比r为不同值时模型的关注程度示意图;
[0060]
图12不同卷积模型的混淆矩阵表示示意图;
[0061]
图13与不同卷积模型的p-r曲线对比示意图;
[0062]
图14不同transformer模型的混淆矩阵表示示意图;
[0063]
图15与不同transformer模型的p-r曲线对比示意图;
[0064]
图16模型最终输出时所关注区域的比较示意图。
具体实施方式
[0065]
本部分旨在通过呈现详细相关实验数据,对消融实验结果和对比实验结果进行分析,从而全面验证本文所提模型的有效性。通过对实验结果进行深入探究,从而进一步解释本模型在性能和鲁棒性方面的优势,并为相关领域的研究和实际应用提供有力的支撑和参考。
[0066]
一种融合全局及局部特征的轻量化火焰识别深度学习模型,包括以下步骤:
[0067]
步骤1,采集、收集火焰图像数据,构建火焰识别数据集;
[0068]
步骤2,构造能提取火焰图像全局特征的轻量级transformer模块e-tb(efficient transformer block);如图4所示;首先对输入特征图xu∈rd×h×w划分patch块,其中,d:特征图通道数;h:特征图高度;w:特征图宽度,经过unfold操作之后其维度变为d
×n×
p,d还是通道维度不变,n为patch块的个数,即p为patch块展平后的大小,即ρ2;然后使用高
效轻量化注意力机制去捕获数据全局信息,最后再经过fold操作将特征维度还原为d
×h×
w。unfold与fold操作流程如图5所示。
[0069]
高效轻量化注意力机制:先经过高效多头自注意力机制emhsa(efficient multi-head self-attention),然后通过平均池化降低了k、v的维度,一方面提取了k、v中显著信息,另一方面实现了自注意力机制的轻量化设计;再经过多层感知机mlp(multilayer perceptron),从而实现全局特征信息的提取。
[0070]
高效多头自注意力机制emhsa表示为:
[0071]
emhsa(z)=concat(head1(z1),head2(z2),......,headi(zi))wo,i=1,2,......,h
ꢀꢀꢀꢀ
(4)
[0072]
head(x)=attention(x
·
wq,ps(x
·
wk),ps(x
·
wv))
ꢀꢀꢀꢀ
(5)
[0073][0074]
式中:z表示在通道维度上将输入特征划分为多头形式;head表示低计算量的自注意力算子;wq,wk,wv是用于上下文编码的线性层;ps是一个步距为s的全局池化操作;公式(4)是标准的多头自注意力计算公式,式中dk为token序列的长度;
[0075]
具体是先将输入特征经过线性变换得到维度为n
×
d的q,k,v三个矩阵,其中对k和v分别经过步距为s的平均池化操作以降低在注意力操作中的计算成本,经过平均池化操作后k和v维度为最后经过多头自注意力机制mhsa(multi-head self-attention)以捕捉更丰富的特征信息。
[0076]
多层感知机mlp(multilayer perceptron)用于提取更基本和更明显的特征,具体流程如图6所示。先经过bn(batch normalization)层做归一化处理,再经过两个1
×
1卷积做先升维再降维处理,以更好的提取特征信息,其中激活函数使用silu激活函数。
[0077]
e-tb整体过程表示为:
[0078][0079][0080]
式中:μ,分别代表输入特征,emhsa以及mlp的输出特征。
[0081]
步骤3,构建基于轻量级transformer模块e-tb和卷积神经网络的全局和局部特征提取及融合模块ctb;
[0082]
ctb模块由两条分支构成,上分支为用于全局表征处理的transformer分支,下分支为用于局部表征处理的卷积分支,最后将两条分支提取到的信息进行融合,以达到全局和局部信息的交互;ctb模块的整体构成图如图2所示。
[0083]
ctb模块表示为:
[0084]
y=concat(transformer(r
·
x),sv2((1-r)
·
x))+x,0≤r≤1
ꢀꢀꢀꢀ
(1)
[0085]
式中:x为输入特征,r为在通道维度对输入特征进行降维的收缩比例,y为输出特征。
[0086]
ctb模块具体是:先对输入维度为c
×h×
w的特征图x,分别通过上分支的r*c个1
×
1卷积和下分支的(1-r)*c个1
×
1卷积做降维处理,r是一个大于0小于等于1的一个收缩比,
从而去减少计算量;同时这样的一个做法是也为了避免直接在通道维度上进行split分割而造成的分支上的信息丢失。然后通过上分支transformer运算,获得全局表征信息;下分支通过sv2卷积块进行运算获得局部表征信息,sv2也就是shufflenet v2中的卷积块,其模块图如图3所示;然后将两条分支的信息进行concat拼接,再进行1
×
1卷积进行信息融合,从而使全局信息和局部信息交互;最后再与原始输入特征x进行相加,通过1
×
1卷积进行信息融合得到最终特征y。
[0087]
步骤4,通过shufflenet v2模块和ctb模块的串联堆叠实现了从浅到深的逐级特征提取,并最终构建火焰图像全局和局部特征提取的网络框架sconvtrans;
[0088]
首先通过3
×
3的卷积实现深度特征提取,通过最大化下采样maxpool删剔除冗余特征,重复堆叠3次shufflenet v2(sv2)模块和ctb模块,再通过1
×
1的卷积实现通道调整,并通过全局平均池化完成空间特征降维;最后,模型通过全连接层完成分类,实现火焰快速识别。
[0089]
火焰图像全局和局部特征提取的网络框架sconvtrans整体分为五个阶段,第一阶段经过卷积和池化操作降维为原始输入图像的四分之一;
[0090]
第二阶段至第四阶段分别经过shufflenetv2下采样块和ctb模块分别降维为原始输入图像的八分之一、十六分之一、三十二分之一,使整体构成金字塔结构来获取不同尺度的特征,促使模型具有更好的泛化能力和鲁棒性;第五阶段通过全连接层fc实现最终火焰识别类别的输出。
[0091]
步骤5,将构建的火焰识别数据集划分为训练集和测试集,并利用该数据对构建的网络框架sconvtrans进行训练和测试,得到轻量化火焰识别深度学习模型。
[0092]
一、本方法所采用数据集来源为三部分:
[0093]
第一部分,来源于公共数据集(fire image data set for dunnings 2018 study);
[0094]
第二部分,为现场自行采集的黑火药燃烧数据集,并对该部分数据通过随机裁剪,翻转,亮度变化等数据增强方式进行扩充;
[0095]
第三部分,为网络收集。
[0096]
本实验自制数据集共计19182张图片,数据集所有图片尺寸全部调整为320
×
240,共分为两个类别fire(9887张)和nofire(9295张),其中nofire主要包含两大类图像:非火类自然图片和干扰性较大的类火图片(如夕阳、朝阳、灯光,不锈钢反射光等),图7中同样展示了数据集中代表性图片,(a)网络收集的火焰图像;(b)自行采集的黑火药火焰图像;(c)自然图像;(d)类火图像,具体样本数量如表2所示。
[0097]
表2数据集样本分布
[0098][0099]
在实验过程中将数据集按8:2划分为训练集和测试集。
[0100]
二、实验环境及超参数设置
[0101]
本实验采用windows 10系统,深度学习框架为pytorch框架,cpu型号:intel core i7-10870,gpu型号:nvidia geforce rtx2060(显存6gb)。
[0102]
在模型训练过程中,训练总批次设为为300个epoch,批大小batchsize为4;初始学习率设置为0.0001,在240个epoch后学习率调整为0.00001;优化算法采用adam优化器;损失函数使用交叉熵损失函数。
[0103]
三、模型训练结果
[0104]
模型在300次的迭代中,其精度随着迭代次数的变化如图8所示。蓝色线表示sconvtrans-s模型,橙色线表示sconvtrans-l模型。在接近240轮时,曲线逐渐趋于平缓;而在240轮之后,由于将学习率降低为初始学习率的十分之一,使损失函数逐渐趋于收敛,精度也有了一个较小幅度的提升。
[0105]
sconvtrans-s和sconvtrans-l在不同阶段时(即不同输出空间维度)的参数量如图9所示。sconvtrans-s和sconvtrans-l两个模型的参数总量分别为2.702m和4.609m。其中在第一阶段输出空间维度为64
×
64时两个模型所包含的参数量最少,由于sconvtrans-s和sconvtrans-l两个模型的输出通道数量相等,因此在第一阶段其参数量都只有0.001m;在第三阶段以及第四阶段输出空间维度分别为16
×
16和8
×
8时两个模型所包含的参数量最多,其中在第四阶段sconvtrans-s和sconvtrans-l两个模型在的参数量分别为1.509m和2.676m。
[0106]
为了进一步验证本文所提模型的有效性,通过混淆矩阵对sconvtrans-s和sconvtrans-l两个模型的表现进行了展示,其混淆矩阵如图10所示,其中(a)为sconvtrans-s模型的混淆矩阵展示,(b)为sconvtrans-l模型的混淆矩阵展示,混淆矩阵图中,竖轴为真实标签,横轴为预测标签。在1977张火焰图片中,sconvtrans-l可以将其中1901张火焰图片有效识别出来,sconvtrans-s也能识别出其中的1886张图片,均取得较好效果。在1859张非火焰图片中,sconvtrans-l和sconvtrans-s分别将135张和158张非火焰图片识别成了火焰图片。由于在测试集中大概有400多张图片为干扰性较强的类火焰图片,如夕阳朝阳图片,电灯灯泡发出的光,以及极小火焰火星的图片等,这类图片对模型的有效识别造成了极大干扰。但本文所提模型依旧可以将大部分类火图片进行有效识别,其中sconvtrans-l模型由于在第三到第五阶段通道数更多,维度更广,能提取更多特征信息来识别类火图片,其效果相比sconvtrans-s也较好。
[0107]
四、收缩比r的有效性验证
[0108]
本文提出的轻量化金字塔混合网络架构模型sconvtrans有效结合了cnn和transformer各自的优点,其中设计的ctb块将cnn提取到的局部信息和transformer提取到的全局信息进行了有效融合。在ctb块中为了进一步减少模型参数量和计算量以推动模型轻量化,同时为了证明cnn和transformer相结合来提取特征信息效果更好,设计了收缩比r来控制输入sv2卷积块以及transformer块的特征维度。通过给定不同值的r进行对比,以验证收缩比r在sconvtrans模型中的有效性。具体对比结果如表3所示。
[0109]
表3收缩比r在不同值下sconvtrans-l的效果
[0110][0111]
由表3可知,当r=0.5和r=0.75时其精度可以达到最高,分别为94.5%和94.6%,其f1指数也可以达到94.8%,并且在r=0.5时召回率可以达到96.2%的准确率,基本能够将所有火焰图片正确识别出来。由于r=0.5时和r=0.75时其模型评价指标都大致相等,但r=0.5时模型参数量和计算量会有一个大幅减少,符合本文轻量化的设计思想,模型最终确定0.5作为r的标准值。在r=0.25时,模型也进行了全局和局部信息的交互,其精度也可以达到94%。而当r=0和r=1时,sconvtrans模型中ctb分别只存在sv2卷积块和transformer进行局部特征信息提取或者全局特征信息提取,不能将两种信息进行有效结合,其准确率,精确率,召回率,f1调和平均数四个指标也相对较低,且只存在transformer时,特征信息主要以全连接层进行提取,参数量与计算量也过多。通过表3充分证明了本文将cnn和transformer结合进行特征信息提取方法的有效性。
[0112]
本文通过选择合适的r值去控制输入cnn和transformer的特征通道维度,不仅使模型参数量和计算量大幅减少,也使模型具有了更好的效果。图11展示了当r等于不同值时,模型对火焰特征关注程度的可视化样例。前三张图片是普通火焰的样例,后两种图片是火药点燃时所产生火焰的样例。
[0113]
从图11可以看出,当r等于0.25,0.5,0.75时效果较好,这主要得益于模型将局部信息和全局信息进行了交互融合,使模型能够提取到更为丰富的特征信息以用于火焰的识别。而当r等于0或者1时,模型识别效果不佳,尤其是对微小火焰特征图像关注不明显。
[0114]
五、算法对比实验
[0115]
为了进一步验证本文所提模型的有效性,首先通过参数量,计算量,准确率,精确率,召回率以及f1分数六个方面将本文模型与vgg,resnet,mobilenet以及shufflenet等不同的与cnn相关的模型进行对比验证,对比结果如表4所示,不同卷积相关模型混淆矩阵表示如图12所示。
[0116]
表4与不同cnn相关模型对比
[0117][0118]
从表4可以看出,本文所提的方法sconvtrans-s在参数量,计算量上与
mobilenetv2大致相等,但准确率可以达到93.5%,比vgg16,resnet50,mobilenetv3,shufflenetv2分别高出2.4%,0.4%,1.7%,0.7%。而sconvtrans-l在参数量计算量只有4.6m和0.7g的情况下,准确率可以达到94.5%,相较于表4中其他模型在精确率,召回率,f1分数上也可以达到最高值。由图12中各模型混淆矩阵可以看出,与其他卷积相关模型相比,本文模型的tp值最高,即本文模型对真实标签为火焰的图像正确识别出来的个数最多,这主要得益于本模型对火焰图像的局部细节信息特征与全局整体信息特征的有效结合,从而使模型可以对火焰进行有效识别。
[0119]
本文通过将全局信息与局部信息进行有效结合从而有效提高模型对火焰的识别能力,在图13中通过p-r曲线展示了本文模型与其他卷积相关模型的对比效果。通过图13可以看出本文模型sconvtrans-l以及sconvtrans-s两条曲线更接近右上角,即本文模型在召回率增大的情况下,精确率相较于其他卷积相关模型可以保持最高的值,从而在识别火焰的效果上优于其他模型。
[0120]
表5与不同transformer相关模型对比
[0121][0122]
其次在表5展示了本文模型与不同transformer相关模型的对比,实验选取了mobilevitv1,mobilevitv2,next-vit,pvt等相关模型加以对比,本文模型sconvtrans-l在准确率,召回率,f1分数上均取得了最高值,在精确率上接近最高值,并通过混淆矩阵对不同transformer相关模型的表现进行了展示,其相关混淆矩阵如图14所示。
[0123]
由图14可以看出,本文模型虽然tn值在相关对比模型中为平均水平,但tp值最高,这主要是本文模型在识别微小火星时与其他模型相比具有较好效果。由于transformer可以获取特征中的全局表征信息,而本文模型则在获取全局信息的同时增加了一条可以获取局部信息的卷积分支,最后将两条分支的信息进行融合,从而使一些微小火星图像也可正确识别出来。
[0124]
在图15中展示了本文模型与其他transformer相关模型的p-r曲线图,从图15中可以看出本文模型sconvtrans-l代表的实线效果更好,在召回率逐渐接近1的时候,其精确率的值比其他模型都高。
[0125]
六、算法可视化
[0126]
本文通过改进shufflenet v2实现了优良的效果,在图16中我们通过一些可视化的样例展示了我们方法的优越性。图中斑点图区域代表模型最后输出时所关注的区域,颜色越深代表关注程度越高。其中左侧图片是普通火焰的样例,可以看出本文方法对火焰区域的关注程度都重于shufflenet v2。右侧图片是火药点燃时所产生火焰的样例,由于火药点燃产生的火星微小,不易被检测出,而本文通过对shufflenetv2添加注意力模块以及多
尺度模块,使模型进一步加深对不明显火焰区域特征的提取,从而将微小火星检测出来。
[0127]
综上分析,充分证明了本文方法的优越性,与卷积神经网络模型相比,本文模型可以提取更多的全局特征信息,使识别结果更加准确。与transformer相关模型相比,本文模型可以提取到局部信息特征,保留更多的细节信息。通过将cnn和transformer相结合去提取特征信息使全局信息和局部信息相交互,可以更好的提升模型的火焰识别能力。
[0128]
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

技术特征:
1.一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:包括以下步骤:步骤1,采集、收集火焰图像数据,构建火焰识别数据集;步骤2,构造能提取火焰图像全局特征的轻量级transformer模块e-tb;步骤3,构建基于轻量级transformer模块e-tb和卷积神经网络的全局和局部特征提取及融合模块ctb;步骤4,通过shufflenetv2模块和ctb模块串联堆叠实现了从浅到深的逐级特征提取,并最终构建火焰图像全局和局部特征提取的网络框架sconvtrans;步骤5,将构建的火焰识别数据集划分为训练集和测试集,并利用该数据对构建的网络框架sconvtrans进行训练和测试,得到轻量化火焰识别深度学习模型。2.根据权利要求1所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述步骤2,构造能提取火焰图像全局特征的轻量级transformer模块e-tb的具体方法是:首先对输入特征图x
u
∈r
d
×
h
×
w
划分patch块,其中,d:特征图通道数;h:特征图高度;w:特征图宽度,经过unfold操作之后其维度变为d
×
n
×
p,d还是通道维度不变,n为patch块的个数,即p为patch块展平后的大小,即ρ2;然后使用高效轻量化注意力机制去捕获数据全局信息,最后再经过fold操作将特征维度还原为d
×
h
×
w。3.根据权利要求2所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述高效轻量化注意力机制具体是:先经过高效多头自注意力机制emhsa,然后通过平均池化降低k、v的维度,再经过多层感知机mlp,从而实现全局特征信息的提取。4.根据权利要求3所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:e-tb整体过程表示为:tb整体过程表示为:式中:μ,分别代表输入特征,emhsa以及mlp的输出特征。5.根据权利要求4所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述高效多头自注意力机制emhsa表示为:emhsa(z)=concat(head1(z1),head2(z2),......,head
i
(z
i
))w
o
,i=1,2,......,hhead(x)=attention(x
·
w
q
,p
s
(x
·
w
k
),p
s
(x
·
wv))式中:z表示在通道维度上将输入特征划分为多头形式;head表示低计算量的自注意力算子;w
q
,w
k
,wv是用于上下文编码的线性层;p
s
是一个步距为s的全局池化操作;emhsa(z)是标准的多头自注意力计算公式,式中d
k
为token序列的长度;具体是先将输入特征经过线性变换得到维度为n
×
d的q,k,v三个矩阵,其中对k和v分别经过步距为s的平均池化操作以降低在注意力操作中的计算成本,经过平均池化操作后k
和v维度为最后经过多头自注意力机制mhsa以捕捉更丰富的特征信息。6.根据权利要求1所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述多层感知机mlp用于提取更基本和更明显的特征,具体是先经过bn层做归一化处理,再经过两个1
×
1卷积做先升维再降维处理,以更好的提取特征信息,其中激活函数使用silu激活函数。7.根据权利要求1所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述ctb模块由两条分支构成,上分支为用于全局表征处理的transformer分支,下分支为用于局部表征处理的卷积分支,最后将两条分支提取到的信息进行融合,以达到全局和局部信息的交互;所述ctb模块表示为:y=concat(transformer(r
·
x),sv2((1-r)
·
x))+x,0≤r≤1式中:x为输入特征,r为在通道维度对输入特征进行降维的收缩比例,y为输出特征。8.根据权利要求7所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述ctb模块具体是:先对输入维度为c
×
h
×
w的特征图x,分别通过上分支的r*c个1
×
1卷积和下分支的(1-r)*c个1
×
1卷积做降维处理,r是一个大于0小于等于1的一个收缩比,从而去减少计算量;同时这样的一个做法是也为了避免直接在通道维度上进行split分割而造成的分支上的信息丢失。然后通过上分支transformer运算,获得全局表征信息;下分支通过sv2卷积块进行运算获得局部表征信息,sv2也就是shufflenetv2中的卷积块;然后将两条分支的信息进行concat拼接,再进行1
×
1卷积进行信息融合,从而使全局信息和局部信息交互;最后再与原始输入特征x进行相加,通过1
×
1卷积进行信息融合得到最终特征y。9.根据权利要求1所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述火焰图像全局和局部特征提取的网络框架sconvtrans;首先通过3*3的卷积实现深度特征提取,通过最大化下采样maxpool删剔除冗余特征,重复堆叠3次shufflenet v2模块和ctb模块,再通过1*1的卷积实现通道调整,并通过全局平均池化完成空间特征降维;最后,模型通过全连接层完成分类,实现火焰快速识别。10.根据权利要求1所述的一种融合全局及局部特征的轻量化火焰识别深度学习模型,其特征在于:所述火焰图像全局和局部特征提取的网络框架sconvtrans整体分为五个阶段,第一阶段经过卷积和池化操作降维为原始输入图像的四分之一;第二阶段至第四阶段分别经过shufflenetv2下采样块和ctb模块分别降维为原始输入图像的八分之一、十六分之一、三十二分之一,使整体构成金字塔结构来获取不同尺度的特征,第五阶段通过全连接层fc实现最终火焰识别类别的输出。

技术总结
本发明公开了一种融合全局及局部特征的轻量化火焰识别深度学习模型,属于图像识别处理技术领域。针对目前火焰识别网络模型存在网络参量多、延迟高等问题,本发明提供了一种融合全局及局部特征的轻量化火焰识别深度学习模型,首先采集、收集火焰图像数据,构建火焰识别数据集;其次,构造轻量级Transformer模块E-TB;再构建基于轻量级Transformer模块E-TB和卷积神经网络的CTB模块;然后通过ShuffleNetV2模块和CTB模块的串联堆叠实现了从浅到深的逐级特征提取,并最终构建全局和局部特征提取的网络框架SConvTrans;最后将构建的火焰识别数据集划分为训练集和测试集,并利用该数据对构建的网络框架SConvTrans进行训练和测试,得到轻量化火焰识别深度学习模型。得到轻量化火焰识别深度学习模型。得到轻量化火焰识别深度学习模型。


技术研发人员:王斌 赵倩 秦品乐 曾建潮 乔钢柱
受保护的技术使用者:中北大学
技术研发日:2023.05.24
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐