一种基于多分支网络的图像分析方法及系统
未命名
09-08
阅读:70
评论:0

1.本发明涉及遥操作机器人系统控制技术领域,尤其涉及一种基于多分支网络的图像分析方法及系统。
背景技术:
2.在卵细胞浆内单精子注射显微影像分析任务中,需要通过人工智能和计算机视觉技术对显微图像中的注射针、卵子和精子等目标区域进行自动、准确且高效地检测和识别,从而为精子注射过程的表征、注射装置的自动化控制提供定位支撑。
3.然而,在实际应用中,需要同时实现精子的目标检测任务,针管、卵子和极体的图像分割任务,和针尖定位的关键点检测任务。上述多任务图像识别需求为算法的实时性提出了挑战。传统上faster-rcnn、mask-rcnn等方法通过首先进行目标检测,再在目标框内进行语义分割和关键点检测方法由于需要多阶段的图像分析步骤,延长了实际分析的时间,无法满足实际应用中对于图像实时分析的应用需求。
4.并且,在卵细胞浆内单精子注射显微影像中,针尖位置的识别准确率将直接影响自动化注射装置的运作,因此针尖位置的识别更为重要,但传统上并未对针尖识别进行优化。
5.因此,如何改进网络结构和优化算法收敛方法,在高效率的前提下同时满足上述多任务图像识别需求,并提高针尖识别算法的准确性,是卵细胞浆内单精子注射显微影像分析任务中一个重要研究问题。
技术实现要素:
6.本发明基于多分支网络,提出了一种基于多分支网络的图像分析,从而解决如何改进网络结构和优化算法收敛方法,在高效率的前提下同时满足上述多任务图像识别需求,并提高针尖识别算法的准确性的问题。
7.为解决上述发明目的,本发明提供的技术方案如下:
8.本发明提供一种基于多分支网络的图像分析方法,该方法适用于电子设备,方法步骤包括:
9.s1、获取多任务数据及标注;
10.s2、构建多分支图像识别网络模型,多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;
11.s3、基于多任务数据以及标注,利用形态感知损失函数训练多分支图像识别网络模型,获得训练后的模型;
12.s4、将待分析图像输入训练后的模型,获得分析数据,完成基于多分支网络的图像分析。
13.优选地,s1中,获取多任务数据及标注,包括:
14.按照多任务需求中每一任务的标注方式,对原始图像进行标注;
15.将原始图像及多任务标注组成的数据,按照预设的比例划分为训练集、验证集与测试集;
16.其中,标注方式包括:对于图像分割任务,对原始图像的前景和背景进行划分,得到原始图像的掩码标注;对于目标检测任务,对原始图像的待识别对象使用矩形框进行标注,并将单张原始图像的全部矩形框集中于单个文本中;对于关键点检测任务,对原始图像的待识别关键点使用点标注方法进行标注,并将单张原始图像的全部点标注集中于单个文本中。
17.优选地,s2中,构建多分支图像识别网络模型,多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支,包括:
18.将原始图像输入特征提取主分支,得到原始图像对应的高维特征;
19.将高维特征输入关键点提取分支,获得m个关键点坐标获得m个关键点坐标i∈[0,m-1];
[0020]
将高维特征输入图像分割分支,获得与原始图像尺寸对应的图像分割置信度图,图像分割置信度图尺寸为h,w,c;其中h表示高、w表示宽,c表示类别数目;
[0021]
将高维特征输入目标检测分支,获得q个待检测目标的位置参数获得q个待检测目标的位置参数其中分别是待检测目标q的左上角坐标、右上角坐标、宽度、高度、类别和置信度,q∈[0,q-1]。
[0022]
优选地,图像特征提取主分支,包括:vgg、densenet、resnet网络的一种或多种。
[0023]
优选地,将原始图像输入特征提取主分支,得到原始图像对应的高维特征,包括:
[0024]
将尺寸大小为h
×
w的原始图像下采样至h/8
×
w/8、h/16
×
w/16、h/32
×
w/32三种大小,得到三种不同尺度特征图;
[0025]
使用特征金字塔网络fpn、自适应特征金字塔网络pan的变种或是其组合模块,将不同尺度特征图经过上采样或下采样后达到相同尺寸h/8
×
w/8;
[0026]
将上采样或下采样之后相同尺寸的特征图的相同位置上的值相加或者在通道维度上进行合并,利用特征融合获得高维特征。
[0027]
优选地,s3中,基于多任务数据以及标注,利用形态感知损失函数训练多分支图像识别网络模型,获得训练后的模型,包括:
[0028]
构建面向多分支任务的形态感知损失函数;
[0029]
基于多任务数据以及标注,利用多分支任务的形态感知损失函数训练多分支图像识别网络模型。
[0030]
优选地,面向多分支任务的形态感知损失函数,包括:
[0031]
根据下述公式(1)构建面向多分支任务的形态感知损失函数l:
[0032]
l=l
seg
+l
obj
+l
point
(1)
[0033]
其中l
seg
,l
obj
,和l
point
分别是图像分割分支、目标检测分支和关键点提取分支的损失函数。l
obj
为预测坐标位置与真实坐标的iouloss和预测置信度与真实标签的bceloss之和,l
point
为预测关键点坐标位置和真实关键点位置的bceloss。
[0034]
优选地,图像分割分支的定义包括:
[0035]
根据下述公式(2)定义l
seg
:
[0036][0037]
其中:n为图像中像素点个数;l(x)为像素点x对应的真实分类,为像素x对应的损失函数权重。p
l(x)
(x)指检测结果中像素点x属于其真实分类的概率,ω表示像素空间。
[0038]
优选地,图像分割分支的定义包括:
[0039]
权重由三个权重损失项构成,分别为类别损失项形态损失项关键点定位损失项w
kpl
(x),根据下述公式(3)计算权重:
[0040][0041]
其中,λ1、λ2、λ3是三个加权的超参数,用于控制三个权重项的占比;t为目标关键点所在的类别;
[0042]
根据下述公式(4)计算类别损失项:
[0043][0044]
其中,numk为类别k的像素数目;c为包含背景在内的类别数目,i为类别权重通道序号,在集合{0,...,c}中取值;
[0045]
根据下述公式(5)计算形态损失项:
[0046][0047]
其中,d(x)为像素点x到所属前景类别l(x)边缘的最近距离,xi为像素点x在类别权重通道i的映射,l(xi)为xi对应的类别;当i=0时,表示背景像素点到前景区域的形态损失值;当i≠0时,表示前景像素点到其对应前景区域边界的形态损失值;
[0048]
根据下述公式(6)计算关键点定位损失项:
[0049][0050]
其中,a为图像中关键目标点的位置,da(x)为前景区域像素点x到关键点目标区域a的距离,对每个像素点x分别计算目标距离损失w
kpl
(x),形成目标距离损失项w
kpl
。
[0051]
一种基于多分支网络的图像分析系统,该系统用于上述的基于多分支网络的图像分析方法,系统包括:
[0052]
数据采集块,用于获取多任务数据及标注;
[0053]
模型构建模块,用于构建多分支图像识别网络模型,所述多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;
[0054]
模型训练模块,用于基于所述多任务数据以及标注,利用形态感知损失函数训练所述多分支图像识别网络模型,获得训练后的模型;
[0055]
图像分析模块,用于将待分析图像输入所述训练后的模型,获得分析数据,完成基于多分支网络的图像分析。
[0056]
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于多分支网络的图像分析方法。
[0057]
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于多分支网络的图像分析方法。
[0058]
上述技术方案,与现有技术相比至少具有如下有益效果:
[0059]
上述方案,本发明提供的一种基于多分支网络的图像分析方法,针对现有的技术缺陷,获取多任务数据及标注;构建多分支图像识别网络模型,该模型包括特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;利用形态感知损失函数训练所述多分支图像识别网络模型。该方法相对于先进行目标检测再进行图像分割或关键点识别的两阶段网络,具有更快的运算速度,即在不增加网络个数以及大量识别时间的情况下,使用单个神经网络完成对多个视觉识别任务的分析,且不会对识别结果造成准确度上的损失。
附图说明
[0060]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0061]
图1为本发明所提供的一种基于多分支网络的图像分析方法流程图。
[0062]
图2为本发明实施例提供的网络结构示意图;
[0063]
图3为本发明实施例提供的基于形状感知的权重图;
[0064]
图4为本发明所提供的一种基于多分支网络的图像分析系统示意图。
[0065]
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
[0066]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0067]
本发明针对现有一般的目标检测网络无法满足同时推理多种类别的计算机视觉识别任务的不足,提出了一种将多个深度学习检测任务集成于单个网络的方案。本发明可以在不增加网络个数以及大量识别时间的情况下,使用单个神经网络完成对多个视觉识别
任务的分析,且不会对识别结果造成准确度上的损失。
[0068]
图1是本发明的一种基于多分支网络的图像分析方法流程图,该方法可以由电子设备实现。所述方法用于基于多分支网络的图像分析系统,所述方法包括:
[0069]
s101、获取多任务数据及标注。
[0070]
一种可行的实施方式中,获取多任务数据及标注,包括:
[0071]
按照多任务需求中每一任务的标注方式,对原始图像进行标注;
[0072]
将原始图像及多任务标注组成的数据,按照预设的比例划分为训练集、验证集与测试集;
[0073]
其中,标注方式包括:对于图像分割任务,对原始图像的前景和背景进行划分,得到原始图像的掩码标注;对于目标检测任务,对原始图像的待识别对象使用矩形框进行标注,并将单张原始图像的全部矩形框集中于单个文本中;对于关键点检测任务,对原始图像的待识别关键点使用点标注方法进行标注,并将单张原始图像的全部点标注集中于单个文本中。
[0074]
s102、构建多分支图像识别网络模型,多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支。
[0075]
一种可行的实施方式中,本实施例中,如图2所示,基于深度学习的采用3种分支头的多任务识别网络整体结构由backbone、neck、head组成。
[0076]
所述backbone包括:一个处理图像通道的focus block;3个对特征下采样并进行卷积的cc3_block;1个特征卷积池化模块csc3_block、3个输出至neck的跳层连接;所述focus block模块包含一个卷积层、一个batch normalization层和一个leakyrelu激活函数。在输入特征图之后,卷积层会使用一种称为“跨步卷积”的方法,将原始的特征图转换为更小的低分辨率特征图。然后,batch normalization层和leakyrelu激活函数将对特征图进行进一步地处理,从而提取出重要的特征信息;所述cc3_block主要包括一个下采样卷积模块conv_block和一个多次卷积模块c3_block,当cc3_block用于backbone以外的部分时,将在之前所提到的两个模块之间添加concat模块作为跳层连接的额外输入;所述conv_block模块包括一个卷积层、一个batch normalization层和一个relu激活函数;所述c3_block模块是由三个卷积层和一个残差块组成的。每个卷积层都包含一个3x3的卷积核和一个batch normalization层,以及一个relu激活函数。主要的作用是增强网络的非线性能力和提高特征表达的能力,从而使得网络可以更准确地检测和识别目标。所述csc3_block主要包括一个conv_block,一个spp_block,一个c3_block;所述spp_block模块是一种特征金字塔池化结构,其作用是提取不同尺度的特征信息并进行融合,以提高目标检测的精度和鲁棒性。
[0077]
所述neck包括:4个自下而上进行上采样以及跳层连接的cuc3_block模块、两个自上而下进行特征下采样并接受跳层连接进行特征融合的cc3_block模块、三个接受来自backbone输入的跳层连接、用一个用于内部特征融合的跳层连接;所述cuc3_block模块主要包含一个conv_block模块、一个upsample_block模块、一个c3_block模块,当需要接受来自额外分支的特征输入时在upsample_block模块和c3_block模块之间添加一个concat模块用于特征合并。所述两个cc3_block模块需要接受跳层连接以便融合特征,因此都带有concat模块。
[0078]
所述head包括图像分割、关键点检测、目标检测三种任务的网络头。所述图像分割任务网络头使用1x1大小的卷积层实现,所输出结果空间尺度上与原图尺度保持一致,在通道维度上与图像分割待识别目标数(包括背景)保持一致,具体意义为各个像素上对各个待识别类别的预测,经过softmax操作之后可以得到结果掩码;关键点检测任务网络头使用1x1大小的卷积模块实现,所输出结果空间尺度上为原图尺度的1/4,通道维度数目与待识别目标个数保持一致,其所表达意义为相对原图尺寸1/4的特征图上各个位置存在待检测目标点的可能性,结果于空间维度上进行softmax操作之后得到归一化的heatmap图,再将heatmap图经soft-argmax得到待识别关键点的坐标;目标检测任务网络头有三个输出头,分别由三个1x1卷积模块构成,其输出在普通的批次维度、通道维度、空间维度的基础上,增加了对应于每层anchor数目大小的维度,表示在该层基于不同anchor的预测;其通道维度分别为5加上待识别目标类别个数之和,所表达意义为对待识别目标预测框x、y、w、h的预测、对该处位置有无目标的预测、对该处位置待识别目标具体为某类的预测;其空间维度分别为原图的1/8、1/16、1/32,其通道维度数目分别等于class num加5,其anchor维度数目都为3。
[0079]
本实施例中,构建基于深度学习的采用3种分支头的多任务识别网络,整体如图1所示。所述多任务分支网络具体的工作流程包括:
[0080]
将图片进行letterbox转换成最长边为640,最短边为32的倍数长度(不足的用0填充)。
[0081]
将变换后的图像送入backbone主干网络。具体为首先送入focus_block_1模块,获得特征f10(focus_block_1卷积核大小为3*3,下采样倍数为2,输入输出通道数为3-64),将特征f10输入cc3_block_1模块,得到特征f11(cc3_block_1模块中,conv模块和c3模块的的卷积核大小都为3*3,步长分别为2与1,输入输出通道分别为64-128、128-128),将特征f11输入cc3_block_2模块,得到特征f12(cc3_block_2模块中,conv模块和c3模块的卷积核大小都为3*3,步长分别为2与1,输入输出通道分别128-256、256-256),将特征f12输入cc3_block_3模块,得到特征f13(cc3_block_3模块中,conv模块和c3模块的卷积核大小都为3*3,步长分别为2与1,的输入输出通道分别256-512、512-512),将特征f13输入csc3_block_4模块,得到特征f14(csc3_block_4模块中,conv模块和c3模块的卷积核大小都为3*3,步长分别为2与1,conv模块、空间金字塔池化spp模块、c3模块的输入输出通道分别512-1024、1024-1024、1024-1024)。至此,backbone网络向neck网络输出四个特征图,其分别为f11、f12、f13、f14。
[0082]
在neck网络中,f14特征更名为fn4,对f11、f12、f13、f14的具体操作如下:将特征fu4(原特征f14)输入cuc3_block_1*模块,同时输入特征f13,二者在cuc3_block_1*模块中进行融合并上采样,获得特征fu3(cuc3_block_1*模块中于upsample模块与c3模块之间插入concat模块,conv模块、c3模块的卷积核大小分别为1*1、3*3,步长都为1,输入输出通道分别1024-1024、1024-512);将特征fu3输入cuc3_block_2*模块,同时输入特征f12,二者在cuc3_block_2*模块中进行融合并上采样,获得特征fu2(cuc3_block_2*模块中于upsample模块与c3模块之间插入concat模块,conv模块、c3模块的卷积核大小分别为1*1、3*3,步长都为1,输入输出通道分别512-512、512-256);将特征fu2输入cuc3_block_3*模块,同时输入特征f11,二者在cuc3_block_3*模块中进行融合并上采样,获得特征fu1(cuc3_block_3*
模块中于upsample模块与c3模块之间插入concat模块,conv模块、c3模块的卷积核大小分别为1*1、3*3,步长都为1,输入输出通道分别256-256、256-128);将特征fu1输入cuc3_block_4*模块,获得特征fu0(cuc3_block_4模块中,conv模块、c3模块的卷积核大小分别为1*1、3*3,步长都为1,输入输出通道分别128-128、128-64);将特征fu0输入cuc3_block_5*模块,获得特征fh0(cuc3_block_5模块中,conv模块、c3模块的卷积核大小分别为1*1、3*3,步长都为1,输入输出通道分别64-64、64-32);将特征fu2输入cc_block_4*模块,同时输入特征fu3,二者在cc3_block_4*模块中进行融合并下采样,获得特征fd4(cc3_block_4*模块中,于conv_block模块与c3_block模块之间插入concat模块,conv模块、c3模块的卷积核大小都为3*3,步长分别为2、1,输入输出通道分别256-512、512-512);将特征fd4输入cc_block_4*模块,同时输入特征fu4,二者在cc3_block_5*模块中进行融合并下采样,获得特征fh4(cc3_block_5*模块中,于conv_block模块与c3_block模块之间插入concat模块,conv模块、c3模块的卷积核大小都为3*3,步长分别为2、1,输入输出通道分别512-1024、1024-1024);neck部分向head部分提供特征fh4、特征fh3(原特征fd4)、特征fh2(原特征fu2)、特征fh1(原特征fu1)、特征fh0,共5个特征图。
[0083]
head部分分为五分支头,分别对应于三种识别任务。图像分割任务占据一个segment head分支头,由一个conv_block_5模块构成(本身的卷积核大小为1*1,步长为1,输入输出通道为32-class_num),输入neck网络的特征图fh0,得到图像分割结果;关键点检测任务占据一个keypoint head分支头,由一个conv_block_4模块构成(本身的卷积核大小为1*1,步长为1输入输出通道为128-class_num),输入neck网络的特征图fh1,得到图像关键点检测结果;目标检测任务占据三个detection head分支头,由三个conv_block组成,分别为conv_block_3、conv_block_2、conv_block_1(卷积核大小都为1*1,步长都为1,输入输出通道分别为为256-3*(5+class_num)、512-3*(5+class_num)、1024-3*(5+class_num))。
[0084]
本实施例中,所述三任务分支网络,能够根据不同识别任务的需求融合不同层次(高层和低层)间的图像特征信息,在提高网络收敛速度的同时,提升对应识别任务的效果。
[0085]
一种可行的实施方式中,构建多分支图像识别网络模型,多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支,包括:
[0086]
将原始图像输入特征提取主分支,得到原始图像对应的高维特征;
[0087]
将高维特征输入关键点提取分支,获得m个关键点坐标获得m个关键点坐标i∈[0,m-1];
[0088]
将高维特征输入图像分割分支,获得与原始图像尺寸对应的图像分割置信度图,图像分割置信度图尺寸为h,w,c;其中h表示高、w表示宽,c表示类别数目;
[0089]
将高维特征输入目标检测分支,获得q个待检测目标的位置参数获得q个待检测目标的位置参数其中分别是待检测目标q的左上角坐标、右上角坐标、宽度、高度、类别和置信度,q∈[0,q-1]。
[0090]
一种可行的实施方式中,图像特征提取主分支,包括:vgg、densenet、resnet网络的一种或多种。
[0091]
一种可行的实施方式中,将原始图像输入特征提取主分支,得到原始图像对应的
高维特征,包括:
[0092]
将尺寸大小为h
×
w的原始图像下采样至h/8
×
w/8、h/16
×
w/16、h/32
×
w/32三种大小,得到三种不同尺度特征图;
[0093]
使用特征金字塔网络fpn、自适应特征金字塔网络pan的变种或是其组合模块,将不同尺度特征图经过上采样或下采样后达到相同尺寸h/8
×
w/8;
[0094]
将上采样或下采样之后相同尺寸的特征图的相同位置上的值相加或者在通道维度上进行合并,利用特征融合获得高维特征。
[0095]
一种可行的实施方式中,关键点提取分支,需要将h/8
×
w/8的所述高维特征上采样至尺寸h/4
×
w/4,然后经过1
×
1卷积转化,得到关键点置信度图,并根据所述关键点置信度图得到m个最大置信度的关键点坐标度图得到m个最大置信度的关键点坐标
[0096]
图像分割分支,将h/8
×
w/8的所述高维特征连续上采样至原图尺寸h
×
w,然后经过1
×
1卷积转化,得到所述图像分割置信度图。
[0097]
目标检测分支,将h/8
×
w/8的所述高维特征经过1
×
1卷积转化,得到待检测目标的类别信息以及位置信息。
[0098]
s103、基于多任务数据以及标注,利用形态感知损失函数训练多分支图像识别网络模型,获得训练后的模型。
[0099]
一种可行的实施方式中,将训练数据集输入到多任务分支网络,采用随机梯度下降优化器训练眼底网络,直到验证集评估指标达到收敛,得到训练完成后的多任务分支网络,其中,可以采用基于形状感知的损失函数计算多分支任务的误差。
[0100]
一种可行的实施方式中,基于多任务数据以及标注,利用形态感知损失函数训练多分支图像识别网络模型,获得训练后的模型,包括:
[0101]
构建面向多分支任务的形态感知损失函数;
[0102]
基于多任务数据以及标注,利用多分支任务的形态感知损失函数训练多分支图像识别网络模型。
[0103]
一种可行的实施方式中,面向多分支任务的形态感知损失函数,包括:
[0104]
根据下述公式(1)构建面向多分支任务的形态感知损失函数l:
[0105]
l=l
seg
+l
obj
+l
point
(1)
[0106]
其中l
seg
,l
obj
,和l
point
分别是图像分割分支、目标检测分支和关键点提取分支的损失函数。l
obj
为预测坐标位置与真实坐标的iouloss和预测置信度与真实标签的bceloss之和,l
point
为预测关键点坐标位置和真实关键点位置的bceloss。
[0107]
一种可行的实施方式中,图像分割分支的定义包括:
[0108]
根据下述公式(2)定义l
seg
:
[0109][0110]
其中:n为图像中像素点个数;l(x)为像素点x对应的真实分类,为像素x对应的损失函数权重。p
l(x)
(x)指检测结果中像素点x属于其真实分类的概率,ω表示像素空间。
[0111]
一种可行的实施方式中,图像分割分支的定义包括:
[0112]
权重由三个权重损失项构成,分别为类别损失项形态损失项关键点定位损失项w
kpl
(x),权重图如图3所示,根据下述公式(3)计算权重:
[0113][0114]
其中,λ1、λ2、λ3是三个加权的超参数,用于控制三个权重项的占比;t为目标关键点所在的类别;
[0115]
根据下述公式(4)计算类别损失项:
[0116][0117]
其中,numk为类别k的像素数目;c为包含背景在内的类别数目,i为类别权重通道序号,在集合{0,...,c}中取值;
[0118]
根据下述公式(5)计算形态损失项:
[0119][0120]
其中,d(x)为像素点x到所属前景类别l(x)边缘的最近距离,xi为像素点x在类别权重通道i的映射,l(xi)为xi对应的类别;当i=0时,表示背景像素点到前景区域的形态损失值;当i≠0时,表示前景像素点到其对应前景区域边界的形态损失值;
[0121]
根据下述公式(6)计算关键点定位损失项:
[0122][0123]
其中,a为图像中关键目标点的位置,da(x)为前景区域像素点x到关键点目标区域a的距离,对每个像素点x分别计算目标距离损失w
kpl
(x),形成目标距离损失项w
kpl
。
[0124]
一种可行的实施方式中,通过在l
seg
和l
point
中均加入对关键点检测的损失优化,可提高关键点识别的准确率。
[0125]
s104、将待分析图像输入训练后的模型,获得分析数据,完成基于多分支网络的图像识别,实现单个网络输出多种图像任务结果。
[0126]
本发明实施例中,提供了一种基于多分支网络的图像分析方法,针对现有的技术缺陷,获取多任务数据及标注;构建多分支图像识别网络模型,该模型包括特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;利用形态感知损失函数训练所述多分支图像识别网络模型。该方法相对于先进行目标检测再进行图像分割或关键点识别的两阶段网络,具有更快的运算速度,即在不增加网络个数以及大量识别时间的情况下,使用单个
神经网络完成对多个视觉识别任务的分析,且不会对识别结果造成准确度上的损失。
[0127]
如图4所示,本发明实施例提供了一种基于多分支网络的图像分析系统200,该系统可以由电子设备实现。如图4所示的基于多分支网络的图像分析系统200示意图,该系统200包括:
[0128]
数据采集块210,用于获取多任务数据及标注;
[0129]
模型构建模块220,用于构建多分支图像识别网络模型,所述多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;
[0130]
模型训练模块230,用于基于所述多任务数据以及标注,利用形态感知损失函数训练所述多分支图像识别网络模型,获得训练后的模型;
[0131]
图像分析模块240,用于将待分析图像输入所述训练后的模型,获得分析数据,完成基于多分支网络的图像分析。
[0132]
优选地,数据采集块210,进一步用于按照多任务需求中每一任务的标注方式,对原始图像进行标注;
[0133]
将原始图像及多任务标注组成的数据,按照预设的比例划分为训练集、验证集与测试集;
[0134]
其中,标注方式包括:对于图像分割任务,对原始图像的前景和背景进行划分,得到原始图像的掩码标注;对于目标检测任务,对原始图像的待识别对象使用矩形框进行标注,并将单张原始图像的全部矩形框集中于单个文本中;对于关键点检测任务,对原始图像的待识别关键点使用点标注方法进行标注,并将单张原始图像的全部点标注集中于单个文本中。
[0135]
优选地,模型构建模块220,进一步用于将原始图像输入特征提取主分支,得到原始图像对应的高维特征;
[0136]
将高维特征输入关键点提取分支,获得m个关键点坐标获得m个关键点坐标i∈[0,m-1];
[0137]
将高维特征输入图像分割分支,获得与原始图像尺寸对应的图像分割置信度图,图像分割置信度图尺寸为h,w,c;其中h表示高、w表示宽,c表示类别数目;
[0138]
将高维特征输入目标检测分支,获得q个待检测目标的位置参数获得q个待检测目标的位置参数其中分别是待检测目标q的左上角坐标、右上角坐标、宽度、高度、类别和置信度,q∈[0,q-1]。
[0139]
优选地,图像特征提取主分支,包括:vgg、densenet、resnet网络的一种或多种。
[0140]
优选地,将原始图像输入特征提取主分支,得到原始图像对应的高维特征,包括:
[0141]
将尺寸大小为h
×
w的原始图像下采样至h/8
×
w/8、h/16
×
w/16、h/32
×
w/32三种大小,得到三种不同尺度特征图;
[0142]
使用特征金字塔网络fpn、自适应特征金字塔网络pan的变种或是其组合模块,将不同尺度特征图经过上采样或下采样后达到相同尺寸h/8
×
w/8;
[0143]
将上采样或下采样之后相同尺寸的特征图的相同位置上的值相加或者在通道维度上进行合并,利用特征融合获得高维特征。
[0144]
优选地,模型训练模块230,进一步用于构建面向多分支任务的形态感知损失函数;
[0145]
基于多任务数据以及标注,利用多分支任务的形态感知损失函数训练多分支图像识别网络模型。
[0146]
优选地,面向多分支任务的形态感知损失函数,包括:
[0147]
根据下述公式(1)构建面向多分支任务的形态感知损失函数l:
[0148]
l=l
seg
+l
obj
+l
point
(1)
[0149]
其中l
seg
,l
obj
,和l
point
分别是图像分割分支、目标检测分支和关键点提取分支的损失函数。l
obj
为预测坐标位置与真实坐标的iouloss和预测置信度与真实标签的bceloss之和,l
point
为预测关键点坐标位置和真实关键点位置的bceloss。
[0150]
优选地,图像分割分支的定义包括:
[0151]
根据下述公式(2)定义l
seg
:
[0152][0153]
其中:n为图像中像素点个数;l(x)为像素点x对应的真实分类,为像素x对应的损失函数权重。p
l(x)
(x)指检测结果中像素点x属于其真实分类的概率,ω表示像素空间。
[0154]
优选地,图像分割分支的定义包括:
[0155]
权重由三个权重损失项构成,分别为类别损失项形态损失项关键点定位损失项w
kpl
(x),根据下述公式(3)计算权重:
[0156][0157]
其中,λ1、λ2、λ3是三个加权的超参数,用于控制三个权重项的占比;t为目标关键点所在的类别;
[0158]
根据下述公式(4)计算类别损失项:
[0159][0160]
其中,numk为类别k的像素数目;c为包含背景在内的类别数目,i为类别权重通道序号,在集合{0,...,c}中取值;
[0161]
根据下述公式(5)计算形态损失项:
[0162][0163]
其中,d(x)为像素点x到所属前景类别l(x)边缘的最近距离,xi为像素点x在类别权重通道i的映射,l(xi)为xi对应的类别;当i=0时,表示背景像素点到前景区
域的形态损失值;当i≠0时,表示前景像素点到其对应前景区域边界的形态损失值;
[0164]
根据下述公式(6)计算关键点定位损失项:
[0165][0166]
其中,a为图像中关键目标点的位置,da(x)为前景区域像素点x到关键点目标区域a的距离,对每个像素点x分别计算目标距离损失w
kpl
(x),形成目标距离损失项w
kpl
。
[0167]
本发明实施例中,提供了一种基于多分支网络的图像分析方法,针对现有的技术缺陷,获取多任务数据及标注;构建多分支图像识别网络模型,该模型包括特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;利用形态感知损失函数训练所述多分支图像识别网络模型。该方法相对于先进行目标检测再进行图像分割或关键点识别的两阶段网络,具有更快的运算速度,即在不增加网络个数以及大量识别时间的情况下,使用单个神经网络完成对多个视觉识别任务的分析,且不会对识别结果造成准确度上的损失。
[0168]
图5是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现下述基于多分支网络的图像分析方法的步骤:
[0169]
s1、获取多任务数据及标注;
[0170]
s2、构建多分支图像识别网络模型,多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;
[0171]
s3、基于多任务数据以及标注,利用形态感知损失函数训练多分支图像识别网络模型,获得训练后的模型;
[0172]
s4、将待分析图像输入训练后的模型,获得分析数据,完成基于多分支网络的图像分析。
[0173]
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于多分支网络的图像分析方法。例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0174]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
技术特征:
1.一种基于多分支网络的图像分析方法,其特征在于,所述方法步骤包括:s1、获取多任务数据及标注;s2、构建多分支图像识别网络模型,所述多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;s3、基于所述多任务数据以及标注,利用形态感知损失函数训练所述多分支图像识别网络模型,获得训练后的模型;s4、将待分析图像输入所述训练后的模型,获得分析数据,完成基于多分支网络的图像分析。2.根据权利要求1所述的方法,其特征在于,所述s1中,获取多任务数据及标注,包括:按照多任务需求中每一任务的标注方式,对原始图像进行标注;将原始图像及多任务标注组成的数据,按照预设的比例划分为训练集、验证集与测试集;其中,标注方式包括:对于图像分割任务,对原始图像的前景和背景进行划分,得到原始图像的掩码标注;对于目标检测任务,对原始图像的待识别对象使用矩形框进行标注,并将单张原始图像的全部矩形框集中于单个文本中;对于关键点检测任务,对原始图像的待识别关键点使用点标注方法进行标注,并将单张原始图像的全部点标注集中于单个文本中。3.根据权利要求2所述的方法,其特征在于,所述s2中,构建多分支图像识别网络模型,所述多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支,包括:将原始图像输入特征提取主分支,得到所述原始图像对应的高维特征;将所述高维特征输入关键点提取分支,获得m个关键点坐标获得m个关键点坐标将所述高维特征输入图像分割分支,获得与所述原始图像尺寸对应的图像分割置信度图,所述图像分割置信度图尺寸为h,w,c;其中h表示高、w表示宽,c表示类别数目;将所述高维特征输入目标检测分支,获得q个待检测目标的位置参数其中所述其中所述分别是所述待检测目标q的左上角坐标、右上角坐标、宽度、高度、类别和置信度,q∈[0,q-1]。4.根据权利要求3所述的方法,其特征在于,所述图像特征提取主分支,包括:vgg、densenet、resnet网络的一种或多种。5.根据权利要求4所述的方法,其特征在于,所述将原始图像输入特征提取主分支,得到所述原始图像对应的高维特征,包括:将尺寸大小为h
×
w的所述原始图像下采样至h/8
×
w/8、h/16
×
w/16、h/32
×
w/32三种大小,得到三种不同尺度特征图;使用特征金字塔网络fpn、自适应特征金字塔网络pan的变种或是其组合模块,将不同尺度特征图经过上采样或下采样后达到相同尺寸h/8
×
w/8;
将上采样或下采样之后相同尺寸的特征图的相同位置上的值相加或者在通道维度上进行合并,利用特征融合获得高维特征。6.根据权利要求5所述的方法,其特征在于,所述s3中,基于所述多任务数据以及标注,利用形态感知损失函数训练所述多分支图像识别网络模型,获得训练后的模型,包括:构建面向多分支任务的形态感知损失函数;基于所述多任务数据以及标注,利用所述多分支任务的形态感知损失函数训练所述多分支图像识别网络模型。7.根据权利要求6所述的方法,其特征在于,所述面向多分支任务的形态感知损失函数,包括:根据下述公式(1)构建面向多分支任务的形态感知损失函数l:l=l
seg
+l
obj
+l
point
(1)其中l
seg
,l
obj
,和l
point
分别是所述图像分割分支、目标检测分支和关键点提取分支的损失函数。l
obj
为预测坐标位置与真实坐标的iouloss和预测置信度与真实标签的bceloss之和,l
point
为预测关键点坐标位置和真实关键点位置的bceloss。8.根据权利要求7所述的方法,其特征在于,所述图像分割分支的定义包括:根据下述公式(2)定义l
seg
:其中:n为图像中像素点个数;l(x)为像素点x对应的真实分类,为像素x对应的损失函数权重。p
l(x)
(x)指检测结果中像素点x属于其真实分类的概率,ω表示像素空间。9.根据权利要求8所述的方法,其特征在于,所述图像分割分支的定义包括:权重由三个权重损失项构成,分别为类别损失项形态损失项关键点定位损失项w
kpl
(x),根据下述公式(3)计算权重:其中,λ1、λ2、λ3是三个加权的超参数,用于控制三个权重项的占比;t为目标关键点所在的类别;根据下述公式(4)计算类别损失项:其中,num
k
为类别k的像素数目;c为包含背景在内的类别数目,i为类别权重通道序号,在集合{0,
…
,c}中取值;根据下述公式(5)计算形态损失项:
其中,d(x)为像素点x到所属前景类别l(x)边缘的最近距离,x
i
为像素点x在类别权重通道i的映射,l(x
i
)为x
i
对应的类别;当i=0时,表示背景像素点到前景区域的形态损失值;当i≠0时,表示前景像素点到其对应前景区域边界的形态损失值;根据下述公式(6)计算关键点定位损失项:其中,a为图像中关键目标点的位置,d
a
(x)为前景区域像素点x到所述关键点目标区域a的距离,对每个像素点x分别计算目标距离损失w
kpl
(x),形成目标距离损失项w
kpl
。10.一种基于多分支网络的图像分析系统,其特征在于,所述系统包括:数据采集块,用于获取多任务数据及标注;模型构建模块,用于构建多分支图像识别网络模型,所述多分支图像识别网络模型包括:特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;模型训练模块,用于基于所述多任务数据以及标注,利用形态感知损失函数训练所述多分支图像识别网络模型,获得训练后的模型;图像分析模块,用于将待分析图像输入所述训练后的模型,获得分析数据,完成基于多分支网络的图像分析。
技术总结
本发明提供一种基于多分支网络的图像分析方法及系统,涉及智慧医疗技术领域。包括:获取多任务数据及标注;构建多分支图像识别网络模型,该模型包括特征提取主分支、关键点提取分支、图像分割分支和目标检测分支;利用形态感知损失函数训练所述多分支图像识别网络模型。该方法相对于先进行目标检测再进行图像分割或关键点识别的两阶段网络,具有更快的运算速度,即在不增加网络个数以及大量识别时间的情况下,使用单个神经网络完成对多个视觉识别任务的分析,且不会对识别结果造成准确度上的损失。损失。损失。
技术研发人员:班晓娟 郭灿城 马博渊
受保护的技术使用者:北京科技大学
技术研发日:2023.05.30
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/