基于不确定性引导的半监督图像分割方法
未命名
10-21
阅读:70
评论:0
1.本发明涉及图像处理技术,具体是一种基于不确定性引导的半监督图像分割方法。
背景技术:
2.在半监督学习和深度学习领域,近年来取得了显著的进展。半监督学习方法通过充分利用未标记数据来提高模型性能,在数据较为有限的情况下具有重要的应用价值。然而,伪监督噪声是半监督学习方法面临的一项主要挑战。在伪监督学习中,未标记数据通过模型预测得到的伪标注用于训练,然而,由于这些伪标注是通过模型自身生成的,其质量可能不如人工标注的真实标注,导致了伪监督噪声问题。伪监督噪声的存在会影响模型的泛化能力和性能,尤其是在未标记数据较多的情况下,伪监督噪声问题尤为突出。另外,在语义分割任务中,由于不同类别的图像可能存在差异,部分类别可能比其他类别更容易学习,导致了性能不平衡的问题。这种性能不平衡可能影响到语义分割模型在真实应用中的效果,尤其是在一些复杂的场景中。现有的解决伪监督噪声问题的方法主要包括通过伪标注的置信度进行选择性筛选和加权,以及引入额外的监督信息进行噪声校正。然而,这些方法在一些场景下可能并不完全有效,且复杂性较高。
3.此外,目前现有的一些半监督学习方法主要集中在图像分类任务上,对于语义分割任务尚缺乏更加高效和有效的解决方案。
技术实现要素:
4.本发明的目的是针对现有技术的不足,而提供一种基于不确定性引导的半监督图像分割方法。这种方法能实现抗噪性训练,减少伪标注噪声给模型带来的分割性能下降的问题。
5.实现本发明目的的技术方案是:
6.一种基于不确定性引导的半监督图像分割方法,包括如下步骤:
7.1)数据预处理:数据预处理包括:
8.1-1)采用自然图像的公开分割数据集pascal voc 2012和cityscapes,将pascal voc 2012中的图像尺寸大小设定为321*321,将cityscapes中的图像尺寸大小设定为720*720;
9.1-2)将数据集划分成有标注数据和没有标注的无标注数据,有标注数据分别为数据集中1/16、1/8、1/4及1/2四种,数据集中对应的剩余数据为无标注数据;
10.1-3)对有标注图像做弱数据增强,弱数据增强为在0.5和2.0之间随机翻转和调整训练图像的大小;对无标注图像进行强数据增强,采用颜色抖动、灰度化、随机裁剪,对有标注图像进行的弱数据增强和对无标注图像做的强数据增强都是采用pytorch框架提供的随机数函数,为每一个数据增强操作,生成一个概率值p,当p》0.5,那么执行对应的数据增强操作,否则不进行相应的数据增强,比如对于随机翻转这个弱数据增强操作来说,生成的概
率值为0.6》0.5,那么则对有标注图像和其对应的标注,进行随机翻转;
11.2)经过两个对等分割网络得到预测结果:两个对等分割网络初始化权重不同、结构相同均采用带有空洞卷积的deeplabv3+,deeplabv3+由编码器和主解码器构成,主干网络为预训练的resnet101,标注和无标注的图像馈送到具有相同结构但不同初始化的两个对等分割网络deeplabv3+中,接下来,通过卷积神经网络cnn进行特征提取,deeplabv3+采用深层的卷积神经网络,resne101来学习图像中的高级特征表示,最后,采用解码器将高级特征映射转换为像素级别的语义分割结果,并通过分类器对每个像素进行分类,具体为:
12.2-1)采用步骤1)中划分好的有标注和无标注数据集,记有标注数据集为无标注数据集为其中,n<<m;
13.2-2)对于给定的输入图像xi,送入对等模型deeplabv3+,生成两个预测概率图p1和p2,p1和p2分别作为两个并行对等分割网络的输出,概率图表示在softmax归一化之后属于不同类别的每个像素的预测概率:
[0014][0015]
两个对等分割网络具有相同的网络结构,但具有不同的权重初始化参数,分别表示为和和和分别表示由deeplabv3+组成的两个对等分割网络;
[0016]
2-3)对步骤2-2)中得到的预测概率p1和p2,求一个argmax操作,得到用于交叉教学的伪标注,如公式(2)所示:
[0017][0018]
3)不确定性估计、求动态权重:根据对等网络预测概率图p1和p2的差异,进行不确定性估计,并求动态权重,包括:
[0019]
3-1)将两个对等网络分割的概率图p1和p2进行比较来量化分歧,其中较大的分歧表明可能存在错误、并对应于较低的权重值,其中不确定性图的计算如公式(3)所示:
[0020]
u=|max(p1)-max(p2)|
ꢀꢀ
(3),
[0021]
其中,u表示不确定性图,max表示求p1和p2对应位置的最大值函数;
[0022]
3-2)根据步骤3-1)求得的不确定性图u,进一步得到动态权重图,如公式(4)所示:
[0023]
w=(1-u)
λ
ꢀꢀ
(4),
[0024]
u表示不确定性图,范围从0到1,w是权重图,λ控制权重的可变性范围;
[0025]
4)优化模型训练:根据有监督损失函数和动态交叉损失函数,优化模型训练,优化函数包括监督损失ls和动态交叉教学损失l
ct
两个损失函数,即:
[0026]
4-1)对于有标注的数据,依据两个对等过程的有标注图像上的标准像素交叉熵损失来公式化监督损失ls如公式(5)所示:
[0027][0028]
其中lce是交叉熵损失函数,y
ij
是真实标注,w和h表示输入图像的宽度和高度,而w应用于有标注图像弱增强函数,在0.5和2.0之间随机翻转和调整训练图像的大小;
[0029]
4-2)对于无标注数据,采用不确定性引导的交叉教学函数l
ct
进行训练如公式(6)
所示:
[0030][0031]
其中s表示应用于无标注图像的强数据增强函数,w表示的是权重图;
[0032]
4-3)总损失函数ltotal如公式(7)所示:
[0033]
l
total
=ls+λl
ct
ꢀꢀ
(7),
[0034]
其中,λ是超参数,取值是0-1之间。
[0035]
现有技术中,半监督学习在图像分类和语义分割等计算机视觉任务中已经取得了显著的进展,然而,由于深度学习方法需要大量的标记数据来学习泛化表示,标注这些数据的劳动成本已经变得难以承受,在实际应用中,为了减少标注成本,半监督学习充分利用未标记数据来辅助学习,通过伪监督方法生成伪标注进行训练,然而,伪监督噪声的存在导致伪标注的质量不稳定,影响了模型的泛化能力,
[0036]
本技术方案引入不确定性度量的方法,利用模型之间的差异来重新加权损失函数,实现抗噪性训练。
[0037]
本技术方案采用定量对等模型直接预测分歧,估计不确定性,实现抗噪性训练,减少伪标注噪声给模型带来的分割性能下降的问题。
[0038]
这种方法能实现抗噪性训练,减少伪标注噪声给模型带来的分割性能下降的问题。
附图说明
[0039]
图1为实施例的方法流程示意图;
[0040]
图2为实施例的实验效果示意图。
具体实施方式
[0041]
下面结合附图和实施例对本发明的内容作进一步说明,但不是对本发明的限定。
[0042]
实施例:
[0043]
参照图1,一种基于不确定性引导的半监督图像分割方法,包括如下步骤:
[0044]
1)数据预处理:数据预处理包括:
[0045]
1-1)采用自然图像的公开分割数据集pascal voc 2012和cityscapes,将pascal voc 2012中的图像尺寸大小设定为321*321,将cityscapes中的图像尺寸大小设定为720*720;
[0046]
1-2)将数据集划分成有标注数据和没有标注的无标注数据,有标注数据分别为数据集中1/16、1/8、1/4及1/2四种,数据集中对应的剩余数据为无标注数据;
[0047]
1-3)对有标注图像做弱数据增强,弱数据增强为在0.5和2.0之间随机翻转和调整训练图像的大小;对无标注图像进行强数据增强,采用颜色抖动、灰度化、随机裁剪,对有标
注图像进行的弱数据增强和对无标注图像做的强数据增强都是采用pytorch框架提供的随机数函数,为每一个数据增强操作,生成一个概率值p,当p》0.5,那么执行对应的数据增强操作,否则不进行相应的数据增强;
[0048]
2)经过两个对等分割网络得到预测结果:两个对等分割网络初始化权重不同、结构相同均采用带有空洞卷积的deeplabv3+,deeplabv3+由编码器和主解码器构成,主干网络为为预训练的resnet101,标注和无标注的图像馈送到具有相同结构但不同初始化的两个对等分割网络deeplabv3+中,接下来,通过卷积神经网络cnn进行特征提取,deeplabv3+采用深层的卷积神经网络,resne101来学习图像中的高级特征表示,最后,采用解码器将高级特征映射转换为像素级别的语义分割结果,并通过分类器对每个像素进行分类,具体为:
[0049]
2-1)采用步骤1)中划分好的有标注和无标注数据集,记有标注数据集为无标注数据集为其中,n<<m;
[0050]
2-2)对于给定的输入图像xi,送入对等模型deeplabv3+,生成两个预测概率图p1和p2,p1和p2分别作为两个并行对等分割网络的输出,概率图表示在softmax归一化之后属于不同类别的每个像素的预测概率:
[0051][0052]
两个对等分割网络具有相同的网络结构,但具有不同的权重初始化参数,分别表示为和和和分别表示由deeplabv3+组成的两个对等分割网络;
[0053]
2-3)对步骤2-2)中得到的预测概率p1和p2,求一个argmax操作,得到用于交叉教学的伪标注,如公式(2)所示:
[0054][0055]
3)不确定性估计、求动态权重:根据对等网络预测概率图p1和p2的差异,进行不确定性估计,并求动态权重,包括:
[0056]
3-1)将两个对等网络分割的概率图p1和p2进行比较来量化分歧,其中较大的分歧表明可能存在错误、并对应于较低的权重值,其中不确定性图的计算如公式(3)所示:
[0057]
u=|max(p1)-max(p2)|
ꢀꢀ
(3),
[0058]
其中,u表示不确定性图,max表示求p1和p2对应位置的最大值函数;
[0059]
3-2)根据步骤3-1)求得的不确定性图u,进一步得到动态权重图,如公式(4)所示:
[0060]
w=(1-u)
λ
ꢀꢀ
(4),
[0061]
u表示不确定性图,范围从0到1,w是权重图,λ控制权重的可变性范围;
[0062]
4)优化模型训练:根据有监督损失函数和动态交叉损失函数,优化模型训练,优化函数包括监督损失ls和动态交叉教学损失l
ct
两个损失函数,即:
[0063]
4-1)对于有标注的数据,依据两个对等过程的有标注图像上的标准像素交叉熵损失来公式化监督损失ls如公式(5)所示:
[0064][0065]
其中lce是交叉熵损失函数,y
ij
是真实标注,w和h表示输入图像的宽度和高度,而w应用于有标注图像弱增强函数,在0.5和2.0之间随机翻转和调整训练图像的大小;
[0066]
4-2)对于无标注数据,采用不确定性引导的交叉教学函数l
ct
进行训练如公式(6)所示:
[0067][0068]
其中s表示应用于无标注图像的强数据增强函数,w表示的是权重图;4-3)总损失函数ltotal如公式(7)所示:
[0069]
l
total
=ls+λl
ct
ꢀꢀ
(7),
[0070]
其中,λ是超参数,取值是0-1之间。
[0071]
采用本例方法进行实验验证:
[0072]
一、定量结果:实验表明本例方法没有丢弃任何像素,因为本例方法可以从不确定区域中的像素中学习,这避免了有用信息的丢失;
[0073]
进行训练:将数据集中的无标注数据代入到两个对等的分割模型进行训练,对于pascal voc 2012,本例中设置一个训练批次中图像数为16,训练总迭代次数为80,对于cityscapes数据集,本例中设置一个训练批次中图像数为16,训练总迭代次数为240,为了防止过拟合,在训练过程中进行了在线的数据增强,对有标注图像进行的弱数据增强和对无标注图像做的强数据增强都是以一定概率进行的,具体来说是通过pytorch框架提供的随机数函数,为每一个数据增强操作,生成一个概率值p,当p》0.5,那么执行对应的数据增强操作,否则不进行相应的数据增强,比如对于随机翻转这个弱数据增强操作来说,生成的概率值为0.6》0.5,那么则对有标注图像和其对应的标注,进行随机翻转。本例方法进行实验验证结果如表1,表1展示了本例方法与最先进的半监督学习方法在pascal voc 2012和cityscapes上的性能比较结果,采用语义分割miou来评估分割性能:
[0074]
表1:
[0075]
[0076][0077]
对于pascal voc 2012和cityscapes这两个数据集本例方法在所有不同有标注比例情况下上都取得了最高的miou分割效果,本例方法采用基于不确定性引导的训练,使得模型分割性能和稳健性得到持续改进;
[0078]
二、定性结果:
[0079]
如图2所示,图2展示了本例方法以及其它半监督学习方法在有标注数据为数据集中50%条件下pascal voc 2012和的分割预测结果示意图,从分割预测结果上可以看出,本例方法对不同形状的分割实例,具有更好的可扩展性。
技术特征:
1.一种基于不确定性引导的半监督图像分割方法,其特征在于,包括如下步骤:1)数据预处理:数据预处理包括:1-1)采用自然图像的公开分割数据集pascal voc 2012和cityscapes,将pascal voc 2012中的图像尺寸大小设定为321*321,将cityscapes中的图像尺寸大小设定为720*720;1-2)将数据集划分成有标注数据和没有标注的无标注数据,有标注数据分别为数据集中1/16、1/8、1/4及1/2四种,数据集中对应的剩余数据为无标注数据;1-3)对有标注图像做弱数据增强,弱数据增强为在0.5和2.0之间随机翻转和调整训练图像的大小;对无标注图像进行强数据增强,采用颜色抖动、灰度化、随机裁剪,对有标注图像进行的弱数据增强和对无标注图像做的强数据增强都是采用pytorch框架提供的随机数函数,为每一个数据增强操作,生成一个概率值p,当p>0.5,那么执行对应的数据增强操作,否则不进行相应的数据增强;2)经过两个对等分割网络得到预测结果:两个对等分割网络初始化权重不同、结构相同均采用带有空洞卷积的deeplabv3+,deeplabv3+由编码器和主解码器构成,主干网络为预训练的resnet101,标注和无标注的图像馈送到具有相同结构但不同初始化的两个对等分割网络deeplabv3+中,接下来,采用卷积神经网络cnn进行特征提取,deeplabv3+采用深层的卷积神经网络,resne101来学习图像中的高级特征表示,最后,采用解码器将高级特征映射转换为像素级别的语义分割结果,并通过分类器对每个像素进行分类,具体为:2-1)采用步骤1)中划分好的有标注和无标注数据集,记有标注数据集为无标注数据集为其中,n<<m;2-2)对于给定的输入图像x
i
,送入对等模型deeplabv3+,生成两个预测概率图p1和p2,p1和p2分别作为两个并行对等分割网络的输出,概率图表示在softmax归一化之后属于不同类别的每个像素的预测概率:两个对等分割网络具有相同的网络结构,但具有不同的权重初始化参数,分别表示为和和和分别表示由deeplabv3+组成的两个对等分割网络;2-3)对步骤2-2)中得到的预测概率p1和p2,求一个argmax操作,得到用于交叉教学的伪标注,如公式(2)所示:3)不确定性估计、求动态权重:根据对等网络预测概率图p1和p2的差异,进行不确定性估计,并求动态权重,包括:3-1)将两个对等网络分割的概率图p1和p2进行比较来量化分歧,其中较大的分歧表明可能存在错误、并对应于较低的权重值,其中不确定性图的计算如公式(3)所示:u=|max(p1)-max(p2)|
ꢀꢀꢀꢀ
(3),其中,u表示不确定性图,max表示求p1和p2对应位置的最大值函数;3-2)根据步骤3-1)求得的不确定性图u,进一步得到动态权重图,如公式(4)所示:w=(1-u)
λ
ꢀꢀꢀ
(4),u表示不确定性图,范围从0到1,w是权重图,λ控制权重的可变性范围;4)优化模型训练:根据有监督损失函数和动态交叉损失函数,优化模型训练,优化函数
包括监督损失l
s
和动态交叉教学损失l
ct
两个损失函数,即:4-1)对于有标注的数据,依据两个对等过程的有标注图像上的标准像素交叉熵损失来公式化监督损失l
s
如公式(5)所示:其中lce是交叉熵损失函数,y
ij
是真实标注,w和h表示输入图像的宽度和高度,而w应用于有标注图像弱增强函数,在0.5和2.0之间随机翻转和调整训练图像的大小;4-2)对于无标注数据,采用不确定性引导的交叉教学函数l
ct
进行训练如公式(6)所示:其中s表示应用于无标注图像的强数据增强函数,w表示的是权重图;4-3)总损失函数ltotal如公式(7)所示:l
total
=l
s
+λl
ct
ꢀꢀ
(7),其中,λ是超参数,取值是0-1之间。
技术总结
本发明公开了一种基于不确定性引导的半监督图像分割方法,包括如下步骤1)数据预处理;2)经过两个对等分割网络得到预测结果;3)不确定性估计、求动态权重;4)优化模型训练。这种方法能实现抗噪性训练,减少伪标注噪声给模型带来的分割性能下降的问题。型带来的分割性能下降的问题。型带来的分割性能下降的问题。
技术研发人员:许睿 周南 潘细朋
受保护的技术使用者:桂林电子科技大学
技术研发日:2023.08.03
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/