一种半导体器件图像数据增广方法、设备及存储介质与流程

未命名 08-29 阅读:85 评论:0


1.本发明涉及数字图像处理与数据增广领域,特别涉及一种半导体器件图像数据增广方法、设备及存储介质。


背景技术:

2.深度学习方法能自适应由浅至深地提取目标图像的各层次特征,有效解决传统方法存在的多分类能力差、泛用性差、易受外界环境或光照条件影响等问题。虽然深度学习的特征提取过程是自适应的,但其模型构建的过程是基于数据驱动的,模型训练的过程需要海量的数据作为支撑,数据量不足会导致模型出现过拟合等问题,虽然简单的数据增强(data augmentation,da)和正则化技术可以缓解该问题,但是该问题并没有得到完全解决。
3.而半导体器件又由于其体积小,很有可能因为摄像头的畸变使实际拍摄的图像失真,影响模型训练的准确度。并且存在缺陷的半导体器件较少,因此获取含有缺陷的图像样本非常困难。公开号为cn108830294a的中国发明专利申请公开了一种图像数据的增广方法,包括了以下步骤:s1000获取待筛选图像集的类别信息对应的图像数据;s2000根据预设筛选策略和所述类别信息对应的样本图像,识别所述图像数据;s3000根据识别结果将所述图像数据进行归类得到图像数据集;所述预设筛选策略包括相似度筛选,哈希值筛选和关键字筛选中的任意一种或者多种;s4000对所述图像数据集进行对抗训练得到样本数据集。该发明仅能实现减少人工晒元样本数据集,并不能提高增广图像的质量,因此,需要一种针对半导体器件图像数据进行增广的方法提高图像数量和质量。


技术实现要素:

4.本发明要解决的技术问题是对半导体器件图像进行增广。
5.针对上述技术问题,本发明提供了一种半导体器件图像数据增广方法,包括以下步骤:
6.步骤s1:对原始图像进行尺寸统一与名称统一,并对缺陷样本进行缺陷定位与类别标注,构建原始数据集o。
7.步骤s2:采用高斯滤波去噪方法与sobel算子图像锐化方法对原始图像进行预处理。
8.步骤s3:对处理过的原始图像进行几何变换,对原始数据集o进行数据增广,得到增广后的数据集r1;所述几何变换包括图像旋转、翻转和透视变换。
9.步骤s4:将增广数据集r1输入条件生成对抗网络cgan,优化损失函数模型并迭代训练直至模型收敛,此时网络输出增广数据集r2;结合增广数据集r2与r1,得到增广数据集rd。
10.进一步的,构建原始数据集o的具体步骤包括:
11.步骤s101:设定统一的图像分辨率大小和图像名称序列。
12.步骤s102:将采集的半导体器件的原始图像进行裁剪与重命名,统一所有图像的分辨率与图像名称。
13.步骤s103:使用标注工具对缺陷样本进行定位、分类、标注,将所有完成标注的图像样本构建为原始数据集。
14.进一步的,所述采用高斯滤波去噪方法与sobel算子图像锐化方法对原始图像进行预处理,具体为:
15.步骤s201:对原始数据集o中的所有图像样本使用高斯滤波进行去噪。
16.步骤s202:对经过高斯滤波去噪处理后的图像,使用sobel锐化算子进行图像增强。
17.进一步的,获取增广数据集r1步骤包括:
18.将数据集o中的图像进行旋转变换,所有经过旋转变换生成的图像构成集合ir。
19.将数据集o中的图像进行翻转变换,所有经过翻转变换生成的图像构成集合i
t

20.将数据集o中的图像进行透视变换,所有经过透视变换生成的图像构成集合i
p

21.将集合ir、i
t
、i
p
结合后,构成初步增广后的数据集r1。
22.进一步的,利用条件生成对抗网络cgan输出增广数据集r2的步骤具体为:
23.搭建条件生成对抗网络cgan模型。
24.定义由生成器g的损失与判别器d的损失构成的cgan模型的损失函数l
cgan
,对现有损失函数进行优化,确定模型的最终目标函数g
*

25.定义噪声输入z的维度参数dz,定义附加条件输入y的维度参数dy,确定训练批次大小参数与迭代轮次参数,并初始化网络参数。
26.训练条件生成对抗网络cgan。
27.根据损失函数l
total
更新优化生成器g与判别器d的网络参数,所述损失函数l
total
为条件生成对抗网络cgan总的损失。
28.重复执行训练过程与网络参数更新过程,直至达到预先设定的迭代轮次为止。
29.进一步的,使用完成训练后模型的生成器g生成若干图像样本,将生成图像样本构成增广数据集r2。
30.进一步的,条件生成对抗网络cgan模型包括g(z)生成器模型,用于生成样本;d(x)为判别器模型,用于判断样本类型。
31.进一步的,所述定义由生成器g的损失与判别器d的损失构成的cgan模型的损失函数l
cgan

32.l
cgan
(d,g)=e
x
[logd(x|y)]+ez[log(1-d(g(z|y)))]
[0033]
其中式中x代表真实数据,g(z|y)代表生成器生成的虚假数据,d(x|y)代表判别器对真实数据的判别结果,d(g(z|y))代表判别器对虚假数据的判别结果。
[0034]
进一步的,所述结合增广数据集r2与r1,得到增广数据集rd,具体为:
[0035]
对增广数据集r2进行优化,剔除不含指定标签或质量不合格的图像样本;
[0036]
将优化后增广数据集r2与增广数据集r1结合,得到最终的增广数据集rd。
[0037]
进一步的,还包括一种检测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一中半导体器件图像数据增广方法。
[0038]
进一步的,还包括一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种数据传输方法。
[0039]
本发明与现有技术相比的有益效果是:(1)本发明采用图像几何变换与条件生成对抗网络cgan相结合的方法来对半导体器件的图像进行数据增广,以此来生成足量的对应标签的高质量图像样本,通过训练增广数据集,使模型的训练效果更佳,使模型生成的图像质量更高、更具多样性和真实性;(2)本发明通过优化生成器和辨别器的网络参数,提高了优化任务之间的关联性,使模型整体的图像生成效果更加优异。
附图说明
[0040]
图1为本发明进行图像增广的一个示例性流程图。
[0041]
图2为本发明对原始图像进行统一处理的一个示例性流程图。
[0042]
图3为本发明对原始图像进行滤波处理的一个示例性流程图。
[0043]
图4为本发明进行数据集增广混合的一个示例性流程图。
[0044]
图5为本发明条件生成对抗网络的一个示例性结构图。
具体实施方式
[0045]
实施例:根据本发明的实施例,提供给了一种半导体器件图像数据增广方法,对半导体器件图像数据进行增广,如图1所示,包括以下步骤:
[0046]
步骤s1:对原始图像进行尺寸统一与名称统一,并对缺陷样本进行缺陷定位与类别标注,构建原始数据集o。
[0047]
步骤s2:采用高斯滤波去噪方法与sobel算子图像锐化方法对原始图像进行预处理。
[0048]
步骤s3:对处理过的原始图像进行几何变换,对原始数据集o进行数据增广,得到增广后的数据集r1;几何变换包括图像旋转、翻转和透视变换。
[0049]
步骤s4:将增广数据集r1输入条件生成对抗网络cgan,优化损失函数模型并迭代训练直至模型收敛,此时网络输出增广数据集r2;结合增广数据集r2与r1,得到增广数据集rd。
[0050]
可选的,如图2所示,构建原始数据集o的具体步骤包括:
[0051]
步骤s101:设定统一的图像分辨率大小和图像名称序列,利用边缘识别将图像主体进行分割,并对图像进行缩放。设定图像名称序列可以为:“品类名-缺陷问题-图片编号”。
[0052]
步骤s102:将采集的半导体器件的原始图像进行裁剪与重命名,统一所有图像的分辨率与图像名称,当同一类别的半导体器件图像进行处理时,仅需对图片编号进行增加。
[0053]
步骤s103:使用在线标注工具roboflow对缺陷样本进行定位、分类、标注,将所有完成标注的图像样本构建为原始数据集。
[0054]
如图3所示,采用高斯滤波去噪方法与sobel算子图像锐化方法对原始图像进行预处理,具体为:
[0055]
步骤s201:对原始数据集o中的所有图像样本使用高斯滤波进行去噪,目的是去除采集图像过程中噪声对图像的影响。
[0056]
步骤s202:对经过高斯滤波去噪处理后的图像,使用sobel锐化算子进行图像增强。
[0057]
如图4所示,通过图像采取集合变换,获取增广数据集r1步骤包括:
[0058]
将数据集o中的图像进行旋转变换,所有经过旋转变换生成的图像构成集合ir。
[0059]
将数据集o中的图像进行翻转变换,所有经过翻转变换生成的图像构成集合i
t

[0060]
将数据集o中的图像进行透视变换,所有经过透视变换生成的图像构成集合i
p

[0061]
将集合ir、i
t
、i
p
结合后,构成初步增广后的数据集r1,进行三种变换的过程中,可以对数据集o进行随机采样,因此无需考虑变换后图像名称所对应的变换形式。
[0062]
利用条件生成对抗网络cgan输出增广数据集r2的步骤具体为:搭建条件生成对抗网络cgan模型,定义由生成器g的损失与判别器d的损失构成的cgan模型的损失函数l
cgan
,对现有损失函数进行优化,确定模型的最终目标函数g
*

[0063]
定义噪声输入z的维度参数dz,定义附加条件输入y的维度参数dy,确定训练批次大小参数与迭代轮次参数,并初始化网络参数。
[0064]
训练条件生成对抗网络cgan,根据损失函数l
total
更新优化生成器g与判别器d的网络参数,损失函数l
total
为条件生成对抗网络cgan总的损失。
[0065]
重复执行训练过程与网络参数更新过程,直至达到预先设定的迭代轮次为止。
[0066]
使用完成训练后模型的生成器g生成若干图像样本,将生成图像样本构成增广数据集r2。
[0067]
如图5所示,为本实施例的条件生成对抗网络的一个示例性框图,条件生成对抗网络cgan模型包括g(z)生成器模型,用于生成样本;d(x)为判别器模型,用于判断样本类型。z为噪声输入;y为附加条件输入;x
true
为真实样本,在本实例中对应增广数据集r1中的样本;x
fake
为生成器g的生成样本,表示输出,与x
true
同为判别器d的输入。
[0068]
模型生成器g的结构为:采用u-net结构,设置了10层卷积层与10层反卷积层,每层卷积层后使用leakyrelu作为激活函数,每层反卷积层后使用relu作为激活函数。所有卷积层中的卷积核尺寸均为4
×
4,步长为2。生成器g的输入是随机噪声z与附加条件输入y,输出是尺寸为m
×
n的三通道图像,即生成图像x
fake

[0069]
模型判别器d的结构为:采用6层卷积层依次连接构成判别器d,每层卷积层后使用leakyrelu作为激活函数。所有卷积层中的卷积核尺寸均为4
×
4,步长为2。判别器d的输入是尺寸为m
×
n的真实图像样本x
true
与生成图像样本x
fake
,输出是一个一维向量。
[0070]
定义由生成器g的损失与判别器d的损失构成的cgan模型的损失函数l
cgan

[0071]
l
cgan
(d,g)=e
x
[logd(x|y)]+ez[log(1-d(g(z|y)))]
[0072]
其中式中x代表真实数据,g(z|y)代表生成器生成的虚假数据,d(x|y)代表判别器对真实数据的判别结果,d(g(z|y))代表判别器对虚假数据的判别结果。为了使模型训练得到更佳的效果,本方法在l
cgan
(d,g)的基础上,有针对性地增加了均方误差损失函数l
l2
(g),以此来优化现有的损失函数,l
l2
(g)如下所示:
[0073]
l
l2
(g)=e
x,z
[(d(x|y)-f(g(z|y)))2]
[0074]
综合l
cgan
(d,g)与l
l2
(g)可得本方法中模型的最终目标函数g
*
如下所示,其中λ为自定义系数:
[0075][0076]
进一步,定义噪声输入z的维度参数dz,定义附加条件输入y的维度参数dy,确定训练批次大小参数batchsize与迭代轮次参数epochs,并初始化网络参数,具体为:
[0077]
维度参数dz决定了噪声输入z的维度,其取值由增广数据集r1中图像的分辨率决定;维度参数dy决定了附加条件输入y的维度,其取值由增广数据集r1中标注的标签种类数量决定;参数batchsize决定了模型训练过程中每个迭代轮次输入的样本数量;参数epochs决定了模型训练的总迭代轮次。完成上述参数与超参数的设置后,使用随机数初始化生成器g与判别器d的网络参数。
[0078]
进一步,训练条件生成对抗网络cgan,具体为:
[0079]
在每个训练轮次中,首先将随机噪声z与附加条件y输入到生成器g中,控制生成器按指定标签输出若干生成图像样本x
fake
;随后将若干x
fake
与真实图像样本x
true
输入到判别器d中,判别器d输出判别结果。完成本轮迭代后,计算损失函数l
total

[0080]
结合增广数据集r2与r1,得到增广数据集rd,具体为:
[0081]
对增广数据集r2进行优化,剔除不含指定标签或质量不合格的图像样本;
[0082]
将优化后增广数据集r2与增广数据集r1结合,得到最终的增广数据集rd。
[0083]
根据本发明实施例,还提供一种检测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序上述实施例的半导体器件图像数据增广方法。
[0084]
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行时实现的一种数据传输方法,不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。

技术特征:
1.一种半导体器件图像数据增广方法,其特征在于,包括以下步骤:步骤s1:对原始图像进行尺寸统一与名称统一,并对缺陷样本进行缺陷定位与类别标注,构建原始数据集o;步骤s2:采用高斯滤波去噪方法与sobel算子图像锐化方法对原始图像进行预处理;步骤s3:对处理过的原始图像进行几何变换,对原始数据集o进行数据增广,得到增广后的数据集r1;所述几何变换包括图像旋转、翻转和透视变换;步骤s4:将增广数据集r1输入条件生成对抗网络cgan,优化损失函数模型并迭代训练直至模型收敛,此时网络输出增广数据集r2;结合增广数据集r2与r1,得到增广数据集r
d
。2.根据权利要求1所述的一种半导体器件图像数据增广方法,其特征在于,构建原始数据集o的具体步骤包括:步骤s101:设定统一的图像分辨率大小和图像名称序列;步骤s102:将采集的半导体器件的原始图像进行裁剪与重命名,统一所有图像的分辨率与图像名称;步骤s103:使用标注工具对缺陷样本进行定位、分类、标注,将所有完成标注的图像样本构建为原始数据集。3.根据权利要求1所述的一种半导体器件图像数据增广方法,其特征在于:所述采用高斯滤波去噪方法与sobel算子图像锐化方法对原始图像进行预处理,具体为:步骤s201:对原始数据集o中的所有图像样本使用高斯滤波进行去噪;步骤s202:对经过高斯滤波去噪处理后的图像,使用sobel锐化算子进行图像增强。4.根据权利要求1所述的一种半导体器件图像数据增广方法,其特征在于,获取增广数据集r1步骤包括:将数据集o中的图像进行旋转变换,所有经过旋转变换生成的图像构成集合i
r
;将数据集o中的图像进行翻转变换,所有经过翻转变换生成的图像构成集合i
t
;将数据集o中的图像进行透视变换,所有经过透视变换生成的图像构成集合i
p
;将集合i
r
、i
t
、i
p
结合后,构成初步增广后的数据集e1。5.根据权利要求1所述的一种半导体器件图像数据增广方法,其特征在于,利用条件生成对抗网络cgan输出增广数据集r2的步骤具体为:搭建条件生成对抗网络cgan模型;定义由生成器g的损失与判别器d的损失构成的cgan模型的损失函数l
cgan
,对现有损失函数进行优化,确定模型的最终目标函数g
*
;定义噪声输入z的维度参数d
z
,定义附加条件输入y的维度参数d
y
,确定训练批次大小参数与迭代轮次参数,并初始化网络参数;训练条件生成对抗网络cgan;根据损失函数l
total
更新优化生成器g与判别器d的网络参数,所述损失函数l
total
为条件生成对抗网络cgan总的损失;重复执行训练过程与网络参数更新过程,直至达到预先设定的迭代轮次为止;使用完成训练后模型的生成器g生成若干图像样本,将生成图像样本构成增广数据集r2。6.根据权利要求5所述的一种半导体器件图像数据增广方法,其特征在于:条件生成对
抗网络cgan模型包括g(z)生成器模型,用于生成样本;d(x)为判别器模型,用于判断样本类型。7.根据权利要求5所述的一种半导体器件图像数据增广方法,其特征在于:所述定义由生成器g的损失与判别器d的损失构成的cgan模型的损失函数l
cgan
:l
cgan
(d,g)=e
x
[logd(x|y)]+e
z
[log(1-d(g(z|y)))]其中式中x代表真实数据,g(z|y)代表生成器生成的虚假数据,d(x|y)代表判别器对真实数据的判别结果,d(g(z|y))代表判别器对虚假数据的判别结果。8.根据权利要求1所述的一种半导体器件图像数据增广方法,其特征在于:所述结合增广数据集r2与r1,得到增广数据集r
d
,具体为:对增广数据集r2进行优化,剔除不含指定标签或质量不合格的图像样本;将优化后增广数据集r2与增广数据集r1结合,得到最终的增广数据集r
d
。9.一种检测设备,其特征在于:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述权利要求1-8任一项所述的半导体器件图像数据增广方法。10.一种计算机可读介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种数据传输方法。

技术总结
本发明公开了一种半导体器件图像数据增广方法、设备及存储介质,属于数字图像处理与数据增广领域,通过对半导体原始图像进行统一标注,并对原始图像进行几何变换,得到增广数据集R1,并通过条件生成对抗网络对增广数据集R1到的增广数据集R2,不断优化模型参数,输出优质的增广图像数据,通过优化生成器和辨别器的网络参数,提高了优化任务之间的关联性,使模型整体的图像生成效果更加优异。模型整体的图像生成效果更加优异。模型整体的图像生成效果更加优异。


技术研发人员:杨钧植 王永庆 罗庭华
受保护的技术使用者:深圳市玄武科技信息有限公司
技术研发日:2023.05.31
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐