一种用于工业制品表面缺陷检测的数据标注方法
未命名
09-24
阅读:70
评论:0
1.本发明涉及工业制品表面缺陷检测领域,尤其涉及一种用于工业制品表面缺陷检测的数据标注方法。
背景技术:
2.工业制品表面缺陷检测是工业生产中的重要环节,对提高工业制品质量有着重要意义。由于工业制品表面缺陷检测要求精度较高,因此,大部分的工业制品表面缺陷检测的方法为监督学习,而监督学习需要大量标注数据训练模型,因此,标注数据的质量和数量对于工业制品表面缺陷检测的结果至关重要。
3.目前工业制品的缺陷标注主要依靠人工标注,这种方式需要消耗大量的人力物力,并且获取的标注数据的一致性较差。由于在构建智能缺陷标注模型的过程中,工业制品表面缺陷数据具有标注样本少、样本不均衡、缺陷面积差距大且存在异常点的问题,因此亟需探索智能缺陷标注模型以降低标注成本,提高标注效率和标注质量。
技术实现要素:
4.本发明主要解决的技术问题是提供一种用于工业制品表面缺陷检测的数据标注方法,解决工业制品表面缺陷数据具有标注样本少、样本不均衡、缺陷面积差距大且存在异常点的问题。
5.为解决上述技术问题,本发明采用的一个技术方案是提供一种用于工业制品表面缺陷检测的数据标注方法,包括步骤:
6.第一步,获取用于对工业制品表面缺陷进行标注的缺陷已标注数据集,缺陷已标注数据集包括已标注缺陷的第一批缺陷样本图像。
7.第二步,使用缺陷已标注数据集对特征提取模型进行训练,提取第一批缺陷样本图像的特征向量。
8.第三步,将第一批缺陷样本图像的特征向量,作为训练数据输入到标注分类模型,并对其进行训练。
9.第四步,对缺陷未标注数据集中未标注缺陷的第一批未标注样本图像,利用训练好的特征提取模型和标注分类模型进行分类,得到未标注缺陷的第二批未标注样本图像。
10.第五步,若缺陷未标注数据集中的第二批未标注样本图像的数量,与第一批未标注样本图像的数量的比值,大于预设的阈值门限,则对第二批未标注样本图像进行人工标注,得到第二批缺陷样本图像。
11.第六步,承接第五步,将第二批缺陷样本图像和第一批缺陷样本图像合并,作为下一轮送代运算所需的缺陷已标注数据集;将缺陷未标注数据集中去除第二批缺陷样本图像,作为下一轮迭代运算所需的缺陷未标注数据集;然后返回第一步,对特征提取模型和标注分类模型进行选代训练。
12.第七步,承接第四步,若缺陷未标注数据集中的第二批未标注样本图像的数量,与
第一批未标注样本图像的数量的比值,小于或等于预设的阈值门限,则表明特征提取模型和标注分类模型均完成训练,结束缺陷分类标注。
13.优选的,特征提取模型包括下采样处理单元、上采样处理单元和标准化处理单元,下采样单元包括多级依次串联的卷积块,下采样处理单元对第一批缺陷样本图像进行连续下采样处理,并输出多个具有不同语义的特征至上采样处理单元;上采样处理单元包括多级依次串联的融合卷积块,上采样处理单元对多个具有不同语义的的特征进行连续上采样,并横向连接来自下采样处理单元输出的多个具有不同语义的特征,进行融合后形成多个融合特征,多个融合特征又分别经过3x3卷积操作后,形成多个特征图,多个特征图横向输出至标准化处理单元;标准化处理单元对多个特征图进行归一和激活处理,防止特征提取模型过拟合,并对多个特征图进行非线性变换,最后输出第一批缺陷样本图像的多个特征向量。
14.优选的,下采样处理单元包括依次串联的第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块,第一卷积块提取第一批缺陷样本图像的图像特征形成第一语义特征,并输出第一语义特征至第二卷积块;第二卷积块对输入的第一语义特征进行下采样形成第二语义特征,并输出第二语义特征至第三卷积块,同时通过下采样处理单元的第一输出端输出第二语义特征至上采样处理单元的第一输入端;第三卷积块对第二卷积块提取的第二语义特征进行下采样形成第三语义特征,并输出第三语义特征至第四卷积块,同时通过下采样处理单元的第二输出端输出第三语义特征至上采样处理单元的第二输入端;第四卷积块对第三卷积块提取的第三语义特征进行下采样形成第四语义特征,并输出第四语义特征至第五卷积块,同时通过下采样处理单元的第三输出端输出第四语义特征至上采样处理单元的第三输入端;第五卷积块对第四卷积块提取的第四语义特征进行下采样形成第五语义特征,并输出第五语义特征,同时通过下采样处理单元的第四输出端输出第五语义特征至上采样处理单元的第四输入端。优选的,上采样处理单元包括依次串联的第四融合卷积块、第三融合卷积块、第二融合卷积块和第一融合卷积块,第四融合卷积块的输入端连接上采样处理单元的第四输入端,来自下采样处理单元的第五语义特征通过第四融合卷积块的输出端输出第四融合特征至第三融合卷积块,同时通过上采样处理单元的第四输出端横向输出第四融合特征至标准化处理单元的第四输入端;第三融合卷积块对第四融合特征进行上采样,并融合上采样处理单元的第三输入端输入的第四语义特征,形成第三融合特征,并输出第三融合特征至第二融合卷积块,同时通过上采样处理单元的第三输出端横向输出第三融合特征至标准化处理单元的第三输入端;第二融合卷积块对第三融合特征进行上采样,并融合上采样处理单元的第二输入端输入的第三语义特征,形成第二融合特征,并输出第二融合特征至第一融合卷积块,同时通过上采样处理单元的第二输出端横向输出第二融合特征至标准化处理单元的第二输入端;第一融合卷积块对第二融合特征进行上采样,并融合上采样处理单元的第一输入端输入的第二语义特征,形成第一融合特征,并通过上采样处理单元的第一输出端横向输出第一融合特征至标准化处理单元的第一输入端。
15.上采样处理单元的第一输出端输出的第一融合特征、第二输出端输出的第二融合特征、第三输出端输出的第三融合特征和第四输出端输出的第四融合特征分别经过3x3卷积操作后,形成四个不同的特征图,分别对应输入至标准化处理单元的第一输入端、第二输入端、第三输入端和第四输入端。
16.优选的,标准化处理单元分别对其四个输入端输入的四个特征图进行归一和激活处理,并通过标准化处理单元的第一输出端、第二输出端、第三输出端和第四输出端分别输出4个1x100的特征向量。
17.优选的,特征提取模型训练时利用focal loss的类平衡损失函数,focal loss的类平衡损失函数定义如下:
18.其中,z为所有样本类别的预测,z=[z1,z2,...,zc]
t
,c为类别总数n为样本体积,ny表示在真实类y中的样本数量,γ为可调节因子,pi表示为特征提取模型的预测类别的概率。
[0019]
优选的,标注分类模型基于鲁棒最小二乘支持向量数据描述对缺陷已标注数据集的每类数据都拟合一个超球面,拟合的超球面只与该类缺陷已标注数据集有关,与其它类缺陷已标注数据集无关。
[0020]
优选的,鲁棒最小二乘支持向量数据描述采用的损失函数是光滑指数最小二乘损失函数。
[0021]
优选的,记训练缺陷已标注数据集为t={(x1,y1),(x2,y2),...,(xm,ym)},其中为训练样本,yi∈{1,...,k}为缺陷样本的类别标签,i∈{1,...,m};标注分类模型为训练缺陷已标注数据集中的每一类数据,建立一个包围该类所有或接近所有训练缺陷已标注数据集的最小超球面,k个超球面通过解决k个二次规划问题来解决。
[0022]
进一步地,光滑指数最小二乘损失函数通用表达式为:l
σ
(ξ)=σ2(1-exp(-ξ2/σ2)),其中,ξ表示误差,σ为损失函数参数。
[0023]
基于以上的技术方案,本发明针对工业制品表面缺陷检测的数据标注方法,使用缺陷已标注数据集对特征提取模型和标注分类模型进行训练,利用训练好的特征提取模型提取缺陷未标注数据集的特征向量,将上述特征向量输入到训练好的标注分类模型,挑选出需要人工标注的样本图像,交给人工标注;将人工标注的样本图像扩充到已标注数据集,并从缺陷未标注数据集中去除;判断上述特征提取模型和标注分类模型是否达到要求,达到要求则结束缺陷分类标注,否则重复上述训练。本发明采用focal loss的类平衡损失函数来训练特征提取模型,能更好的提取不均衡数据集的特征;且本发明基于光滑指数最小二乘损失函数提出了一种标注分类模型,可有效解决工业制品表面缺陷数据集有异常点的问题;并通过主动学习的方式,解决了缺陷数据集已标注缺陷样本少的问题,充分利用少量已标注样本和未标注样本的信息,实现了对工业制品表面缺陷的精确标注。该方法不仅降低标注成本,还提高标注效率和标注质量。
附图说明
[0024]
图1是根据本发明用于工业制品表面缺陷检测的数据标注方法的结构示意图;
[0025]
图2是根据本发明一实施例中特征提取模型的结构示意图;
[0026]
图3是根据本发明一实施例中样本点与超球面的第一种位置关系示意图;
[0027]
图4是根据本发明一实施例中样本点与超球面的第二种位置关系示意图;
[0028]
图5是根据本发明一实施例中样本点与超球面的第三种位置关系示意图;
[0029]
图6为实验中的有缺陷图像和利用本发明实施例中特征提取模型提取的所有特征图;
[0030]
图7为实验中的无缺陷图像和利用本发明实施例中特征提取模型提取的所有特征图。
具体实施方式
[0031]
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
[0032]
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0033]
图1为根据本发明用于工业制品表面缺陷检测的数据标注方法的示意图,包括步骤:
[0034]
si:第一步,获取用于对工业制品表面缺陷进行标注的缺陷已标注数据集,缺陷已标注数据集包括已标注缺陷的第一批缺陷样本图像;
[0035]
s2:第二步,使用缺陷已标注数据集对特征提取模型进行训练,提取第一批缺陷样本图像的特征向量;
[0036]
s3:第三步,将第一批缺陷样本图像的特征向量,作为训练数据输入到标注分类模型,并对其进行训练;
[0037]
s4:第四步,对缺陷未标注数据集中未标注缺陷的第一批未标注样本图像,利用训练好的特征提取模型和标注分类模型进行分类,得到未标注缺陷的第二批未标注样本图像;
[0038]
s5:第五步,若缺陷未标注数据集中的第二批未标注样本图像的数量,与第一批未标注样本图像的数量的比值,大于预设的阈值门限,则对第二批未标注样本图像进行人工标注,得到第二批缺陷样本图像;
[0039]
s6:第六步,承接第五步,将所第二批缺陷样本图像和第一批缺陷样本图像合并,作为下一轮送代运算所需的缺陷已标注数据集;将缺陷未标注数据集中去除第二批缺陷样本图像,作为下一轮迭代运算所需的缺陷未标注数据集;然后返回第一步,对特征提取模型和标注分类模型进行选代训练;
[0040]
s7:第七步,承接第四步,若缺陷未标注数据集中的第二批未标注样本图像的数量,与第一批未标注样本图像的数量的比值,小于或等于预设的阈值门限,则表明特征提取模型和标注分类模型均完成训练,结束缺陷分类标注。
[0041]
进一步的,结合图2,在第二步中,特征提取模型的一个实施例是一个对图像进行处理的深度学习神经网络,包括下采样处理单元11、上采样处理单元12和标准化处理单元13,下采样处理单元11包括多级依次串联的卷积块,下采样处理单元11对第一批缺陷样本
图像进行连续下采样处理,并输出多个具有不同语义的特征至上采样处理单元12;上采样处理单元12包括多级依次串联的融合卷积块,上采样处理单元12对多个具有不同语义的特征进行连续上采样,并横向连接来自下采样处理单元11输出的多个具有不同语义的特征,进行融合后形成多个融合特征,多个融合特征又分别经过3x3卷积操作后,形成多个特征图,多个特征图横向输出至标准化处理单元13;标准化处理单元13对多个特征图进行归一和rule激活处理,防止特征提取模型过拟合,并对多个特征图进行非线性变换,最后输出第一批缺陷样本图像的多个特征向量。
[0042]
进一步的,结合图2,下采样处理单元11包括依次串联的第一卷积块c1、第二卷积块c2、第三卷积块c3、第四卷积块c4和第五卷积块c5,第一卷积块c1提取第一批缺陷样本图像的图像特征形成第一语义特征,并输出第一语义特征至第二卷积块c2;第二卷积块c2对输入的第一语义特征进行下采样形成第二语义特征,并输出第二语义特征至第三卷积块c3,同时通过下采样处理单元11的第一输出端输出第二语义特征至上采样处理单元12的第一输入端;第三卷积块c3对第二卷积块c2提取的第二语义特征进行下采样形成第三语义特征,并输出第三语义特征至第四卷积块c4,同时通过下采样处理单元11的第二输出端输出第三语义特征至上采样处理单元12的第二输入端;第四卷积块c4对第三卷积块c3提取的第三语义特征进行下采样形成第四语义特征,并输出第四语义特征至第五卷积块c5,同时通过下采样处理单元11的第三输出端输出第四语义特征至上采样处理单元12的第三输入端;第五卷积块c5对第四卷积块c4提取的第四语义特征进行下采样形成第五语义特征,并输出第五语义特征,同时通过下采样处理单元11的第四输出端输出第五语义特征至上采样处理单元12的第四输入端。
[0043]
优选的,下采样处理单元11的输出端输出的多个具有不同语义的特征还分别经过1x1卷积操作后,分别输入至上采样处理单元12的第一输入端、第二输入端、第三输入端和第四输入端。
[0044]
进一步的,上采样处理单元12包括依次串联的第四融合卷积块m4、第三融合卷积块m3、第二融合卷积块m2和第一融合卷积块m1,第四融合卷积块m4的输入端连接上采样处理单元12的第四输入端,来自下采样处理单元11的第五语义特征通过第四融合卷积块m4的输出端输出第四融合特征至第三融合卷积块m3,同时通过上采样处理单元12的第四输出端横向输出第四融合特征至标准化处理单元13的第四输入端;第三融合卷积块m3对第四融合特征进行上采样,并融合上采样处理单元12的第三输入端输入的第四语义特征,形成第三融合特征,并输出第三融合特征至第二融合卷积块m2,同时通过上采样处理单元12的第三输出端横向输出第三融合特征至标准化处理单元13的第三输入端;第二融合卷积块m2对第三融合特征进行上采样,并融合上采样处理单元12第二输入端输入的第三语义特征,形成第二融合特征,并输出第二融合特征至第一融合卷积块m1,同时通过上采样处理单元12的第二输出端横向输出第二融合特征至标准化处理单元13的第二输入端;第一融合卷积块m1对第二融合特征进行上采样,并融合上采样处理单元12的第一输入端输入的第二语义特征,形成第一融合特征,并通过上采样处理单元12的第一输出端横向输出第一融合特征至标准化处理单元13的第一输入端。
[0045]
进一步的,结合图2,上采样处理单元12的第一输出端输出的第一融合特征、第二输出端输出的第二融合特征、第三输出端输出的第三融合特征和第四输出端输出的第四融
合特征分别经过3x3卷积操作后,形成四个不同的特征图,即p1、p2、p3和p4,分别对应输入至标准化处理单元13的第一输入端、第二输入端、第三输入端和第四输入端。
[0046]
进一步的,标准化处理单元13分别对标准化处理单元13的第一输入端、第二输入端、第三输入端和第四输入端输入的四个特征图(p1、p2、p3和p4)进行归一和rule激活处理,并通过标准化处理单元13的第一输出端、第二输出端、第三输出端和第四输出端分别输出4个1x100的特征向量。
[0047]
进一步的,特征提取模型训练时利用focal loss的类平衡损失函数。
[0048]
进一步的,focal loss的类平衡损失函数定义如下:其中,z为所有样本类别的预测,z=[z1,z2,...,zc]
t
,c为类别数,n为样本体积,ny表示在真实类y中的样本数量,γ为可调节因子,pi表示为特征提取模型的预测类别的概率,
[0049]
进一步的,结合图1,在第三步s3中,标注分类模型基于鲁棒最小二乘支持向量数据描述对缺陷已标注数据集的每类数据都拟合一个超球面,拟合的超球面只与该类缺陷已标注数据集有关,与其它类缺陷已标注数据集无关。
[0050]
进一步的,鲁棒最小二乘支持向量数据描述采用的损失函数是光滑指数最小二乘损失函数。
[0051]
进一步的,记训练缺陷已标注数据集为t={(x1,y1),(x2,y2),...,(xm,ym)},其中为训练样本,yi∈{1,...,k}为缺陷样本的类别标签,i∈{1,...,m}。标注分类模型为训练缺陷已标注数据集中的每一类数据,建立一个包围该类所有或接近所有训练缺陷已标注数据集的最小超球面,k个超球面可以通过解决下面k个二次规划问题来解决,标注分类模型如下:
[0052]
其中,ξi表示已标注数据集中的选定一类数据的误差,cj为惩罚因子,j∈(1,...,k),φ(xi)是将xi投影到高维特征空间的映射,aj为每个超球面的球心,rj为每个超球面的半径,mj为每类缺陷数据的个数,表示标签为j的样本组成的矩阵,l
σ
(ξi)表示光滑指数最小二乘损失函数,通用表达式为:l
σ
(ξ)=σ2(1-exp(-ξ2/σ2)),其中,ξ表示误差,σ为损失函数参数。
[0053]
优选的,l
σ
(ξ)为非凸损失函数,因此,标注分类模型为非凸优化问题,将非凸损失函数l
σ
(ξ)分解为两个凸函数的差的形式,即l
σ
(ξ)=l
sq
(ξ)-l1(ξ),其中,l
sq
(ξ)=ξ2,l1(ξ)=ξ
2-σ2(1-exp(-ξ2/σ2)),将上述标注分类模型表示为两个凸函数的差的形式,标注分类模型可表示为如下形式:
[0054][0055]
st.||φ(xi)-aj||2=r
j2
+ξi,i=1,2,3,...,mj[0056]
其中,可通过迭代求解以下凸二次规划问题直至收敛来获得其最优解:
[0057][0058]
其中,由此可得:
[0059]
其中,ξ
i(t)
=|||φ(xi)-a
j(t)
||
2-r
j2(t)
,,k(xi,xj)=φ(xi)
t
φ(xj)为核函数;由此,标注分类模型可重写为:
[0060][0061]
st.||φ(xi)-aj||2=r
j2
+ξi,i=1,2,3,...,mj,
[0062]
构造的拉格朗日函数为:
[0063][0064]
对上述构造的拉格朗日函数关于所含变量求导,并置变量的偏导数为零,可得到:
[0065][0066][0067]
其中,α为拉格朗日乘数,α
ji
为缺陷类别j中的第i个样本的拉格朗日乘数,上述公式代入到拉格朗日函数中可得:
[0068][0069]
求解模型可得到线性方程组:
[0070][0071]
其中,是维度为mj×
mj的单位矩阵,由此可得:
[0072]
[0073][0074]
其中,is={xi||α
ji
|≤t},t为阈值,s是is中元素的个数,
[0075]kss
=[k(x1,x1),k(x2,x2),...,k(xs,xs)]
t
,
[0076]
由上述公式求解得到的超球面的半径rj、超球面的球心aj,可得到k个超球面记为sj=(rj,aj),j∈(1,...,k)。
[0077]
进一步的,结合图3、图4和图5,对于每个类别所求的超球面,理想的情况下为各个超球面相互独立(如图3和图5所示),但是实际上超球面可能会出现重叠的情况,对于未知标签的样本点x,样本点与超球面存在三种关系,第一种是如图3所示,样本点x位于某一个超球面中;第二种是如图4所示,样本点x位于多个超球面的重叠部分;第三种是如图5所示,样本点x位于所有的超球面外。
[0078]
对于第一种情况,样本点x位于哪个超球面中,样本点x就属于哪一类;对于第二种情况,采用半径归一化的方法来解决类别重叠的问题。该方法通过将样本距离各超球面中心的距离值除以各个超球面的半径,来实现相对距离的归一化。其判别函数如下:其中,d(x,sj),j∈(1,....,l)为样本点x到各超球面中心的距离,l为包含该样本点的超球面;对于第三种情况,样本点x为离群点,对于这种离群点,标注分类模型将其标注为未知类别,交由人工标注。
[0079]
具体的,对于上述分类的第三种情况,即样本点x为离群点,对于这种离群点,将其标注为未知类别。即当样本点x位于所有的超球面外时,该样本点不属于任何一个超球面,说明在构建每类数据集的超球面时,该样本点都位于超球面的边界外,属于离群点,无法给其一个确定的类别,因此,对于这种样本点,将其作为需要进行人工标注的样本点,把这种样本点通过界面显示出来,然后通过人工标注真值的方式给该样本点标注。
[0080]
具体的,结合图1,在第六步s6中,将人工标注的样本图像扩充到缺陷已标注数据集,并对特征提取模型和标注分类模型进行迭代训练,解决工业制品表面已标注缺陷数据集样本少的问题。
[0081]
进一步的,为了验证本发明的标注能力,在kolektorsdd金属表面缺陷数据集(该kolektorsdd金属表面缺陷数据集来自卢布尔雅那大学视觉感知系统实验室和kolektor公司)中,随机选取四分之二的样本点作为缺陷已标注的训练数据集,用于训练特征提取模型和标注分类模型,再选取四分之一的样本点作为缺陷未标注数据集,最后的四分之一作为测试数据集;在缺陷已标注数据集中随机选取5%的样本点,并改变其标签来模拟异常点。
[0082]
对比实验:通过对比只采用缺陷已标注数据集的监督算法的实验结果和采用本发明方法的实验结果来验证标注分类模型的有效性。
[0083]
对于kolektorsdd金属表面缺陷数据集上的实验,采用f1和准确率来评估标注分类模型的分类性能,其中,类模型的分类性能,其中,进一步说明,
tp为真正例,即正确的将正样本数据标记为正样本;tn为真反例,即正确的将负样本数据标记为负样本;fn为假反例,即错误的将正样本数据标记为负样本;fp为假正例,即错误的将负样本数据标记为正样本。
[0084]
进一步的,只采用缺陷已标注数据集的监督算法的实验过程:将缺陷已标注的训练数据集作为特征提取模型的输入来训练特征提取模型,然后将特征提取模型提取出来的图像特征作为标注分类模型的输入来训练标注分类模型;将测试数据集输入到训练好的特征提取模型得到输入图像的特征,再把提取到的图像特征作为标注分类模型的输入,得到只采用已标注数据集的监督算法的实验结果。
[0085]
基于本发明的标注过程如图1所示,图6和图7为利用特征提取模型所得到的p1、p2、p3和p4的所有特征图,图6为有缺陷图像a1和有缺陷图像通过特征提取模型所得到的所有特征图p11、p21、p31和p41。图7为无缺陷的图像a2和无缺陷图像通过特征提取模型所得到的所有特征图p12、p22、p32和p42。从图6和图7中可以看出,对于有缺陷a1和无缺陷的图像a2,特征提取模型能提取到缺陷图像的有缺陷部分的特征图和无缺陷的图像的特征图,由此可见本发明提出的特征提取模型能更好的提取不均衡数据集的特征。
[0086]
表1本发明与现有技术方法的实验效果对比
[0087][0088]
表1为两种不同方法的实验结果,通过实验结果可以看出,利用本发明将人工标注的缺陷未标注数据集扩充缺陷已标注数据集后,特征提取模型和标注分类模型的准确率(0.9800)和f1(0.9886)比扩充数据之前的准确率和f1(分别是0.9300和0.9595)有了明显的提升,由此证明了该模型能充分应用缺陷未标注数据集上的信息,具有较好的标注性能,实现了对工业制品表面缺陷的精确标注。
[0089]
综上所述,本发明针对工业制品表面缺陷检测的数据标注方法,利用缺陷已标注数据集对特征提取模型和标注分类模型进行训练,利用训练好的特征提取模型提取缺陷未标注数据集的特征向量,将上述特征向量输入到训练好的标注分类模型,挑选出需要人工标注的样本图像,交给人工标注;将人工标注的样本图像扩充到缺陷已标注数据集,并从缺陷未标注数据集中去除;判断上述特征提取模型和标注分类模型是否达到要求,达到要求则结束缺陷分类标注,否则重复上述训练。本发明采用focal loss的类平衡损失函数来训练特征提取模型,能更好的提取不均衡数据集的特征;且本发明基于光滑指数最小二乘损失函数提出了一种标注分类模型,可有效解决工业制品表面缺陷数据集有异常点的问题;并通过主动学习的方式,解决了缺陷数据集已标注缺陷样本少的问题,充分利用少量已标注样本和未标注样本的信息,实现了对工业制品表面缺陷的精确标注。该方法不仅降低标注成本,还提高标注效率和标注质量。
[0090]
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种用于工业制品表面缺陷检测的数据标注方法,其特征在于,包括步骤:第一步,获取用于对工业制品表面缺陷进行标注的缺陷已标注数据集,所述缺陷已标注数据集包括已标注缺陷的第一批缺陷样本图像;第二步,使用所述缺陷已标注数据集对特征提取模型进行训练,提取所述第一批缺陷样本图像的特征向量;第三步,将所述第一批缺陷样本图像的特征向量,作为训练数据输入到标注分类模型,并对其进行训练;第四步,对缺陷未标注数据集中未标注缺陷的第一批未标注样本图像,利用训练好的所述特征提取模型和所述标注分类模型进行分类,得到未标注缺陷的第二批未标注样本图像;第五步,若所述缺陷未标注数据集中的第二批未标注样本图像的数量,与所述第一批未标注样本图像的数量的比值,大于预设的阈值门限,则对第二批未标注样本图像进行人工标注,得到第二批缺陷样本图像;第六步,承接第五步,将所述第二批缺陷样本图像和所述第一批缺陷样本图像合并,作为下一轮送代运算所需的缺陷已标注数据集;将所述缺陷未标注数据集中去除所述第二批缺陷样本图像,作为下一轮迭代运算所需的缺陷未标注数据集;然后返回第一步,对所述特征提取模型和所述标注分类模型进行选代训练;第七步,承接第四步,若所述缺陷未标注数据集中的第二批未标注样本图像的数量,与所述第一批未标注样本图像的数量的比值,小于或等于预设的阈值门限,则表明所述特征提取模型和所述标注分类模型均完成训练,结束缺陷分类标注。2.根据权利要求1所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述特征提取模型包括下采样处理单元、上采样处理单元和标准化处理单元,所述下采样单元包括多级依次串联的卷积块,所述下采样处理单元对所述第一批缺陷样本图像进行连续下采样处理,并输出多个具有不同语义的特征至上采样处理单元;所述上采样处理单元包括多级依次串联的融合卷积块,所述上采样处理单元对多个具有不同语义的特征进行连续上采样,并横向连接来自下采样处理单元输出的多个具有不同语义的特征,进行融合后形成多个融合特征,所述多个融合特征又分别经过3x3卷积操作后,形成多个特征图,所述多个特征图横向输出至标准化处理单元;所述标准化处理单元对所述多个特征图进行归一和激活处理,防止所述特征提取模型过拟合,并对所述多个特征图进行非线性变换,最后输出所述第一批缺陷样本图像的多个特征向量。3.根据权利要求2所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述下采样处理单元包括依次串联的第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块,所述第一卷积块提取第一批缺陷样本图像的图像特征形成第一语义特征,并输出第一语义特征至第二卷积块;第二卷积块对输入的第一语义特征进行下采样形成第二语义特征,并输出第二语义特征至第三卷积块,同时通过下采样处理单元的第一输出端输出第二语义特征至上采样处理单元的第一输入端;第三卷积块对第二卷积块提取的第二语义特征进行下采样形成第三语义特征,并输出第三语义特征至第四卷积块,同时通过下采样处理单元的第二输出端输出第三语义特征至上采样处理单元的第二输入端;第四卷积块对
第三卷积块提取的第三语义特征进行下采样形成第四语义特征,并输出第四语义特征至第五卷积块,同时通过下采样处理单元的第三输出端输出第四语义特征至上采样处理单元的第三输入端;第五卷积块对第四卷积块提取的第四语义特征进行下采样形成第五语义特征,并输出第五语义特征,同时通过下采样处理单元的第四输出端输出第五语义特征至上采样处理单元的第四输入端。4.根据权利要求3所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述上采样处理单元包括依次串接的第四融合卷积块、第三融合卷积块、第二融合卷积块和第一融合卷积块,第四融合卷积块的输入端连接所述上采样处理单元的第四输入端,来自下采样处理单元的第五语义特征通过第四融合卷积块的输出端输出第四融合特征至第三融合卷积块,同时通过上采样处理单元的第四输出端横向输出第四融合特征至标准化处理单元的第四输入端;第三融合卷积块对第四融合特征进行上采样,并融合上采样处理单元的第三输入端输入的第四语义特征,形成第三融合特征,并输出第三融合特征至第二融合卷积块,同时通过上采样处理单元的第三输出端横向输出第三融合特征至标准化处理单元的第三输入端;第二融合卷积块对第三融合特征进行上采样,并融合上采样处理单元的第二输入端输入的第三语义特征,形成第二融合特征,并输出第二融合特征至第一融合卷积块,同时通过上采样处理单元的第二输出端横向输出第二融合特征至标准化处理单元的第二输入端;第一融合卷积块对第二融合特征进行上采样,并融合上采样处理单元的第一输入端输入的第二语义特征,形成第一融合特征,并通过上采样处理单元的第一输出端横向输出第一融合特征至标准化处理单元的第一输入端;所述上采样处理单元输出的四个融合特征分别经过3x3卷积操作后,形成四个不同的特征图,分别对应输入至所述标准化处理单元的第一输入端、第二输入端、第三输入端和第四输入端。5.根据权利要求4所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述标准化处理单元分别对其四个输入端输入的特征图进行归一和激活处理,并通过标准化处理单元的第一输出端、第二输出端、第三输出端和第四输出端分别输出4个1x100的特征向量。6.根据权利要求5所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述特征提取模型训练时利用focal loss的类平衡损失函数,所述focal loss的类平衡损失函数定义如下:其中,z为所有类别的预测,z=[z1,z2,...,z
c
]
t
,c为类别数,n为样本体积,n
y
表示在真实类y中的样本数量,γ为可调节因子,p
i
表示为特征提取模型的预测类别的概率。7.根据权利要求1所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述标注分类模型基于鲁棒最小二乘支持向量数据描述对缺陷已标注数据集的每类数据都拟合一个超球面,拟合的超球面只与该类缺陷已标注数据集有关,与其它类缺陷已标注数
据集无关。8.根据权利要求7所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述鲁棒最小二乘支持向量数据描述采用的损失函数是光滑指数最小二乘损失函数。9.根据权利要求8所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,记所述缺陷已标注数据集为t={(x1,y1),(x2,y2),...,(x
m
,y
m
)},其中为第一批缺陷样本图像,y
i
∈{1,...,k}为缺陷样本的类别标签,i∈{1,...,m};所述标注分类模型为训练缺陷已标注数据集中的每一类数据,建立一个包围该类所有或接近所有训练缺陷已标注数据集的最小超球面,k个超球面通过解决k个二次规划问题来解决。10.根据权利要求9所述的用于工业制品表面缺陷检测的数据标注方法,其特征在于,所述光滑指数最小二乘损失函数通用表达式为:l
σ
(ξ)=σ2(1-exp(-ξ2/σ2)),其中,ξ表示误差,σ为损失函数参数。
技术总结
本发明公开了一种用于工业制品表面缺陷检测的数据标注方法,包括步骤:使用缺陷已标注数据集对特征提取模型和标注分类模型进行训练,利用训练好的特征提取模型提取缺陷未标注数据集的特征向量,将上述特征向量输入到训练好的标注分类模型,挑选出需要人工标注的样本图像,交给人工标注;将人工标注的样本图像扩充到已标注数据集,并从缺陷未标注数据集中去除;判断上述特征提取模型和标注分类模型是否达到要求,达到要求则结束缺陷分类标注,否则重复上述训练。该方法不仅降低标注成本,还提高标注效率和标注质量。提高标注效率和标注质量。提高标注效率和标注质量。
技术研发人员:陈丽 靳启帆 徐明亮 姜晓恒 酒明远 李书攀 卢洋
受保护的技术使用者:郑州大学
技术研发日:2023.07.11
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/