一种自动标注方法、装置、电子设备及介质与流程

未命名 08-29 阅读:90 评论:0


1.本技术涉及深度学习技术领域,具体而言,涉及一种自动标注方法、装置、电子设备及介质。


背景技术:

2.随着人工智能的兴起,深度学习在图像处理、语音处理等各个方面大放异彩,在很多领域中应用广泛。图像处理、语音处理等处理过程中,非常重要的一个思想为分类,即识别出图像、语音、足迹等的类别,深度学习的分类方法是基于有监督学习的方法,模型训练需要大量标注数据,再用大量标注好的数据去训练模型,然而数据标注往往需要耗费巨大的人力物力和时间,从而很大程度的影响了项目开发的成本。


技术实现要素:

3.有鉴于此,本技术的目的在于提供一种自动标注方法、装置、电子设备及介质,能够在实现模型训练的同时让模型自动标注样本数据,解决在在特定场景下模型训练过程中样本数据不充足的问题。
4.本技术实施例提供的一种自动标注方法,所述方法包括:
5.通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;
6.通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;
7.标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;
8.基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;
9.若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;
10.若符合,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集。
11.在一些实施例中,所述的自动标注方法中,加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度,包括:
12.将每一样本数据的数据特征输入至加装在目标分类模型主干网络后的标注判断
模块的置信度计算函数;
13.所述标注判断模块的置信度计算函数分别将每一样本的数据特征变换为0和1之间的置信度。
14.在一些实施例中,所述的自动标注方法中,在所述标注判断模块二次处理至少部分样本数据的数据特征之前,所述方法还包括:
15.从全部样本数据中筛选出置信度符合预设负样本条件的负样本数据,并获取负样本数据的数据特征;
16.相应的,标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果,包括:
17.标注判断模块二次处理所述负样本数据的数据特征,得到每一负样本数据的第二分类结果。
18.在一些实施例中,所述的自动标注方法中,所述基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件,包括:
19.判断每一负样本数据的第二类别标签和该负样本数据已有的类别标签是否一致,得到每一负样本数据的判断结果;其中,第一轮分类标注时所述负样本数据已有的类别标签为本轮的第一目标类别标签;其他轮分类标注时所述负样本数据已有的类别标签为上一轮的第一目标类别标签;
20.若每一负样本数据的判断结果均为一致,则目标分类模型的分类结果符合预设停止训练条件;
21.若存在至少一个负样本数据的判断结果为不一致,则目标分类模型的分类结果不符合预设停止训练条件。
22.在一些实施例中,所述的自动标注方法中,当存在至少一个负样本数据的判断结果为不一致时,所述方法还包括:
23.将该负样本数据已有的类别标签的第一分类概率、对应所述第二目标类别标签的第二分类概率进行对比;
24.若第一分类概率小于第二分类概率,且第一分类概率和第二分类概率之间的差值超过预设阈值,则将第二分类结果作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注;
25.反之,则将该负样本数据已有的类别标签、第一分类概率作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注。
26.在一些实施例中,所述的自动标注方法中,所述基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,包括:
27.基于输入目标分类模型的每一样本数据的第一目标类别标签的置信度和预设正负样本筛选条件,筛选出所述样本数据集中的正样本数据和负样本数据;
28.基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型。
29.在一些实施例中,所述的自动标注方法中,基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型,包括:
30.计算正样本数据的置信度均值、负样本数据的置信度均值;
31.基于正样本数据的置信度均值、负样本数据的置信度均值、预设负样本抑制常数
和预设损失函数计算规则,确定损失函数计算结果;
32.基于所述损失函数计算结果更新目标分类模型。
33.在一些实施例中,还提供一种自动标注装置,所述装置包括:
34.提取模块,用于通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;
35.处理模块,用于通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;
36.二次处理模块,用于通过标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;
37.判断模块,用于基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;
38.更新模块,用于当目标分类模型不符合停止训练条件,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;当目标分类模型符合停止训练条件时,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集。
39.在一些实施例中,还提供一种电子设备,所述电子设备包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行所述的自动标注方法的步骤。
40.在一些实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的自动标注方法的步骤。
41.本技术实施例提供一种自动标注方法、装置、电子设备及介质,所述自动标注方法能够通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;若符合,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集;本方法适用于所有cnn分类模型,不受原本的cnn分类模型限制,可以在原先的cnn分类
模型的基础上,实现cnn分类模型的再训练,同时让cnn分类模型输出对海量数据自动标注的结果;这样,只需要少量人工标注的数据就可以实现对海量分类数据集的自动标注,还能够同时实现对cnn分类模型的训练,解决了在特定场景下进行cnn分类模型训练时数据不充足的问题。
附图说明
42.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
43.图1示出了本技术实施例所述自动标注方法的方法流程图;
44.图2示出了本技术实施例所述得到目标分类模型预测该样本数据为第一目标类别标签的置信度的方法流程图;
45.图3示出了本技术实施例所述基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件的方法流程图;
46.图4示出了本技术实施例所述基于每一样本数据的第一目标类别标签的置信度更新目标分类模型的方法流程图;
47.图5示出了本技术实施例所述自动标注装置的结构示意图;
48.图6示出了本技术实施例所述电子设备的结构示意图。
具体实施方式
49.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解,本技术中附图仅起到说明和描述的目的,并不用于限定本技术的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本技术中使用的流程图示出了根据本技术的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
50.另外,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.需要说明的是,本技术实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
52.随着人工智能的兴起,深度学习在图像处理、语音处理等各个方面大放异彩,在很多领域中应用广泛。图像处理、语音处理等处理过程中,非常重要的一个思想为分类,即识别出图像、语音、足迹等的类别,深度学习的分类方法是基于有监督学习的方法,模型训练需要大量标注数据,再用大量标注好的数据去训练模型,然而数据标注往往需要耗费巨大
的人力物力和时间,从而很大程度的影响了项目开发的成本。
53.并且依靠人工标注会出现标注错误的情况,在训练初期导致模型不收敛,影响模型训练的精度。
54.基于此,本技术实施例中,提供一种自动标注方法、装置、电子设备及介质,所述自动标注方法能够通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;若符合,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集;本方法适用于所有cnn分类模型,不受原本的cnn分类模型限制,可以在原先的cnn分类模型的基础上,实现cnn分类模型的再训练,同时让cnn分类模型输出对海量数据自动标注的结果;这样,只需要少量人工标注的数据就可以实现对海量分类数据集的自动标注,还能够同时实现对cnn分类模型的训练,解决了在特定场景下进行cnn分类模型训练时数据不充足的问题。
55.请参照图1,图1示出了本技术实施例所述自动标注方法的方法流程图;具体的,所述方法包括以下步骤s101-s106:
56.s101、通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;
57.s102、通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;
58.s103、标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;
59.s104、基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;
60.s105、若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;
61.s106、若符合,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集。
62.基于以上步骤s101-s106,所述自动标注方法的核心在于加装在目标分类模型主干网络后的标注判断模块,所述标注判断模块处理目标分类模型的主干网络提取的每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;标注判断模块二次处理置信度比较低的样本数据的数据特征,得到置信度低的部分样本数据一一对应的第二分类结果;并基于置信度低的样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;若符合,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集;本方法中的标注判断模块可以加装在任意类型的cnn分类模型后,因此适用于所有cnn分类模型,不受原本的cnn分类模型限制,可以在原先的cnn分类模型的基础上,实现cnn分类模型的再训练,同时让cnn分类模型输出对海量数据自动标注的结果;这样,只需要少量人工标注的数据就可以实现对海量分类数据集的自动标注,还能够同时实现对cnn分类模型的训练,解决了在特定场景下进行cnn分类模型训练时数据不充足的问题。
63.在所述步骤s101中,通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的。
64.其中,所述目标分类模型可以是任意类型的分类模型,例如图像分类模型、语音分类模型等等,更具体的,所述图像分类模型可以基于各种应用场景下的图像实现各种具体功能的图像分类模型,例如脑影像分类模型,用于基于脑影像预测脑年龄;心电图分类模型,用于基于心电图预测心脏疾病;植物识别模型,用于基于植物图像识别植物品种;人脸识别模型,用于基于人脸图像识别人物;等等。
65.以各种各样的图像分类模型为例,人脸识别模型需要的训练集有标注好的,但是现在cnn分类模型的发展越来越快,在各种专业领域也都会用到,这些专业领域往往没有标注好的样本数据集,例如脑影像、心电图、电焊图等等。
66.基于此,需要一种自动标注方法,实现对目标应用场景下目标分类模型的样本数据集的自动标注。其中,所述样本数据集中包括大量目标应用场景的样本数据,例如图像、语音等。
67.本技术实施例中,通过目标分类模型预测每一样本数据的第一分类结果;这里,所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;所述第一数据集中有少量标注好的数据。这样,通过第一数据集对所述目标分类模型进行训练,即可得到初步训练好的目标分类模型,所述目标分类模型能够预测输入数据的类别,例如针对动物种类预测模型,能够根据动物图像预测出动物品种。但是由于所述目标分类模型是基于少量数据训练得到的,所述目标分类模型未充分学习到图像特征,因此,其预测精度往往不够。
68.所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;cnn分类模型本质是预测数据属于各个类别的概率,第一目标类别即预测概率最大的类别,对应所述第一目标类别标签的第一分类概率即最大的预测概率。示例性的,动物种类预测模型针对图像a,输出其预测结果为:猫,概率0.8;狗,概率0.6;猪,概率0.2;概率0.8
为最大的预测概率,因此,图像a的第一分类结果为:猫,概率0.8。
69.需要说明的是,样本数据集中海量的样本数据并非一次性输入至目标分类模型的,而是按照批次输入的,例如10000个样本数据,100个样本数据为一个批次,供100个批次,每个批次的样本数据均执行步骤s101-s106,直至目标分类模型符合停止训练条件,完成对,样本数据集中海量的样本数据的自动标注。
70.在所述步骤s102中,通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度。
71.请参照图2,加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度,包括以下步骤s201-s202:
72.s201、将每一样本数据的数据特征输入至加装在目标分类模型主干网络后的标注判断模块的置信度计算函数;
73.s202、所述标注判断模块的置信度计算函数分别将每一样本的数据特征变换为0和1之间的置信度。
74.具体的,所述标注判断模块的置信度计算函数为sigmoid激活函数。sigmoid激活函数可以将全体实数映射到(0,1)区间上。
75.得到每一样本数据的置信度后,在所述标注判断模块二次处理至少部分样本数据的数据特征之前,所述自动标注方法还包括:
76.从全部样本数据中筛选出置信度符合预设负样本条件的负样本数据,并获取负样本数据的数据特征。
77.所述预设负样本条件,可以预设置信度阈值、置信度排序在后的预设比例的样本数据、置信度排序在后的预设数目的样本数据等。
78.示例性的,本技术实施例中,设定本批次的样本数据数量为n。则每个批次样本数据特征为:f1,f2...fn,对应的置信度为w1,w2...wn。
79.将权重由高到低进行排序,定义排序在先的前n*c个样本数据为正样本数据(0《c《1),其余为负样本数据;其中,c为正样本比例,1-c为负样本比例。
80.相应的,标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果,包括:
81.标注判断模块二次处理所述负样本数据的数据特征,得到每一负样本数据的第二分类结果。
82.也就会说,基于置信度判断出目标预测模型预测的置信度低的负样本数据,再次判断负样本数据的分类结果。
83.这里,所述标注判断模块二次处理所述负样本数据的数据特征,得到每一负样本数据的第二分类结果,具体的,将负样本数据的数据特征送入标注判断模块的全连接层,经过softmax计算可以得到每张图像n个类别的分类概率p1,p2...pn。这里,设定最大的分类概率为p
max
,p
max
对应的类别即为第二目标类别标签。
84.也就是说,所述第二分类结果包括:第二目标类别标签、p
max

85.这里,所述softmax函数,又称归一化指数函数,目的是将多分类的结果以概率的
形式展现出来。
86.在所述步骤s103中,基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件。
87.具体的,请参照图3,本技术实施例中,所述基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件,包括以下步骤s301-s303:
88.s301、判断每一负样本数据的第二类别标签和该负样本数据已有的类别标签是否一致,得到每一负样本数据的判断结果;其中,第一轮分类标注时所述负样本数据已有的类别标签为本轮的第一目标类别标签;其他轮分类标注时所述负样本数据已有的类别标签为上一轮的第一目标类别标签;
89.s302、若每一负样本数据的判断结果均为一致,则目标分类模型的分类结果符合预设停止训练条件;
90.s303、若存在至少一个负样本数据的判断结果为不一致,则目标分类模型的分类结果不符合预设停止训练条件。
91.所述目标分类模型对样本数据集进行多轮标注,在此过程中,目标分类模型学习到的样本数据特征越来越多,模型参数也经过不断更新越来越优,因此,目标分类模型提取的样本特征越来越准确,目标分类模型基于样本特征确定的第一目标类别标签、标注判断模块基于样本特征确定的第二目标类别标签,也越来越准确。直至最新一轮标注得到的第二目标类别标签和上一轮标注得到的第一目标类别标签相同,说明模型精度已经达到要求,对样本数据的标注不再出错,目标分类模型预测的第一目标类别标签即为该样本数据的类别标签。
92.本技术实施例中,该负样本数据已有的类别标签有两种情况,第一轮分类标注时,由于没有上一轮标注的第一目标类别标签,因此,所述负样本数据已有的类别标签为本轮的第一目标类别标签,直接将本轮的第一目标类别标签和第二目标类别标签进行对比;其他轮分类标注时,所述负样本数据已有的类别标签为上一轮的第一目标类别标签;将同一样本数据不同轮次的目标类别标签进行对比,判断其是否一致。
93.本技术实施例中,当存在至少一个负样本数据的判断结果为不一致时,所述方法还包括:
94.将该负样本数据已有的类别标签的第一分类概率、对应所述第二目标类别标签的第二分类概率进行对比;
95.若第一分类概率小于第二分类概率,且第一分类概率和第二分类概率之间的差值超过预设阈值,则将第二分类结果作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注;
96.反之,则将该负样本数据已有的类别标签、第一分类概率作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注。
97.也就是说,除第一轮外,将负样本数据最新轮次和上一轮次第一分类结果进行对比,哪个轮次的分类概率更高,则说明这个轮次的预测结果更准确,将更高的分类概率、类别标签更新为本轮次的第一目标分类结果,在下一轮次中作为该样本数据已有的类别标签。
98.具体的,设定已有的类别标签的第一分类概率为p
last
,第二分类结果中第二目标
类别标签的第一分类概率为p
max
,预设阈值为δ,是一个常数
99.第一分类概率小于第二分类概率,且第一分类概率和第二分类概率之间的差值超过预设阈值,即:p
max-p
last>
w。
100.在所述步骤s105中,若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;
101.也就是说,若针对同一样本数据,两次预测的类别标签不一致,则需要修改预测的类别标签,所述目标分类模型还需要继续训练。
102.这里,请参照图4,所述基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,包括以下步骤s401-s402:
103.s401、基于输入目标分类模型的每一样本数据的第一目标类别标签的置信度和预设正负样本筛选条件,筛选出所述样本数据集中的正样本数据和负样本数据;
104.s402、基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型。
105.基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型,包括:
106.计算正样本数据的置信度均值、负样本数据的置信度均值;
107.基于正样本数据的置信度均值、负样本数据的置信度均值、预设负样本抑制常数和预设损失函数计算规则,确定损失函数计算结果;
108.基于所述损失函数计算结果更新目标分类模型。
109.基于所述每一样本数据的第一目标类别标签的置信度和预设正负样本筛选条件,筛选出所述样本数据集中的正样本数据和负样本数据,本技术实施例中,所述预设正负样本筛选条件与预设负样本条件相同,具体如下:
110.设定本批次的样本数据数量为n。则每个批次样本数据特征为:f1,f2...fn,对应的置信度为w1,w2...wn。
111.将权重由高到低进行排序,定义排序在先的前n*c个样本数据为正样本数据(0《c《1),其余为负样本数据;其中,c为正样本比例,1-c为负样本比例。
112.同样的,所述目标分类模型的模型参数更新,也是基于本批次的样本数据进行的,即基于本批次输入目标分类模型的每一样本数据进行的。
113.这样,基于正样本数据的置信度均值、负样本数据的置信度均值、预设负样本抑制常数和预设损失函数计算规则,确定损失函数计算结果,其中具体的预设损失函数计算规则如下:
114.正样本数据的置信度均值w
postive
为:
[0115][0116]
负样本数据的置信度均值w
negtive
为:
[0117][0118]
这里,所述n为本批次的样本数据数量,n*c为正样本数据数量,n*(1-c)为负样本数据数量,i为第i个样本数据,wi为置信度为w1,w2...wn中第i个样本数据的置信度。
[0119]
为了加强正样本,抑制负样本,本技术实施例引入预设负样本抑制常数。将预设损失函数计算规则设计为:
[0120]
loss=max(β-(w
postive-w
negtive
),0);
[0121]
其中,β为预设负样本抑制常数;loss为损失函数计算结果;
[0122]wpostive
为正样本数据的置信度均值,w
negtive
为预设负样本抑制常数;该损失函数保证了正样本均值比负样本均值大于β,否则损失函数计算结果的值为0,以此来抑制负样本。
[0123]
基于同一发明构思,本技术实施例中还提供了与自动标注方法对应的自动标注装置,由于本技术实施例中的装置解决问题的原理与本技术实施例上述自动标注方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0124]
请参照图5,图5示出了本技术实施例所述自动标注装置的结构示意图;具体的,所述自动标注装置包括:
[0125]
提取模块501,用于通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;
[0126]
处理模块502,用于通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;
[0127]
二次处理模块503,用于通过标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;
[0128]
判断模块504,用于基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;
[0129]
更新模块505,用于当目标分类模型不符合停止训练条件,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;当目标分类模型符合停止训练条件时,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集。
[0130]
本技术实施例所述的自动标注装置,能够通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标
类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;若符合,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集;本方法适用于所有cnn分类模型,不受原本的cnn分类模型限制,可以在原先的cnn分类模型的基础上,实现cnn分类模型的再训练,同时让cnn分类模型输出对海量数据自动标注的结果;这样,只需要少量人工标注的数据就可以实现对海量分类数据集的自动标注,还能够同时实现对cnn分类模型的训练,解决了在特定场景下进行cnn分类模型训练时数据不充足的问题。
[0131]
在一些实施例中,所述的自动标注装置中处理模块,在通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度时,具体用于:
[0132]
将每一样本数据的数据特征输入至加装在目标分类模型主干网络后的标注判断模块的置信度计算函数;
[0133]
所述标注判断模块的置信度计算函数分别将每一样本的数据特征变换为0和1之间的置信度。
[0134]
在一些实施例中,所述的自动标注装置中的二次处理模块,还用于在所述标注判断模块二次处理至少部分样本数据的数据特征之前,从全部样本数据中筛选出置信度符合预设负样本条件的负样本数据,并获取负样本数据的数据特征;
[0135]
相应的,所述二次处理模块,在通过标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果时,具体用于:
[0136]
标注判断模块二次处理所述负样本数据的数据特征,得到每一负样本数据的第二分类结果。
[0137]
在一些实施例中,所述的自动标注装置中的判断模块,在基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件时,具体用于:
[0138]
判断每一负样本数据的第二类别标签和该负样本数据已有的类别标签是否一致,得到每一负样本数据的判断结果;其中,第一轮分类标注时所述负样本数据已有的类别标签为本轮的第一目标类别标签;其他轮分类标注时所述负样本数据已有的类别标签为上一轮的第一目标类别标签;
[0139]
若每一负样本数据的判断结果均为一致,则目标分类模型的分类结果符合预设停止训练条件;
[0140]
若存在至少一个负样本数据的判断结果为不一致,则目标分类模型的分类结果不符合预设停止训练条件。
[0141]
在一些实施例中,所述的自动标注装置中的更新模块,当存在至少一个负样本数
据的判断结果为不一致时,所述更新模块还用于:
[0142]
将该负样本数据已有的类别标签的第一分类概率、对应所述第二目标类别标签的第二分类概率进行对比;
[0143]
若第一分类概率小于第二分类概率,且第一分类概率和第二分类概率之间的差值超过预设阈值,则将第二分类结果作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注;
[0144]
反之,则将该负样本数据已有的类别标签、第一分类概率作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注。
[0145]
在一些实施例中,所述的自动标注装置中的更新模块,在基于每一样本数据的第一目标类别标签的置信度更新目标分类模型时,具体用于:
[0146]
基于输入目标分类模型的每一样本数据的第一目标类别标签的置信度和预设正负样本筛选条件,筛选出所述样本数据集中的正样本数据和负样本数据;
[0147]
基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型。
[0148]
在一些实施例中,所述的自动标注装置中的更新模块,在基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型时,具体用于:
[0149]
计算正样本数据的置信度均值、负样本数据的置信度均值;
[0150]
基于正样本数据的置信度均值、负样本数据的置信度均值、预设负样本抑制常数和预设损失函数计算规则,确定损失函数计算结果;
[0151]
基于所述损失函数计算结果更新目标分类模型。
[0152]
基于同一发明构思,本技术实施例中还提供了与自动标注方法对应的电子设备,由于本技术实施例中的电子设备解决问题的原理与本技术实施例上述电子设备相似,因此电子设备的实施可以参见方法的实施,重复之处不再赘述。
[0153]
请参照图6,图6示出了本技术实施例所述电子设备的结构示意图,具体的,所述电子设备600,包括:处理器602、存储器601和总线,所述存储器601存储有所述处理器602可执行的机器可读指令,当电子设备600运行时,所述处理器602与所述存储器601之间通过总线通信,所述机器可读指令被所述处理器602执行时执行所述的自动标注方法的步骤。
[0154]
基于同一发明构思,本技术实施例中还提供了与自动标注方法对应的计算机可读存储介质,由于本技术实施例中的计算机可读存储介质解决问题的原理与本技术实施例上述计算机可读存储介质相似,因此计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
[0155]
一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的自动标注方法的步骤。
[0156]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本技术中不再赘述。在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,
可以是电性,机械或其它的形式。
[0157]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0158]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0159]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0160]
以上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种自动标注方法,其特征在于:所述方法包括:通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;若符合,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集。2.根据权利要求1所述的自动标注方法,其特征在于,加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度,包括:将每一样本数据的数据特征输入至加装在目标分类模型主干网络后的标注判断模块的置信度计算函数;所述标注判断模块的置信度计算函数分别将每一样本的数据特征变换为0和1之间的置信度。3.根据权利要求1所述的自动标注方法,其特征在于,在所述标注判断模块二次处理至少部分样本数据的数据特征之前,所述方法还包括:从全部样本数据中筛选出置信度符合预设负样本条件的负样本数据,并获取负样本数据的数据特征;相应的,标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果,包括:标注判断模块二次处理所述负样本数据的数据特征,得到每一负样本数据的第二分类结果。4.根据权利要求3所述的自动标注方法,其特征在于,所述基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件,包括:判断每一负样本数据的第二类别标签和该负样本数据已有的类别标签是否一致,得到每一负样本数据的判断结果;其中,第一轮分类标注时所述负样本数据已有的类别标签为本轮的第一目标类别标签;其他轮分类标注时所述负样本数据已有的类别标签为上一轮的第一目标类别标签;若每一负样本数据的判断结果均为一致,则目标分类模型的分类结果符合预设停止训练条件;
若存在至少一个负样本数据的判断结果为不一致,则目标分类模型的分类结果不符合预设停止训练条件。5.根据权利要求4所述的自动标注方法,其特征在于,当存在至少一个负样本数据的判断结果为不一致时,所述方法还包括:将该负样本数据已有的类别标签的第一分类概率、对应所述第二目标类别标签的第二分类概率进行对比;若第一分类概率小于第二分类概率,且第一分类概率和第二分类概率之间的差值超过预设阈值,则将第二分类结果作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注;反之,则将该负样本数据已有的类别标签、第一分类概率作为该负样本数据本轮次训练的第一分类结果,以基于更新后的第一分类结果进行下一轮分类标注。6.根据权利要求1所述的自动标注方法,其特征在于,所述基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,包括:基于输入目标分类模型的每一样本数据的第一目标类别标签的置信度和预设正负样本筛选条件,筛选出所述样本数据集中的正样本数据和负样本数据;基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型。7.根据权利要求6所述的自动标注方法,其特征在于,基于正样本数据的置信度、负样本数据的置信度,更新目标分类模型,包括:计算正样本数据的置信度均值、负样本数据的置信度均值;基于正样本数据的置信度均值、负样本数据的置信度均值、预设负样本抑制常数和预设损失函数计算规则,确定损失函数计算结果;基于所述损失函数计算结果更新目标分类模型。8.一种自动标注装置,其特征在于,所述装置包括:提取模块,用于通过目标分类模型的主干网络提取样本数据集中每一样本数据的数据特征,并通过目标分类模型处理所述数据特征得到每一样本数据的第一分类结果;其中,所述第一分类结果包括第一目标类别标签、对应所述第一目标类别标签的第一分类概率;所述目标分类模型是基于人工标注的第一数据集进行初步训练得到的;处理模块,用于通过加装在目标分类模型主干网络后的标注判断模块处理每一样本数据的数据特征,得到目标分类模型预测该样本数据为第一目标类别标签的置信度;二次处理模块,用于通过标注判断模块二次处理至少部分样本数据的数据特征,得到与所述至少部分样本数据一一对应的第二分类结果;其中,所述第二分类结果包括第二目标类别标签、对应所述第二目标类别标签的第二分类概率;判断模块,用于基于至少部分样本数据的第二分类结果判断目标分类模型是否符合停止训练条件;更新模块,用于当目标分类模型不符合停止训练条件,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,并利用更新后的目标分类模型对样本数据集重新进行下一轮分类标注,直至目标分类模型符合停止训练条件;当目标分类模型符合停止训练条件时,则停止分类标注,得到训练好的目标分类模型,同时利用目标分类模型的第一分类结果得到标注好的样本数据集。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任意一项所述的自动标注方法的步骤。10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的自动标注方法的步骤。

技术总结
本申请提供了本申请实施例提供一种自动标注方法、装置、电子设备及介质,所述自动标注方法能够通过目标分类模型预测每一样本数据的第一分类结果;通过加装在目标分类模型主干网络后的标注判断模块得到目标分类模型预测该样本数据为第一目标类别标签的置信度、至少部分样本数据的第二分类结果;基于第二分类结果判断目标分类模型是否符合停止训练条件;若不符合,基于每一样本数据的第一目标类别标签的置信度更新目标分类模型,若符合,则停止分类标注,得到训练好的目标分类模型、标注好的样本数据集;从而解决分类模型训练时数据不充足的问题。足的问题。足的问题。


技术研发人员:李少君 汪骏 董红荣
受保护的技术使用者:北斗星通智联科技(南京)有限公司
技术研发日:2023.04.20
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐