基于自训练和k近邻的肿瘤良恶性半监督分类方法及系统
未命名
09-01
阅读:95
评论:0

1.本发明属于医学图像数据领域,尤其涉及一种基于自训练和k近邻的肿瘤良恶性半监督分类方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.基于机器学习的辅助诊断技术得到越来越多的关注,计算机辅助诊断能够帮助从业人员提高诊断的准确率和客观性,缓解从业人员繁重的工作压力。医生通过各种成像技术如超声、ct、核磁等获得肿瘤信息,并根据专业知识和临床经验对肿瘤图像进行判读,确定肿瘤的良恶性。全监督分类方法利用提取的肿瘤图像特征,训练分类模型,确定肿瘤的良恶性,但是训练分类模型需要足够的标注图像,即需要医生对肿瘤图像进行良恶性标注,这样会耗费大量的人力物力。半监督分类方法利用有限的标注数据和大量的无标注数据,学习分类模型,能够获得满意的分类性能,同时缓解标注大量数据造成的压力。
4.自训练方法是广泛研究的半监督分类方法之一,其基本思路是迭代地利用有标注样本训练分类器,对无标注样本进行分类,从中选择后验概率较高的伪标注样本加入到有标注样本集中,重新训练分类器并对无标注样本进行分类,直到满足迭代停止条件。原始自训练方法主要存在两个问题:一是添加伪标注样本时未考虑样本类别,会出现添加的伪标注样本中某一类样本明显多于另一类的情况,当这些样本加入到有标注样本集重新训练分类器时,导致分类器严重偏向样本多的一类,且这样的分类偏置会不断累积;二是添加伪标注样本时只考虑样本的分类结果即后验概率,使得添加的伪标注样本质量欠佳,而考虑样本的类型分布信息能够提高添加的伪标注样本的置信度。
技术实现要素:
5.为克服上述现有技术的不足,本发明提供了一种基于自训练和k近邻的肿瘤良恶性半监督分类方法及系统。
6.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
7.本发明第一方面提供了一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,包括:
8.步骤1、获取肿瘤图像的样本集,所述样本集包括有标注样本集和无标注样本集;
9.步骤2、对当前样本集进行自训练得到当前分类器;
10.步骤3、利用当前分类器对当前无标注样本集进行分类得到伪标注样本集,利用交叉熵算法和k近邻算法筛选出满足添加条件的伪标注样本扩充当前有标注样本集,得到更新后的有标注样本集;同时将相应被添加的伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集;
11.步骤4、将更新后的有标注样本集和更新后的无标注样本集作为当前样本集;对当
前有标注样本集进行训练得到当前分类器;
12.步骤5、循环步骤3至步骤4,直到满足训练结束条件,利用最后更新的有标注样本集训练得到的分类器作为最终的分类器;
13.步骤6、将待分类的肿瘤图像数据输入至最终的分类器中,得到肿瘤良恶性分类结果。
14.本发明第二方面提供了一种基于自训练和k近邻的肿瘤良恶性半监督分类系统,包括:
15.样本集获取模块,被配置为:获取肿瘤图像的样本集,所述样本集包括有标注样本集和无标注样本集;
16.分类器获取模块,被配置为:对当前样本集进行自训练得到当前分类器;
17.样本集更新模块,被配置为:利用当前分类器对当前无标注样本集进行分类得到伪标注样本集,利用交叉熵算法和k近邻算法筛选出满足添加条件的伪标注样本扩充当前有标注样本集,得到更新后的有标注样本集;同时将相应被添加的伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集;
18.循环训练模块,被配置为:将更新后的有标注样本集和更新后的无标注样本集作为当前样本集;
19.对当前有标注样本集进行训练得到当前分类器,不断更新样本集,直到满足训练结束条件,利用最后更新的有标注样本集训练得到的分类器作为最终的分类器;
20.肿瘤分类模块,被配置为:将待分类的肿瘤图像数据输入至最终的分类器中,得到肿瘤良恶性分类结果。
21.本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法中的步骤。
22.本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法中的步骤。
23.以上一个或多个技术方案存在以下有益效果:
24.本发明在自训练过程中添加样本时,两个类别(良性和恶性)分别添加相同数量的伪标注样本,能够缓解模型偏置;选择样本时不仅考虑分类交叉熵,同时基于k近邻确定伪标注样本的类型分布,有利于提高添加的样本的质量,因此,本发明提出的基于自训练和k近邻的半监督分类方法能够提高肿瘤良恶性的识别率。
25.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
26.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
27.图1为第一个实施例的基于自训练和k近邻的肿瘤良恶性半监督分类方法流程图。
28.图2为第一个实施例的样本集迭代训练流程图。
具体实施方式
29.技术术语说明:
30.(1)类别是全监督或半监督分类中有标注样本的标签,比如良性肿瘤即该肿瘤标注的类别为良性;类型是根据样本在特征空间中的分布确定的,包括安全、边界和离群样本类型,分布于同质区域(都是良性或恶性样本)的样本称为安全样本,分布于两类样本分类界面附近的样本称为边界样本,远离同质区域的零星出现的异类样本称为离群样本,三种类型样本可以通过k近邻方法进行判断。
31.(2)本实施例中,对肿瘤图像特征进行分类是指标注肿瘤图像的良性和恶性的类别;确定伪标注样本的类型是指利用k近邻算法确定伪标注样本的安全、离群和边界的三种样本类型。
32.实施例一
33.如图1所示,本实施例公开了一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,包括:
34.步骤1、获取肿瘤图像的样本集,样本集包括有标注样本集和无标注样本集;
35.步骤2、对当前样本集进行自训练得到当前分类器;
36.步骤3、利用当前分类器对当前无标注样本集进行分类得到伪标注样本集,利用交叉熵算法和k近邻算法筛选出满足添加条件的伪标注样本扩充当前有标注样本集,得到更新后的有标注样本集;同时将相应被添加的伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集;
37.步骤4、将更新后的有标注样本集和更新后的无标注样本集作为当前样本集;对当前有标注样本集进行训练得到当前分类器;
38.步骤5、循环步骤3至步骤4,直到满足训练结束条件,利用最后更新的有标注样本集训练得到的分类器作为最终的分类器;
39.步骤6、将待分类的肿瘤图像数据输入至最终的分类器中,得到肿瘤良恶性分类结果。
40.在步骤1中:获取由提取的肿瘤图像特征构成的样本集,本实施例中肿瘤图像特征样本集,包括少量有良恶性标注的样本和大量无良恶性标注的样本,肿瘤图像特征包括从医院的数字成像仪器上得到的关于肿瘤的大小、形状、位置、钙化等信息,也可以根据现有的机器学习特征提取方法如方向梯度直方图(hog)或深度卷积神经网络等提取得到的肿瘤图像的形态学或纹理等特征。
41.在步骤2中:对当前样本集进行自训练得到当前分类器,包括:
42.自训练过程中的当前样本集为获取的肿瘤图像的初始样本集l0∪u0,利用预设的分类器对初始样本集l0∪u0进行自训练,得到当前分类器f0;预设的分类器为常用的分类器,如支持向量集、决策树等;
43.假设初始有标注样本集为l0={(x1,y1),(x2,y2),...,(x
l
,y
l
)},即有l个有标注样本,其中yi∈{0,1},0表示负类(良性)样本,1表示正类(恶性)样本;初始无标注样本集为u0={x1,x2,...,xu},有u个无标注样本;
44.利用自训练(self-training)方法对半监督数据集l0∪u0进行训练,得到初始分类器f0。
45.在步骤3中:利用当前分类器对当前无标注样本集中样本进行分类,得到伪标注样本,根据其类别标签和类别后验概率计算每个伪标注样本的交叉熵;根据每个伪标注样本在初始有标注样本中的k近邻类别信息,确定伪标注样本的类型;
46.步骤3包括:
47.步骤301:计算伪标注样本的交叉熵,具体为:
48.利用当前分类器对当前无标注样本集中样本进行分类,得到当前无标注样本集中每个无标注样本xi(i=1,2,...)的良恶性标注以及分类为正类的后验概率pi∈[0,1],当前无标注样本集中每个无标注样本赋予良恶性标注后称为伪标注样本,按照如下方式计算无标注样本xi的交叉熵hi:
[0049][0050]
其中,计算正类后验概率pi,具体为:
[0051]
对于支持向量机,其中,w和b是支持向量机参数;
[0052]
对于决策树,其中,n是落在无标注样本xi所在的叶结点上的样本的数量,n1是落在无标注样本xi所在的叶结点上的正类样本的数量。
[0053]
步骤302:确定伪标注样本的类型,具体为:
[0054]
计算当前无标注样本集中每个无标注样本xi(i=1,2,...)到初始有标注样本集中有标注样本xj(j=1,2,...,l)的欧式距离d
ij
:
[0055][0056]
其中,x
in
和x
jn
分别表示样本xi和xj的第n维特征,样本特征维数为s。选择欧式距离最小的k(假设k=5)个有标注样本作为无标注样本xi的近邻样本,通过判断k个近邻样本中与伪标注样本的类别相同的近邻样本的数量确定伪标注样本的类型(即安全、边界、离群);
[0057]
需要说明的是,本实施例在每次迭代过程中计算无标注样本到有标注样本的欧氏距离时,仅使用初始有标注样本集中的有标注样本计算欧氏距离。
[0058]
根据如下方式判断伪标注样本的类型:若5个近邻样本中有4个或5个近邻样本的类别与伪标注样本的类别相同,则认为该伪标注样本的类型为安全,若5个近邻样本中有2个或3个近邻样本的类别与的类别相同,则认为该伪标注样本的类型为边界,否则认为的类型为离群。
[0059]
步骤303:更新当前有标注样本集和当前无标注样本集,具体为:
[0060]
对于每种类别的伪标注样本,按照安全、边界、离群类型的顺序,在每种类型样本中按照交叉熵从小到大的顺序添加到当前有标注样本集中,对当前有标注样本集进行更新,得到更新后的有标注样本集;同时将相应被添加的伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集。
[0061]
添加数量是人为设定的超参数,良性和恶性两种类别的伪标注样本添加的数量相同,具体为:
[0062]
假设良性和恶性两个类别分别添加的伪标记样本数量都为m,m随着迭代次数增加均匀增大,增大幅度为超参数,人为设定。
[0063]
添加良性伪标记样本的方式为:按照样本的安全、边界和离群类型信息对良性伪标记样本进行划分后,对每个类型中的良性伪标记样本按照交叉熵从小到大的顺序排列,并依次添加到当前有标注样本集中,直到添加数量为m;
[0064]
若类型为安全的良性伪标记样本数量小于m,则再依次添加类型为边界的样本到当前有标注样本集中;若类型为安全和边界的样本数量之和小于m,则再依次添加类型为离群的样本到当前有标注样本集中;若所有类型的良性伪标记样本的数量之和小于m,则结束迭代。
[0065]
可以理解的是,添加恶性伪标记样本的方式与添加良性伪标记样本的方式相同,不再赘述。
[0066]
在步骤4中:将更新后的有标注样本集和无标注样本集作为当前样本集,对当前有标注样本集进行训练得到当前分类器;本实施例中利用预设分类器对更新后的有标注样本集进行训练;
[0067]
在步骤5中:重复步骤3和步骤4多次,直到达到迭代停止条件,即伪标注样本不满足添加条件,无法利用伪标注样本扩充当前有标注样本集,利用最后更新的有标注样本集训练得到的分类器作为最终的分类器;
[0068]
需要说明的是,在第t(t=1,2,3
…
)次迭代训练过程中,均利用第t-1次训练结束得到分类器f
t-1
对第t-1次训练过程中的样本集进行更新,将得到的更新后的样本集作为第t次训练过程中的当前样本集l
t
∪u
t
,对当前有标注样本集l
t
进行训练得到当前分类器f
t
,不断更新当前样本集直至满足训练结束条件;
[0069]
特别的,在第一次迭代过程中,利用第0次训练(即自训练)结束得到的初始分类器f0对初始样本集l0∪u0进行更新,得到的更新后的样本集作为当前样本集l1∪u1。
[0070]
在迭代训练过程中,假设添加的伪标记样本集合记为p,添加伪标记样本后的有标注样本集(即更新后的有标注样本集)记为:l
t
=l
t-1
∪p;从当前无标注样本集u
t-1
中删掉添加伪标注样本后得到的无标注样本集(即更新后的无标注样本集)记为:u
t
=u
t-1
\p;利用预设的分类器对更新后的有标注样本集l
t
=l
t-1
∪p进行训练得到当前分类器f
t
,t=1,2,3
…
,迭代停止后,根据最终的有标注样本集训练得到最终的肿瘤良恶性分类器;
[0071]
在步骤6中:将待分类的肿瘤图像数据输入至最终的分类器中,对待评估的肿瘤图像特征的类别进行分类,输出肿瘤的良恶性类别。
[0072]
实施例二
[0073]
本实施例公开了一种基于自训练和k近邻的肿瘤良恶性半监督分类系统,包括:
[0074]
样本集获取模块,被配置为:获取肿瘤图像的样本集,所述样本集包括有标注样本集和无标注样本集;
[0075]
分类器获取模块,被配置为:对当前样本集进行自训练得到当前分类器;
[0076]
样本集更新模块,被配置为:利用当前分类器对当前无标注样本集进行分类得到伪标注样本集,利用交叉熵算法和k近邻算法筛选出满足添加条件的伪标注样本扩充当前有标注样本集,得到更新后的有标注样本集;同时将相应被添加的伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集;
[0077]
循环训练模块,被配置为:将更新后的有标注样本集和更新后的无标注样本集作为当前样本集;
[0078]
对当前有标注样本集进行训练得到当前分类器,不断更新样本集,直到满足训练结束条件,利用最后更新的有标注样本集训练得到的分类器作为最终的分类器;
[0079]
肿瘤分类模块,被配置为:将待检测的肿瘤图像数据输入至最终的分类器中,得到肿瘤良恶性分类结果。
[0080]
实施例三
[0081]
本实施例的目的是提供计算机可读存储介质。
[0082]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法中的步骤。
[0083]
实施例四
[0084]
本实施例的目的是提供电子设备。
[0085]
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法中的步骤。
[0086]
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0087]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0088]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
技术特征:
1.一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,其特征在于,包括:步骤1、获取肿瘤图像的样本集,所述样本集包括有标注样本集和无标注样本集;步骤2、对当前样本集进行自训练得到当前分类器;步骤3、利用当前分类器对当前无标注样本集进行分类得到伪标注样本集,利用交叉熵算法和k近邻算法筛选出满足添加条件的伪标注样本扩充当前有标注样本集,得到更新后的有标注样本集;同时将相应被添加的伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集;步骤4、将更新后的有标注样本集和更新后的无标注样本集作为当前样本集;对当前有标注样本集进行训练得到当前分类器;步骤5、循环步骤3至步骤4,直到满足训练结束条件,利用最后更新的有标注样本集训练得到的分类器作为最终的分类器;步骤6、将待分类的肿瘤图像数据输入至最终的分类器中,得到肿瘤良恶性分类结果。2.如权利要求1所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,其特征在于,所述利用交叉熵算法和k近邻算法筛选出满足条件的伪标注样本扩充当前有标注样本集,包括:根据伪标注样本的类别标签和类别后验概率计算每个伪标注样本的交叉熵;根据每个伪标注样本在初始有标注样本中的k近邻类别信息,确定伪标注样本的类型;根据伪标注样本的类型以及交叉熵对伪标注样本进行排序,将一定数量的伪标注样本添加到当前有标注样本集。3.如权利要求1所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,其特征在于,所述训练结束条件包括:伪标注样本不满足添加条件,无法利用伪标注样本扩充当前有标注样本集。4.如权利要求2所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,其特征在于,所述根据伪标注样本的类别标签和类别后验概率计算每个伪标注样本的交叉熵h
i
,包括:其中,表示伪标注样本,p
i
表示类别为恶性的后验概率。5.如权利要求4所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,其特征在于,所述根据每个伪标注样本在初始有标注样本中的k近邻类别信息,确定伪标注样本的类型,包括:分别计算无标注样本集中每个无标注样本到初始有标注样本的欧式距离,选择欧式距离最小的k个初始有标注样本作为无标注样本的近邻样本;通过判断k个近邻样本中与伪标注样本的类别相同的近邻样本的数量确定伪标注样本的类型。6.如权利要求5所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,其特征在于,所述通过判断k个近邻样本中与伪标注样本的类别相同的近邻样本的数量确定伪标注样本的类型,包括:假设k=5,若5个近邻样本中有5个或4个样本的类别与伪标注样本相同,则认为伪标注样本的类型为安全,若5个近邻样本中有3个或2个样本的类别与伪标注样
本相同,则认为伪标注样本的类型为边界,否则认为伪标注样本的类型为离群。7.如权利要求6所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法,其特征在于,所述根据伪标注样本的类型以及交叉熵对伪标注样本进行排序,将一定数量的伪标注样本添加到有标注样本集,包括:对于每种类别的伪标注样本,按照安全、边界和离群类型对伪标注样本进行排序,在每种类型的伪标注样本中按照交叉熵从小到大的顺序选择伪标注样本添加到有标注样本集中,添加数量是人为设定的超参数,两种类别的伪标注样本添加的数量相同。8.一种基于自训练和k近邻的肿瘤良恶性半监督分类系统,其特征在于,包括:样本集获取模块,被配置为:获取肿瘤图像的样本集,所述样本集包括有标注样本集和无标注样本集;分类器获取模块,被配置为:对当前样本集进行自训练得到当前分类器;样本集更新模块,被配置为:利用当前分类器对当前无标注样本集进行分类得到伪标注样本集,利用交叉熵算法和k近邻算法筛选出满足添加条件的伪标注样本扩充当前有标注样本集,得到更新后的有标注样本集;同时将相应被添加的伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集;循环训练模块,被配置为:将更新后的有标注样本集和更新后的无标注样本集作为当前样本集;对当前有标注样本集进行训练得到当前分类器,不断更新样本集,直到满足训练结束条件,利用最后更新的有标注样本集训练得到的分类器作为最终的分类器;肿瘤分类模块,被配置为:将待分类的肿瘤图像数据输入至最终的分类器中,得到肿瘤良恶性分类结果。9.计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法中的步骤。10.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于自训练和k近邻的肿瘤良恶性半监督分类方法中的步骤。
技术总结
本发明提出了一种基于自训练和k近邻的肿瘤良恶性半监督分类方法及系统,包括:获取样本集,对当前样本集进行自训练得到当前分类器;利用当前分类器对当前无标注样本集分类得到伪标注样本集,利用伪标注样本扩充当前有标注样本集得到更新后的有标注样本集;同时将相应伪标注样本从当前无标注样本集中删除,得到更新后的无标注样本集;将更新后样本集作为当前样本集;对当前有标注样本集进行训练得到当前分类器;不断更新样本集直到满足训练结束条件,得到最终的分类器;将待分类的肿瘤图像输入至最终的分类器中得到肿瘤分类结果。本发明选择样本时不仅考虑分类交叉熵,同时基于k近邻确定伪标注样本的类型分布,有利于提高添加的样本的质量。的样本的质量。的样本的质量。
技术研发人员:管红娇 马永政 孙钲凯 张印彤 鹿文鹏 陈川
受保护的技术使用者:齐鲁工业大学(山东省科学院)
技术研发日:2023.06.09
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/