基于残差神经网络的乳腺癌病理图像分类方法与流程
未命名
10-19
阅读:105
评论:0
1.本发明属于医学图像分类领域,具体是涉及基于残差神经网络的乳腺癌病理图像分类方法。
背景技术:
2.乳腺癌是一种常见的恶性肿瘤,其早期诊断和治疗对预防和治疗乳腺癌至关重要。病理图像分类是一种常用的诊断方法,通过对乳腺癌组织切片进行显微镜观察和图像分析,确定组织类型和癌细胞分布情况。
3.传统的乳腺癌病理图像分类方法主要依赖于人工经验和专业知识,存在主观性和误诊率高的问题。近年来,随着计算机视觉和机器学习技术的发展,基于图像特征提取和分类算法的自动化病理图像分类方法逐渐成为研究热点。
4.针对上述需求,国内常用的病理图像分类方法包括传统的特征提取和分类方法,如支持向量机(svm)、人工神经网络(ann)和决策树等,以及基于深度学习的方法,如卷积神经网络(cnn)、循环神经网络(rnn)和注意力机制等。
5.深度学习是机器学习领域的一个新兴研究方向,近年来在癌症诊断中的应用越来越广泛。例如,朱哲等人利用vgg和googlenet算法,根据乳腺mri图像成功将管腔a与其他亚型区分开来,平均auc为0.64。2018年,heather d.couture等人基于改进的vgg-16模型,成功预测了乳腺癌的分子亚型,准确率在70%-80%之间。
6.医学图像数据往往非常稀缺,特别是高分辨率的图像,这导致了在训练模型时的数据不足,限制了分辨率提升算法的性能。数据集中乳腺癌病理图像的质量和数量对于训练准确的分类模型至关重要,如果训练集中的图像质量不高,存在噪声或错误数据,或者图像数量较少,那么分类模型的性能可能会受到限制;其次,乳腺癌具有不同的亚型和分级,在病理图像中可见的特征也各不相同;然而,一些亚型的乳腺癌病理图像可能在训练集中数量较少,或者根本就缺乏相关的图像数据;这使得模型难以准确区分少数亚型的乳腺癌;乳腺病理图像分类方法存在分类精度较低的问题。
技术实现要素:
7.为解决上述技术问题,本发明提供了一种基于残差神经网络的乳腺癌病理图像分类方法,采用超分辨率网络提升图像质量并且优化分类网络,在提高病理图像分类精度的同时,增强原图像的分辨率。
8.本发明所述的基于残差神经网络的乳腺癌病理图像分类方法,包括以下步骤:
9.步骤1、利用乳腺癌breakhis数据集中原始病理图像与标签,构建乳腺癌原始病理图像数据集;
10.步骤2、将乳腺癌原始病理图像数据集中的图像通过混合超分辨率网络提取图像特征进行图像增强,得到增强图像数据集;
11.步骤3、将原始图像数据集与增强图像数据集融合构建训练集和测试集;
12.步骤4、构建基于残差神经网络的分类模型,并对所述分类模型进行预训练;
13.步骤5、利用预训练后的分类模型对待识别的乳腺癌病理图像进行分类。
14.进一步的,所述混合超分辨率网络包括:浅层特征提取模块、轻型cnn主干lcb、轻型transformer主干ltb和图像重建模块;
15.所述浅层特征提取模块选用一个3*3卷积层对输入图像进行特征提取,将输入数据中的每一个3*3的小块都与一个3*3的卷积核进行卷积操作,得到一个新的特征图h0:
16.h0=f
silr
ꢀꢀꢀꢀꢀꢀꢀ
(1)
17.fs表示该浅层特征提取模块功能,i
lr
表示输入的原图;
18.所述轻型cnn主干lcb包括n个高保留块,其表示如下公式所示:
19.pi=li(l
i-1
(...(l1(h0))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
20.li,i=1,2,3...n表示第i个高保留块的功能,pi,i=1,2,3...n指通过i个高保留块作用的结果;
21.轻型transformer主干ltb,对每个高保留块的输出拼接,然后输入ltb进行特征融合,同样ltb包括n个transformer,其公式如下所示,δi,i=1,2,3...n表示第i个transformer的功能;
22.p
re
=δn(δ
n-1
(...(δi(...(δ1[p1,p2...pn])))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0023]
将p
re
与h0同时输入图像重建模块,获得提升分辨率的结果图像i
sr
,公式如下所示,
[0024]isr
=fc(f
p
(fc(p
re
)))+fcf
p
(h0)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0025]fp
和fc分别代表图像重建模块中的亚像素卷积层和卷积层。
[0026]
进一步的,所述高保留块由高频滤波模块和自适应残差特征块构成,所述高频滤波模块用来捕捉图像的纹理细节,在特征提取方面通过自适应残差特征块作为基本特征提取单元,能够自适应调整残差路径和路径的权重;
[0027]
高频滤波模块中首先将输入尺寸为c*h*w的特征图划分为若干个大小相同的区域,然后计算每个区域内像素值的平均值,得到一个降采样后尺寸为的特征图,接着再通过一个上采样层,将特征图变换到原始的输入尺寸。
[0028]
进一步的,所述transformer包块一个多层感知机和一个高效的多头注意力机制,e
input
表示输入,e
output
表示输出,e
me
表示第一阶段输出结构,norm表示正则化,emha表示多头注意力机制,mlp表示多层感知机,其过程如下所示:
[0029][0030]
在多头注意力机制中,假设输入e
input
尺寸为b*c*n,首先将通道数减少为b*(c/2)*n,使用线性层进行特征映射时,将其映射为q(查询)、k(键)、v(值)三个元素,再将其分割为s组,对每组分别进行注意力操作获得对应oi,最后将输出拼接为o,最后利用一个扩展层,恢复其通道数。
[0031]
进一步的,步骤3具体为:
[0032]
首先标注每一张病理图像所属的肿瘤类别标签,接着使用了pickle模块将指定文件夹中的图像数据读取并转换为numpy数组格式,并将其与标签信息一起保存到pickle文件中;pickle是python中的一种序列化模块,可以将python对象转化为字节流,方便存储到
文件中或者在网络中传输。将图像数据和标签转化为pickle文件后,可以快速地读取和加载数据,避免了每次使用数据时都需要重新处理的麻烦。此外,pickle文件也可以在不同的python程序之间共享,方便数据的共享和传输。
[0033]
进一步的,步骤4中构建的基于残差神经网络的分类模型,具体为:
[0034]
首先选择resnet50的参数作为训练前的权重,接着使用了一个全局平均池化层以及50%的dropout层来避免过拟合;之后采用一个bn层对每个批次的数据进行标准化处理;最后使用softmax层乳腺癌病理图像进行分类。
[0035]
本发明所述的有益效果为:本发明致力于提升乳腺病理图像的分类性能,首先由于数据集的局限性,本发明基于breakhis数据集对其原始图像进行超分辨率处理,提升了图像的清晰度,改善图像的视觉效果;其次得到增强后的图像后本发明将其与原始乳腺病理图像相融合,构成了本发明用于分类模型训练的数据集,数据集的样本量同时也得到了增加;通过对残差神经网络进行优化,以期望得到效果最好的分类模型并保存;最后本发明可直接将保存的模型用于各种类型乳腺肿瘤分类,提升分类效率的同时也提高了乳腺病理图像分类的准确率。
附图说明
[0036]
图1为本发明原始乳腺病理图片数据集breakhis示例图片;
[0037]
图2为本发明超分辨率网络整体结构图;
[0038]
图3为本发明超分辨率网络中lcb中的高保留块结构图;
[0039]
图4为本发明超分辨率网络中ltb中的transformer结构图;
[0040]
图5为本发明超分辨率网络增强图片结果示例;
[0041]
图6为本发明残差神经网络优化后结构图;
[0042]
图7为本发明分类算法的准确率结果;
[0043]
图8为本发明所述方法的流程图。
具体实施方式
[0044]
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
[0045]
本发明所述的基于残差神经网络的乳腺病理图像分类方法,使用超分辨率网络增强图片、丰富数据集的同时,提升了乳腺肿瘤亚型分类算法可分类的种类数量与准确率。如图8所示,本发明所述的基于残差神经网络的乳腺病理图像分类方法包括以下步骤:
[0046]
步骤1、利用乳腺癌breakhis数据集中原始病理图像与标签,构建乳腺癌原始病理图像数据集;
[0047]
步骤2、将乳腺癌原始病理图像数据集中的图像通过混合超分辨率网络提取图像特征进行图像增强,得到增强图像数据集;
[0048]
步骤3、将原始图像数据集与增强图像数据集融合构建训练集和测试集;
[0049]
步骤4、构建基于残差神经网络的分类模型,并对所述分类模型进行预训练;
[0050]
步骤5、利用预训练后的分类模型对待识别的乳腺癌病理图像进行分类。
[0051]
breakhis数据集作为原始乳腺病理图像来源,其样本为乳腺组织活检幻灯片,用
adenoma,ta)共298张、以及属于恶性病变中的导管癌(ductal carcinoma,dc)共1728张、属于恶性病变中小叶癌(lobular carcinoma,lc)共312张、属于恶性病变中黏液癌(mucinous carcinoma,mc)共410张和属于恶性病变中乳头状癌(papillary carcinoma,pc)共290张。接着本发明将新融合的数据集按8:2的比例分为训练集和测试集,可以确保模型在训练期间不会过度拟合,同时也可以在测试集上进行验证,从而评估模型的泛化能力。这样可以更好地了解模型的性能,并帮助本发明调整模型以提高其准确性和可靠性。此外,这种8:2分割也可以减少数据集的偏差,提高模型的稳定性和可靠性。在对训练集、测试集的图像分别标注分类标签后,本发明利用pickle模块功能,首先,通过读取csv文件中的标签信息,获取每个图像对应的标签。然后,通过遍历指定文件夹中的图像文件,将图像读取并缩放到96x96像素大小,然后将其转换为numpy数组格式,并将r、g、b三个通道的像素值按照顺序合并成一个一维数组。最后,将所有图像的数组按行堆叠成一个矩阵,将标签信息保存到列表中。将所有数据保存到pickle文件中,其中包括batch_label、labels、data和filenames四个数据项。其中,batch_label为数据集标签,labels为所有图像对应的标签,data为所有图像的像素值矩阵,filenames为所有图像的文件名列表。
[0058]
由于考虑到本发明要进行分类的图像是乳腺生理图像,需要对其进行细致的处理,而resnet-18以及resnet-34的层数较少,一般应用于简单的场景,能达到快速处理的效果。而resnet-101和resnet-152又因为层数较多,计算量大且收敛慢。因此本发明中的乳腺病理分类网络选用resnet50作为初始网络结构,并在其基础上进行改进。resnet50是一种深度残差神经网络,旨在解决深度神经网络中的梯度消失和梯度爆炸问题,使得网络可以更深更容易训练。其结构包含了50个卷积层和全连接层,整个网络分为5个阶段,每个阶段包含若干卷积层和一个降采样层。其中,第一阶段包含一个7x7的卷积层,接着是一个最大池化层,然后是3个卷积层。第二阶段包含了4个卷积层和一个降采样层。第三阶段包含了6个卷积层和一个降采样层。第四阶段包含了8个卷积层和一个降采样层。最后一个阶段包含了3个全连接层。每个卷积层都使用了残差块的结构,其中每个残差块包含了两个卷积层和一个跳跃连接。这种跳跃连接可以使得网络学习到更加复杂的特征,避免了梯度消失问题。resnet50的最后一层是一个softmax层,用于输出分类概率。整个网络的训练过程使用了交叉熵损失函数和随机梯度下降算法。
[0059]
本发明在resnet50结构基础上作了优化,其优化后的结构如图6所示。首先选择resnet50的参数作为训练前的权重,并且将学习率设置为0.0001,接着本发明使用了一个全局平均池化层以及50%的dropout层来避免过拟合。之后本发明又添加了一个bn层对每个批次的数据进行标准化处理。最后本发明使用了一个常用于多分类问题的softmax层解决乳腺癌的分类问题。准确率(precision)是指分类器正确预测为正类的样本数占预测为正类的样本总数的比例,也就是分类器的准确性。准确率越高,分类器预测为正类的样本中真正为正类的比例就越高,分类器的准确性就越高。召回率(recall)是评估分类模型性能的指标之一,表示模型正确预测出的正例占实际正例总数的比例。简单来说,召回率就是评估模型能否准确地找出所有的正例。f1-score是一种综合评价指标,用于衡量分类模型的性能。它是精确率和召回率的调和平均值,可以反映出分类器的准确性和完整性。如图7所示,本发明在分类乳腺病理图像上已经达到了很好的性能,总准确率高达98%,每一个种类的准确率都高于90%,有的乳腺肿瘤亚型分类甚至达到了100%准确率。
[0060]
本发明已经通过以上方式预训练了乳腺病理图像通用的分类模型,效率快的同时且性能也高,用户在使用时,仅需输入待分类的图片,通过载入已经预训练好的分类模型,即可得到病理图像的分类结果,这样用户不仅节省了训练的时间,同时使用上也十分方便快捷。
[0061]
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。
技术特征:
1.基于残差神经网络的乳腺癌病理图像分类方法,其特征在于,包括以下步骤:步骤1、利用乳腺癌breakhis数据集中原始病理图像与标签,构建乳腺癌原始病理图像数据集;步骤2、将乳腺癌原始病理图像数据集中的图像通过混合超分辨率网络提取图像特征进行图像增强,得到增强图像数据集;步骤3、将原始图像数据集与增强图像数据集融合构建训练集和测试集;步骤4、构建基于残差神经网络的分类模型,并对所述分类模型进行预训练;步骤5、利用预训练后的分类模型对待识别的乳腺癌病理图像进行分类。2.根据权利要求1所述的基于残差神经网络的乳腺癌病理图像分类方法,其特征在于,所述混合超分辨率网络包括:浅层特征提取模块、轻型cnn主干lcb、轻型transformer主干ltb和图像重建模块;所述浅层特征提取模块选用一个3*3卷积层对输入图像进行特征提取,将输入数据中的每一个3*3的小块都与一个3*3的卷积核进行卷积操作,得到一个新的特征图h0:h0=f
s
i
lr
ꢀꢀꢀꢀꢀꢀꢀ
(1)f
s
表示该浅层特征提取模块功能,i
lr
表示输入的原图;所述轻型cnn主干lcb包括n个高保留块,其表示如下公式所示:p
i
=l
i
(l
i-1
(...(l1(h0))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)l
i
,i=1,2,3...n表示第i个高保留块的功能,p
i
,i=1,2,3...n指通过i个高保留块作用的结果;轻型transformer主干ltb,对每个高保留块的输出拼接,然后输入ltb进行特征融合,同样ltb包括n个transformer,其公式如下所示,δ
i
,i=1,2,3...n表示第i个transformer的功能;p
re
=δ
n
(δ
n-1
(...(δ
i
(...(δ1[p1,p2...p
n
])))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)将p
re
与h0同时输入图像重建模块,获得提升分辨率的结果图像i
sr
,公式如下所示,i
sr
=f
c
(f
p
(f
c
(p
re
)))+f
c
f
p
(h0)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)f
p
和f
c
分别代表图像重建模块中的亚像素卷积层和卷积层。3.根据权利要求2所述的基于残差神经网络的乳腺癌病理图像分类方法,其特征在于,所述高保留块由高频滤波模块和自适应残差特征块构成,所述高频滤波模块用来捕捉图像的纹理细节,在特征提取方面通过自适应残差特征块作为基本特征提取单元,能够自适应调整残差路径和路径的权重;高频滤波模块中首先将输入尺寸为c*h*w的特征图划分为若干个大小相同的区域,然后计算每个区域内像素值的平均值,得到一个降采样后尺寸为的特征图,接着再通过一个上采样层,将特征图变换到原始的输入尺寸。4.根据权利要求2所述的基于残差神经网络的乳腺癌病理图像分类方法,其特征在于,所述transformer包块一个多层感知机和一个高效的多头注意力机制,e
input
表示输入,e
output
表示输出,e
me
表示第一阶段输出结构,norm表示正则化,emha表示多头注意力机制,mlp表示多层感知机,其过程如下所示:
在多头注意力机制中,假设输入e
input
尺寸为b*c*n,首先将通道数减少为b*(c/2)*n,使用线性层进行特征映射时,将其映射为q(查询)、k(键)、v(值)三个元素,再将其分割为s组,对每组分别进行注意力操作获得对应o
i
,最后将输出拼接为o,最后利用一个扩展层,恢复其通道数。5.根据权力要求1所述的基于残差神经网络的乳腺癌病理图像分类方法,其特征在于,步骤3具体为:首先标注每一张病理图像所属的肿瘤类别标签,接着使用了pickle模块将指定文件夹中的图像数据读取并转换为numpy数组格式,并将其与标签信息一起保存到pickle文件中。6.根据权利要求1所述的基于残差神经网络的乳腺癌病理图像分类方法,其特征在于,步骤4中构建的基于残差神经网络的分类模型,具体为:首先选择resnet50的参数作为训练前的权重,接着使用了一个全局平均池化层以及50%的dropout层来避免过拟合;之后采用一个bn层对每个批次的数据进行标准化处理;最后使用softmax层乳腺癌病理图像进行分类。
技术总结
本发明属于医学图像分类领域,公开了一种基于残差神经网络的乳腺癌病理图像分类方法,首先从乳腺癌BreakHis数据集中获取原始病理图像与分类标签,构造用于识别乳腺疾病的数据集;接着对数据集中每一张图像,使用混合超分辨率网络架构,来提取乳腺病理图像的潜在特征进行图像增强;然后将原始图像数据集与增强后图像数据集融合构成新数据集,作为分类模型的训练集与测试集。本发明基于优化后的残差神经网络与新数据集训练乳腺病理图像分类模型,最后通过加载预训练的分类模型,即可快速识别出待识别生理图像的肿瘤亚型类别,在保证算法速度的基础上,提升了乳腺癌病理图像的分类准确率。率。率。
技术研发人员:曾铁勇 万能 武婷婷 刘斐斓
受保护的技术使用者:曾铁勇
技术研发日:2023.07.07
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种吹气式热电偶的制作方法 下一篇:一种大数据的筛选方法和系统与流程