提供训练机器学习分割算法的训练数据集的方法和系统与流程
未命名
09-29
阅读:82
评论:0
1.本公开内容的各种示例涉及当在数字病理学的背景下执行机器学习算法的训练时确定基准真相。更具体地,各种示例涉及确定描绘多种类型的组织的全玻片图像的分割,并且使用该分割来训练分割算法。
背景技术:
2.在组织病理学中,对患者的组织样本进行检查,以研究疾病例如癌症的表现。
3.常规地,医学从业者可以使用显微镜检查组织样本,例如使用化学染色进行染色。更详细地,薄组织玻片是通过对组织样本进行切割并对切片部分进行染色和关注来制备的。然后,获取描绘组织玻片的图像。结果通常被称为全玻片图像。这种图像的数字化使得可以数字化分析和处理组织样本。这被称为数字病理学。
4.最近,数字化组织样本的算法分析已经成为可能。数字病理学的参考技术使用卷积神经网络(cnn)作为机器学习(ml)算法的示例。这样的技术在下述中描述:karen simonyan和andrew zisserman,very deep convolutional networks for large-scale image recognition,arxiv preprint arxiv:1409.1556,2014年。这样的技术在下述中进一步描述:kaiming he、xiangyu zhang、shaoqing ren、和jian sun,deep residual learning for image recognition,corr,abs/1512.03385,2015年。这样的技术在下述中进一步描述:mingxing tan和quoc v le,efficientnet:rethinking model scaling for convolutional neural networks,arxiv preprint arxiv:1905.11946,2019年。这样的技术在下述中进一步描述:ilija radosavovic、raj prateek kosaraju、ross girshick、kaiming he、和piotr doll
á
r,designing network design spaces,in proceedings of the ieee/cvf conference on computer vision and pattern recognition(ieee/cvf计算机视觉和模式识别会议论文集),第10428页至第10436页,2020年。
5.通常,数字病理学需要处理大图像,例如全玻片组织图像(wsi)。全玻片图像描绘了宏观尺度(例如厘米)的显微放大的组织玻片;因此,全玻片图像可以包括大量像素。全玻片图像通常在每个维度上的大小为数万个像素。来自活组织检查或切除的肿瘤组织的组织玻片被制备在载玻片上,其可以通过数字显微镜以高分辨率(千兆像素)和高通量进行扫描。由于它们的大小和数量,全玻片图像特别适合于数据饥渴的ml算法。它们可以通过ml算法作为整体来处理,或者基于从大图像中切出的小图像块来处理。
6.已经发现,训练ml算法来处理全玻片图像可能是耗时的和/或易于出错的。大量的图像数据经常需要大量昂贵的注释来进行监督学习。注释(包括针对训练处理的基准真相标记)昂贵且耗时,并且病理学需要使用针对大量特定组织或癌症类型、器官、切除与活检以及可能的物理组织样本的制备参数(固定、模具、切片等)的训练和验证数据的特定解决方案。例如,对于在许多基于ml的病理学系统中用作中间表示的标准肿瘤识别任务,病理学家需要为ml算法的训练处理提供局部的、理想的像素式的基准真相标记。另外,获得高分辨率基准真相标记可能具有挑战性,这是因为存在许多精细结构和区域难以分类,即使对于
专家来说也是如此。
7.存在若干种方法来解决高成本和缺少注释。首先,并非所有的训练数据样本都具有相同的信息量。注释频繁的和/或易于检测的样本可能不会像注释训练数据的稀有的和/或难以检测的样本那样对更好的性能有相同量的贡献。一组好的样本在由ml算法要检测的各种类型中是不同的,并且覆盖了可能样本的整个分布。主动学习是交互式处理,在该交互式处理中,对某个样本进行标记的附加值被明确地建模,从而为注释者呈现有精心选择的有价值的样本。视觉相似性可以以无监督的方式进行评估,以使样本的多样性最大化。不确定性可以用作需要更多某种数据的指标。大多数主动学习方法使用后者或两个标准的组合来使训练性能最大化,同时使标记数据的量最小化。在yang,lin等人的“suggestive annotation:a deep active learning framework for biomedical image segmentation”,international conference on medical image computing and computer-assisted intervention(医学图像计算和计算机辅助介入国际会议),springer,cham,2017年中,可以找到也应用于全玻片图像的该处理的示例。在zheng,hao等人的“biomedical image segmentation via representative annotation”,proceedings of the aaai conference on artificial intelligence(aaai人工智能会议论文集),第33卷第01号,2019年中,可以找到应用一次性策略并因此主要依赖于第一标准的示例。
8.因此,需要先进的技术来为ml算法提供训练数据集,以处理全玻片图像。具体地,需要对分割全玻片图像以检测不同的组织类型的ml算法进行训练。
技术实现要素:
9.本发明的目的是提供以下方法和系统:允许提供用于训练ml分割算法的训练数据集的改进方式,所述ml分割算法用于根据多个不同的组织类型分割全玻片图像。此外,本发明的目的是提供能够在此基础上训练ml分割算法并使用这样的算法分割全玻片图像的方法和系统。
10.该目的通过根据本发明的用于提供训练数据集的方法、用于训练ml分割算法的方法、用于分割全玻片图像的方法、对应的系统、对应的计算机程序产品和计算机可读存储介质来解决。替选和/或优选实施方式是本发明的技术方案的目的。
11.在下文中,相对于要求保护的设备以及相对于要求保护的方法描述根据本发明的技术方案。本文描述的特征、优点或替选实施方式同样可以被分配给其他要求保护的对象,并且反之亦然。换言之,发明方法可以通过相对于设备描述或要求保护的特征来改进。在这种情况下,例如,该方法的功能特征由设备的目标单元或元素来体现。
12.根据一个方面,提供了一种用于提供用于训练分割算法的训练数据集的计算机实现的方法,其中,该分割算法将被训练用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像。该方法包括多个不同的步骤。第一步骤旨在获得描绘(患者的)组织切片的全玻片图像。另外的步骤旨在获得全玻片图像和多个不同的组织类型的第一分割,第一分割具有第一细节水平。另外的步骤旨在获得组织切片的注释,该注释具有比第一细节水平更大的细节水平。另外的步骤旨在基于第一分割和注释生成全玻片图像和多个不同的组织类型的第二分割,第二分割具有比第一细节水平更大的细节水平。另外的步骤旨在提供包括全玻片图像和第二分割的训练数据集。
13.特别地,分割算法可以是机器学习(ml)分割算法。通常,ml算法模拟人类与其他人类思维相关联的认知功能。特别地,通过基于训练数据的训练,ml算法能够适应新的环境并且检测和推断模式。
14.通常,ml算法的参数可以借助于训练来调整。特别地,可以使用监督训练、半监督训练、无监督训练、强化学习和/或主动学习。此外,可以使用表示学习(替选术语是“特征学习”)。特别地,ml算法的参数可以通过若干个训练步骤来迭代地调整。
15.特别地,训练函数可以包括神经网络、支持向量机、决策树和/或贝叶斯网络,以及/或者ml算法可以基于k均值聚类、q学习、遗传算法和/或关联规则。特别地,神经网络可以是深度神经网络、卷积神经网络或卷积深度神经网络。此外,神经网络可以是对抗网络、深度对抗网络和/或生成对抗网络。
16.作为一般规则,神经网络包括多个层。第一层的输入是输入图像(在这种情况下为全玻片图像)。每个层可以对输入值应用一个或更多个数学运算,例如卷积、非线性激励、池化运算,仅举几个示例。层的输入可以由前一层的输出(前馈)形成。值的反馈或跳过连接跳过层是可能的。
17.用于数字病理学的神经网络,即如包括在ml分割算法中的神经网络,可以推断至少一个语义组织病理学特征。至少一个语义组织病理学特征可以描述组织样本是否是疾病的表现。根据各种类型,将可能在全玻片图像中分割组织。可以检测和具体定位健康和/或不健康的组织。特别地,将可能采用卷积神经网络作为ml分割算法。例如,可以使用resnet-18,参见ayyachamy、swarnambiga等人的“medical image retrieval using resnet-18”,medical imaging 2019:imaging informatics for healthcare,research,and applications(医疗成像2019:用于医疗保健、研究和应用的成像信息学),第10954卷,international society for optics and photonics(国际光学与光子学会),2019年。特别地,可以使用vgg-16或vgg-19cnn,参见mateen、muhammad等人的“fundus image classification using vgg-19architecture with pcaand svd”,symmetry 11.1(2019):1;或者kaur、taranjit、和tapan kumar gandhi,“automated brain image classification based on vgg-16and transfer learning”,2019international conference on information technology(icit)(2019年国际信息技术大会(icit)),ieee,2019年。
18.要由ml分割算法处理的全玻片图像可以是具有多个像素的二维数字图像。全玻片图像的大小可以至少为4.000
×
4.000像素,或者至少为10.000
×
10.000像素,或者至少为1e6
×
1e6像素。全玻片图像可以对患者的组织切片或玻片进行成像。
19.从组织样本制备组织切片可以包括制备来自组织样本的部分(例如利用穿孔工具),其中部分被切割成微米厚的切片,即组织切片。针对部分的另一词是块或穿孔活检。在显微镜观察下,组织切片可以显示组织样本的精细组织结构,并且特别是细胞结构或包含在组织样本中的细胞。当在更大的长度尺度上观察时,全玻片图像可以显示组织结构和组织密度的概况。
20.组织切片的制备还可以包括利用组织病理学染色对组织切片进行染色。在这种情况下,染色可以用于突出组织切片中的不同结构,诸如例如细胞壁或细胞核,或者用于测试医学指征,诸如例如细胞增殖水平。在这样的情况下,不同的组织病理学染色用于不同的目
的。
21.为了创建全玻片图像,染色的组织切片被数字化或扫描。为此,利用合适的数字化站诸如例如全玻片扫描仪扫描组织切片,其优选地扫描安装在物体载体上的整个组织切片,并将其转换成像素图像。为了保持来自组织病理学染色的颜色效果,像素图像优选为彩色像素图像。因为在评估中,组织的总体印象和精细分辨的细胞结构两者都是重要的,所以包含在组织病理学图像数据中的单个图像通常具有非常高的像素分辨率。单个图像的数据大小通常可以达到几千兆字节。
22.通常,全玻片图像可以描绘与数字病理学中的诊断处理相关的多个组织类型。ml分割算法应当识别多个这些组织类型,并且提供分割结果作为分割或分割掩模。在这方面,“多个”可以意指至少两个组织类型。特别地,ml分割算法可以分割全玻片图像,以在一种类型的“癌”组织与另一类型的“非癌”组织之间进行区分。存在其他可能的示例。例如,将可能分割全玻片图像以确定被免疫细胞浸润的组织作为相应的组织类型。其他组织类型可能涉及全玻片图像中存在的血管、结缔组织、坏死组织等。还将可能分割全玻片图像中完全不显示组织的区域,即“无组织”组织类型。要由ml分割算法区分的组织类型的具体类型和数量取决于ml分割算法的训练,并且也取决于用于全玻片图像的组织病理学染色。
23.第一分割可以识别全玻片图像中的多个区域。具体地,第一分割可以包括描绘全玻片图像中的区域的分割掩模,每个区域对应于多个组织类型中的相应一个(ml分割算法应当在部署阶段中进行识别/分割)。在第一分割中可以限定多个区域。不同的区域可能与不同的组织类型相关联。
24.因此,第一分割可以包括多个标记。每个标记可以与由第一分割识别的相应区域相关联。每个标记可以指示多个组织类型中的一个组织类型。特别地,每个标记可以指示该区域中多数类型的组织。至少在一定程度上,在相应的区域中也可能存在少数类型的组织。
25.因此,第一分割可以包括全玻片图像的与多个组织类型中的不同组织类型相关联的多个片段/区域。
26.根据一些示例,第一分割包括一个或更多个癌区域或肿瘤区域的轮廓或分割掩模,每个癌区域或肿瘤区域包括多个癌细胞或肿瘤细胞。
27.本文使用的术语“细节水平”可以与限定分割或注释区域的边界的空间分辨率有关。例如,在较低细节水平下,与较高细节水平相比,界定与给定标记相关联的区域的折线的边缘点可以间隔更大的距离。替选地或附加地,“细节水平”可以与尺寸阈值有关,低于该尺寸阈值的结构被忽略。例如,与标记“非癌组织”相关联的区域可以包括低于尺寸阈值的小癌性结构。替选地或附加地,“细节水平”可以与区域中少数类型的结构/组织部分的最大计数有关;例如,考虑与标记“非癌组织”相关联的区域,这样的区域可以包括达到某个配额的癌组织实例。
28.第一(或初始)细节水平可能与确定第一分割的特定精度有关。例如,第一细节水平可以指定与(多个组织类型中的)共同组织类型或对应标记相关联的区域的边界的空间分辨率。例如,这些边界可能不是利用关于像素水平的分辨率来指定的。例如,第一细节水平可以允许特定配额和/或特定小尺寸的偏离类型(即在与多数类型相关联的区域的范围内的少数类型)的组织部分或片段(即,组织块)。根据一些示例,第一细节水平可以对应于关于超细胞水平的第一分割的分辨率,这意味着组织切片的各个细胞在第一分割中没有被
解析(第一分辨率)。根据一些示例,第一分割包括第一细节水平的肿瘤区域的轮廓(即,与注释或第二分割相比相当“粗略”的轮廓)。
29.通常,第一分割的第一细节水平可能相对较低。因此,在所有情况下,第一分割可能不适合用作设置ml分割算法的参数使得ml分割算法在推断中提供足够的细节水平的基础。
30.注释可以标识全玻片图像中的多个(进一步的)区域。具体地,注释可以包括在全玻片图像中描绘(进一步的)区域的分割掩模。可以在注释中限定多个(进一步的)区域。不同的(进一步的)区域可以与不同的组织类型相关联。
31.因此,注释可以包括全玻片图像的多个片段/区域。因此,包括在注释中的多个片段/区域可以不同于包括在第一分割中的片段/区域。因此,注释可以被视为对第一分割的补充(即,不同)分割。
32.根据一些示例,注释包括一个或更多个癌细胞或肿瘤细胞的轮廓或分割掩模。
33.根据一些示例,注释不涉及手动注释和/或基于与组织切片相关的图像数据的自动图像处理。
34.与第一分割相比,注释具有更大的细节水平。与第一分割相比,这可能与确定注释的更高精度有关。例如,与第一分割相比,注释的细节水平可以指定区域边界的更大空间分辨率。例如,这些边界可以利用像素水平上的分辨率来指定。例如,与第一分割相比,更大的细节水平可以允许更小的配额和/或更小的偏离类型的组织部分或片段(即,组织块)。这可能意味着少数类型实例的尺寸阈值和/或配额可能小于第一细节水平。根据一些示例,注释的细节水平可以对应于细胞水平上的分辨率,这意味着注释解析组织切片的各个细胞。根据一些示例,较大的细节水平可能意味着注释和第二分割包括较大细节水平的肿瘤区域的轮廓(即,与第一分割相比相当“精细”的轮廓)。
35.第二分割可以识别全玻片图像中的多个区域。具体地,第二分割可以包括描绘全玻片图像中的区域的分割掩模,每个区域对应于多个组织类型中的相应一个(ml分割算法应当在部署阶段中进行识别/分割)。
36.因此,第二分割可以包括多个标记。每个标记可以与由第二分割识别的相应区域相关联。每个标记可以指示多个组织类型中的一个组织类型。
37.像第一分割一样,第二分割可以包括全玻片图像的与多个组织类型中的不同组织类型相关联的多个片段/区域。
38.然而,第二分割的细节水平高于第一分割的第一细节水平。因此,包括在第二分割中的多个片段/区域可以不同于包括在第一分割中的片段/区域,尽管第二分割原则上可以包括与第一分割相同的标记并且在相同的组织类型之间进行区分。
39.第二分割可以被认为是第一分割的细化版本,其已经使用包含在注释中的信息进行了细化。因此,第二分割具有至少高于第一细节水平的细节水平。根据一些示例,第二分割的细节水平至少等于注释的细节水平。
40.因此,第二分割可以用作用于设置ml分割算法的参数的基准真相。因此,全玻片图像和第二分割可以构成用于训练ml分割算法的训练数据。
41.根据各种示例,出于训练ml分割算法的目的,可以细化全玻片图像的分割,即,通过获得具有第一细节水平的第一分割(初始分割),并且基于该初始分割,确定全玻片图像
的具有高于第一细节水平的第二细节水平的第二分割(细化分割)。
42.通过这样的技术,可以减少用于确定初始分割的注释处理的工作量。换言之,可以相对快速地确定用于执行ml分割算法的训练的基准真相。
43.ml分割算法的参数的所述设置可以受益于第二分割的这种更高的细节水平。因此,ml分割算法可以被训练以在第二分割的细节水平上传递分割结果。
44.如与主动学习相比,该处理不涉及详细的专家输入,因为可以自动提供注释。如由第一分割提供的粗略肿瘤区域轮廓可以根据每个全玻片图像在几分钟内产生,因为它们既不需要完整,也不需要像素精确或在细胞水平上精确。
45.另外,注释不用于推断时间,因为训练数据不包括该信息,并且训练仅基于精细分割来进行。因此,最终的方法可以直接应用于全玻片图像。
46.根据一些示例,在获得注释的步骤中,独立于第一分割获得注释。
47.这是有益的,因为避免了第一分割的生成与随后的细化之间的串扰,排除了训练阶段中的假象。此外,这可以确保当ml分割算法被部署在现场时不需要注释。
48.根据一个方面,该注释包括对至少一个补充组织类型的分割,该补充组织类型不同于由第一分割处理的多个组织类型。
49.补充组织类型可以是ml分割算法在部署阶段不应当识别/分割的组织类型。因此,注释可以包括不包含在第一分割的标记中的至少一个补充标记。至少一个补充标记可以与由注释标识的一个或更多个区域相关联。补充标记可以指示不包含在多个组织类型中的补充组织类型。
50.例如,虽然在第一分割中标记的多个组织类型可以包括癌组织区域和非癌组织区域,但是补充组织类型可以包括癌细胞。具体地,注释可以将腺癌识别为组织类型。
51.因此,注释可以被视为提供第一分割中不包括的附加信息的补充分割。通过此,可以基于注释有效地细化第一分割。
52.根据一个方面,获得注释包括:获得与全玻片图像不同的补充全玻片图像,该补充全玻片图像描绘了组织切片或组织切片的邻近组织切片,以及通过处理补充全玻片图像,可选地通过对补充全玻片图像应用阈值来获得注释。
53.补充全玻片图像可以基本上是如上所述的全玻片图像的形式。它与全玻片图像的不同之处在于,它包括不同的图像数据,尽管描绘了与全玻片图像基本相同的组织区域。因此,补充全玻片图像可以提供关于组织切片的补充信息,该补充信息可以用于获得注释。例如,与全玻片图像相比,补充全玻片图像可能经历了不同的图像(预)处理步骤(例如不同的对比度和亮度调整)。特别地,补充全玻片图像可以是专门为提供注释而生成的全玻片图像,当部署ml分割算法时,该注释(大部分)不是在临床常规中生成的。换言之,无论是在训练阶段还是在部署时(就像注释不会直接输入至ml分割算法中一样),ml分割算法不会“看到”补充全玻片图像。
54.提供补充全玻片图像可以允许进行相对容易的处理来获得注释。根据一些示例,注释可以简单地通过将图像阈值应用于补充全玻片图像(即对补充全玻片图像中的预定像素值进行过滤)来获得。通过此,例如,可以以像素精确的方式获得诸如腺癌细胞的癌细胞。
55.作为替选方案,可以在专用ml分割算法(不同于要提供训练数据的ml分割算法)中输入补充全玻片图像,该专用ml分割算法已经被训练来基于补充全玻片图像预测注释。原
则上,专用ml分割算法可以具有与ml分割算法相同的形式。
56.根据一个方面,全玻片图像描绘了利用第一组织病理学染色进行染色的组织切片,并且补充全玻片图像描绘了利用不同于第一组织病理学染色的第二组织病理学染色进行染色的组织切片或近端组织切片。
57.通过基于不同组织病理学染色的补充全玻片图像,提供了可以用于注释的补充图像信息。由于每个组织病理学染色突出了组织切片中的特定结构,因此第二组织病理学染色可以用于特别突出有助于增加第一分割的细节水平的结构。例如,第二组织病理学染色可以被配置成突出细胞结构,这可以允许肿瘤区域的细胞精确识别。特别地,与第一组织病理学染色相比,第二组织病理学染色可以是在临床常规中不太常见的染色。
58.根据一个方面,第一组织病理学染色是h&e染色,并且/或者第二组织病理学染色是免疫组织化学染色,特别是包括角蛋白靶向生物标志物。
59.在这方面,h&e代表苏木精和伊红。苏木精染色细胞核,并且伊红染色细胞外基质和细胞质。h&e是数字病理学中使用最广泛的染色,这也使得ml分割算法广泛适用。
60.免疫组织化学染色,或简称ihc染色,涉及通过利用抗体特异性结合生物组织中抗原的原理,选择性识别组织部分的细胞中的抗原(蛋白质)的过程。通过此,可以突出利用诸如h&e的其他染色不能到达的结构。通过此,可以提供附加的读数以进一步详细说明第一分割。
61.特别地,ihc染色可以包括被配置成靶向(细胞骨架)角蛋白的生物标志物(例如,以抗体的形式)。角蛋白形成细胞骨架的一部分,并且限定细胞的机械特性。因此,角蛋白的丰富构成了良好的肿瘤标志物,因为角蛋白表达水平在肿瘤细胞中经常改变。因此,使用角蛋白ihc染色可以使得能够识别腺癌(上皮组织的瘤形成)。具体地,ihc染色可以包括针对不同角蛋白形式的角蛋白生物标志物,例如ck-5、ck-8、ck-14、ck-18(其中,“ck”代表“细胞骨架角蛋白”)。本身来讲,ihc染色可以包括不同的或附加的生物标志物,例如p63和amacr生物标志物。
62.根据一个方面,获得补充全玻片图像包括:从组织切片中去除第一组织病理学染色,利用第二组织病理学染色对组织切片进行染色以生成重新染色的组织切片,以及对重新染色的组织切片进行成像以生成补充全玻片图像。
63.换言之,首先清洗组织切片,并且然后利用第二组织病理学染色进行重新染色。通过此,对于补充全玻片图像,可以对与全玻片图像中基本相同的结构进行成像。这不仅能够获取补充信息,而且确保补充全玻片图像容易与全玻片图像进行比较。
64.根据一个方面,获得补充全玻片图像包括:提供图像处理功能,该图像处理功能被配置成基于利用第一组织病理学染色进行染色的组织切片的图像数据来模拟描绘利用第二组织病理学染色进行染色的组织切片的图像数据,以及通过在全玻片图像上应用图像处理功能来生成补充全玻片图像。
65.图像处理功能可以是机器学习的功能,其已经根据模拟补充全玻片图像的上述任务进行了训练。特别地,图像处理功能可以是图像到图像神经网络,或者更具体地,卷积图像到图像神经网络。根据一些示例,图像处理功能可以是生成对抗网络(gan)。根据一些示例,可以基于可以如本文所述提供的全玻片图像和“真实”补充全玻片图像来训练图像处理功能。
66.通过图像处理功能提供补充全玻片图像允许自动生成补充全玻片图像,而无需手动处理步骤。此外,由于与清洗步骤相比,组织切片没有物理改变,清洗步骤中清洗可能会破坏组织的一些区域,因此该结果本质上与全玻片图像有很好的可比性。
67.根据一个方面,获得补充全玻片图像包括:从与组织切片相同的组织样本中获得近端组织切片,近端组织切片优选为组织切片的近端切片和/或相对于组织切片的连续切片,利用第二组织病理学染色对近端组织切片进行染色,以及对染色的近端组织切片进行成像,以生成补充全玻片图像。
68.近端或者甚至连续切片通常与组织切片间隔几μm的量级。因此,近端或连续切片可以显示与该组织切片相似到可以进行一对一比较的程度的组织部分。基于近端或连续切片来提供补充全玻片图像的优点在于,可以与全玻片图像并行地准备补充全玻片图像。此外,可以避免由于清洗造成的组织区域的破坏。
69.根据一个方面,获得注释的步骤包括:在比第一细节水平更大的细节水平上,从补充全玻片图像中提取一个或更多个特征,所述特征可选地与在补充全玻片图像中描绘的细胞的一个或更多个细胞骨架特征相关,其中,注释是基于一个或更多个特征的分割而确定的。
70.根据一些示例,一个或更多个特征可以与癌细胞和/或腺癌的一个或更多个特征相关。特别地,所述一个或更多个特征可以与由第二组织病理学染色突出的细胞骨架角蛋白相关。根据一个方面,可以通过专用ml分割算法来执行特征提取,该专用ml分割算法已经被训练成基于补充全玻片图像来预测注释。
71.通过在比第一细节水平更大的细节水平上自动提取特征,可以获得具有固有改进的分辨率的注释。
72.根据一个方面,生成第二分割的步骤包括:将第一分割与注释对准和/或配准。
73.根据一些示例,将第一分割与注释对准可以由用户手动执行,或者由一个或更多个图像处理功能通过将全玻片图像与补充全玻片图像进行空间匹配来自动执行。
74.通过将第一分割与注释对准,可以提高第二分割的质量,并且从而可以提高训练数据的质量。
75.根据一个方面,对准和/或配准的步骤包括:在全玻片图像与补充全玻片图像之间提供图像配准,以及基于图像配准将第一分割与注释对准。
76.根据一些示例,提供至少一个图像配准通常可以包括将目标图像(例如,全玻片图像)与参考图像(例如,补充全玻片图像)配准。根据一些示例,这可以包括获得目标图像与参考图像之间的变换函数,该变换函数确定目标图像数据与参考图像数据的坐标系之间的关系,使得目标图像中的每个生理位置被映射到参考图像中的相同生理位置,并且反之亦然。因此,该变换可以包括分别与目标图像和参考图像的像素相关联的多个单独的位移向量。
77.根据一些示例,配准可以包括刚性配准。刚性配准可以包括这样的配准:一个图像中的像素的坐标经历旋转和平移,以使图像与另一图像配准。根据一些示例,配准可以包括仿射配准。仿射配准可以包括这样的配准:一个图像中的数据点的坐标经历旋转、平移、缩放和/或剪切,以使图像与另一图像配准。因此,刚性配准可以被认为是特定类型的仿射配准。根据一些示例,配准可以包括非刚性配准。非刚性配准可以为要配准的图像的每个像素
提供不同的位移,并且可以例如使用以下非线性变换:一个图像中的像素的坐标经历灵活变形,以使图像与另一图像配准。根据一些示例,可以使用向量场例如扭曲场或其他场或函数来限定非线性变换,从而针对图像中的每个像素/体素限定单独的位移。对于关于图像配准的更多详细信息,请参考us 2011/0081066和us2012/0235679。刚性图像配准在预期没有变形的情况下非常有效。由于非刚性图像配准可以管理两个图像集之间的局部失真,因此与刚性图像配准相比,非刚性图像配准具有显著更大的灵活性,但是处理起来可能更复杂。
78.根据一些示例,生成第二分割的步骤包括使用图像配准将注释变换到第一配准的坐标系中(或反之亦然),并且通过将第一配准与经变换的注释相结合来生成第二配准(或反之亦然)。
79.在生成第二配准时使用图像配准技术的优点在于:可以将第一和第二异常图像变换到公共坐标系中。通过此,可以确保分割的结构在图像数据中具有相同的比例和相同的位置。反过来,可以更容易地比较分割掩模,并且避免了第二分割的计算中的伪影。
80.根据一个方面,生成第二分割的步骤包括:(在数学上)利用注释分割第一分割,以及/或者通过将注释应用于第一分割来校正(或细化)第一分割。
81.根据一些示例,分割和/或校正(或细化)的步骤可以基于图像配准。此外,分割和/或校正(或细化)的步骤可以基于根据图像配准变换到第一分割的坐标系中的注释。
82.根据一个方面,获得第一分割的步骤包括:提供与要利用训练数据集训练的分割算法不同的初始分割算法,该初始分割算法被配置成在第一细节水平上分割描绘多个不同组织类型中的多个类型的组织的全玻片图像,并且将该初始分割算法应用于全玻片图像以生成第一分割。
83.换言之,在第一细节水平上操作的“粗”分割算法用于生成第一分割。尽管这种分割算法的一般架构原则上可以与最终的ml分割算法是同一类型,但是“粗”分割算法可以相对容易地被训练,因为它不需要详细的注释。同时,这种粗分割算法可以完全独立于最终的ml分割算法,因为训练数据和过程被构思为提供独立的ml分割算法。
84.根据一个方面,提供了一种用于在数字病理学中提供经训练的分割算法的计算机实现的方法,该经训练的分割算法用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像。该方法包括多个步骤。第一步骤旨在根据本文描述的任何一个方面提供训练数据集。另外的步骤旨在提供ml分割算法,该ml分割算法用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像。另外的步骤旨在基于训练数据集来训练ml分割算法,以获得经训练的分割算法。另外的步骤旨在提供经训练的ml分割算法。
85.ml分割算法可以完全未经训练或预训练以接受另外的训练。训练数据包括全玻片图像和对应的第二分割作为基准真相。训练可以包括将全玻片图像输入至ml分割算法中,以获得训练分割,将训练分割与第二分割进行比较,并且基于该比较来调整ml分割算法。特别地,这可以包括使损失函数最小化,该损失函数基于第二分割。
86.根据一个方面,提供了一种用于根据多个不同的组织类型分割描绘多个类型的组织的全玻片图像的计算机实现的方法。该方法包括多个步骤。第一步骤旨在提供根据本文描述的任何一个方面的经训练的分割算法。另外的步骤旨在提供全玻片图像。另外的步骤旨在将经训练的分割算法应用于全玻片图像,以根据多个不同的组织类型分割全玻片图像。
87.根据一个方面,提供了一种计算机程序产品,其包括程序元素,当程序元素被加载到计算单元的存储器中时,该程序元素引导系统的计算单元执行根据上述方法方面中的一个或更多个的步骤。
88.根据另一方面,提供了一种计算机可读介质,其上存储有程序元素,当程序元素由系统的计算单元执行时,该程序元素可由计算单元读取和执行,以执行根据上述方法方面中的一个或更多个的步骤。
89.通过计算机程序产品和/或计算机可读介质实现本发明的优点在于,已经存在的提供系统可以容易地通过软件更新来适配,以如由本发明所提出的那样工作。
90.计算机程序产品可以是例如计算机程序,或者如此包括计算机程序旁边的另一元素。该其他元素可以是硬件(例如其上存储有计算机程序的存储器设备、用于使用计算机程序的硬件密钥等),和/或软件(例如用于使用计算机程序的文档或软件密钥)。计算机程序产品还可以包括开发材料、运行时系统以及/或者数据库或库。计算机程序产品可以分布在几个计算机实例中。
91.根据一个方面,本发明包括根据本文所描述的任何一个方面提供的经训练的分割算法的使用,该分割算法用于根据多个不同的组织类型分割描绘多个类型的组织的全玻片图像。
92.根据一个方面,提供了一种用于提供用于训练分割算法的训练数据集的系统,该分割算法用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像。该系统包括接口单元和计算单元。接口单元被配置成接收描绘(患者的)组织切片的全玻片图像。计算单元被配置成获得(计算)全玻片图像和多个不同的组织类型的第一分割,第一分割具有第一细节水平。计算单元还被配置成获得(计算)组织切片的注释,该注释具有比第一细节水平更大的细节水平。计算单元还被配置成基于第一分割和注释来生成(计算)全玻片图像和多个不同的组织类型的第二分割,第二分割具有比第一细节水平更大的细节水平。计算单元还被配置成提供包括全玻片图像和第二分割的训练数据集(经由接口单元)。
93.根据一个方面,提供了一种用于在数字病理学中提供经训练的分割算法的系统,该分割算法用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像。该系统包括接口单元和计算单元。接口单元被配置成接收根据本文所描述的任何一个方面提供的训练数据集以及用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像的ml分割算法。计算单元被指示基于训练数据集来训练ml分割算法,以获得经训练的分割算法。计算单元被指示提供经训练的分割算法(经由接口单元)。
94.根据一个方面,提供了一种用于根据多个不同的组织类型分割描绘多个类型的组织的全玻片图像的系统。该系统包括接口单元和计算单元。接口单元被配置成接收根据本文所描述的任何一个方面的经训练的分割算法和全玻片图像。计算单元被配置成将经训练的分割算法应用于全玻片图像,以根据多个不同的组织类型分割全玻片图像。
95.计算单元可以被实现为数据处理系统或数据处理系统的一部分。这样的数据处理系统可以例如包括云计算系统、计算机网络、计算机、平板电脑、智能电话和/或类似物。计算单元可以包括硬件和/或软件。硬件可以包括例如一个或更多个处理器、一个或更多个存储器及其组合。一个或更多个存储器可以存储用于执行根据本发明的方法步骤的指令。硬件可以由软件配置和/或由软件操作。通常,所有单元、子单元或模块可以至少暂时彼此进
行数据交换,例如经由网络连接或各自的接口进行数据交换。因此,各个单元可以彼此分开放置。
96.接口单元可以包括用于经由互联网连接与本地服务器或中央网络服务器进行数据交换的接口,用于接收参考图像数据或后续图像数据。接口单元还可以适于与系统的一个或更多个用户接口,例如,通过向用户显示通过计算单元的处理结果(例如,在图形用户接口中),或者通过允许用户调整用于图像处理或可视化的参数,以用于进行注释或对准图像数据,以及/或者选择全玻片图像进行处理。
97.根据其他方面,本发明还涉及一种数字病理学图像分析系统,其包括上述系统中的至少一个以及被配置成获取、存储和/或转发全玻片图像的数字病理学图像系统(或数字病理信息系统)。由此,接口单元被配置成从数字病理学图像系统接收全玻片图像。
98.根据一些示例,数字病理学图像系统包括用于存储全玻片图像的一个或更多个存档站,其可以被实现为云存储或本地存储或分散存储。此外,数字病理学图像系统可以包括一个或更多个成像模态,例如玻片扫描设备等。
99.根据其他方面,该系统适于在其以下各个方面实现本发明方法:用于提供训练数据,用于提供ml分割算法,或者用于分割全玻片图像。结合方法方面描述的优点也可以通过相应配置的系统部件来实现。
附图说明
100.根据实施方式的以下描述,上述发明的特性、特征和优点以及实现它们的方式将变得更清楚和更容易理解,实施方式的以下描述将关于附图进行详细描述。以下描述不是将本发明限制于所包含的实施方式。相同的部件、部分或步骤可以在不同图中用相同附图标记来标记。通常,附图未按比例绘制。在下面:
101.图1示意性地描绘了用于提供下述的系统的实施方式:用于训练ml分割算法的训练数据、和/或ml分割算法、和/或通过应用ml分割算法对全玻片图像进行分割;
102.图2示意性地描绘了用于使用ml分割算法来提供全玻片图像的分割的方法;
103.图3示意性地描绘了用于提供全玻片图像的分割和/或用于训练ml分割算法的训练数据的方法;
104.图4示意性地描绘了根据实施方式的全玻片图像;
105.图5示意性地描绘了根据实施方式的全玻片图像的分割;
106.图6示意性地描绘了根据另一实施方式的全玻片图像;
107.图7示意性地描绘了根据另一实施方式的全玻片图像的分割;
108.图8示意性地描绘了根据实施方式的用于提供全玻片图像的方法步骤;
109.图9示意性地描绘了根据实施方式的用于提供全玻片图像的分割的方法步骤;
110.图10示意性地描绘了根据实施方式的用于提供全玻片图像的分割的方法步骤;
111.图11示意性地描绘了根据实施方式的用于提供全玻片图像的方法步骤;
112.图12示意性地描绘了根据实施方式的用于提供全玻片图像的方法步骤;
113.图13示意性地描绘了根据实施方式的用于提供全玻片图像的方法步骤;
114.图14示意性地描绘了根据实施方式的用于训练ml分割算法的方法,该ml分割算法用于根据多个组织类型分割全玻片图像;以及
115.图15示意性地描绘了根据实施方式的用于训练ml分割算法的方法,该ml分割算法用于根据多个组织类型分割全玻片图像。
具体实施方式
116.图1示意性地描绘了根据各种示例的系统91。系统91包括耦接至存储器93的处理器92(计算单元)。处理器92可以从存储器93加载程序代码。处理器92可以执行程序代码。处理器92还可以经由接口94(接口单元)与其他装置和/或数据库通信。例如,处理器92可以经由接口94接收全玻片图像wsi1、wsi2,以便进行全玻片图像wsi1、wsi2的后续处理。处理器92可以经由接口94输出与全玻片图像wsi1、wsi2相关联并且从对全玻片图像wsi1、wsi2的所述处理中获得的语义信息。语义信息可以例如包括先前已经训练的ml分割算法的分割结果。基于这样的分割结果,可以在全玻片图像wsi1、wsi2中检测肿瘤类型组织。
117.此外,处理器92可以经由接口94接收补充全玻片图像wsi2,以便进行补充全玻片图像wsi2的后续处理。处理器可以被配置成输出与补充全玻片图像wsi2相关联的注释a。
118.在加载和执行程序代码时,处理器92可以执行如本文描述的技术,例如:ml算法的训练;执行用于确定全玻片图像wsi1、wsi2的注释的注释处理;确定用于ml算法的训练的基准真相;细化注释;例如使用反向传播或使损失函数的损失值最小化的另一训练优化设置ml算法的参数,等等。
119.图2是根据各种示例的方法的流程图。例如,根据图2的方法可以由处理器在从存储器加载程序代码时执行。例如,根据图2的方法可以由系统91的处理器92在从存储器93加载程序代码并执行该程序代码时执行。
120.在步骤d10处,提供用于数字病理学的ml分割算法。这可以包括如本文所描述的训练ml分割算法。特别地,训练可以基于如本文所描述地生成的训练数据。
121.可以使用ml分割算法处理描绘组织样本的输入图像。ml分割算法可以接收输入图像并处理该输入图像。示例ml算法是神经网络算法(nn)。
122.作为一般规则,nn包括多个层。第一层的输入是输入图像。每个层可以对输入值应用一个或更多个数学运算,例如卷积、非线性激励、池化运算,仅举几个示例。层的输入可以由前一层的输出(前馈)形成。值的反馈或跳过连接跳过层是可能的。
123.用于数字病理学的nn可以推断至少一个语义组织病理学特征。至少一个语义组织病理学特征可以描述组织样本是否是疾病的表现。根据各种类型,将可能在输入图像中分割组织。可以检测和具体定位健康和/或不健康的组织。鉴于肿瘤生长,将可能对器官解剖的器官适合度进行评级。可以根据预定义的等级对肿瘤进行分级,例如,以确定严重性。可以推断的示例语义组织病理学特征可以从由以下组成的组中选择:gleason评分、癌症分级/癌症阶段估计、临床路径预测、亚肿瘤分类、转移评估、微卫星不稳定性(msi)或稳定性。例如,癌症分级可以按照预定义的分级系统/等级。示例将包括恶性肿瘤的bloom-richardson评分或tnm分类。分类系统可用于脑肿瘤、乳腺肿瘤、前列腺癌(gleason评分)和其他种类的肿瘤。
124.由ml分割算法接收的输入图像可以具有至少4.000
×
4.000像素,或者至少10.000
×
10.000像素,或者至少1e6
×
1e6像素的尺寸。输入图像可以是全玻片图像wsi1、wsi2。可以使用光学显微镜来获取输入图像。获取输入图像的组织切片可以使用化学染色进行染
色。照明可以用来生成相应的对比度。
125.在分割全玻片图像(ml分割算法)的ml分割算法的实际示例中描述了本文公开的各种示例。这意味着包括特定类型的组织的全玻片图像的图像区域由限定片段的相应分割掩模来界定。可以确定多个片段。不同的片段可以与不同类型的组织相关联。
126.要由ml算法检测的这样类型的组织的不同实现方式是可设想的。例如,ml算法可以分割全玻片图像wsi1,以在一种类型的“癌”组织与另一类型的非癌“组织”之间进行区分。其他示例是可能的。例如,将可能分割全玻片图像以确定被免疫细胞浸润的组织,作为相应的类型。将可能分割全玻片图像中没有完全显示组织的部分,即“无组织”片段。要由ml算法区分的组织的特定类型取决于ml分割算法的训练。
127.特别地,ml分割算法可以被实现为分类算法,该分类算法被配置成根据由图像数据所指示的类型对wsi的图像区域(例如,块)进行分类。特别地,分割算法可以被配置成根据如由这些细胞的wsi图像数据所指示的不同类型来对全玻片图像wsi1、wsi2中描绘的细胞进行分类。因此,根据一些示例,分割算法应当实现的细节水平至少是细胞水平。换言之,由分割算法提供的分割根据不同类型在全玻片图像wsi1、wsi2中描绘的细胞之间进行区分。根据一些示例,由此提供的分割对单个细胞进行分割。
128.将可能采用cnn作为分割算法。例如,可以使用resnet-18,参见ayyachamy、swarnambiga等人的“medical image retrieval using resnet-18”,medical imaging 2019:imaging informatics for healthcare,research,and applications(医疗成像2019:用于医疗保健、研究和应用的成像信息学),第10954卷,international society for optics and photonics(国际光学与光子学会),2019年。可以使用vgg-16或vgg-19cnn,参见mateen、muhammad等人的“fundus image classification using vgg-19architecture with pca and svd”,symmetry 11.1(2019):1;或者kaur、taranjit、和tapan kumar gandhi,“automated brain image classification based on vgg-16and transfer learning”,2019international conference on information technology(icit)(2019年国际信息技术大会(icit)),ieee,2019年。
129.通常,在cnn的这样的架构中,全连接层是输出层,之前是池化层。池化层之前是多个卷积层。可能存在跳过连接。
130.在步骤d20处,获得全玻片图像wsi1(参见图4)。例如,全玻片图像wsi1可以从图片归档系统或另一数据库加载。例如,在实验室过程中,可以使用显微镜获取全玻片图像wsi1。全玻片图像wsi1可以使用各种成像模态例如染色的组织样本或组织切片的荧光等来获取。特别地,获得的全玻片图像wsi1描绘了利用h&e染色进行染色的组织切片。
131.在步骤d30处,将经训练的ml分割算法用于推理任务,作为数字病理学工作流程的一部分。这意味着全玻片图像wsi1可以被输入至ml分割算法,从而获得分割结果。基于这些分割结果,将可能在全玻片图像wsi1中检测肿瘤类型组织。
132.图3描绘了用于提供wsi的分割seg2的方法。分割seg2将被用作用于训练ml分割算法的参考或基准真相。因此,图3的方法也可以被设想为用于提供训练数据集的方法,该训练数据集用于训练ml分割函数以根据多个组织类型分割全玻片图像wsi1。该方法包括几个步骤。步骤的顺序不一定对应于步骤的编号,而是也可以在本发明的不同实施方式之间变化。此外,可以重复单个步骤或一系列步骤。在图4至图7中示出对应的wsi。在图8至图13中
示出根据另外的实施方式的附加可选子步骤。例如,根据图3的方法及其子步骤可以由处理器在从存储器加载程序代码时执行。例如,根据图3的方法可以由系统91的处理器92在从存储器93加载程序代码并执行该程序代码时执行。
133.在步骤s10处,获得全玻片图像wsi1。全玻片图像wsi1描绘来自患者的组织样本的组织切片。全玻片图像wsi1描绘利用第一组织病理学染色进行染色的组织切片。特别地,第一组织病理学染色可以是苏木精和伊红染色(h&e染色)。h&e是两种组织学染色的组合:苏木精和伊红。因此,苏木精染色细胞核(呈紫蓝色),并且伊红染色细胞外基质和细胞质(呈粉红色),其中其他结构呈现不同的色调、色相和这些颜色的组合(参见图4)。在这方面,h&e是数字病理学中最广泛使用的组织病理学染色,并且通常是针对组织病理学分析定制的第一或标准染色。基本上可以如结合步骤d20所描述的那样获取全玻片图像wsi1。
134.在步骤s20处,获得全玻片图像wsi1的至少一部分的第一或初始分割seg1。如图5所示,初始分割seg1可以包括用于图4的全玻片图像wsi1的不同类型组织的一个或更多个标记121-124。初始分割可以根据多个组织类型,即,可以为每个类型限定标记。标记可以涉及由折线划定的区域。根据一些示例,初始分割seg1仅覆盖整个全玻片图像wsi1的一部分。此外,初始分割seg1可以是根据两个不同的组织类型或特征分割全玻片图像wsi1的二元分割。
135.初始分割seg1具有第一细节水平。第一细节水平可以与确定初始分割seg1的特定精度有关。例如,初始细节水平可以指定与公共标记相关联的区域的边界的空间分辨率。例如,这些边界可能不以像素水平的分辨率来指定。第一细节水平可以在特定空间分辨率上解析初始分割seg1的标记,该特定空间分辨率可能比像素精确分辨率更粗糙。
136.具体地,初始分割seg1可以识别全玻片图像wsi1中的各个区域(参见图5)。特别地,初始分割seg1可以基于第一标记集121-124来识别wsi中的各个区域。因此,全玻片图像wsi1中的区域可以与相应的标记121-124相关联。每个标记121-124可以指示给定类型的组织。例如,每个标记可以指示该区域中组织的多数类型。至少在某种程度上,在相应的区域中也可能存在少数类型的组织。具体地,初始细节水平可以允许偏离类型(即在与多数类型相关联的区域的范围内的少数类型)的特定小尺寸的组织部分或片段(即,组织块)的特定配额。根据一些示例,第一细节水平可以是超像素分辨率。这可能意味着在初始分割seg1中识别的区域在像素水平上不精确。
137.根据一些示例,可以从与用户交互的注释过程中获得初始分割seg1。根据其他示例,可以通过将全玻片图像wsi1输入至如上所述的“初始”ml分割算法中来获得初始分割seg1。该初始分割算法可能已经被训练来处理wsi(特别是h&e染色的wsi),以提供第一细节水平的分割。因此,这样的分割算法可以被表示为初始ml分割算法。
138.在步骤s30处,获得注释a。根据一些示例,注释a至少部分地是初始分割seg1的补充。这可能意味着注释a不基于初始分割seg1所基于的多个类型。相反,注释a可以是根据不同于多个类型的类型的注释。因此,注释a可以基于与初始分割seg1的第一标记集不同的第二标记集125。注释a可以指向全玻片图像wsi1的一部分,该全玻片图像wsi1的一部分至少部分地与初始分割seg1交叠。此外,注释a可以是根据两个不同的组织类型或特征分割全玻片图像的二元分割。
139.注释a可以具有比第一细节水平更大的第二细节水平。特别地,第二细节水平可以
以比初始分割seg1更大的分辨率来解析注释的标记,特别地,第二细节水平的分辨率可以是像素精确的。此外,大于第一细节水平的第二细节水平可以意味着,与初始分割seg1相比,偏离类型(即,与多数类型相关联的区域的范围内的少数类型)的特定小尺寸的组织部分或片段(即,组织块)的配额较小。
140.存在可以提供这样的注释a的多种方式。特别地,这样的注释a可以通过处理全玻片图像wsi1的补充全玻片图像wsi2来提供,该补充全玻片图像wsi2包括与全玻片图像wsi 1相比的补充图像信息。在图8中示出对应的步骤。
141.具体地,图8示意性地示出了步骤s30的多个可选子步骤。步骤的顺序不一定对应于步骤的编号,而是也可以在本发明的不同实施方式之间变化。此外,可以省略单个步骤,并且可以重复单个步骤或一系列步骤。
142.在第一可选子步骤s31处,获得补充全玻片图像wsi2。补充全玻片图像wsi2示出了与全玻片图像wsi1相同的组织切片或者至少与全玻片图像wsi1相比相关的组织切片。然而,补充全玻片图像wsi2中描绘的组织切片利用不同于第一组织病理学染色的第二或补充组织病理学染色进行染色。特别地,可以使用在临床实践中比第一组织病理学染色更不常见的组织病理学染色,但是其可以允许更精确地识别结构,从而更精确地分配注释a中的标记。由于与第一染色相比,第二组织病理学染色将突出组织切片中至少部分不同的特征,因此与初始分割seg1相比,由注释a覆盖的标记和组织类型也可能不同。
143.第二组织病理学染色可以是免疫组织化学染色。特别地,第二组织病理学染色可以被配置成突出组织切片中的角蛋白。一般来说,角蛋白亚形式构建了构成基底上皮细胞的细胞骨架的中间丝。特异性靶向这样的角蛋白结构的对应免疫组织化学染色提供了全玻片图像中细胞结构的非常清晰的光学读数。因此,这样的第二组织病理学染色可以允许以高分辨率精确标记细胞和/或全细胞和/或细胞类型内的细胞结构。由于图像模式的可变性低,并且用于第二注释a的标记原则上可以是低调的(不在组织类型之间进行区分,而仅需要检测细胞结构),因此可以以比初始分割seg1更好的分辨率相当容易地提供注释a。
144.更重要的是,免疫组织化学染色的使用还可以允许补充的疾病读数,因为与良性结构相比,角蛋白在癌细胞中的表达通常受到抑制。例如,在图6和图7所示的补充全玻片图像wsi2中,标记125将对应于良性区域。
145.对于第二组织病理学染色存在不同的选项。例如,第二组织病理学染色可以包括靶向p63、ck-5、ck-8、ck-18、ck-14、amacr及其组合的生物标志物,其中,p63涉及所谓的“肿瘤蛋白”,ck
‑…
涉及不同的细胞角蛋白形式,并且amacr代表人类酶α-甲基酰基辅酶a消旋酶。特别地,p63、细胞角蛋白和amacr生物标志物的混合物可以用于特异性标记腺癌,例如所谓的pin-4混合物、靶向p63、ck-5、ck-14和amacr。
146.在第二可选子步骤s32处,基于补充全玻片图像wsi2获得注释a。根据一些示例,注释a可以通过将阈值应用于补充全玻片图像wsi2来获得,该阈值可以被配置成过滤与补充全玻片图像wsi2中描绘的被第二组织病理学染色靶向的结构和/或补充全玻片图像wsi2中没有利用第二组织病理学染色进行染色的区域对应的图像数据。特别地,可以将阈值处理应用于包含在补充全玻片图像wsi2中的各个像素或像素的颜色值。在这方面,阈值处理可能意味着在不同的颜色或亮度值之间进行区分。例如,具有高于特定阈值的值的所有像素可以被识别为属于特定类型的结构,并且根据注释a归于对应的标记。
147.根据替选示例,注释a可以通过又一ml分割算法来获得,该ml分割算法被配置成根据注释a的标记集125来注释补充全玻片图像wsi2。由于这样的ml分割算法特别适于识别利用第二组织病理学染色突出的类型,因此它可以被称为ml ihc分割算法。ml ihc分割算法本质上可以是如上所述的一般ml分割算法的形式。
148.根据另外的示例,获得注释a可以涉及在第二细节水平上从补充全玻片图像wsi2中提取特征。如以上所说明的,特征可能与补充全玻片图像wsi2中描绘的并且通过第二组织病理学染色突出的一个或更多个细胞特征相关。然后,注释a可以基于提取的特征。特别地,可以通过ml ihc分割算法来执行特征提取。
149.通常,注释a可以在第二细节水平提供由第二组织病理学染色明确突出的区域。因此,第二细节水平可以是像素精确的。此外,该区域可以是角蛋白阳性细胞壁。此外,区域可能与腺癌有关。
150.在步骤s40处,基于第一分割seg1和注释a获得第二分割seg2。具体地,可以将注释a应用于第一分割seg1或与第一分割seg1合并,以生成第二分割seg2。由于注释a具有比第一分割seg1更高的细节水平,因此可以改进或细化第一分割seg1,至少使得所得到的第二分割seg2具有比第一分割seg1更大的细节水平。在最佳实现方式中,第二分割seg2的细节水平可以至少等同于注释a的细节水平。
151.根据一些示例,基于第一分割seg1和注释a生成第二分割seg2可以包括在第一分割seg1上应用注释a,并调整(即,移除或添加)第一分割seg1中未反映在注释a中的这些部分。如果注释a包括像素精确的区域,则可以添加或移除第一分割seg1的标记区域中不对应于注释a的像素。
152.为了提高第二分割seg2的精确性,在生成第二分割seg2时,注释a和第一分割seg1可以彼此对准或配准。这可以在可选步骤s41中执行。具体地,这可以涉及在另外的可选子步骤s41-a10处提供第一分割seg1与注释a之间的配准,并且在另外的可选子步骤s41-a20中基于配准来对准第一分割seg1和注释a。
153.通常,在步骤s41-a10处提供配准可以意味着识别第一分割seg1和注释a中的对应数据点。已经识别了这样的对应数据点,可以计算这些对应点之间的局部偏移,这提供了第一分割seg1与注释a之间的坐标系中的局部偏移的指示。对于充分分布在第一分割seg1和注释a中的多个对应数据点这样做已经提供了相应图像数据之间的位移和变形的良好指示。为了将这些单独的贡献适当地聚集成连贯的二维或三维变换函数或变形场,可以使用各种配准技术。这些技术可以包括刚性配准、仿射配准、非刚性配准、非仿射配准及其任意组合。
154.根据一些示例,可以基于全玻片图像wsi1和补充全玻片图像wsi2来提供配准,即,全玻片图像wsi1和补充全玻片图像wsi2可以彼此配准。这样的基于图像的配准可以产生比基于分割和注释掩模的配准更好的结果,这是因为图像数据的匹配由于针对每个匹配的数据点的更多的上下文而可能不那么模糊。因此,用于将补充全玻片图像wsi2的坐标系变换成全玻片图像wsi1的坐标系(或反之亦然)而得到的变换函数同样适用于将注释a变换成第一分割seg1的坐标系(或反之亦然)。
155.在步骤s41-a20处对准第一分割seg1和注释a可以涉及使用在步骤s41-a10处确定的变换函数将注释a变换到第一分割seg1的坐标系中(或反之亦然)。然后可以通过将如此
变换的注释a应用于第一分割seg1来确定第二分割seg2。
156.利用第二分割seg2,可以在步骤s50处提供用于训练ml分割算法的基准真相,其具有比第一分割seg1更好的质量。因此,对应的训练数据集包括全玻片图像wsi1和第二分割seg2。具体地,经由为每个全玻片图像wsi1提供和评估补充全玻片图像wsi2的迂回来获得第二分割seg(这在ml分割算法的部署期间将不是这种情况)。
157.存在用于提供补充全玻片图像wsi2的几个选项,将参照图11至图13更详细地说明其中的三个。
158.在图11所示的示例中,全玻片图像wsi1中描绘的组织切片被重新用于获得补充全玻片图像wsi2。具体地,在步骤s31-a10处,从组织切片中去除第一组织病理学染色。这可以通过利用合适的溶剂洗涤或冲洗组织切片来执行。在下一步骤s31-a20处,经洗涤的组织切片可以利用第二组织病理学染色以通常的方式重新染色。随后,在步骤s31-a30处,可以例如利用玻片扫描设备对重新染色的组织切片进行成像,基本上如上所述。
159.在图12所示的示例中,基于全玻片图像wsi1来“模拟”补充全玻片图像wsi2的外观。为此,可以在步骤s31-b10处提供机器学习的图像处理功能,该功能已经被训练成基于利用第一组织病理学染色进行染色的组织切片的图像数据来模拟或预测描绘利用第二组织病理学染色进行染色的组织切片的图像数据。换言之,ml图像处理功能已经被训练成将利用第一组织病理学染色获得的组织切片的“样式”转换成如果利用第二组织病理学染色进行染色的组织切片可能具有的样式。在步骤s31-b20处,将ml图像处理功能应用于全玻片图像wsi1,以生成对应的补充全玻片图像wsi2。
160.根据一些示例,ml图像处理功能可以是深度卷积神经网络。在一个示例中,可以使用完全卷积的图像到图像神经网络,其中,全玻片图像wsi1被输入至网络中,并且输出是补充全玻片图像wsi2。可以基于全玻片图像wsi1和“真实”补充全玻片图像wsi2的对应对来训练ml图像处理功能,这可以例如以与结合图11或图13描述的方式相同的方式来提供。
161.根据一些示例,ml图像处理网络可以是对抗网络、深度对抗网络和/或生成对抗网络。生成对抗网络或功能包括生成器部分或功能以及分类器或鉴别器部分或功能。根据一些示例,生成器根据全玻片图像wsi1创建补充全玻片图像wsi2图像,并且鉴别器在合成创建的补充全玻片图像wsi2与真实的补充全玻片图像wsi2之间进行区分。生成器和/或鉴别器的训练尤其基于在每种情况下成本函数的最小化。成本函数可以被最小化,特别是通过反向传播被最小化。如果生成器和鉴别器由网络给出,特别是由人工神经网络给出,则生成对抗(或被简称为“ga”)算法也被称为ga网络(也为“gan”,这是针对“generative adversarial networks”的首字母缩写)。这些特别是从由ian j.goodfellow,"generative adversarial networks",arxiv 1406.2661(2014)的出版物中知道的。
162.根据图13所示的实现方式,基于补充组织切片提供补充全玻片图像wsi2(步骤s31-c10)。补充组织切片可以是相对于全玻片图像wsi1中描绘的组织切片的邻近或相邻的组织切片,并且特别是连续的组织切片。在步骤s31-c20处,利用第二组织病理学染色对补充组织切片进行染色。随后,在步骤s31-c30处,可以例如利用玻片扫描设备对重新染色的组织切片进行成像,基本上如上所述。
163.图14示出了根据实施方式的用于提供经训练的ml分割算法的方法。该方法包括几个步骤。步骤的顺序不一定对应于步骤的编号,而是也可以在本发明的不同实施方式之间
变化。此外,可以重复单个步骤或一系列步骤。利用与图3和图8至图11相比相同的附图标记表示的步骤与结合图3和图8至图11描述的可选地包括任何所描述的子步骤的步骤相同。例如,根据图14的方法及其子步骤可以由处理器在从存储器加载程序代码时执行。例如,根据图14的方法可以由系统91的处理器92在从存储器93加载程序代码并执行该程序代码时执行。
164.在步骤s50处提供第二分割seg2以及在步骤s60处提供(不容易训练的)ml分割算法之后,可以在步骤s70中使用第二分割来(进一步)训练ml分割函数。具体地,第二分割seg2可以用作用于判断ml分割算法的性能的基准真相。在步骤s80处,如此优化的ml分割算法被提供用于部署。
165.根据一些示例的ml分割算法可以不同于利用其可以获得第一分割seg1的初始ml分割算法。这具有以下优点:ml分割算法可以针对更高的细节水平进行优化,并且避免了不同分割与其生成之间的串扰。
166.在图15中,示意性地示出了用于提供ml分割算法的方法。步骤的顺序不一定对应于步骤的编号,而是也可以在本发明的不同实施方式之间变化。此外,可以重复单个步骤或一系列步骤。例如,根据图15的方法及其子步骤可以由处理器在从存储器加载程序代码时执行。例如,根据图15的方法可以由系统91的处理器92在从存储器93加载程序代码并执行该程序代码时执行。
167.第一步骤t10旨在提供多个训练数据集。训练数据集分别包括全玻片图像wsi1和对应的参考分割seg2。参考分割seg2是第二分割seg2的类型,并且可以基本上如结合图3至图11所描述的那样获得。
168.接下来,在步骤t20处,一个训练数据集的全玻片图像wsi1被提供给(不容易训练的)ml分割算法。
169.在步骤t30中,基于全玻片图像wsi1,ml分割算法将根据学习的任务确定全玻片图像wsi1的训练分割。特别地,全玻片图像wsi1的训练分割可以是根据全玻片图像wsi1中描绘的多个组织类型的分割。
170.在后续步骤t40中,基于参考分割和训练分割的比较,评估ml分割算法的性能(即,分割的质量)。实现这一点的一种方式是将参考分割与训练分割进行比较(例如,在相对于全玻片图像wsi1的逐像素基础上)。
171.在步骤t50处,该比较被用作损失函数来调整ml分割算法的权重。
172.在步骤t60处,利用全玻片图像wsi1和参考分割seg2的成对集重复获得训练分割(步骤t30)以及将结果与参考分割进行比较(步骤t40)的步骤,直到ml分割算法能够生成可接受的结果为止(即,直到达到损失函数的局部最小值为止)。一旦所有对都被使用,则对就随机地被混洗(shuffle)以进行下一轮。
173.在任何有意义的地方,各个实施方式或其各个方面和特征可以彼此组合或交换,而无需限制或扩大本发明的范围。在适用的情况下,关于本发明的一个实施方式描述的优点对于本发明的其他实施方式也是有利的。
技术特征:
1.一种计算机实现的方法,所述方法用于提供用于训练分割算法的训练数据集,所述分割算法用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像(wsi1),所述方法包括:-获得(s10)描绘组织切片的全玻片图像(wsi1),-获得(s20)所述全玻片图像(wsi1)和所述多个不同的组织类型的第一分割(seg1),所述第一分割(seg1)具有第一细节水平,-获得(s30)所述组织切片的注释(a),所述注释(a)具有比所述第一细节水平更大的细节水平,-基于所述第一分割(seg1)和所述注释(a)生成(s40)所述全玻片图像(wsi1)和所述多个不同的组织类型的第二分割(seg2),所述第二分割(seg2)具有比所述第一细节水平更大的细节水平,以及-提供(s50)包括所述全玻片图像(wsi1)和所述第二分割(seg2)的训练数据集。2.根据权利要求1所述的方法,其中,获得(s30)所述注释(a)包括:-获得(s31)不同于所述全玻片图像(wsi1)的补充全玻片图像(wsi2),所述补充全玻片图像(wsi2)描绘所述组织切片或所述组织切片的近端组织切片,以及-通过处理所述补充全玻片图像(wsi2),可选地通过向所述补充全玻片图像(wsi2)应用阈值,来获得(s32)所述注释(a)。3.根据权利要求2所述的方法,其中,-所述全玻片图像(wsi1)描绘利用第一组织病理学染色进行染色的所述组织切片,以及-所述补充全玻片图像(wsi2)描绘利用不同于所述第一组织病理学染色的第二组织病理学染色进行染色的所述组织切片或所述近端组织切片。4.根据权利要求3所述的方法,其中,-所述第一组织病理学染色是h&e染色,以及/或者-所述第二组织病理学染色是免疫组织化学染色,特别是包含角蛋白靶向生物标志物。5.根据权利要求3或4中任一项所述的方法,其中,获得(s31)所述补充全玻片图像(wsi2)包括:-从所述组织切片中去除(s31-a10)所述第一组织病理学染色,-利用所述第二组织病理学染色对所述组织切片进行染色(s31-a20),以生成重新染色的组织切片,以及-对所述重新染色的组织切片进行成像(s31-a30),以生成所述补充全玻片图像(wsi2)。6.根据权利要求3或4中任一项所述的方法,其中,获得所述补充全玻片图像(wsi2)包括:-提供(s31-b10)图像处理功能,所述图像处理功能被配置成基于利用所述第一组织病理学染色进行染色的组织切片的图像数据来模拟描绘利用所述第二组织病理学染色进行染色的组织切片的图像数据,以及
‑
通过对所述全玻片图像(wsi1)应用所述图像处理功能来生成(s31-b20)所述补充全玻片图像(wsi2)。7.根据权利要求3或4中任一项所述的方法,其中,获得所述补充全玻片图像(wsi2)包括:-从与所述组织切片相同的组织样本中获得(s31-c10)所述近端组织切片,所述近端组织切片优选地为所述组织切片的近端切片和/或相对于所述组织切片的连续切片,-利用所述第二组织病理学染色对所述近端组织切片进行染色(s31-c20),以及-对经染色的近端组织切片进行成像(s31-c30),以生成所述补充全玻片图像(wsi2)。8.根据权利要求2至7中任一项所述的方法,其中,获得(s32)所述注释(a)的步骤包括:-在比所述第一细节水平更大的细节水平上,从所述补充全玻片图像(wsi2)中提取一个或更多个特征,所述一个或更多个特征可选地与所述补充全玻片图像(wsi2)中描绘的细胞的一个或更多个细胞骨架特征相关,其中,所述注释(a)是基于所述一个或更多个特征的分割来确定的。9.根据前述权利要求中任一项所述的方法,其中,生成(s40)所述第二分割的步骤包括:将所述第一分割(seg1)与所述注释(a)对准和/或配准(s41)。10.根据权利要求9结合权利要求2至8中任一项所述的方法,其中,对准和/或配准(s41)的步骤包括:-获得(s41-a10)所述全玻片图像(wsi1)与所述补充全玻片图像(wsi2)之间的图像配准,以及-基于所述图像配准将所述第一分割(seg1)与所述注释(a)对准(s41-a20)。11.根据前述权利要求中任一项所述的方法,其中,生成(s40)所述第二分割(seg2)的步骤包括:-利用所述注释(a)对所述第一分割(seg1)进行分割,以及/或者-通过将所述注释(a)应用于所述第一分割(seg1)来校正所述第一分割(seg1)。12.根据前述权利要求中任一项所述的方法,其中,获得(s20)所述第一分割(seg1)的步骤包括:-提供与要利用所述训练数据集训练的所述分割算法不同的初始分割算法,所述初始分割算法被配置成在所述第一细节水平上分割描绘所述多个不同的组织类型中的多个类型的组织的全玻片图像(wsi1),以及-将所述初始分割算法应用于所述全玻片图像(wsi1),以生成所述第一分割(seg1)。13.一种计算机实现的方法,所述方法用于在数字病理学中提供经训练的分割算法,所述经训练的分割算法用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像(wsi),所述方法包括:-提供(s50)根据权利要求1至12中任一项所述的训练数据集,-提供(s60)用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像(wsi)的分割算法,-基于所述训练数据集训练(s70)所述分割算法,以获得经训练的分割算法,以及
‑
提供(s80)所述经训练的分割算法。14.一种计算机实现的方法,所述方法用于根据多个不同的组织类型分割描绘多个组织类型的组织的全玻片图像(wsi1),所述方法包括:-提供(d10)根据权利要求13所述的经训练的分割算法,-提供(d20)所述全玻片图像(wsi1),以及-将经训练的分割算法应用(d30)于所述全玻片图像(wsi1),以根据所述多个不同的组织类型分割所述全玻片图像。15.一种计算机可读介质,其上存储有程序元素,当所述程序元素由系统(1)的计算单元(30)执行时,所述程序元素能够由所述计算单元(30)读取和执行,以执行根据权利要求1至14中任一项所述的方法的步骤。
技术总结
本发明公开了提供训练机器学习分割算法的训练数据集的方法和系统。本发明的主题是用于提供用于训练分割算法的训练数据集的方法和对应的系统、以及训练数据和对应的ML分割算法的使用,所述分割算法用于分割数字病理学中的全玻片图像。具体地,基于自动生成的注释来细化全玻片图像的第一分割,该注释具有比第一分割更高的细节水平。第二分割结果可以用作在全玻片图像的基础上用于训练ML分割算法的基准真相。准真相。准真相。
技术研发人员:安德烈
受保护的技术使用者:西门子医疗有限公司
技术研发日:2023.03.21
技术公布日:2023/9/26
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/