用于评估宠物放射学图像的系统和方法与流程
未命名
09-24
阅读:82
评论:0
用于评估宠物放射学图像的系统和方法
权益主张
1.本技术根据35 u.s.c.
§
119要求2021年11月1日提交的临时申请63/274,482、2021年6月28日提交的临时申请63/215,769以及2020年12月15日提交的临时申请63/125,912的权益,其全部内容通过引用并入本文用于所有目的,如同在本文中充分阐述。
技术领域
2.本公开总体上涉及使用一个或多个机器学习模型或工具来评估宠物或动物放射学图像。
背景技术:
3.越来越多的兽医利用基于图像的诊断技术(例如x射线)以诊断或识别动物或宠物的健康问题。然而,全世界接受过兽医培训的放射科医生的人数不到1100人。因此,许多兽医无法利用基于图像的诊断技术所提供的优势。即使对于那些接受过放射学培训的兽医而言,查看医学图像也可能是费时且麻烦的。加剧这些困难的是,动物或宠物放射学图像可能被错误定向和/或缺失或具有错误的侧向标记(laterality marker)。因此需要一种系统,该系统可以自动处理和解释宠物诊断图像,并将临床上可靠的结果返回给接受过放射学培训或未受过放射学培训的兽医。
技术实现要素:
4.在某些非限制性实施例中,本公开提供了用于训练和使用机器学习模型来处理、解释和/或分析动物或宠物的放射学数字图像的系统和方法。图像可以是用于医疗状况诊断的任何数字图像存储格式,例如医学数字成像和通信(“dicom”),以及用于显示图像的其他格式。在特定实施例中,可以使用自动化自然语言处理(“nlp”)工具对放射影像图像进行标记:在一种计算机实现的方法中,nlp工具接受放射影像图像的自然语言文本摘要的表示作为输入,并输出表征放射影像图像的图像标签或标记。在一个实施例中,放射影像图像的自然语言文本摘要是放射学报告。在一个实施例中,放射影像图像和相应的nlp生成的标签可以用作训练数据,以训练一个或多个机器学习分类器模型,这些模型被配置或编程为对动物或宠物放射影像图像进行分类。在其他非限制性实施例中,兽医放射学专家可以手动标记各种图像。在特定实施例中,可以使用手动标记的训练数据训练一个或多个机器学习分类器模型,例如由兽医放射学专家或另一种类型的人类特定领域专家标记的医学图像。如本文进一步解释的,在一些实施例中实现的机器学习模型可以有效地使用nlp生成的标记的训练数据和人类生成的标记的图像训练数据的混合数据。
5.在一个实施例中,本公开提供了用于动物或宠物放射影像图像的自动分类的系统和方法。在不同的实施例中,可以使用一个或多个机器学习模型或工具对采集的、收集的和/或接收的图像进行分析和/或分类。在一些实施例中,机器学习模型可以包括神经网络,其可以是卷积神经网络(“cnn”)。机器学习模型可用于使用各种标记、标签或类别对图像进
行分类。例如,这种分类可以指示健康的组织或存在异常。在一个实施例中,被分类为具有异常的图像可以被进一步分类为,例如,心血管、肺部结构、纵隔结构、胸膜腔和/或胸腔外。在本公开中,分类中的这种分类可被称为子分类。
6.在一个实施例中,本公开提供了用于训练和使用被编程的机器学习模型(在一些情况下,在本文中表示为“rapidreadnet”)来对宠物放射学图像进行分类的技术,其中rapidreadnet可以是单独的、经校准的深度神经网络student模型的集成,如本文进一步更具体描述的。术语rapidreadnet以及本公开中类似的每个其他术语或标签在本公开中的使用仅仅是为了方便和简洁,以便于简明的解释;其他实施例可以在不使用术语rapidreadnet的情况下实现功能相当的工具、系统或方法。在一个实施例中,可以首先使用第一人类标记的图像训练数据集来训练机器学习神经teacher模型。然后可以使用nlp模型来标记较大的未标记的图像训练数据集,该数据集包含与自然语言文本摘要相关联的医学图像。例如,数据集可以包含放射学报告。然后可以使用teacher模型在较大的图像数据集上生成软伪标签。最后,软伪标签可以与nlp衍生标签结合使用,以进一步生成更多衍生标签,并且可以使用这些衍生标签来训练一个或多个机器学习神经student模型。在一个实施例中,rapidreadnet可以包括所述student模型的集成。
7.在一个实施例中,本公开提供了用于在不依赖于dicom元数据或侧向标记的情况下自动确定兽医放射影像中的正确解剖学方向的系统和方法。一个公开的方法可以包括使用经训练的机器学习模型(“adjustnet”),其包含两个子模型(“rotationnet”和“flipnet”)。在一些实施例中,rotationnet和flipnet中的每一个都可以被编程为多个cnn的集成。在一个实施例中,rotationnet模型可用于确定图像(例如动物或宠物放射影像图像)是否被正确地旋转。在一个实施例中,flipnet模型可用于确定是否应该翻转图像(例如动物或宠物放射影像图像)。在一个实施例中,adjustnet和/或rotationnet和/或flipnet可被纳入用于对动物或宠物放射影像图像进行分类的端到端系统或管道中,与所报道的最先进的系统相比,该端到端系统或管道具有许多技术优势。术语adjustnet、rotationnet和flipnet,以及本公开中类似的每个其他术语或标签,其在本公开中的使用仅仅是为了方便和简洁,以便于简明的解释;其他实施例可以在不使用术语adjustnet、rotationnet或flipnet的情况下实现功能相当的工具、系统或方法。
8.在各种实施例中,rotationnet和flipnet中的每一个都可以多种方式中的任何一种进行编程和/或训练。例如,每个模型可以是单一模型或两阶段模型。在非限制性实施例中,可以使用多种不同的权重初始化技术来开发模型。例如,可以使用(例如,在imagenet上)预训练的模型权重来执行迁移学习方法,或者可以随机初始化模型,然后在增强数据上进一步预训练模型。在非限制性实施例中,一个或多个不同的训练管道也可以用于开发模型。例如,roationnet和flipnet中的每一个都可以使用增强数据进行预训练,然后使用真实数据进行微调。在其他实施例中,一个或两个模型可以用增强数据和真实数据联合训练。
9.在一个实施例中,本公开提供了一种用于对动物或宠物放射影像图像进行分类的端到端系统或管道。在这种情况下,“端到端”可以指系统或管道被配置为接收数字图像数据作为输入并输出分类数据或标签。如本文进一步更具体解释的,所述端到端系统或管道可以包括使用adjustnet来确定目标图像的正确解剖学方向,以及使用rapidreadnet来对所述目标图像进行分类。在一个实施例中,在(使用adjustnet)确定目标图像的正确解剖学
方向之后以及在(使用rapidreadnet)输出目标图像的一个或多个分类之前,可以使用另一个经训练的模型来验证目标图像对应正确的身体部位。在一个实施例中,基础设施管道可以依赖于微服务,这些微服务可以使用软件容器进行部署,使用例如来自docker公司的docker或google公司的kubernetes的库,并且可通过使用表征状态转移(restful api)的应用程序编程接口进行调用。在一个实施例中,可以对ai orchestrator容器进行编程,以协调来自不同ai模型(例如adjustnet和rapidreadnet模型)的推理的执行。本公开提供了一种示例性的新颖的非限制性系统架构,在其上可以实现本公开所提供的某些方法或技术,但其他方法或技术也是可能的。
10.本文所公开的实施例仅是示例,并且本公开的范围不限于它们。某些非限制性实施例可以包括本文所公开的实施例的所有、一些或没有的组件、元件、特征、功能、操作或步骤。根据本发明的实施例具体公开在所附的涉及方法的权利要求中。所附权利要求中的从属关系或引用关系仅出于形式原因而选择。然而,也可以要求主张因有意引用到任何先前的权利要求(特别是多重从属关系)而产生的任何主题,因此,无论所附权利要求中选择何种从属关系,都可以公开并要求主张权利要求及其特征的任何组合。可以要求主张的主题不仅包括所附权利要求中所列特征的组合,还包括权利要求中特征的任何其他组合,其中权利要求中提及的各个特征可以与权利要求中的任何其他特征或其他特征的组合进行组合。此外,本文所描述或描绘的任何实施例和特征可以在单独的权利要求中、和/或与本文所描述或描绘的任何实施例或特征、或者与所附权利要求的任何特征的任何组合中要求保护。
附图说明
11.在附图中:
12.图1示出了根据某些非限制性实施例的由一个或多个机器学习模型或工具处理之前和之后的放射影像图像。
13.图2示出了根据某些非限制性实施例的图像的标记和注释。
14.图3示出了使用机器学习系统以评估动物和/或宠物图像的示例性方法。
15.图4示出了用于促进动物或宠物图像的分类和标记的示例性计算机系统或设备。
16.图5示出了图像定向任务的示例性工作流程。
17.图6示出了猫科动物头骨的错误定向图像示例和正确定向图像示例的放射影像图像。
18.图7示出了根据某些非限制性实施例的具有集成的示例性两阶段模型技术的示意图。
19.图8示出了用于关于图像定向的模型决策的gradcam变换的示例性图像。
20.图9示出了示例性模型部署的工作流程图。
21.图10示出了根据某些非限制性实施例的用于错误分析的示例性图像。
22.图11示出了在一个实施例中为建模而被评估的图像池。
23.图12示出了一个实施例的x射线系统的基础设施,其中图像可以作为临床工作流程的一部分进行采集。
24.图13a示出了心血管和胸膜腔研究发现的第一组roc和pr曲线。
25.图13b示出了心血管和胸膜腔研究发现的第二组roc和pr曲线。
26.图14a示出了肺部研究发现的第一组roc和pr曲线。
27.图14b示出了肺部研究发现的第二组roc和pr曲线。
28.图15a示出了纵隔研究发现的第一组roc和pr曲线。
29.图15b示出了纵隔研究发现的第二组roc和pr曲线。
30.图16a示出了胸腔外研究发现的第一组roc和pr曲线。
31.图16b示出了胸腔外研究发现的第二组roc和pr曲线。
32.图17a示出了胸腔外研究发现的第三组roc和pr曲线。
33.图17b示出了胸腔外研究发现的第四组roc和pr曲线。
34.图18示出了按周计算的重建误差的可视化。
35.图19示出了重建误差作为所代表的组织的数量的函数的分布。
36.图20示出了使用机器学习神经模型对放射学图像(例如动物和/或宠物放射学图像)进行分类的示例性计算机实现或编程的方法。
具体实施方式
37.在本说明书中使用的术语在本公开的上下文中以及在使用每个术语的特定上下文中通常具有其在本领域中的普通含义。下文或说明书中的其他地方讨论了某些术语,以在描述本公开的组合物和方法以及如何制造和使用它们时提供额外的指导。
38.实施例根据以下提纲分节公开:1.0概述2.0用于处理宠物放射学图像的机器学习技术2.1用于分类的示例性宠物放射学图像2.2宠物放射学图像的标签2.3一个实施例中对宠物放射学图像进行分类3.0adjustnet:用于宠物放射学图像定向的自动化技术3.1 输入数据和工作流程3.2 模型开发3.3 模型部署3.4 用户反馈4.0使用rapidreadnet的端到端宠物放射学图像处理4.1一个实施例中用于训练rapidreadnet的图像数据集4.2图像分类任务的神经模型训练技术4.3漂移分析、实验结果和纵向漂移分析4.4一个实施例中rapidreadnet的系统架构和方法5.0某些实施例的优势5.1 adjustnet和rotationnet的示例性技术优势5.2一个实施例中rapidreadnet和所公开的用于对宠物放射学图像进行分类的端到端系统的示例性技术优势6.0实施示例——硬件概述
***
39.1.0概述
40.如在说明书和所附权利要求中使用的,除非上下文另有明确规定,否则单数形式“一”、“一个”和“所述”包括复数指代。
41.如本文所用,术语“包括(comprises)”、“包括(comprising)”或其任何其他变体,旨在涵盖非排他性的包含,使得包含一系列要素的过程、方法、物品、系统或设备不仅包括那些要素,还可以包括未明确列出的或此类过程、方法、物品或设备固有的其他要素。
42.根据本公开使用的术语“动物”或“宠物”是指家养动物,包括但不限于家犬、家猫、马、牛、雪貂、兔、猪、大鼠、小鼠、沙鼠、仓鼠、山羊等。家犬和家猫是宠物的特定非限制性实例。根据本公开使用的术语“动物”或“宠物”也可以指野生动物,包括但不限于野牛、麋鹿、鹿、野鹿、鸭、禽、鱼等。
43.如本文所用,图像或切片的“特征”可以基于该图像或切片的一个或多个可测量特征进行确定。例如,特征可以是图像中的瑕疵、暗点、具有各种大小、形状或光强度水平的组织。
44.在本文的详细描述中,提及“实施例”、“一实施例”、“一个实施例”、“在各种实施例中”、“某些实施例”、“一些实施例”、“其他实施例”、“某些其他实施例”等,表示所述实施例可以包括特定的特征、结构或特性,但每个实施例可能不一定包括该特定的特征、结构或特性。此外,此类短语不一定指代相同的实施例。此外,当结合实施例描述特定的特征、结构或特性时,无论是否明确描述,认为结合其他实施例影响此类特征、结构或特性在本领域技术人员的知识范围内。在阅读说明书之后,对于本领域普通技术人员而言,将容易想到如何在替代实施例中实施本公开。
45.如本文所用,术语“设备”是指计算系统或移动设备。例如,术语“设备”可以包括智能手机、平板电脑或笔记本电脑。特别地,计算系统可以包括用于确定其位置、方向或方位的功能,例如gps接收器、指南针、陀螺仪或加速度计。客户端设备可以进一步包括用于无线通信的功能,例如蓝牙通信、近场通信(nfc)或红外(ir)通信或与无线局域网(wlan)或蜂窝电话网络的通信。这样的设备还可以包括一个或多个摄像头、扫描仪、触摸屏、麦克风或扬声器。客户端设备还可以执行软件应用程序,例如游戏、网络浏览器或社交网络应用程序。客户端设备例如可以包括用户设备、智能手机、平板电脑、笔记本电脑、台式电脑或智能手表。
46.可以由计算系统或客户端设备通过移动应用程序和相关联的图形用户界面(“ux”或“gui”)操作或执行示例性过程和实施例。在某些非限制性实施例中,计算系统或客户端设备可以是例如移动计算系统——例如智能手机、平板电脑或笔记本电脑。该移动计算系统可以包括用于确定其位置、方向或方位的功能,例如gps接收器、指南针、陀螺仪或加速度计。这样的设备还可以包括用于无线通信的功能,例如蓝牙通信、近场通信(nfc)或红外(ir)通信或与无线局域网(wlan)、3g、4g、lte、lte-a、5g、物联网或蜂窝电话网络的通信。这样的设备还可以包括一个或多个摄像头、扫描仪、触摸屏、麦克风或扬声器。移动计算系统还可以执行软件应用程序,例如游戏、网络浏览器或社交网络应用程序。通过社交网络应用程序,用户可以与其社交网络中的其他用户联系、通信和共享信息。
47.在本说明书中使用的术语在本公开的上下文中以及在使用各个术语的特定上下
文中通常具有其在本领域中的普通含义。下文或说明书中的其他地方讨论了某些术语,以在描述本公开的组合物和方法以及如何制造和使用它们时提供额外的指导。
48.在一个实施例中,本公开提供了一种计算机实现的方法,包括:接收包括第一多个图像的第一标记训练数据集,第一多个图像中的每个图像与一组标签相关联;在第一标记训练数据集上以编程方式训练机器学习神经teacher模型;以编程方式将为自然语言处理而训练的机器学习模型应用于未标记的数据集,该数据集包括第二多个图像的自然语言文本摘要的数字电子表示,从而生成包括第二多个图像的第二标记训练数据集;使用机器学习神经teacher模型,以编程方式为第二多个图像中的每个图像生成对应的一组软伪标签;使用软伪标签以编程方式为第二标记训练数据集中的每个图像生成一组衍生标签;使用衍生标签训练一个或多个经编程的机器学习神经student模型;接收目标图像;以及,应用一个或多个student模型的集成以输出目标图像的一个或多个分类。
49.一个实施例进一步包括使用主动学习(active learning)以编程方式更新一个或多个经编程的机器学习神经student模型中的至少一个。
50.一个实施例进一步包括在一个或多个机器学习模型训练步骤中应用噪声。
51.在一个实施例中,目标图像是动物或宠物的放射影像图像。
52.在一个实施例中,第一多个图像中的每个图像和第二多个图像中的每个图像是动物或宠物的放射影像图像。
53.在一个实施例中,自然语言文本摘要是放射学报告。
54.在一个实施例中,目标图像被格式化为医学数字成像和通信(“dicom”)图像。
55.一个实施例进一步包括使用基础设施管道,该管道包括使用docker容器部署的微服务。
56.在一个实施例中,机器学习神经student模型或机器学习神经teacher模型中的至少一个被编程为包括架构,该架构包括在撰写本文时已知的且可用的开源库densenet-121、resnet-152、shufflenet2、resnext101、ghostnet、efficientnet-b5、senet-154、se-resnext-101或inception-v4中的至少一个。
57.在一个实施例中,机器学习神经student模型或机器学习神经teacher模型中的至少一个被编程为卷积神经网络。
58.在一个实施例中,目标图像的一个或多个分类中的一个指示健康组织或异常组织中的一者。
59.在一个实施例中,目标图像的一个或多个分类中的一个指示异常组织;并且所指示的异常组织被进一步分类为心血管、肺结构、纵隔结构、胸膜腔或胸腔外的至少一者。
60.在一个实施例中,目标图像的一个或多个分类中的至少一个是子分类。
61.一个实施例进一步包括对目标图像进行预处理,其中所述预处理包括在输出目标图像的一个或多个分类之前,将经训练的机器学习过滤器模型应用于目标图像。
62.一个实施例进一步包括在输出目标图像的一个或多个分类之前,以编程方式确定目标图像的正确解剖学方向。
63.在一个实施例中,确定目标图像的正确解剖学方向包括执行经训练的机器学习模型,该经训练的机器学习模型被编程为在不依赖于与目标图像相关联的dicom元数据或与目标图像相关联的侧向标记的情况下进行操作。
64.在一个实施例中,经训练的机器学习模型是在增强数据和真实数据上联合训练的。
65.在一个实施例中,确定目标图像的正确解剖学方向包括通过执行第一编程模型确定目标图像的正确旋转,以及通过执行第二编程模型确定目标图像的正确翻转。
66.一个实施例进一步包括在确定目标图像的正确解剖学方向之后并且在输出目标图像的一个或多个分类之前,以编程方式验证目标图像对应于正确的身体部位。
67.在一个实施例中,验证目标图像对应于正确的身体部位包括执行经训练的机器学习模型。
68.在各种实施例中,本公开提供了一种或多种计算机可读非暂时性存储介质,当由一个或多个处理器执行时,该介质可操作以执行由本公开提供的一种或多种方法。
69.在各种实施例中,本公开提供了一种系统,包括:一个或多个处理器;以及一种或多种计算机可读非暂时性存储介质,其耦合到一个或多个处理器,并包括当由一个或多个处理器执行时可操作的指令,以使系统执行本公开提供的一种或多种方法。
70.2.0用于处理动物或宠物放射学图像的机器学习技术
71.在一个实施例中,本公开提供了用于对动物或宠物放射影像图像进行分类的自动化技术。一个或多个数字存储的放射影像图像可以是医学数字成像和通信(“dicom”)格式。一旦接收到图像,可以使用经训练的机器学习模型或工具(例如卷积神经网络模型或基于转换器(transformer)模型)对图像进行数字过滤以去除某些特征,例如非胸部图像。在其他示例中,机器学习模型或工具可以是k最近邻(knn)、朴素贝叶斯(nb)、决策树或随机森林、支持向量机(svm)、深度学习模型,例如cnn、基于区域的cnn(rcnn)、一维(1-d)cnn、递归神经网络(rnn),或任何其他机器学习模型或技术。在其他示例性实施例中,可以进行进一步过滤,以去除整个图像或图像的一部分,例如胸部、骨盆、腹部或身体。该过滤可以基于dicom身体部位标签和一个或多个视图位置执行。执行此类过滤的模型可被称为“过滤器模型”。
72.由此产生的机器学习模型可以用于各种临床或医学目的。例如,宠物的放射学图像可以由兽医或兽医助理拍摄。然后可以使用经训练的机器学习模型处理该图像。在处理过程中,该图像可以被分类为正常或异常。如果异常,该图像可以被分类为心血管、肺部结构、纵隔结构、胸膜腔或胸腔外中的至少一者。在一些非限制性实施例中,图像可以被子分类。例如,胸膜腔的子类可包括胸腔积液、气胸和/或胸膜肿块。图像可以被过滤、分割、注释、屏蔽或标记,然后可以使用显示设备(例如计算设备的屏幕)向用户显示图像以及确定的图像类别和子类别,。
73.在一个实施例中,机器学习过程和生成的图像可用于为放射科医生提供按需的第二意见,形成为兽医医院提供即时评估放射学图像的服务的基础,和/或通过允许放射科医生专注于宠物本身而非图像来提高效率和生产力。
74.在一些非限制性实施例中,机器学习框架可以包括卷积神经网络(cnn)组件,该组件是根据采集的动物或宠物产品的放射影像图像的训练数据和相应的基准真相(ground truth)数据(例如,已知或确定的标签或注释)进行训练的或已经训练的。所采集的训练数据例如可以包括由客户端设备采集的一个或多个图像。cnn是一种人工神经网络,包含具有一个或多个节点的一个或多个卷积层和子采样层。可以堆叠一个层或多个层(包括一个或
多个隐藏层)以形成cnn架构。所公开的cnn可以通过接触大量标记的训练数据,来学习确定动物或宠物的放射影像图像的图像参数和后续分类。虽然在一些示例中,神经网络可以为每个输入-输出对训练一个学习权重,但cnn可以沿其输入将可训练的固定长度的内核或过滤器进行卷积。换言之,cnn可以学习识别小的、原始的特征(低层次),并以复杂的方式组合它们(高层次)。在特定实施例中,cnn可以是监督的、半监督的或无监督的。
75.在某些非限制性实施例中,可使用池化、填充和/或跨步(striding)以减小cnn的输出在执行卷积的维度中的大小,从而降低计算成本和/或减少过度训练的可能性。跨步可以描述过滤器窗口滑动的步长或步数,而填充可以包括用零填充数据的某些区域,以在跨步之前或之后对数据进行缓冲。在一个实施例中,池化例如可以包括简化由卷积层或任何其他层收集的信息,并创建这些层内所含的信息的压缩版本。
76.在一些示例中,可以使用基于区域的cnn(rcnn)或一维(1-d)cnn。rcnn包括使用选择性搜索来识别图像中的一个或多个感兴趣区域,并从每个区域独立地提取cnn特征以进行分类。在一个或多个实施例中采用的rcnn的类型可以包括fast rcnn、faster rcnn或mask rcnn。在其他示例中,一维cnn可以处理使用滑动窗口生成的固定长度的时间序列段。此类一维cnn可以以多对一配置运行,该配置利用池化和跨步来连接最终cnn层的输出。然后,可以使用全连接层在一个或多个时间步长上生成分类预测。
77.与沿输入信号对固定长度的内核进行卷积的一维cnn不同,递归神经网络(rnn)按顺序处理每个时间步长,因此rnn层的最终输出是每个先前时间步长的函数。在某些实施例中,可以使用被称为长短期记忆(lstm)模型的rnn变体。lstm可以包括一个存储单元和/或一个或多个控制门,以对长序列中的时间依赖性进行建模。在一些示例中,lstm模型可以是单向的,这意味着该模型按照记录或接收的顺序处理时间序列。在另一个示例中,如果整个输入序列是可用的,则可以在相反的方向上(时间上向前和向后)评估两个平行的lstm模型。两个平行lstm模型的结果可以连接起来,形成双向lstm(bi-lstm),可以对两个方向的时间依赖性进行建模。
78.在一些实施例中,可以组合一个或多个cnn模型和一个或多个lstm模型。该组合模型可以包括四个无跨步cnn层的堆栈,其后可以是两个lstm层和一个softmax分类器。softmax分类器可以归一化概率分布,该概率分布包括与输入的指数成正比的若干个概率。例如,cnn的输入信号没有被填充,因此即使各层是无跨步的,每个cnn层也会将时间序列缩短几个样本。lstm层是单向的,因此对应于最终lstm输出的softmax分类可用于训练和评估,以及用于重组滑动窗口段的输出时间序列。不过,组合模型可以以多对一配置运行。
79.2.1用于分类的示例性宠物放射学图像
80.图1示出了根据某些实施例的由一个或多个机器学习模型或工具处理之前和之后的放射影像图像。在图1的示例中,之前的图像110示出了宠物心脏的x射线图像。因此,之前的图像110尚未被一个或多个机器学习模型和/或工具处理过。之后的图像120已被分类为心血管,并被子分类或进一步分类为心肌肥大。该分类是基于之前的图像110中包括的一个或多个特征。具体地,之前的图像110中用于分类的一个或多个特征可以包括宠物心脏的大小和形状和/或心脏与其他身体部位(例如宠物的胸腔或其他身体部位)的关系。
81.2.2宠物放射学图像的标签
82.图2示出了标签220的示例,其可以由受过训练的兽医放射科医生或任何其他兽医
专家选择,以应用于输入图像210。例如,标签220可以包括至少五个不同的类,以及至少33个不同的子类或进一步的类,其范围不断扩大。第一个分类可以是心血管。与心血管分类相关的子分类可以是心肌肥大、椎体心脏评分(vhs)、右心室增大、左心室增大、右心房增大、左心房增大、主动脉增大、主肺动脉增大。第二个分类可以是肺部结构。与肺部结构相关的子分类可以包括间质非结构化、间质-结节、肺泡、支气管、血管、肺部肿块。第三个分类可以是纵隔结构。与纵隔结构相关的子分类可包括食管扩张、气管塌陷、气管偏离、淋巴结肿大、肿块。第四个分类可以是胸膜腔,其可与例如胸腔积液、气胸、胸膜肿块等子分类相关联。第五个分类可以是胸腔外,其可与例如脊椎病、颈部气管塌陷/气管松弛、退行性关节病、胃扩张、腹腔积液/细节丢失、椎间盘疾病、脱位/半脱位、侵袭性病变、肝肿大、胃部异物、肿块/结节/脂肪瘤等子分类相关联。
83.特别地,根据某些非限制性实施例,输入图像210可以被注释和/或标记210。分配标签的一种示例性方法可以是使用自动化的、自然语言处理(“nlp”)模型,该模型可以从一个或多个相关的放射学报告将文本输入到图像的主体中。在另一个示例中,受过训练的兽医放射科医生可以手动将标签应用于所有提取的图像。
84.在某些非限制性实施例中,可以使用注释或标记的图像来训练机器学习模型或工具。换言之,所确定的分类可以基于图像中包括的注释或标签。该模型可以使用例如两个离散的步骤进行训练。在第一步骤中,可以使用通过nlp模型标记或注释的图像来训练机器学习模型,例如cnn。在第二步骤中,可以使用由受过训练的兽医放射科医生(即专家)标记的提取的图像进一步训练经训练的机器学习模型。出于示例而非限制的目的,机器学习模型或工具的架构可以根据densenet-121、resnet-152、shufflenet2、resnext101、ghostnet、efficientnet-b5、senet-154、se-resnext-101、inception-v4、visual transformer、swin transformer中的至少一个和/或任何其他已知的训练工具或模型进行编程或训练。
85.2.3一个实施例中对宠物放射学图像进行分类
86.图3示出了使用机器学习系统对图像进行分类和标记的示例性方法。在图3的示例中,方法300可以从第一步骤310开始,其中可以在设备处接收或采集图像。图像可以包括一个或多个特征。
87.在第二步骤320,系统可以为一个或多个图像中的每一个生成相应的分类,其中该分类由机器学习模型生成,其中该分类与一个或多个特征相关联。
88.在第三步骤330,系统可以将相应的分类和标记的特征传送到网络。
89.在第四步骤340,系统可以在客户端设备或网络上的另一计算设备上显示相应的分类。
90.3.0adjustnet:用于宠物放射学图像方向的自动化技术
91.在一个实施例中,本公开提供了一种用于在不依赖于dicom元数据或侧向标记的情况下自动确定兽医放射影像中正确的解剖学方向的方法。除其他外,本公开还提供了用于确定兽医放射影像中正确的解剖学方向以用于临床解释的深度学习模型,该深度学习模型不依赖于dicom元数据或侧向标记,并且可以包括用于大型远程放射学实践的新型实时部署能力。所公开的主题可以为各种临床影像学应用提供信息,包括质量控制、患者安全、存档校正以及提高放射科医生的效率。在一个实施例中,一种用于自动确定兽医放射影像中正确解剖学方向的模型可以被称为adjustnet。在一个实施例中,adjustnet包括两个子
模型。第一个子模型包括三个经训练的机器学习神经模型的集成,称为rotationnet,用于确定宠物放射影像图像的正确旋转。第二个子模型包括三个经训练的机器学习神经模型的集成,称为flipnet,用于确定是否应该翻转宠物放射影像图像。在一个实施例中,adjustnet、rotationnet和flipnet可以如本公开的本节中详述的方式被构造、训练和使用。
92.放射影像成像对于无数重要医疗状况的诊断是很重要的。准确的图像方向对于最佳临床解释至关重要,但数字成像元数据中的错误可能导致不正确的显示,需要人工干预,并使实现临床工作流程质量和效率最大化的努力受挫。
93.此外,在放射影像中,有几个重要的工作流程考虑因素会影响放射科医生的临床解释,包括曝光设置、处理技术和解剖学方向。这些考虑因素作为文本元数据被纳入到医学数字成像和通信(dicom)通用图像文件格式中,以伴随像素数据,用于使用dicom查看器进行查看和放射学解释。尽管有标准化的dicom成像文件约定,但元数据信息中的不一致,特别是关于图像方向的不一致,是很常见的,并导致在医学解读任务期间实践工作流程效率低下。解读前需要手动对图像进行重新定向。此外,大多数放射学实践在放射影像成像时,使用侧向标记指示患者位置,但是,这种实践是异质的且容易出错,这也可能导致类似的图像方向错误。因此,一种不依赖于准确的dicom元数据或侧向标记的正确dicom放射影像图像方向的自动化解决方案可以显著改进放射科医生的工作流程,减少解释错误,有助于质量改进和教育计划,并促进回顾性医学影像数据的数据科学管理。
94.在一个实施例中,本公开提供了各种网络架构,以实现准确的自动放射影像图像方向检测。在一项实验中,使用包含50,000张带注释的兽医放射学图像的数据集开发了卷积神经网络架构,以实现从0、90、180和270度、跨解剖区域和临床症状水平和垂直翻转的准确的自动放射影像图像方向检测。
95.在一个实施例中,可以针对正确方向的图像的任务训练模型。该模型可以是单一模型或两阶段模型。在非限制性实施例中,可以使用多种不同的权重初始化技术来开发模型。例如,可以使用已经预训练的模型权重(例如,在imagenet上)来执行迁移学习方法,或者模型可以被随机初始化,然后在增强数据上进一步预训练。在非限制性实施例中,可以使用各种训练管道来开发模型。例如,可以使用增强数据预训练模型,并使用真实数据进行微调。该模型还可以使用增强数据和真实数据进行联合训练。在某些实施例中,所公开的主题可用于计算经训练的神经网络的卷积层的特征图的加权和。
96.本公开的以下第3.1-3.4节,除其他外,描述了各种实施例中adjustnet及其组件的数据整理、数据注释、数据增强、训练和测试等。
97.3.1输入数据和工作流程
98.在经伦理审查委员会批准的一项研究中,获得了50,000次dicom格式的检查的数据集。这些检查是随机选择的,检查数量的分布如表1所示。
99.表1.检查数量的示例性分布
100.将所有dicom图像首先转换为高分辨率的jpeg2000格式,然后转换为512像素的较大尺寸的png格式。将图像大小调整为256
×
256像素,然后如本文关于数据增强的进一步描述,通过使用0.8的图像裁剪和随机放大(100%-120%)对图像进行居中裁剪,以最小化图像中的侧向标记,。训练集有1550张图像;验证集有350张图像(加上增强)。
101.图5示出了图像方向任务的示例性工作流程。
102.如图5所示,一名具有14年经验的经委员会认证的兽医放射科医生通过迭代标记过程对影像学检查进行了注释。在人类专家对251张图像的初始数据集进行审查之后,使用初始数据集进行建模(如本文关于模型训练的进一步描述),之后使用经训练的模型选择新的检查进行人类审查,重点关注基于人类专家审查而错误的图像,以为专注于困难检查的模型训练提供更多数据。这个过程重复了五次;人类专家总共对1550张图像进行了注释。由于数据集的类别不平衡,通过旋转和翻转正确方向的图像进行增强。还进行了裁剪,这是因为初始模型被发现,与先前的研究类似,依赖于侧向标记的位置来确定方向,这在对数据集中的原始的错误定向的图像进行专家人工审核的分析时是不可靠的,如结合图6进一步描述的。
103.图6示出了猫科动物头骨的错误定向图像示例和正确定向图像示例的放射影像图像。
104.特别地,图6示出了猫科动物头骨放射影像的错误定向图像(左)和正确定向图像(右)的示例。图像中突出显示了一个侧向标记,其在这种情况下被错误地应用。
105.3.2模型开发
106.首先,针对正确定向图像(旋转和翻转)的任务训练单个模型。该多类模型有8个输出神经元(0旋转-无翻转(0-no-flip)、90度旋转-无翻转(90-no-flip)、180度旋转-无翻转
(180-no-flip)、270度旋转-无翻转(270-no-flip)、0旋转-翻转(0-flip)、90度旋转-翻转(90-flip)、180度旋转-翻转(180-flip)、270度旋转-翻转(270-flip))。表2示出了训练集、验证集和测试集中每个标签的放射影像研究计数。
107.表2.训练集、验证集和测试集中每个标签的放射影像研究计数。
108.接着,使用两阶段分步的方法,通过训练一个模型以正确地旋转图像,然后训练第二个模型以正确地翻转图像,来自动重新定向图像(见图7)。
109.图7示出了根据某些非限制性实施例的具有集成的示例性两阶段模型技术的示意图。
110.特别地,图7示出了示例性两阶段模型方法,其具有用于每个任务(旋转,随后翻转)的集成。每个步骤均由针对给定任务训练的三种不同的模型架构组成,实践中的启发式方法要求所有三种模型在对图像进行给定的重新定向之前达成一致。对于旋转网络(rotationnet)和翻转网络(flipnet),训练了不同的cnn架构(resnet、xception和densenet121)并比较了它们的性能。使用了两种不同的权重初始化技术:(1)使用在imagenet上预训练的模型权重执行迁移学习方法,以及(2)模型被随机初始化,然后在增强数据上进一步预训练。还使用了两种不同的训练管道:(1)使用增强数据预训练模型,然后使用真实数据进行微调,以及(2)使用增强数据和真实数据联合训练模型。在一个实施例中,在所公开的数据采集过程的多次迭代中,在增强数据和真实数据上联合训练的随机初始化模型在准确性方面优于其他方法。因此,在一个实施例中,该方法用于训练最终模型。
111.在一个实施例中,通过计算经训练的神经网络的最后一个卷积层的特征图的加权和,来使用grad-cam。通过对类别标签的梯度之和相对特征图的权重进行归一化来确定权重。这些加权和被重新调整为输入图像的图像大小,被转换为rgb图像,然后被叠加在原始输入图像上(参见图8)。
112.图8示出了gradcam变换的示例性图像,其用于关于图像方向的模型决策。
113.如图8所示,在一个实施例中,所生成的图像用于评价模型并告知增强过程。图8示出了gradcam转换,其指示了图像中用于关于图像方向的模型决策的像素。重要的是,在一个实施例中,像素中不包括侧向标记。令人鼓舞的是,在部署了模型后需要使用手动转换的研究数量比没有部署模型的情况下减少了50%。
114.所有模型都在两个tesla v100图形处理单元(gpu)上进行训练。这些模型被设计为最小化交叉熵损失,使用具有默认参数和1x10-3
学习率的adam优化器,如果模型在大约两个周期内未提高验证准确性,则将学习率以0.1的系数降低。由于总的图像中只有10%被错误地定向,因此需要高精度才能在生产环境中发挥作用。因此,采用了一种集成策略,其中三个网络必须在旋转或翻转上达成一致。
115.3.3模型部署
116.在一个实施例中,可以使用托管在docker容器中并可经由restful api调用的微服务集中部署两步模型,从而允许该模型永久驻留在存储器中,以获得最佳推理速度。然后,该模型的输出可以用作部署在整个人工智能管道中的其他人工智能模型的输入。每个图像及其模型的预测都可以最终存档在中央存储库中(见图9)。
117.图9示出了示例性模型部署工作流程的示意图。
118.在一项研究中,为了量化模型后期制作的影响以获得实时的前瞻性影响,将生产模型从工作流程中移除24小时,并使用web用户界面(ui)日志来采集在研究解释期间需要咨询放射科医生对放射影像进行手动变换(例如旋转和/或翻转)的情况。整个研究期间的数据以重叠的、24小时的批次进行汇总,使用滑动窗口,该窗口每三个小时移动一次,直至研究结束。所关注的度量是使用一次或多次手动转换的研究的比例。图9的红色部分示出了模型被关闭的时间段,手动转换增加的滞后是由于研究被接收到系统与放射科医生评估研究图像之间的滞后时间。
119.3.4用户反馈
120.在一项研究中,开发了一项部署后的放射科医生用户调查,通过放射科医生的解释来确定对自动化rotationnet的使用体验。提出了具有likert量表的回答选项的四个问题:(1)自动放射影像定向模型(rotationnet)的实施对您的临床工作效率有何影响?(2)您是否推荐在您正在进行的临床工作流程中使用rotationnet?(3)是否存在任何不应在临床上使用rotationnet的情况?(4)如有任何意见/疑虑,请填写。该调查被发送给了79名放射科医生,他们代表了远程放射科医生、混合型学术-远程放射科医生、混合型私人临床医生-远程放射科医生的混合群体,20.2%完成了调查。关于对临床工作效率的影响,88%的受访者将对临床工作效率的影响评为4或5级(“更好”或“好得多”)。两名受访者将对临床工作效率的影响评为3级-不好也不坏。没有受访者认为rotationnet对临床工作效率的影响为更差。94%的受访者表示,他们会推荐在其正在进行的临床工作流程中使用rotationnet;只有一名受访者表示不确定。没有受访者表示他们不会推荐rotationnet。当被问及是否存在不应在临床上使用rotationnet的情况时,69%的受访者回答“没有”,而其他人则表示不确定。不确定的回答总体上归因于个体缺乏机器学习的知识。开放式评论(调查的第四个问题)主要(80%的人留下了评论)是针对在rotationnet无法正确旋转图像或离线进行定期维护或升级时,放射科医生的灵敏度增加。一位受访者评论说,期待符合他们的个人偏好的横断面成像。其余的受访者的评论是重申先前的答案或对其工作环境的普遍积极评价。
121.表3a和表3b示出了不同建模方法的准确性。给定任务的模型的准确性(上部)和误差(下部)。请注意,旋转(行)和翻转(列)任务的集成模型均实现了最高性能。
122.表3a.不同方法的准确性。 densenetresnetxception集成densenet0.960.970.950.97resnet0.960.960.960.97xception0.960.960.950.97集成0.980.980.970.99
123.表3b.不同建模方法(平衡数据)的准确性。 densentresnetxception集成densenet0.920.910.90.91resnet0.910.910.910.91xception0.920.90.90.92集成0.910.90.920.91
124.放射科医生通常会在解释之前花费时间和认知上的努力来处理图像,以便正确定向图像。在放射影像学中,这包括首先确定方向是否正确,然后在图像内和图像之间多次切换、翻转和旋转。对于一项单独的研究而言,这项工作并不显著,但总体而言,在许多放射科医生的繁忙实践中,除了带来不便之外,这种手动调整错误定向的图像的低效率可能会导致错误、延误治疗和医生的倦怠。一项研究的目的是探索深度学习模型的开发,以确定用于临床解释的兽医放射影像的正确解剖方向,并描述大型远程放射学实践中的新型实时部署经验。该研究发现,数据增强技术显著改善了所有模型,三个模型的集成(rotationnet)实现了最高的性能(错误率《0.01),优于相关工作中报告的最先进技术。此外,rotationnet在实际生产环境中的成功部署,在一个月内为24个以上国家/地区的4,600多家医院处理了300,000个传入的dicom文件,将需要临床放射科医生人工干预的研究数量减少了50%。在实践中,使用rotationnet的自动医学影像dicom方向实现了最先进的或更好的性能,优化了在大规模生产中的临床影像成像的解释工作流程。
125.图10示出了根据某些非限制性实施例的用于错误分析的示例性图像。
126.对假阳性和假阴性进行了错误分析;错误的示例如图10所示。特别地,图10示出了adjustnet模型的示例性错误分析图像。图10描绘了犬科动物的前臂(左侧,标记为“l”)的放射影像,其中模型错误地预测图像需要旋转90度,但它在原始状态下的方向是正确的。图10还描绘了犬科动物的放射影像(右侧,标记为“r”),其中模型错误地预测图像需要翻转180度,但它在其原始状态下的方向是正确的。
127.在一个实施例中,rotationnet可以用于在没有dicom或侧向标记的情况下自动对大量检查进行追溯性地编码,并且对其他任务也可以有效,例如向诊所反馈关于错误定向、dicom元数据中的错误、或错误的侧向标记。在一个实施例中,rotationnet可以在护理点应用以作为给放射技师的反馈,用于即时且一致的反馈的应用,而不是在提交用于解释之后,这有可能提高意识和基线功能,从而减少错误(例如,标记错误)。
128.4.0使用rapidreadnet的端到端的宠物放射学图像处理
129.在一个实施例中,本公开提供了一种被称为rapidreadnet的机器学习神经模型。
在一个实施例中,rapidreadnet可以被编程为与41个研究发现相关联的多标签分类器,这些研究发现与宠物或动物放射影像图像中可检测到的各种病症相对应。在一个实施例中,rapidreadnet可以如本公开的本部分中详述的那样被构造、训练和使用。
130.4.1一个实施例中用于训练rapidreadnet的图像数据集
131.使用大型图像集作为训练数据集来训练经编程的学习神经模型可能是有益的。在各种实施例中,未标记的训练数据可以由人类主题专家和/或由现有的机器学习模型进行标记,以生成一个或多个标记的训练数据集。
132.图11示出了在一个实施例中为建模而评估的图像池。在该示例中,评估了一个图像池,其中包括从2007年到2021年的390多万张兽医放射影像。在各种实施例中,图像在被用作训练数据集之前可以被下采样或以其他方式进行预处理。在图11所示的研究中,390万张放射影像中的大部分先前被存档为有损(质量89)的jpeg图像,被下采样到1024像素(px)的固定宽度(下表4中的“集合1”)。在其余的放射影像中,大多数是以(无损的)png图像的形式提供的,这些图像被下采样,使其较小的尺寸(宽度或高度)为1024px(表4中的“集合2”)。
133.表4.x射线图像数据汇总。
134.图12示出了一个实施例的x射线系统的基础设施,其中图像可以作为临床工作流程的一部分被采集。最终的图像子集是作为当前临床工作流程的一部分而采集的(图12),其中提交的dicom图像被下采样到512px的固定高度,然后转换为png(表4中的“银盐”)。在所有情况下,下采样过程都保留了原始长宽比。在该示例中,所有图像都与原始dicom标签的子集一起作为元数据提供。在该示例中,所有图像/研究都涵盖了在14年期间收到的来自各个客户医院和诊所(n》3500)的真实临床病例,如图11所示。
135.在特定实施例中,在建模之前可以应用多个过滤步骤。在该示例中,首先,使用imagemagick移除重复的和低复杂度图像。在该示例中,其次,使用为此目的训练的cnn模型过滤掉成像伪影和不相关的视图或身体部位。包含10张以上图像的研究也被排除在外。在390万张兽医放射影像中,过滤后剩下大约270万张图像,其代表超过725,000名不同的患
者。
136.在特定实施例中,建模的下一步可以包括注释和标记。在该示例中,图像被注释了41种不同的放射学观察结果(见下表5)。
137.表5.放射学标签。
138.在该示例中,对于大多数图像(2020年之前的研究),标签是使用自动化的、基于自然语言处理(nlp)的算法从相应的(研究方面的)放射学报告中提取的。在实施例中,标签可以使用另一种方法从放射学报告中提取。在实施例中,该初始标记的训练数据可以在不使用任何机器学习模型的情况下生成,例如,通过使用人类专家。在该示例中,放射学报告汇总了一项特定研究中的所有图像,由2000多名不同的经委员会认证的兽医放射科医生撰写。在该示例中,来自最近研究的图像(2020-2021年;表4中的“银盐”)由兽医放射科医生在完成研究评估后立即进行单独标记。
139.可以使用各种方法来评估经训练的模型的准确性和注释者间的差异性。在该示例
中,从“银盐”集合中随机选择了少量的图像(n=615),由另外12名放射科医生进行标记。这些数据没有被用于训练或验证。为接收者操作特征曲线(roc)分析和精确度-召回率(pr)分析生成基准真相标签的一种方法是通过多数规则投票为每个图像聚合标签。在该示例中,如果12名放射科医生中的大多数表示存在某种发现,则将该发现用作基准真相标签。特定放射科医生的假阳性率(fpr)和灵敏度的点估计值是通过将他们的标签与其他11名医生的多数规则投票进行比较来计算的。
140.在该示例中,从放射学报告的“结果”部分自动提取标签是使用本领域已知的基于规则的标签软件的修改版本完成的。然而,标签的数量被扩展到41个,如表5所示。
141.在该示例中,尽管报告包含了研究中所有图像的观察结果,但它们从未明确地将这些观察结果与特定图像文件联系起来。因此,在该示例中,从报告中提取的每个研究的标签最初被应用于相应研究中的所有图像,然后使用一组专家提供的规则进行掩码。以这种方式使用规则可以确保标签仅应用于显示相应身体部位的图像(例如,可以从骨盆的图像中移除“心肌肥大”的标签)。本文更具体地讨论了关于掩码(marking)的细节。
142.在该示例中,单独标记的数据的数据集(x1,y1),
…
,(xn,yn)与由适用于兽医放射学报告的标记器所标记的数据一起使用。在实施例中,每个研究发现可以被输入为0(阴性)、1(阳性)或u(不确定),并且可以在放射学报告的层面而不是单个图像的层面确定。因此,在数据集上可能存在标签噪声。
143.4.2用于图像分类任务的神经模型训练技术
144.在一个实施例中,由一个或多个人类主题专家注释的图像数据集和使用经训练的自然语言处理(nlp)模型注释的可能更大的数据集,可以通过适用于多标签用例的提炼方法进行组合。在一个实施例中,可以首先使用人工注释的数据集对teacher模型θ
t*
进行训练,并且可以在训练过程中加入噪声:
145.之后,可以使用teacher模型来推断图像的软伪标签。在推理步骤中,不能使用噪声:
146.在一个实施例中,可以使用以下规则将软伪标签与nlp衍生标签相结合:
147.在一个实施例中,可以使用衍生标签训练一个或多个student模型。例如,可以向student模型添加噪声来训练相等或更大的student模型θ
s*
:
148.值得注意的是,在一些实施例中,软伪标签可能不与nlp生成的标签组合。
149.在一个实施例中,当新的训练数据被流式传输到系统中或以其他方式获得时,可以使用主动学习过程更新一个或多个student模型。在一个实施例中,student模型中的一
个(或student模型的集成)可以被编程为作为新的teacher模型,并且该过程可以在没有第一步骤的情况下重新进行。在一个实施例中,每当系统接收到大量新的标记数据时,便可以编程方式触发所述主动学习过程发生。
150.在特定实施例中,可以根据各种不同的人工神经网络架构对student模型和teacher模型进行编程。对于每个模型,可以最大化适合于存储器并用以确定批处理大小的图像数量。在该示例中,这导致批处理大小在32到256之间。在该示例中,使用了不同的图像输入尺寸(范围从224
×
224至456
×
456),并且均通过将原始图像重塑为输入尺寸,以及将图像零填充为正方形,然后调整尺寸以保持原始图像的比例不变来进行训练。训练时可以执行多种图像增强技术。在该示例中,模型是进行过预训练的,最多训练30个周期,并且如果验证损失连续两个周期没有减少,则提前停止。
151.在一个实施例中,为了校准每个研究发现的概率,可以应用分段的线性变换用于所有的研究发现φ。可以设置opt
φ
以在独立验证集上优化约登j统计(youden's j statistic)。
152.在一个实施例中,用于对目标放射学图像(例如动物和/或宠物放射学图像)进行分类的最终训练的机器学习模型可以是单独的、经过校准的深度神经网络student模型的集成。在一个实施例中,平均输出可以导致比通过投票更好的结果。在该示例中,基于验证集使用了8个最佳模型,然后使用最佳子集的方法来确定最佳集成。令人惊讶的是,最佳子集是8个模型的完整集合,换言之,其包括与集成的其余模型相比而表现不佳的模型。在该示例中,这些表现不佳的模型在被包含在student模型的集成中时仍然有助于整体预测。包含单独的、经过校准的深度神经网络的集成的最终模型可以被称为rapidreadnet。
153.4.3漂移分析、实验结果和纵向漂移分析
154.为评估是否需要补偿在一个示例之外获得的图像的差异以及在行业中的使用,可以进行漂移分析。例如,在开发系统时,图像x1,...xn和每张图像的研究发现y1,...yn可以被视为来自联合分布p
dev
(x,y)中的抽样。在现实世界的应用中,图像和研究发现可以从分布p
prod
(x,y)中呈现。在该示例的规模的兽医放射学中,多种潜在因素可能导致这些分布之间存在差异,包括品种的变化、不同的放射设备或不同地区的临床实践的差异。可以对协变量偏移,换言之,即边际分布的变化,p
dev
(y∣x)=p
prod
(y∣x)p
dev
(x)≠p
prod
(x)进行研究,并且可以分析其对模型性能的影响。为了检测协变量偏移,可以使用alibi-detect软件训练自动编码器。在一个实施例中,可以在开发时训练自动编码器fa(
·
,θ),以关于θ而最小化∫(x-fa(x∣θ))2dp
dev
。然后可以使用经训练的自动编码器在生产时重建图像,并分析重建误差。
155.图13-17示出由多位放射科医生标记的615张图像集的结果roc和pr分析结果,将模型预测与放射科医生对心血管/胸膜腔的研究发现(图13a和13b)、肺部的研究发现(图14
和图14b)、纵隔的研究发现(图15a和15b)、以及胸腔外的研究发现(图16a和16b)的标签进行比较。每个图均示出每个研究发现的roc(上部)和pr(下部)曲线,以及每个放射科医生的假阳性率(fpr)、精确度和召回率(灵敏度)的点估计。少于五个阳性标签的研究发现没有被分析。模型的准确性可以与个体放射科医生的准确性相媲美。
156.还进行了纵向漂移分析。在该示例中,使用所有存档图像(参见表4中的集合1和集合2)训练自动编码器,然后将其应用于后续研究的图像,检查每个图像的l2范数重建误差。
157.图18示出了按周计算的重建误差的可视化。
158.特别地,图18示出了从2020年11月到2021年6月,按周分组的l2误差的分布和四分位数。如图18的周图所示,观察到分布之间几乎没有差异,这表明输入数据在过去一年中是一致的,并表明该模型对来自新客户的数据是稳健的。这种感知漂移的缺乏可部分地归因于训练数据中所代表的组织和动物的高度多样性。
159.图19示出了重建误差作为所代表的多个组织的函数的分布。特别地,图19示出了来自数量较少的组织(1、6、...、16个组织)的数据似乎不能很好地表示图像数据的总体多样性。
160.值得注意的是,在一个独立的、手工标记的测试集上,观察到数据大小和模型性能之间存在正相关关系。在不同大小的数据子集上训练efficient-net-b5,并在同一测试集上测试所生成的模型。结果可以在表6中观察到,并表明随着数据规模的扩大有可能进一步提高性能。表6示出了模型在30,477个未见过的测试数据点上的度量,与一名经委员会认证的放射科医生的基准真相相对比。所有数据均在临床生产环境中进行了标记。
161.表6.模型在30,477个未见过的测试数据点上的指标与一名经委员会认证的放射科医生的基准真相的对比。
162.表7(如下)示出了每个研究发现的研究方面的roc结果。阳性数量(npositive)一栏列出了(在9311项研究中)具有至少一个阳性标签的研究数量。对于阳性实例少于10个(npositive)的研究发现,未计算接收者操作特征曲线下面积(auroc)、假阳性率(fpr)和灵敏度(sensitivity)。
163.表7.每个研究发现的研究方面的roc结果。
164.4.4一个实施例中的rapidreadnet的系统架构和方法
165.示例性的基础设施管道可以依赖使用docker容器部署的微服务(rest-api)。每个容器都可以使用sebastian ramirez的fastapi框架来部署rest api模块,并且每个容器都可以服务于一个独特的专门任务。在一个实施例中,生产管道包括使用消息代理的异步处理方法,以容纳每天待处理的大量图像(例如,大约15,000张)。例如,这可以通过使用nosql数据库,其存储每个单独的传入请求,以及使用redis queuer库,其作为后台处理机制以并行地消耗每个存储的请求,来实现。
166.来自模型的预测可以以json格式返回,并可以直接存储到mongodb数据库中进行长期存档,也可以存储到redis json存储中进行短期存档。在其他实施例中,预测可以存储在另一种数字存储中,例如关系型数据库、云存储、本地硬盘驱动器、数据湖或其他存储介质。在一个非限制性实施例中,使用短期存储(例如redis json)可以允许在研究层面上对
结果进行聚合,同时包含一些上下文方面的内容。
167.如图12所示的最佳情况,微服务可以通过执行以功能元素组织的代码的docker容器进行管理,例如:(1)消息代理:对即将到来的请求进行预处理、监控和调度,(2)模型服务:ai协调器模块和单独的模型服务。模型可以使用pytorch框架,(3)结果和反馈回路存储:在研究层面上对模型结果进行上下文处理,并发回结果。
168.消息代理层可以包括五个docker容器:(i)redis queuer模块,(ii)redis数据库,(iii)redis json模块,(iv)redis队列工作者,以及(v)redis监控面板。每张传入的图像都通过(i)redis queuer模块(其将图像文件及其相应的研究范围内的元数据临时存储在本地磁盘上)发送,并向(ii)redis数据库队列添加一个条目。在一个实施例中,redis队列工作者并行执行,以检查redis数据库中的新请求,并将其发送到ai协调器。该架构一天至少可以为15000多张图像提供服务。
169.可以对ai协调器容器进行编程,以协调来自其他章节中所述的不同ai模块的推理的执行。在一个实施例中,从中收集预测的第一ai模型是adjustnet(模型1)。在一个实施例中,该模型1检查放射影像图像的方向。接着,dxpassnet(模型2)可以验证该图像是否对应于该架构预测发现的身体部位该预测是来自rapidreadnet(一种与对应各种病症的41个标签相关联的多标签分类器,见表6)的任务。可以使用研究范围内的元数据对结果进行上下文处理,这些元数据是在图像最初上传到服务期间与图像一起提供的。在一个实施例中,为了在研究层面上实现这种聚合,可以将所有研究范围内的图像推理的记录暂时存储在redis json模块中,并且可以使用基于规则的专家系统工具进行管理,例如c语言集成产生式系统(clips)。在具有基于规则的专家系统工具的实施例中,针对模型和动物元数据的输出而应用的规则可以用于获得放射科医生报告的上下文数据。在一个实施例中,python库可以与c工具交互,并且使用mongodb数据库保存规则,通过定期创建新规则以支持规则的动态性。其他实施例可以使用不同的编程语言、代码库或数据库类型。此外,实现某些所公开功能的其他实施例可以包括更少的、更多的或不同的ai模块。
170.一个实施例可以包括反馈存储回路。在一个实施例中,所有记录可以(1)以json格式存储在数据库中,例如上文所述的mongodb数据库,(2)使用嵌入式的部署前和部署后基础设施,(3)包括说明使用所公开系统的诊所、放射科医生数量的数据,(4)包括放射科医生提供标签反馈的工作流程,(5)包括在半监督方法中获取数据时添加新标签的方法,以及(6)包括过程的金丝雀性能描述/阴影性能描述。
171.图20示出了使用机器学习神经模型对放射学图像(例如动物和/或宠物放射学图像)进行分类的示例性计算机实现或编程的方法。
172.方法2000可以被编程为从步骤2002开始,该步骤包括接收包括第一多个图像的第一标记训练数据集,第一多个图像中的每个图像与一组标签相关联。
173.在一个实施例中,程序化控制可以指示步骤2004的执行,该步骤包括在第一标记训练数据集上以编程方式训练机器学习神经teacher模型。
174.在一个实施例中,程序化控制可以指示步骤2006的执行,该步骤包括以编程方式将为自然语言处理(nlp)而训练的机器学习模型应用于未标记的数据集,该数据集包括第二多个图像的自然语言文本摘要的数字电子表示,从而生成包括第二多个图像的第二标记训练数据集。
175.在一个实施例中,程序化控制可以指示步骤2008的执行,该步骤包括使用机器学习神经teacher模型,以编程方式为第二多个图像中的每个图像生成对应的一组软伪标签。
176.在一个实施例中,程序化控制可以指示步骤2010的执行,该步骤包括使用软伪标签,以编程方式为第二标记训练数据集中的每个图像生成一组衍生标签。
177.在一个实施例中,程序化控制可以指示步骤2012的执行,该步骤包括使用衍生标签训练一个或多个经编程的机器学习神经student模型。在一个实施例中,程序化控制可以指示步骤2014的执行,其包括接收目标图像。
178.在一个实施例中,程序化控制可以指示步骤2016的执行,该步骤包括应用一个或多个student模型的线性集成以输出目标图像的一个或多个分类。
179.在一个实施例中,程序化控制可以指示步骤2018的执行,该步骤包括,可选地,使用主动学习以编程方式更新一个或多个经编程的机器学习神经student模型中的一个或多个。
180.本文所公开的实施例仅是示例,并且本公开的范围不限于此。某些非限制性实施例可以包括本文所公开的实施例的所有、一些或没有的组件、元件、特征、功能、操作或步骤。
181.5.0某些实施例的优势
182.5.1rotationnet的示例性技术优势
183.在某些实施例中,所公开的数据增强技术显著改进了用于自动确定兽医放射影像中的正确解剖学方向的机器学习模型。实际上,在一个实施例中,被称为rotationnet的三个机器学习模型的集成实现了卓越的性能(例如,错误率《0.01),优于相关工作中报告的最先进技术。此外,成功部署所公开的主题可以将临床放射科医生的人工干预的需求减少至少约10%、约20%、约30%、约40%或约50%。术语“约”或“大约”是指在由本领域普通技术人员测定的特定值的可接受误差范围内,这将部分取决于如何测量或测定该值,即,测量系统的局限性。例如,根据本领域的实践,“约”可以表示在3个或3个以上的标准偏差内。可替代地,“约”可以表示给定值的至多20%的范围、优选地至多10%的范围、更优选地至多5%的范围、进一步更优选地至多1%的范围。可替代地,特别是对于生物系统或过程而言,该术语可以表示在某个值的一个数量级内,优选地在5倍以内,并且更优选地在2倍以内。
184.在一个示例中,在大型远程放射学实践中,每年大约有300万张放射影像被接收和解释,其中高达20%的医学数字成像和通信(dicom)元数据中缺少正确编码的方向信息,或者在侧向标记中存在错误,导致解释时图像方向不准确;总而言之,这导致放射科医生需做出大量努力在查看器中重新定向图像,并增加了下游临床决策重大错误的可能性。由于传统系统中的报告的性能和对侧向标记的依赖不足以用于临床转化,此外,先前的工作尚未证明基于现实世界实践的部署数据,因此需要新的自动图像定向方法,该方法与dicom元数据无关,并具有基于实践的证据。在一个实施例中,本公开提供了这样一种新颖的系统。
185.5.2rapidreadnet和一个实施例中所公开的用于宠物放射学图像分类的端到端系统的示例性技术优势
186.所公开技术的实施例可以允许通过用于数据提炼的建模和方法来检测犬科动物和猫科动物的放射影像中预定义的临床研究发现,该建模与方法将自动标记与提炼相结合,并且显示出与仅自动标记的方法相比的性能的增强。在本公开中,评估了数据缩放及其
与不同模型的交互。评估一个实施例的随时间变化的性能,并将其与随时间变化的输入漂移进行比较。本文讨论了实施例在用于x射线图像处理的更大的基于深度学习的平台中的部署过程和嵌入。如本文所述,使用应用噪声的放射科医生student模型可以提高x射线图像预测的鲁棒性。在兽医护理中大规模应用高性能的深度学习诊断系统,可以提供关键的见解,有助于解决这些有前景的人类和兽医医学成像诊断技术在转化为临床实践方面的差距。
187.本公开在关键领域提供了创新。在一个示例中,随机初始化的网络可以优于在imagenet上预训练的网络,并且增强数据和真实数据的联合训练可以优于预训练-微调管道。在训练过程中使用imagenet(使用旋转和翻转作为数据增强)进行预训练,可以引起图像重新定向的不变性,并限制医学图像中该任务的模型开发。此外,对增强数据的预训练可以使网络偏向于指示合成定向图像的某些特征,而联合训练可以作为一种正则化技术来避免这些偏向。此外,在包括adjustnet和/或rotationnet和/或rapidreadnet神经模型的实施例的上下文中描述的方法显示出显著的性能优势。除其他外,本公开为每个任务提供了一种专门的网络集成方法,该方法能够为模型训练进行独立优化和有针对性地增强。例如,所公开的技术已成功部署用于来自24个以上国家/地区的4600多家医院的放射影像上,并被证明可以将人工图像处理的需求减少50%以上,证明了其可行性以及对整体工作流程效率的显著积极影响。
188.更普遍地说,用于医学成像的深度学习模型开发可能需要在数据整理方面付出巨大努力,由于档案数据的dicom标头经常被错误标记或不完整,这可能会大大增加困难。在一个实施例中,本公开提供了一种在实践中实现自动图像定向的方法。在其他实施例中,所公开的技术可以用于向诊所提供关于错误定向、dicom元数据中的错误或错误的侧向标记的反馈。因此,包括adjustnet和/或rotationnet和/或rapidreadnet的各种实施例可以用于在没有dicom或侧向数据的情况下对大量检查进行自动的追溯性编码,并且可以用于各种任务。在一个示例中,包括adjustnet和/或rotationnet和/或rapidreadnet的实施例可以在护理点应用以作为给放射技师的反馈,用于即时且一致的反馈的应用,而不是在提交用于解释之后,这有可能提高意识和基线功能,从而减少错误(例如,标记错误)。
189.总之,使用adjustnet和/或rotationnet或rapidreadnet的自动化医学成像dicom定向可以实现低于0.01的错误率,并且将人工专家干预图像定向的需求平均减少50%。所公开的主题包括一种新颖的端到端机器学习方法,用于优化放射影像定向,使得所有图像始终以正确的方向呈现,并在大规模部署中具有显著的效率增益。
190.6.0实施示例——硬件概述
191.图4示出了根据一些非限制性实施例的用于使用机器学习工具评估宠物或动物放射学图像的示例性计算机系统400。在某些非限制性实施例中,一个或多个计算机系统400执行本文描述或说明的一种或多种方法的一个或多个步骤。在某些其他非限制性实施例中,一个或多个计算机系统400提供本文描述或说明的功能。在某些非限制性实施例中,在一个或多个计算机系统400上运行的软件执行本文描述或说明的一种或多种方法的一个或多个步骤,或提供本文描述或说明的功能。一些非限制性实施例包括一个或多个计算机系统400的一个或多个部分。在此,在适当的情况下,对计算机系统的引用可以包括计算设备,反之亦然。此外,在适当的情况下,对计算机系统的引用可以包括一个或多个计算机系统。
192.本公开设想了任何合适数量的计算机系统400。本公开设想了采用任何合适的物理形式的计算机系统400。作为示例而非限制,计算机系统400可以是嵌入式计算机系统、片上系统(soc)、单板计算机系统(sbc)(例如,计算机级模块(com)或系统级模块(som))、台式计算机系统、笔记本计算机或笔记本电脑计算机系统、交互式信息亭、大型计算机、计算机系统网、移动电话、个人数字助理(pda)、服务器、平板计算机系统、增强/虚拟现实设备、或其中两种或多种的组合。在适当的情况下,计算机系统400可以包括一个或多个计算机系统400,其是集中式或分布式的、跨多个地点、跨多台机器、跨多个数据中心、或存在云端,其中云端可以包括一个或多个网络中的一个或多个云组件。在适当的情况下,一个或多个计算机系统400可以在没有实质空间或时间限制的情况下执行本文描述或说明的一种或多种方法的一个或多个步骤。作为示例而非限制,一个或多个计算机系统400可以实时地或以批处理模式执行本文描述或说明的一种或多种方法的一个或多个步骤。在适当的情况下,一个或多个计算机系统400可以在不同的时间或在不同的位置执行本文描述或说明的一种或多种方法的一个或多个步骤。
193.在某些非限制性实施例中,计算机系统400包括处理器402、存储器404、存储406、输入/输出(i/o)接口408、通信接口410和总线412。尽管本公开描述并说明了特定计算机系统,该系统以特定布置具有特定数量的特定组件,但是本公开设想了以任何合适布置具有任何合适数量的任何合适组件的任何合适的计算机系统。
194.在一些非限制性实施例中,处理器402包括用于执行指令的硬件,例如构成计算机程序的指令。作为示例而限制,为了执行指令,处理器402可以从内部寄存器、内部高速缓存、存储器404或存储406检索(或获取)指令;解码并执行指令;然后将一个或多个结果写入内部寄存器、内部高速缓存、存储器404或存储406。在某些非限制性实施例中,处理器402可以包括用于数据、指令或地址的一个或多个内部高速缓存。本公开设想了,在适当的情况下,处理器402包括任何合适数量的任何合适的内部高速缓存。作为示例而非限制,处理器402可以包括一个或多个指令高速缓存、一个或多个数据高速缓存、以及一个或多个转译后备缓冲器(tlb)。指令高速缓存中的指令可以是存储器404或存储406中的指令的副本,并且指令高速缓存可以加速处理器402对那些指令的检索。数据高速缓存中的数据可以是存储器404或存储406中的数据的副本,以供在处理器402处执行的指令进行操作;在处理器402处执行的先前指令的结果,以供在处理器402处执行的后续指令访问或写入存储器404或存储406;或其他合适的数据。数据高速缓存可以加速处理器402的读取或写入操作。tlb可以加速处理器402的虚拟地址转译。在一些非限制性实施例中,处理器402可以包括一个或多个用于数据、指令或地址的内部寄存器。本公开设想了,在适当的情况下,处理器402包括任何合适数量的任何合适的内部寄存器。在适当的情况下,处理器402可以包括一个或多个算术逻辑单元(alu)、可以是一个多核处理器、或者包括一个或多个处理器402。尽管本公开描述并说明了特定处理器,但是本公开设想了任何合适的处理器。
195.在一些非限制性实施例中,存储器404包括用于存储供处理器402执行的指令或供处理器402操作的数据的主存储器。作为示例而非限制,计算机系统400可以将指令从存储406或另一个源(例如,另一个计算机系统400)加载到存储器404。然后,处理器402可以将指令从存储器404加载到内部寄存器或内部高速缓存。为执行指令,处理器402可以从内部寄存器或内部高速缓存中检索指令并对其进行解码。在执行指令期间或之后,处理器402可将
一个或多个结果(其可以是中间或最终结果)写入内部寄存器或内部高速缓存。然后,处理器402可以将这些结果中的一个或多个写入存储器404。在一些非限制性实施例中,处理器402仅执行一个或多个内部寄存器或内部缓存或存储器404(而不是存储406或其他地方)中的指令,并且仅对一个或多个内部寄存器或内部缓存或内存404中(而不是存储406或其他地方)中的数据进行操作。一条或多条存储器总线(其每条可以包括地址总线和数据总线)可以将处理器402耦合到存储器404。如下所述,总线412可以包括一个或多个存储器总线。在某些非限制性实施例中,一个或多个存储器管理单元(mmu)存在于处理器402和存储器404之间,并且促进处理器402请求的对存储器404的访问。在某些其他非限制性实施例中,存储器404包括随机存取存储器(ram)。在适当的情况下,该ram可以是易失性存储器。在适当的情况下,该ram可以是动态ram(dram)或静态ram(sram)。此外,在适当的情况下,该ram可以是单端口或多端口ram。本公开设想了任何合适的ram。在适当的情况下,存储器404可以包括一个或多个存储器404。尽管本公开描述并说明了特定的存储器组件,但本公开设想了任何合适的存储器。
196.在一些非限制性实施例中,存储406包括用于数据或指令的大容量存储装置。作为示例而非限制,存储406可以包括硬盘驱动器(hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(usb)驱动器、或其中两种或多种的组合。在适当的情况下,存储406可以包括可移动或不可移动(或固定)介质。在适当的情况下,存储406可以在计算机系统400的内部或外部。在某些非限制性实施例中,存储406是非易失性固态存储器。在一些非限制性实施例中,存储406包括只读存储器(rom)。在适当的情况下,该rom可以是掩模编程rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可变rom(earom)或闪存或其中两种或多种的组合。本公开设想了采用任何合适的物理形式的大容量存储406。在适当的情况下,存储406可以包括一个或多个促进处理器402和存储406之间的通信的存储控制单元。在适当的情况下,存储406可以包括一个或多个存储406。尽管本公开描述并说明了特定的存储,但是本公开考虑任何合适的存储。
197.在某些非限制性实施例中,i/o接口408包括硬件、软件或两者,其为计算机系统400和一个或多个i/o设备之间的通信提供一个或多个接口。在适当的情况下,计算机系统400可以包括这些i/o设备中的一个或多个。这些i/o设备中的一个或多个可以实现人与计算机系统400之间的通信。作为示例而非限制,i/o设备可以包括键盘、小键盘、麦克风、监控器、鼠标、打印机、扫描仪、扬声器、静态相机、手写笔、平板电脑、触摸屏、跟踪球、摄像机、其他合适的i/o设备或其中两种或多种的组合。i/o设备可以包括一个或多个传感器。本公开设想了任何合适的i/o设备和用于其的任何合适的i/o接口408。在适当的情况下,i/o接口408可以包括一个或多个的设备或软件驱动程序,使使处理器402能够驱动这些i/o设备中的一个或多个。在适当的情况下,i/o接口408可以包括一个或多个i/o接口408。尽管本公开描述并说明了特定的i/o接口,但是本公开设想了任何合适的i/o接口。
198.在一些非限制性实施例中,通信接口410包括硬件、软件或两者,其为计算机系统400与一个或多个其他计算机系统400或一个或多个网络之间的通信(例如,基于分组的通信)提供一个或更多个接口。作为示例而非限制,通信接口410可以包括用于与以太网或其他有线网络通信的网络接口控制器(nic)或网络适配器,或者用于与无线网络(例如wi-fi网络)通信的无线nic(wnic)或无线适配器。本公开设想了任何合适的网络和用于其的任何
合适的通信接口410。作为示例而非限制,计算机系统400可以与自组织网络、个域网(pan)、局域网(lan)、广域网(wan)、城域网(man)、或因特网的一个或多个部分,或者其中两种或多种的组合进行通信。这些网络中的一个或多个网络的一个或多个部分可以是有线的或无线的。作为示例,计算机系统400可以与无线pan(wpan)(例如,蓝牙wpan)、wi-fi网络、wi-max网络、蜂窝电话网络(例如,全球移动通信系统(gsm)网络)或其他合适的无线网络或其中两种或多种的组合进行通信。在适当的情况下,计算机系统400可以包括用于这些网络中的任何网络的任何合适的通信接口410。在适当的情况下,通信接口410可以包括一个或多个通信接口410。尽管本公开描述并说明了特定的通信接口,但是本公开设想了任何合适的通信接口。
199.在某些非限制性实施例中,总线412包括将计算机系统400的组件彼此耦合的硬件、软件或两者。作为示例而非限制,总线412可以包括加速图形端口(agp)或其他图形总线、增强型工业标准架构(eisa)总线、前端总线(fsb)、hypertransport(ht)互连、工业标准架构(isa)总线、infiniband互连、低引脚数(lpc)总线、内存总线、微通道架构(mca)总线、外围组件互连(pci)总线、pci-express(pcie)总线、串行高级技术附件(sata)总线、视频电子标准协会本地(vlb)总线或其他合适的总线或其中两种或更多种的组合。在适当的情况下,总线412可以包括一条或多条总线412。尽管本公开描述并说明了特定的总线,但是本公开设想了任何合适的总线或互连。
200.在此,在适当的情况下,一种或多种计算机可读非暂时性存储介质可以包括一个或多个基于半导体的或其他集成电路(ic)(例如,现场可编程门阵列(fpga)或专用ic(asic))、硬盘驱动器(hdd)、混合硬盘驱动器(hhds)、光盘、光盘驱动器(odd)、磁光盘、磁光驱动器、软盘、软盘驱动器(fdd)、磁带、固态驱动器(ssd)、ram驱动器、secure digital卡或驱动器、任何其他合适的计算机可读非暂时性存储介质,或其中两种或多种的任何合适组合。在适当的情况下,计算机可读非暂时性存储介质可以是易失性的、非易失性的、或者是易失性和非易失性的组合。
201.在本文中,“或”是包含性的而不是排他性的,除非另有明确说明或上下文另有说明。因此,在本文中,除非另有明确说明或上下文另有说明,否则“a或b”表示“a、b或两者”。此外,除非另有明确说明或上下文另有说明,否则“和”既是联合的也是分别的。因此,在本文中,除非另有明确说明或上下文另有说明,否则“a和b”是指“a和b,联合的或分别的”。
202.本公开的范围涵盖本领域普通技术人员将理解的对本文描述或说明的示例实施例的所有改变、替换、变化、变动和修改。本公开的范围不限于本文描述或说明的示例实施例。此外,尽管本公开在本文中将各个实施例描述和说明为包括特定组件、元件、特征、功能、操作或步骤,但是这些实施例中的任何一个都可以包括本领域普通技术人员将理解的、本文任何地方描述或说明的任何组件、元件、特征、功能、操作或步骤的任何组合或排列。此外,在所附权利要求中提及的装置、或系统、或装置或系统的组件被适配、布置、能够、配置、启用、可操作或操作以执行特定功能,包括该装置、系统、组件,无论其或该特定功能是否被激活、打开或解锁,只要该装置、系统或组件如此适配、布置、能够、配置、启用、可操作或操作。此外,虽然本公开将一些非限制性实施例描述或说明为提供特定优点,但某些非限制性实施例可以不提供这些优点、提供一些优点或所有这些优点。
203.此外,本公开中作为流程图呈现和描述的方法的实施例以示例的方式提供,以便
提供对技术的更完整的理解。所公开的方法不限于本文呈现的操作和逻辑流程。设想了替代实施例,其中各种操作的顺序被改变,并且其中被描述为较大操作的一部分的子操作被独立地执行。
204.尽管出于本公开的目的已经描述了各种实施例,但是这样的实施例不应被认为将本公开的教导限制于这些实施例。可以对上述元素和操作进行各种改变和修改,以获得保持在本公开中描述的系统和过程的范围内的结果。
205.本文所公开的实施例仅是示例,并且本公开的范围不限于此。某些非限制性实施例可以包括上文所公开的实施例的所有、一些或没有的组件、元件、特征、功能、操作或步骤。所附的针对方法、存储介质、系统和计算机程序产品的权利要求中具体公开了实施例,其中在一个权利要求类别(例如方法)中提及的任何特征也可以在另一权利要求类别(例如系统)中要求主张。所附权利要求中的从属关系或引用关系只是出于形式上的原因。然而,也可以要求主张有意引用到任何先前的权利要求(特别是多重从属关系)而产生的任何主题,因此,无论所附的权利要求中选择何种从属关系,都可以公开并要求主张权利要求及其特征的任何组合。可以要求主张的主题不仅包括所附权利要求中所列的特征的组合,还包括权利要求中特征的任何其他组合,其中权利要求中提及的各个特征可以与权利要求中的任何其他特征或其他特征的组合进行组合。此外,本文所描述或描绘的任何实施例和特征可以在单独的权利要求中和/或与本文所描述或描绘的任何实施例或特征或者与所附权利要求的任何特征的任何组合中要求主张。***
206.本说明书中引用的所有专利、专利申请、出版物、产品说明和协议均通过引用整体并入本文。在术语冲突的情况下,以本公开为准。
207.虽然显而易见的是,对本文所述的主题的目的在于实现上述益处和优点,但当前公开的主题在范围上不限于本文所述的特定实施例。应当理解,在不脱离其精神的情况下,可以对所公开的主题进行修改、变化和改变。仅使用常规实验,本领域的技术人员将认识到或能够确定本文所述的特定实施例的许多等同物。此类等同物旨在被以下权利要求所涵盖。
208.本文件中引用了各种参考文献,其全部内容通过引用并入本文。
技术特征:
1.一种计算机实现的方法,包括:接收包括第一多个数字存储图像的第一标记训练数据集,所述第一多个图像中的每个图像与一组标签相关联;在所述第一标记训练数据集上训练机器学习神经teacher模型;将为自然语言处理训练的机器学习模型应用于未标记的数据集,所述未标记的数据集包括第二多个图像的自然语言文本摘要的数字电子表示,从而生成包括所述第二多个图像的第二标记训练数据集;使用所述机器学习神经teacher模型,为所述第二多个图像中的每个图像生成对应的一组软伪标签;使用所述软伪标签为所述第二标记训练数据集中的每个图像生成一组衍生标签;使用所述衍生标签训练一个或多个经编程的机器学习神经student模型;接收目标图像;以及应用一个或多个student模型的集成来输出所述目标图像的一个或多个分类。2.根据权利要求1所述的计算机实现的方法,还包括:使用主动学习以编程方式更新所述一个或多个经编程的机器学习神经student模型中的至少一个。3.根据权利要求1所述的计算机实现的方法,还包括:在一个或多个机器学习模型训练步骤中应用噪声。4.根据权利要求1所述的计算机实现的方法,其中,所述目标图像是动物或宠物的放射影像图像。5.根据权利要求1所述的计算机实现的方法,其中,所述第一多个图像中的每个图像和所述第二多个图像中的每个图像是动物或宠物的放射影像图像。6.根据权利要求1所述的计算机实现的方法,其中,所述自然语言文本摘要是放射学报告。7.根据权利要求1所述的计算机实现的方法,其中,所述目标图像被格式化为医学数字成像和通信(“dicom”)图像。8.根据权利要求1所述的计算机实现的方法,进一步包括:使用基础设施管道,所述基础设施管道包括使用docker容器部署的微服务。9.根据权利要求1所述的计算机实现的方法,其中,所述机器学习神经student模型或所述机器学习神经teacher模型中的至少一个被编程为包括架构,所述架构包括densenet-121、resnet-152、shufflenet2、resnext101、ghostnet、efficientnet-b5、senet-154、se-resnext-101或inception-v4中的至少一个。10.根据权利要求1所述的计算机实现的方法,其中,所述机器学习神经student模型或所述机器学习神经teacher模型中的至少一个被编程为卷积神经网络。11.根据权利要求1所述的计算机实现的方法,其中,所述目标图像的一个或多个分类中的一者指示健康组织或异常组织中的一个。12.根据权利要求11所述的计算机实现的方法,其中:所述目标图像的一个或多个分类中的一者指示异常组织;以及指示的异常组织被进一步分类为心血管、肺部结构、纵隔结构、胸膜腔或胸腔外的至少一个。
13.根据权利要求1所述的计算机实现的方法,其中,所述目标图像的一个或多个分类中的至少一者是子分类。14.根据权利要求1所述的计算机实现的方法,还包括:对所述目标图像进行预处理,其中所述预处理包括在输出所述目标图像的一个或多个分类之前,将经训练的机器学习过滤器模型应用于所述目标图像。15.根据权利要求1所述的计算机实现的方法,还包括:在输出所述目标图像的一个或多个分类之前,以编程方式确定所述目标图像的正确解剖学方向。16.根据权利要求15所述的计算机实现的方法,其中,所述确定所述目标图像的正确解剖学方向包括执行经训练的机器学习模型,所述经训练的机器学习模型被编程为在不依赖于与所述目标图像相关联的dicom元数据或与所述目标图像相关联的侧向标记的情况下进行操作。17.根据权利要求16所述的计算机实现的方法,其中,所述经训练的机器学习模型是在增强数据和真实数据上进行联合训练的。18.根据权利要求15所述的计算机实现的方法,其中,所述确定所述目标图像的正确解剖学方向包括通过执行第一编程模型确定所述目标图像的正确旋转,以及通过执行第二编程模型确定所述目标图像的正确翻转。19.根据权利要求15所述的计算机实现的方法,还包括:在确定所述目标图像的正确解剖学方向之后、并且在输出所述目标图像的一个或多个分类之前,以编程方式验证所述目标图像对应于正确的身体部位。20.根据权利要求19所述的计算机实现的方法,其中,所述验证所述目标图像对应于所述正确的身体部位包括执行经训练的机器学习模型。21.一个系统,其包括:一个或多个处理器;以及一个或多个计算机可读非暂时性存储介质,其耦合到所述一个或多个处理器,并包括当由所述一个或多个处理器执行时可操作的指令,以使系统执行包括以下的操作:接收包括第一多个数字存储图像的第一标记训练数据集,所述第一多个图像中的每个图像与一组标签相关联;在所述第一标记训练数据集上训练机器学习神经teacher模型;将为自然语言处理训练的机器学习模型应用于未标记的数据集,所述未标记的数据集包括第二多个图像的自然语言文本摘要的数字电子表示,从而生成包括所述第二多个图像的第二标记训练数据集;使用所述机器学习神经teacher模型,为所述第二多个图像中的每个图像生成对应的一组软伪标签;使用所述软伪标签为所述第二标记训练数据集中的每个图像生成一组衍生标签;使用所述衍生标签训练一个或多个经编程的机器学习神经student模型;接收目标图像;以及应用一个或多个student模型的集成来输出所述目标图像的一个或多个分类。22.根据权利要求21所述的系统,所述指令在被执行时进一步可操作,以使得使用主动学习以编程方式更新所述一个或多个经编程的机器学习神经student模型中的至少一个。
23.根据权利要求21所述的系统,所述指令在被执行时进一步可操作,以使得在一个或多个机器学习模型训练步骤中应用噪声。24.根据权利要求21所述的系统,其中,所述目标图像是动物或宠物的放射影像图像。25.根据权利要求21所述的系统,其中,所述第一多个图像中的每个图像和所述第二多个图像中的每个图像是动物或宠物的放射影像图像。26.根据权利要求21所述的系统,其中,所述自然语言文本摘要是放射学报告。27.根据权利要求21所述的系统,其中,所述目标图像被格式化为医学数字成像和通信(“dicom”)图像。28.根据权利要求21所述的系统,所述指令在被执行时进一步可操作,以使得使用基础设施管道,所述基础设施管道包括使用docker容器部署的微服务。29.根据权利要求21所述的系统,其中,所述机器学习神经student模型或所述机器学习神经teacher模型中的至少一个被编程为包括架构,所述架构包括densenet-121、resnet-152、shufflenet2、resnext101、ghostnet、efficientnet-b5、senet-154、se-resnext-101或inception-v4中的至少一个。30.根据权利要求21所述的系统,其中,所述机器学习神经student模型或所述机器学习神经teacher模型中的至少一个被编程为卷积神经网络。31.根据权利要求21所述的系统,其中,所述目标图像的一个或多个分类中的一者指示健康组织或异常组织中的一个。32.根据权利要求31所述的系统,其中:所述目标图像的一个或多个分类中的一者指示异常组织;以及指示的异常组织被进一步分类为心血管、肺部结构、纵隔结构、胸膜腔或胸腔外的至少一个。33.根据权利要求21所述的系统,其中,所述目标图像的一个或多个分类中的至少一者是子分类。34.根据权利要求21所述的系统,所述指令在被执行时进一步可操作,以使得对所述目标图像进行预处理,其中所述预处理包括在输出所述目标图像的一个或多个分类之前,将经训练的机器学习过滤器模型应用于所述目标图像。35.根据权利要求21所述的系统,所述指令在被执行时进一步可操作,以使得在输出所述目标图像的一个或多个分类之前,以编程方式确定所述目标图像的正确解剖学方向。36.根据权利要求35所述的系统,所述指令在被执行时进一步可操作,以使得通过执行经训练的机器学习模型来确定所述目标图像的正确解剖学方向,所述经训练的机器学习模型被编程为在不依赖于与所述目标图像相关联的dicom元数据或与所述目标图像相关联的侧向标记的情况下进行操作。37.根据权利要求36所述的系统,其中,所述经训练的机器学习模型是在增强数据和真实数据上进行联合训练的。38.根据权利要求35所述的系统,所述指令在被执行时进一步可操作,以使得通过执行第一编程模型确定所述目标图像的正确旋转,以及通过执行第二编程模型确定所述目标图像的正确翻转来确定所述目标图像的正确解剖学方向。39.根据权利要求35所述的系统,所述指令在被执行时进一步可操作,以使得在确定所
述目标图像的正确解剖学方向之后并且在输出所述目标图像的一个或多个分类之前,以编程方式验证所述目标图像对应于正确的身体部位。40.根据权利要求39所述的系统,所述指令在被执行时进一步可操作,以使得通过执行经训练的机器学习模型来验证所述目标图像对应于所述正确的身体部位。
技术总结
在一个实施例中,本公开提供了一种计算机实现的方法,包括:接收第一标记训练数据集,其包括每个图像与一组标签相关联的第一多个图像;在第一标记训练数据集上以编程方式训练机器学习神经Teacher模型;以编程方式将为NLP训练的机器学习模型应用于未标记的数据集,该数据集包括第二多个图像的自然语言文本摘要的数字电子表示,从而生成包括第二多个图像的第二标记训练数据集;使用机器学习神经Teacher模型以编程方式生成软伪标签;使用软伪标签以编程方式生成衍生标签;使用衍生标签训练一个或多个机器学习神经Student模型;接收目标图像;应用一个或多个Student模型的集成来输出目标图像的一个或多个分类。目标图像的一个或多个分类。目标图像的一个或多个分类。
技术研发人员:M
受保护的技术使用者:马斯公司
技术研发日:2021.12.15
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/