用于对包含样本中的粒子的输入图像进行分类的方法与流程

未命名 10-28 阅读:84 评论:0


1.本发明涉及生物粒子的光学采集领域。该生物粒子可以是微生物,诸如例如细菌、真菌或酵母。这也可能是细胞、多细胞生物、或任何其他类型的粒子诸如污染物或灰尘的问题。
2.本发明特别有利地适用于分析生物粒子的状态,例如着眼于确定应用抗生素后细菌的代谢状态。本发明使得例如对细菌进行抗菌谱成为可能。


背景技术:

3.抗菌谱(antibiogram)是一种实验室技术,旨在测试细菌菌株对一种或多种抗生素的表型。按照惯例地,抗菌谱是通过培养含有细菌和抗生素的样本来进行的。
4.欧洲专利申请号2 603 601描述了一种进行抗菌谱的方法,该方法涉及在有抗生素存在的情况下使孵育期后的细菌状态可视化。为了使细菌可视化,细菌用荧光标志物进行标记,使其结构得以展现。然后测量标志物的荧光就使得确定抗生素是否有效地作用于细菌成为可能。
5.用于确定对给定细菌菌株有效的抗生素的常规过程包括:(例如,从患者、动物、食品批次等)获取含有所述菌株的样本,然后将样本送到分析中心。当分析中心收到样本时,首先培养细菌菌株以获得其至少一个菌落(colony),这需要24小时至72小时。然后从该菌落中制备包含不同抗生素和/或不同浓度的抗生素的数个样本,然后再次孵育这些样本。在新的培养期(也需要24至72小时)之后,每个样本都要进行人工分析以确定抗生素是否有效。然后将结果送回给医师,以便他可以应用最有效的抗生素和/或抗生素浓度。
6.然而,标记过程执行起来特别长且很复杂,并且这些化学标志物对细菌有细胞毒性作用。因此,这种可视化方法不允许在细菌培养期间多次观察细菌,作为结果,细菌必须培养足够长的时间,大约24至72小时,以保证测量的可靠性。使生物粒子可视化的其他方法使用显微镜,允许对样本进行非破坏性测量。
7.数字全息显微术或dhm是一种成像技术,可以克服常规光学显微镜的景深限制。示意性地,它包括记录由被观察物体衍射的光波与空间相干参考波之间的干涉形成的全息图。这种技术在myung k.kim的题为“数字全息显微术的原理与技术(principles and techniques of digital holography microscopy)”的评论文章中有所描述,该文章发表于2010年1月的spie评论第1卷第1期。
8.最近,已经提出了使用数字全息显微术以自动方式识别微生物。因此,国际申请wo2017/207184描述了一种用于采集粒子的方法,这种方法将简单的散焦采集与数字聚焦重建相关联,从而使得可以在限制采集时间的同时观察生物粒子。
9.典型地,这种解决方案使得在有抗生素存在的情况下只需孵育大约10分钟后就可以检测出细菌的结构修饰,并且在两小时后检测出其敏感性(检测分裂存在与否或指示分裂的模式),而不像上述常规方法可能需要几天时间。具体而言,因为测量是非破坏性的,所以可以在培养过程的非常早期进行分析,而没有破坏样本并因而延长分析时间的风险。
10.甚至可以在多个连续的图像上跟踪粒子,从而形成表示粒子随时间推移的进展的胶片(因为粒子在第一次分析后没有被破坏),以便使其行为例如其移动速度或其细胞分裂过程可视化。
11.因此,将理解,这种可视化方法给出了极好的结果。困难在于对这些图像或这一胶片本身的解释,例如,是否期望得出细菌对样本中存在的抗生素的易感性(susceptibility)的结论。
12.已经提出了各种技术,范围从简单地随时间推移计数细菌到所谓的形态分析,该形态分析旨在经由图像分析来检测特定“构型(configuration)”。例如,当细菌正准备分裂时,在分布中会出现两极,远在分裂本身之前,这导致了分布划分成两个不同的片段。
13.文章[choi等人,于2014年]中已经提出了结合这两种技术以评估抗生素的有效性。然而,正如作者所强调的,他们的方法需要对一定数量的阈值进行非常精细的校准,这些阈值强烈依赖于抗生素引起的形态变化的性质。
[0014]
最近,文章[yu等人,于2018年]已经描述了一种基于深度学习的方法。作者提出使用卷积神经网络(convolutional neural network,cnn)提取形态特征以及与细菌移动相关的特征。然而,这种解决方案在计算资源方面被证明是非常密集的,而且要求庞大的训练图像数据库来训练cnn。
[0015]
因此,本发明的客观技术问题是使得可以提供一种用于对生物粒子的图像进行分类的更加有效且资源密集更少的解决方案。


技术实现要素:

[0016]
根据第一方面,本发明涉及一种用于对表示样本中的目标粒子的至少一个输入图像进行分类的方法,该方法的特征在于,它包括由客户端的数据处理装置实施以下步骤:
[0017]
(b)提取所述目标粒子的特征的特征向量,所述特征是数字系数,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像表示参考粒子,使得由所述系数加权的所述基本图像的线性组合近似于该输入图像中的所述目标粒子的表示;
[0018]
(c)取决于所述提取的特征向量,对所述输入图像进行分类。。
[0019]
根据有利但非限制性的特征:
[0020]
该粒子以统一的方式被表示在该输入图像以及每个基本图像中,特别地沿预定方向居中并对齐。
[0021]
该方法包括步骤(a):从样本的总体图像中提取所述输入图像,以便以所述统一的方式表示所述目标粒子。
[0022]
步骤(a)包括:对所述总体图像进行分割,以便检测样本中的所述目标粒子,然后将输入图像按照所述检测的目标粒子重新裁剪。
[0023]
步骤(a)包括:从样本的由观察设备采集的强度图像获得所述总体图像。
[0024]
该方法包括步骤(b0):使用所述样本中的粒子的训练图像的数据库对基本图像进行无监督式训练。
[0025]
已训练的参考图像是允许通过所述基本图像的线性组合对训练图像中的粒子的表示进行最佳近似的那些参考图像。
[0026]
步骤(c)借助于分类器(classifier)实施,该方法包括步骤(a0):由服务器的数据
处理装置使用样本中的粒子的已分类的特征向量/矩阵的训练数据库来训练所述分类器的参数。
[0027]
所述分类器选自支持向量机、k-最近邻算法、或卷积神经网络。
[0028]
步骤(c)包括:借助于t-sne算法来减少该特征向量的变量数量。
[0029]
该方法是用于对表示随时间推移的样本中的所述目标粒子的输入图像序列进行分类的方法,其中,步骤(b)包括:通过将所述序列的每个输入图像的提取的特征向量进行串接,获得所述目标粒子的特征矩阵。
[0030]
根据第二方面,提供了一种用于对表示样本中的目标粒子的至少一个输入图像进行分类的系统,该系统包括至少一个客户端,该客户端包括数据处理装置,其特征在于,所述数据处理装置被配置为实施:
[0031]-提取所述目标粒子的特征的特征向量,所述特征是数字系数,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像表示参考粒子,使得由所述系数加权的所述基本图像的线性组合近似于该输入图像中的所述目标粒子的表示;
[0032]-取决于所述提取的特征向量,对所述输入图像进行分类。
[0033]
根据有利但非限制性的特征,该系统还包括:用于观察样本中的所述目标粒子的设备。
[0034]
根据第三方面和第四方面,提供了以下:一种计算机程序产品,包括代码指令,用于执行根据第一方面的用于对表示样本中的目标粒子的至少一个输入图像进行分类的方法;以及一种由计算机设备可读的存储介质,在其上的计算机程序产品包括代码指令,用于执行根据第一方面的用于对表示样本中的目标粒子的至少一个输入图像进行分类的方法。
附图说明
[0035]
本发明的其他特征和优点在阅读以下对优选实施例的描述时将变得显而易见。本描述将参照附图给出,在附图中:
[0036]-图1是用于实施根据本发明的方法的架构的示意图;
[0037]-图2显示了用于观察样本中的粒子的设备的一个示例,该设备在根据本发明的方法的一个优选实施例中使用;
[0038]-图3a示出了根据本发明的方法的一个实施例中的输入图像的获得;
[0039]-图3b示出了根据本发明的方法的优选实施例中的输入图像的获得;
[0040]-图4显示了根据本发明的方法的优选实施例的步骤;
[0041]-图5a显示了根据本发明的方法的优选实施例中使用的基本图像的字典的一个示例;
[0042]-图5b显示了根据本发明的方法的优选实施例中的特征向量和矩阵的提取的一个示例;
[0043]-图6表示根据本发明的方法的优选实施例中使用的t-sne投影的示例。
具体实施方式
[0044]
架构
[0045]
本发明涉及一种用于对表示样本12中存在的粒子11a-11f(被称为目标粒子)的至
少一个图像进行分类的方法。应该注意到,该方法可以针对样本12中存在的粒子11a-11f的所有或一些并行实施,每个粒子依次被认为是目标粒子。
[0046]
正如将看到的,本方法可以包括一个或多个机器学习组件,特别是一个或多个分类器,包括卷积神经网络cnn。
[0047]
输入或训练数据是图像类型的,并且表示样本12中的目标粒子11a-11f(换言之,这些是样本的图像,在其中目标粒子是可见的)。正如将看到的,可以提供相同目标粒子11a-11f的图像序列(或者在适当的情况下,如果考虑多个粒子则提供样本12的粒子11a-11f的多个图像序列)作为输入。
[0048]
样本12由液体组成,诸如水、缓冲液、培养基或反应介质(包括或不包括抗生素),待观察的粒子11a-11f位于其中。
[0049]
作为变型,样本12可以采取优选是半透明的固体介质诸如琼脂的形式,粒子11a-11f位于其中。样本12也可以是气体介质。粒子11a-11f可以位于介质内部或者在样本12的表面上。
[0050]
粒子11a-11f可以是诸如细菌、真菌或酵母的微生物。这也可能是细胞、多细胞生物、或任何其他类型的粒子诸如污染物或灰尘的问题。在本描述的其余部分中,将考虑粒子是细菌(并且,正如将看到的,样本12包含抗生素)的优选示例。观察到的粒子11a-11f的尺寸在500纳米和几百微米,或甚至几毫米之间变化。
[0051]
输入图像(或输入图像序列)的“分类(classification)”包括在描述图像的可能类别的集合中确定至少一个类别。例如,在细菌类型粒子的情况下,可以采用二元分类,即,可以采用两种可能的类别,分别指示“分裂(division)”或“不分裂(no division)”,证明对抗生素存在或不存在耐受性。本发明不限于任何一种特定的分类,尽管将主要描述抗生素对所述目标粒子11a-11f的作用的二元分类的示例。
[0052]
本方法借助于服务器1和客户端2在诸如图1所示的架构内实施。服务器1是被训练的设备件(实施训练方法),客户端2是用户设备件(实施分类方法),例如医生或医院的终端。
[0053]
这两件设备1、2可以被结合起来,但是优选地,服务器1是远程设备件,而客户端2是大众市场设备件,特别是桌上型计算机、膝上型计算机等。客户端设备2有利地连接到观察设备10,以便能够直接采集所述输入图像(或者,如下文将看到的,“原始”采集数据诸如样本12的总体图像或甚至电磁矩阵),典型地着眼于直接处理它。可替选地,输入图像将被加载到客户端设备2上。
[0054]
在所有情况下,着眼于交换数据,设备1、2中的每一件典型地是连接到局域网或广域网诸如因特网的远程计算机设备。每件设备包括处理器类型的数据处理装置3、20,以及诸如计算机存储器的数据存储装置4、21,例如闪存或硬盘。客户端2典型地包括用户界面22,诸如允许交互的屏幕。
[0055]
服务器1有利地存储训练数据库,即在各种条件下的粒子11a-11f的图像集合(参见下文)和/或已分类的特征向量/矩阵集合(例如,与指示对抗生素的敏感性或耐受性的标签“分裂”或“不分裂”相关联)。应该注意到,训练数据将可能会与定义测试条件的标签相关联,例如指示关于细菌的培养的“菌株”、“抗生素条件”、“时间”等。
[0056]
采集
[0057]
如上文所解释的,本方法能够直接采用以任何方式获得的目标粒子11a-11f的任何图像作为输入。然而,本方法优选地开始于步骤(a),即从由观察设备10递送的数据获得输入图像。
[0058]
以已知的方式,本领域技术人员将能够使用dhm技术(dhm表示数字全息显微术),特别是诸如国际申请wo2017/207184中描述的。特别地,可以采集样本12的强度图像,其没有聚焦于目标粒子(该图像被称为“离焦(out of focus)”)但是能够由数据处理装置(例如其集成到设备10或客户端2的那些设备20中,参见下文)处理,这样的图像被称为全息图。将理解,全息图以某种方式“表示”样本中的所有粒子11a-11f。
[0059]
图2示出了用于观察样本12中存在的粒子11a-11f的设备10的示例。样本12被布置在空间和时间上相干(例如,激光)或伪相干(例如,发光二极管、激光二极管)的光源15与在光源的光谱范围内敏感的数字传感器16之间。优选地,光源15具有窄光谱宽度,例如窄于200nm、窄于100nm或者甚至窄于25nm。在下文中,参照例如位于可见域的光源的中心发射波长。光源15朝向样本的第一面13发射相干信号sn,该信号例如由波导诸如光纤传达。
[0060]
样本12(如典型地解释的培养基)包含在由下载玻片(slide)和上载玻片(例如常规的显微镜载玻片)垂直界定的分析室中。分析室由粘合剂或任何其他密封材料横向地界定。下载玻片和上载玻片对光源15的波长是透明的,样本和分析室允许例如超过50%的光源波长在下载玻片上在法向入射(normal incidence)下通过。
[0061]
优选地,粒子11a-11f位于上载玻片附近的样本12中。为此,上载玻片的底面包括允许粒子附着的配体(ligand),例如微生物的背景下的聚阳离子(例如,聚-l-赖氨酸)。这使得可以包含厚度等于或接近于光学系统景深(也就是厚度小于1mm(例如,镜筒透镜),优选地小于100μm(例如,显微镜物镜))的粒子。粒子11a-11f尽管如此可以在样本12中移动。
[0062]
优选地,该设备包括光学系统23,该光学系统23例如由显微镜物镜和镜筒透镜组成,置于空气中并与样本保持固定距离。光学系统23可选地配备有滤光器,其可以位于物镜前面或者物镜与镜筒透镜之间。光学系统23的特征在于光学轴线;物平面(也被称为焦点平面),其离物镜有一段距离;以及像平面,其由光学系统与物平面共轭。换言之,对于位于物平面中的物体,对应着该物体在像平面(也被称为焦平面)中的清晰图像。系统23的光学性质是固定的(例如,固定焦距的光学器件)。物平面和像平面正交于光学轴线。
[0063]
图像传感器16面向样本的第二面14位于焦平面中或靠近后者。传感器,例如ccd或cmos传感器,包括基本敏感位点(site)的周期性二维阵列,以及以本身已知的方式调整曝光时间和使位点归零的相关联的电子器件。从基本位点输出的信号取决于在曝光时间期间入射到所述位点上的光谱范围内的辐射量。然后,这个信号例如由相关联的电子器件转换成数字图像的图像点或“像素(pixel)”。因此,该传感器产生采取c列l行矩阵形式的数字图像。矩阵中的坐标(c,l),该矩阵的每个像素以本身已知的方式对应于光学系统23的焦平面中的笛卡尔坐标(x(c,l),y(c,l))的位置,例如矩形形状的基本敏感位点的中心的位置。
[0064]
选择周期性阵列的间距(pitch)和填充因子以符合关于观察到的粒子尺寸的奈奎斯特(nyquist)判据,以便定义每个粒子的至少两个像素。因此,图像传感器16采集样本在光源的光谱范围内的透射图像。
[0065]
由图像传感器16采集的图像包括全息信息,就它是由粒子11a-11f衍射的波与已经穿过样本而不与其进行交互的参考波之间的干涉所产生的而言。如上所述,应该显而易
见的是,在cmos或ccd传感器的上下文中,采集到的数字图像是强度图像,相位信息因而在这里被编码在该强度图像中。
[0066]
可替选地,可以将由光源15生成的相干信号sn划分成两个分量,例如借助于半透明板。然后,第一分量充当参考波,第二分量由样本12衍射,光学系统23的像平面中的图像由衍射波与参考波之间的干涉产生。
[0067]
参照图3a,在步骤(a)中,可以从全息图中重建样本12的至少一个总体图像,然后从样本的总体图像中提取所述输入图像。
[0068]
具体而言,将理解的是,目标粒子11a-11f必须在输入图像中以统一的方式表示,并且特别地沿预定方向(例如水平方向)居中并对齐。输入图像还必须具有标准化的尺寸(还期望在输入图像中只看到目标粒子11a-11f)。因此,该输入图像被称为“缩略图(thumbnail)”,并且其尺寸可以例如被定义为250
×
250像素。在输入图像序列的情况下,例如在120分钟的时间间隔内每分钟拍摄一幅图像,该序列由此形成250
×
250
×
120尺寸的3d“堆栈(stack)”。
[0069]
如所解释的,总体图像是由设备10的数据处理装置或客户端2的那些装置20重建的。
[0070]
典型地,(对于每个给定的采集时间)构建一系列的复矩阵,称为“电磁矩阵(electromagnetic matrices)”,这些矩阵基于样本12的强度图像(全息图)、针对相对于光学系统23的焦点平面的多个偏差(特别是定位在样本中的偏差)沿着光学轴线传播的光波的波前进行建模。
[0071]
这些矩阵可以被投影到真实空间(例如经由厄米范数(hermitian norm)),以便在各个焦距处形成总体图像的堆栈。
[0072]
由此可以确定平均焦距(并且选择相应的总体图像,或者从全息图中重新计算),或者甚至确定用于目标粒子的最佳焦距(并且再次选择相应的总体图像,或者从全息图中重新计算)。
[0073]
在任何情况下,参照图3b,步骤(a)有利地包括对所述一个或多个总体图像进行分割,以便检测样本中的所述目标粒子,然后进行裁剪。特别地,所述输入图像可以从样本的总体图像中提取,以便以所述统一的方式表示所述目标粒子。
[0074]
一般而言,分割允许检测所有感兴趣的粒子,同时去除诸如细丝或微菌落的伪影(artifact),以便改善一个或多个总体图像,然后选择所检测的粒子之一作为目标粒子,并且提取相应的缩略图。如所解释的,这可以针对所有检测到的粒子来进行。
[0075]
分割可以以任何已知的方式实施。在图3b的示例中,首先进行精细分割以消除伪影,然后进行粗略分割以检测粒子11a-11f。可以使用任何本领域技术人员已知的分割技术。
[0076]
如果期望获得用于目标粒子11a-11f的输入图像序列,可以使用跟踪技术以跟踪粒子从一个总体图像到下一个的任何移动。
[0077]
应该注意到,对于给定的样本(对于样本12的多个粒子或甚至所有粒子)随时间推移获得的所有输入图像可以被池化(pooled)以形成样本12的描述性语料库(corpus)(换言之,实验的描述性语料库),如图3a的右侧所示,该语料库特别地被复制到客户端2的存储装置21。这是与“粒子”级相对的“场(field)”级。例如,如果粒子11a-11f是细菌,并且样本12
包含(或不包含)抗生素,则该描述性语料库包含关于这些细菌在整个采集场中的生长、形态、内部结构和光学性质的所有信息。正如将看到的,该描述性语料库可以被传送到服务器1,以用于集成到所述训练数据库中。
[0078]
特征提取
[0079]
参照图4,本方法特别值得注意到的是从输入图像中提取特征向量的步骤(b)与取决于所述特征向量对输入图像进行分类的步骤(c)分开执行,而不是试图直接对输入图像进行分类。正如将看到的,每个步骤可能涉及独立机器学习机制,因此服务器1的所述训练数据库可以包括不一定已经分类过的粒子图像和特征向量。
[0080]
因此,主要步骤(b)是由客户端2的数据处理装置20提取所述目标粒子的特征向量,也就是说目标粒子的“编码(coding)”。
[0081]
在本描述的其余部分中,将在以下两者之间进行区分:在几何意义上的特征向量/矩阵的“维度”的数量,即这些图延伸的独立方向的数量(例如,向量是1维的对象,而矩阵是2维的,有利地是3维的对象)与这些特征向量/矩阵的“变量”的数量,即每个维度中的尺寸,即独立自由度的数量(这实际上对应于向量空间中的维度概念——更确切地说,具有给定的数量变量的特征向量/矩阵集合形成了维度等于该变量数量的向量空间)。
[0082]
因此,以下将描述其中在步骤(b)结束时提取的特征矩阵是尺寸为60
×
25由此具有1500个变量的二维对象(即维度为2的对象)的示例。
[0083]
在这种情况下,本编码的特殊性在于,所述特征是数字系数,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像表示参考粒子,使得由所述系数加权的所述基本图像的线性组合近似于该输入图像中的所述粒子的表示。
[0084]
这被称为“稀疏编码”。所述基本图像被称为“原子(atom)”,并且原子的集合被称为“字典(dictionary)”。稀疏编码背后的思想是通过与字典词语进行类比,将任何输入图像表达为所述原子的线性组合。更确切地说,对于尺寸为p的字典d,并且将α表示为尺寸也为p的特征向量,寻找输入图像x的最佳近似dα。换言之,用α*表示最佳向量(输入图像x的稀疏代码),步骤(b)包括解决具有正则化参数λ的泛函的最小化问题(这使得可以在近似的质量与向量的稀疏性之间作出折衷,即涉及尽可能最少的原子)。例如,约束的最小化问题可以表述如下:
[0085][0086]
它也可以表达为变分-公式化问题:
[0087][0088]
所述系数有利地具有区间[0,1]中的值(这比r中的更简单),并且将理解的是由于编码的“稀疏”特性,通常大多数系数具有0的值。与非零系数相关联的原子被称为激活原子。
[0089]
自然地,基本图像是可与输入图像相比的缩略图,即,参考粒子以与输入图像中相同的统一方式被表示在其中,特别地沿所述预定方向居中并对齐,并且基本图像有利地具有与输入图像相同的尺寸(例如250
×
250)。
[0090]
因此,图5a示出了36个基本图像的字典的示例(在具有抗生素头孢泊肟
(cefpodoxime)的大肠杆菌的情况下)。
[0091]
在提供输入图像序列的情况下,步骤(b)由此有利地包括:提取每个输入图像的一个特征向量,该特征图可以被结合成称为目标粒子的“轮廓(profile)”的特征矩阵。更确切地说,这些向量全都具有相同的尺寸(原子的数量),并且形成向量序列,因此将它们按照输入图像的顺序并置(juxtapose)起来就足以获得稀疏的二维代码(编码时空信息,因而是二维的)。
[0092]
可替选地或附加地,对应于与样本12的多个粒子11a-11f相关联的多个输入图像的特征向量/矩阵可以被求和。
[0093]
因此,本技术允许在不需要大量计算能力或注释的数据库的情况下获得高语义级别的特征向量。
[0094]
图5b显示了提取特征向量的另一个示例,这次是利用25个原子的字典。已经显示了在给定时间t1获得的整个总体图像以及各种提取的输入图像(对应于检测到的粒子)。因此,表示第二目标粒子的图像可以近似为原子13的0.33倍加上原子2的0.21倍加上原子9的0.16倍(即,向量(0;0.21;0;0;0;0;0;0;0.16 0;0;0;0.33;0;0;0;0;0;0;0;0;0;0;0;0)。
[0095]
中间显示的是被称为“累积直方图(cumulative histogram)”的求和向量。有利地,各系数被归一化使得它们的总和等于1。在右侧已经显示了被称为“激活分布图(activation profile)”的求和矩阵(60分钟内的总和)——可以看出因此其尺寸为60
×
25。
[0096]
将理解,该激活分布图是表示样本12(随时间推移)的高级特征图。
[0097]
原子的学习
[0098]
参考图像(原子)可以是预定义的。然而,优选地,该方法包括从训练数据库中学习的步骤(b0),在该步骤中,参考图像(即,字典的图像)特别是由服务器1的数据处理装置3学习,以便在任何时候该方法都不需要任何人工干预。
[0099]
这种学习方法被称为“字典学习(dictionary learning)”,因为它涉及学习字典,就其不需要对训练数据库的图像进行注释而言,这种学习方法是无监督式的,并且因此实施起来极其简单。具体而言,将理解,手动注释数以千计的图像将会非常耗时且非常昂贵。
[0100]
这种思想是简单地在训练数据库中提供表示各种条件下的粒子11a-11f的缩略图,并且以此为基础,找到允许任何缩略图尽可能容易地被表示的原子。
[0101]
优选地,每种类型的粒子11a-11f和/或每种类型的样本12可以存在不同的字典。特别地,在粒子11a-11f是细菌的实施例中,每种类型的细菌和每种抗生素存在一个字典。各种条件特别地使用各种浓度的抗生素来获得。然而,可以设想针对多个抗生素采用相同的训练数据库,等。
[0102]
将注意到的是,步骤(b0)可以在非常远的上游进行,或者等待步骤(a)的结果(表示正在进行的实验的数据库)以改善结果。
[0103]
在任何情况下,学习可以以本领域技术人员已知的任何方式来执行,特别是再次对应于优化问题。如果训练数据库的图像表示为xi,i≤n,则问题就会是如下这样,例如:
[0104]
[0105]
具体地,旨在找到字典d允许每个训练图像xi的最佳近似dαi。
[0106]
spams工具箱(toolbox)将例如可能被用于执行学习(spams表示稀疏建模软件)。
[0107]
因此,图5a的36个原子使用数万个输入图像的数据库来学习,这些输入图像是在61分钟内从大肠杆菌的6个菌株(2个非抗性菌株和4个抗性菌株)的培养物中获得的,其中含有多达4种不同浓度的头孢泊肟(加上不存在抗生素的情况)。36个原子是在正则化参数λ设置为0.2的情况下获得的。原子5、16、19和32对应于处于(正常)分裂过程中的细菌,而原子9、11、12、26、27和33显示了由头孢泊肟诱导的形态变化。
[0108]
已经相继地学习了用于其他细菌诸如金黄色葡萄球菌(s.aureus)和/或其他抗生素诸如头孢西丁(cefoxitin)、庆大霉素(gentamicin)等的其他字典。
[0109]
分类
[0110]
在步骤(c)中,取决于所述提取的特征向量,对所述输入图像进行分类。
[0111]
将理解,有可能使用任何允许对一个或多个特征向量/矩阵进行描述性分析的技术,特别是在所述训练数据库(下面将给出多个示例)上训练的分类器。在这方面,正如步骤(b0)一样,该方法可以包括步骤(a0):由服务器1的数据处理装置3使用训练数据库来训练分类器。具体而言,这个步骤典型地在非常远的上游进行,特别是由远程服务器1进行。如所解释的,训练数据库可以包含训练图像的一定数量的特征向量/矩阵,即它们的稀疏代码,这占用的空间很小。
[0112]
步骤(b)中获得的稀疏代码(特别是在矩阵的情况下)可能具有非常多的变量,并且因此分析结果的可视化和解释很复杂,最好是使用减少技术。
[0113]
因此,可以使用t-sne算法(t-sne表示t-分布式随机近邻嵌入(t-distributed stochastic neighbor embedding)),这是一种实现减少用于数据可视化的变量的数量的非线性方法,允许在二维或三维空间中表示高维空间的点集合(稀疏代码/激活分布的值空间)——数据然后可以用散点图可视化。t-sne算法试图找到一种配置(被称为t-sne投影),这种配置根据信息理论准则在点的邻近性方面是最优的:在原始空间中靠近(分别远离)的两个点在低维空间中必须靠近(分别远离)。
[0114]
t-sne算法可以在粒子级(关于在训练数据库中可获得向量的单个粒子的目标粒子11a-11f)和场级(对于表示多个粒子11a-11f的多个输入图像的整个样本12的情况)两者,特别是在单个向量而不是特征矩阵的情况下实施。
[0115]
应该注意到,t-sne投影可以特别凭借例如在python中的实施方式来有效地实现,因此它可以实时执行。为了加速计算和减少内存占用,也可以在计算所讨论的训练数据库和输入图像的t-sne投影之前,完成线性降维的第一步(例如pca——主成分分析)。在这种情况下,训练数据库的pca投影可以存储在存储器中,然后剩下的就是用所讨论的输入图像的稀疏代码完成投影。
[0116]
对于实际的分类器,可以使用k-nn方法(k-nn表示k-最近邻(k-nearest neighbors)),特别是对t-sne算法的结果(获得的投影,或“嵌入”)。
[0117]
思路是要查看对应于所讨论的一个或多个输入图像的特征向量的点的相邻点,并且查看它们的分类。例如,如果相邻点被分类为“不分裂”,则可以假设所讨论的输入图像必须被分类为“不分裂”。应该注意到的是考虑到的近邻可能是有限的,例如取决于菌株、抗生素等。图6显示了大肠杆菌菌株对于各种浓度的头孢泊肟所获得的t-sne嵌入的两个示例。
在顶部的示例中,可以清楚地看到两个块,直观地证明了存在最小抑制浓度(minimum inhibitory concentration,mic),在该最小抑制浓度以上,形态以及因此细胞分裂就会受到影响。靠近上部的向量可能会被分类为“分裂”,而靠近下部的向量可能会被分类为“不分裂”。在底部的示例中,可以看到只有最高浓度脱颖而出(并且因此似乎具有抗生素作用)。
[0118]
根据第二实施例,使用支持向量机(support vector machine,svm)作为分类器,再次获得二元分类(例如再次是“分裂”或“不分裂”)。这种简单的方法对单一输入图像特别有效(svm应用于特征向量)。svm的超参数c可以使用网格搜索和所谓的k-折交叉验证(k-fold cross validation)进行优化(特别是在k=5的情况下,其中原始数据库被划分成k个样本,然后,k个样本中的一个被选为验证集合,而k-1个其他样本形成训练集合)。
[0119]
根据第三实施例,在输入图像序列(3d堆栈)以及因此的特征矩阵的情况下,卷积神经网络(cnn)被用作分类器。
[0120]
该cnn可以具有相对简单的架构,例如由一个卷积层、一个激活层(例如relu函数)和一个池化层(例如最大池化层)的一连串的块组成的架构。两个这样的块足以实现有效的二元分类。此外,有可能对输入进行下采样(特别是在“时间”维度上),以进一步减少其存储器占用。
[0121]
cnn可以以常规方式来训练。训练成本函数可以由常规成本函数(例如交叉熵(cross-entropy))和总变差正则化(total variation regularization)组成。
[0122]
在所有的实施例中,在适当情况下,已训练的分类器可以存储在客户端2的数据存储装置21上,用于分类目的。将注意到,相同的分类器只需要一个训练阶段就可以安装在许多客户端2上。
[0123]
计算机程序产品
[0124]
根据第二方面和第三方面,本发明涉及一种计算机程序产品,包括用于(特别是在服务器1和/或客户端2的数据处理装置3、20上)执行用于对表示样本12中的目标粒子11a-11f的至少一个输入图像进行分类的方法的代码指令,以及计算机设备可读存储装置(服务器1和/或客户端2的存储器4、21),该计算机程序产品存储在其上。

技术特征:
1.一种用于对表示样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的方法,所述方法的特征在于,它包括由客户端(2)的数据处理装置(20)实施以下步骤:(b)提取所述目标粒子(11a-11f)的特征的特征向量,所述特征是数字系数,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像表示参考粒子,使得由所述系数加权的所述基本图像的线性组合近似于所述输入图像中的所述目标粒子(11a-11f)的表示;(c)取决于所述提取的特征向量,对所述输入图像进行分类。2.根据权利要求1所述的方法,其中,粒子(11a-11f)以统一的方式被表示在所述输入图像以及每个基本图像中,特别地沿预定方向居中并对齐。3.根据权利要求2所述的方法,包括步骤(a):从所述样本的总体图像中提取所述输入图像,以便以所述统一的方式表示所述目标粒子(11a-11f)。4.根据权利要求3所述的方法,其中,步骤(a)包括:对所述总体图像进行分割,以便检测所述样本(12)中的所述目标粒子(11a-11f),然后将所述输入图像按照所述检测的目标粒子(11a-11f)重新裁剪。5.根据权利要求3和4中的一项所述的方法,其中,步骤(a)包括:从所述样本(12)的由观察设备(10)采集的强度图像获得所述总体图像。6.根据权利要求1至5中的一项所述的方法,包括步骤(b0):使用所述样本(12)中的粒子(11a-11f)的训练图像的数据库对所述基本图像进行无监督式训练。7.根据权利要求6所述的方法,其中,已训练的参考图像是允许通过所述基本图像的线性组合对所述训练图像中的粒子(11a-11f)的表示进行最佳近似的那些参考图像。8.根据权利要求1至7中的一项所述的方法,其中,步骤(c)借助于分类器来实施,所述方法包括步骤(a0):由服务器(1)的数据处理装置(3)使用样本(12)中的粒子(11a-11f)的已分类的特征向量/矩阵的训练数据库来训练所述分类器的参数。9.根据权利要求8所述的方法,其中,所述分类器选自支持向量机、k-最近邻算法、或卷积神经网络。10.根据权利要求1至9中的一项所述的方法,其中,步骤(c)包括:借助于t-sne算法来减少所述特征向量的变量数量。11.根据权利要求1至10中的一项所述的方法,其用于对表示随时间推移的样本(12)中的所述目标粒子(11a-11f)的输入图像序列进行分类,其中,步骤(b)包括:通过将所述序列的每个输入图像的所提取的特征向量进行串接,获得所述目标粒子(11a-11f)的特征向量。12.一种用于对表示样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的系统,所述系统包括至少一个客户端(2),所述客户端(2)包括数据处理装置(20),其特征在于,所述数据处理装置(20)被配置为实施:-提取所述目标粒子(11a-11f)的特征的特征向量,所述特征是数字系数,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像表示参考粒子,使得由所述系数加权的所述基本图像的线性组合近似于所述输入图像中的所述目标粒子(11a-11f)的表示;-取决于所述提取的特征向量,对所述输入图像进行分类。13.根据权利要求12所述的系统,还包括:用于观察所述样本(12)中的所述目标粒子
(11a-11f)的设备(10)。14.一种计算机程序产品,包括代码指令,用于当所述程序在计算机上执行时,执行根据权利要求1至11中的一项所述的用于对表示样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的方法。15.一种由计算机设备可读的存储介质,在其上的计算机程序产品包括代码指令,用于执行根据权利要求1至11中的一项所述的用于对表示样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的方法。

技术总结
本发明涉及一种用于对包含样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的方法,该方法的特征在于,它包括经由客户端(2)的数据处理装置(20)实施以下步骤:(b)提取所述目标粒子(11a-11f)的特性的向量,所述特性是数字系数,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像表示参考粒子,使得由所述系数加权的所述基本图像的线性组合近似于输入图像中的所述目标粒子(11a-11f)的表示;(c)取决于特性的所述提取的向量,对所述输入图像进行分类。对所述输入图像进行分类。对所述输入图像进行分类。


技术研发人员:皮埃尔
受保护的技术使用者:拜尔阿斯特公司
技术研发日:2021.10.19
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐