用于对代表样本中的粒子的输入图像进行分类的方法与流程
未命名
10-28
阅读:99
评论:0
1.本发明涉及生物粒子的光学采集领域。该生物粒子可以是微生物,诸如例如细菌、真菌或酵母。这也可能是细胞、多细胞生物、或任何其他类型的粒子诸如污染物或灰尘的问题。
2.本发明特别有利地适用于分析生物粒子的状态,例如着眼于确定应用抗生素后细菌的代谢状态。本发明使得例如对细菌进行抗菌谱成为可能。
背景技术:
3.抗菌谱(antibiogram)是一种实验室技术,旨在测试细菌菌株对一种或多种抗生素的表型。按照惯例地,抗菌谱是通过培养含有细菌和抗生素的样本来进行的。
4.欧洲专利申请号2 603 601描述了一种进行抗菌谱的方法,该方法涉及在有抗生素存在的情况下使孵育期后的细菌状态可视化。为了使细菌可视化,细菌用荧光标志物进行标记,使其结构得以展现。然后测量标志物的荧光就使得可以确定抗生素是否有效地作用于细菌。
5.用于确定对给定细菌菌株有效的抗生素的常规过程包括:(例如,从患者、动物、食品批次等)获取含有所述菌株的样本,然后将样本送到分析中心。当分析中心收到样本时,首先培养细菌菌株以获得其至少一个菌落(colony),这需要24小时至72小时。然后从该菌落中制备包含不同抗生素和/或不同浓度的抗生素的多个样本,然后再次孵育这些样本。在新的培养期(也需要24至72小时)之后,每个样本都要进行人工分析以确定抗生素是否有效。然后将结果送回给医师,以便他可以应用最有效的抗生素和/或抗生素浓度。
6.然而,标记过程执行起来特别长且很复杂,并且这些化学标志物对细菌有细胞毒性作用。因此,这种可视化方法不允许在细菌培养期间多次观察细菌,作为结果,细菌必须培养足够长的时间,大约24至72小时,以保证测量的可靠性。使生物粒子可视化的其他方法使用显微镜,允许对样本进行非破坏性测量。
7.数字全息显微术或dhm是一种成像技术,可以克服常规光学显微镜的景深限制。示意性地,它包括记录由被观察物体衍射的光波与空间相干参考波之间的干涉形成的全息图。这种技术在myung k.kim的题为“数字全息显微术的原理与技术(principles and techniques of digital holography microscopy)”的评论文章中有所描述,该文章发表于2010年1月的spie评论第1卷第1期。
8.最近,已经提出了使用数字全息显微术以自动方式识别微生物。因此,国际申请wo2017/207184描述了一种用于采集粒子的方法,这种方法将简单的散焦采集与数字聚焦重建相关联,从而使得可以在限制采集时间的同时观察生物粒子。
9.典型地,这种解决方案使得在有抗生素存在的情况下只需孵育大约10分钟后就可以检测出细菌的结构修饰,并且在两小时后检测出其敏感性(检测分裂存在与否或指示分裂的模式),而不像上述常规方法可能需要几天时间。具体而言,因为测量是非破坏性的,所以可以在培养过程的非常早期进行分析,而没有破坏样本并因而延长分析时间的风险。
10.甚至可以在多个连续的图像上跟踪粒子,从而形成代表粒子随时间推移的进展的胶片(因为粒子在第一次分析后没有被破坏),以便使其行为例如其移动速度或其细胞分裂过程可视化。
11.因此,将理解,这种可视化方法给出了极好的结果。困难在于对这些图像或这一胶片本身的解释,例如,是否期望得出细菌对样本中存在的抗生素的易感性(susceptibility)的结论。
12.已经提出了各种技术,范围从简单地随时间推移计数细菌到所谓的形态分析,该形态分析旨在经由图像分析来检测特定“构型(configuration)”。例如,当细菌正准备分裂时,在分布中会出现两极,远在分裂本身之前,这导致了分布划分成两个不同的片段。
13.文章[choi等人,于2014年]中已经提出了结合这两种技术以评估抗生素的有效性。然而,正如作者所强调的,他们的方法需要对一定数量的阈值进行非常精细的校准,这些阈值强烈依赖于抗生素引起的形态变化的性质。
[0014]
最近,文章[yu等人,于2018年]已经描述了一种基于深度学习的方法。作者提出使用卷积神经网络(convolutional neural network,cnn)提取形态特征以及与细菌移动相关的特征。然而,这种解决方案在计算资源方面被证明是非常密集的,而且要求庞大的训练图像数据库来训练cnn。
[0015]
因此,本发明的客观技术问题是使得可以提供一种用于对生物粒子的图像进行分类的更加有效且资源密集更少的解决方案。
技术实现要素:
[0016]
根据第一方面,本发明涉及一种用于对代表样本中的目标粒子的至少一个输入图像进行分类的方法,该方法的特征在于,它包括由客户端的数据处理装置实施以下步骤:
[0017]
(b)从输入图像中提取所述目标粒子的特征图;
[0018]
(c)借助于t-sne算法,减少所提取的特征图的变量的数量;
[0019]
(d)根据具有减少的变量数量的所述特征图,对所述输入图像进行无监督式分类。
[0020]
根据有利但非限制性的特征:
[0021]
该粒子以统一的方式被表示在输入图像及每个基本图像中,并且特别地以预定方向为中心并在预定方向上对齐。
[0022]
该方法包括步骤(a):从样本的总体图像中提取所述输入图像,以便以所述统一的方式代表所述目标粒子。
[0023]
步骤(a)包括:对所述总体图像进行分割,以便检测样本中的所述目标粒子,然后将输入图像按照所述检测的目标粒子重新裁剪。
[0024]
步骤(a)包括:从样本的强度图像获得所述总体图像,所述图像由观察设备采集。
[0025]
所述特征图是数字系数的向量,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像代表参考粒子,步骤(a)包括:确定数字系数,使得由所述系数加权的所述基本图像的线性组合近似于输入图像中的所述目标粒子的表示。
[0026]
所述目标粒子的所述特征图在步骤(b)中借助于在公共图像数据库上预先训练的卷积神经网络来提取。
[0027]
步骤(c)包括:借助于所述t-sne算法,针对样本中的粒子的已分类的特征图的训
练数据库的每个特征图以及所提取的特征图,定义投影(projection)空间,具有减少的变量数量的所述特征图是将所提取的特征图投影到所述投影空间的结果。
[0028]
步骤(c)包括:在所述投影空间中实施k-最近邻算法。
[0029]
该方法是一种用于对代表随时间推移的样本中的所述目标粒子的输入图像序列进行分类的方法,其中步骤(b)包括:对所述序列的每个输入图像的所提取的特征图进行串接。
[0030]
根据第二方面,提供了一种用于对代表样本中的目标粒子的至少一个输入图像进行分类的系统,该系统包括至少一个客户端,该客户端包括数据处理装置,其特征在于,所述数据处理装置(20)被配置为实施:
[0031]-经由对至少一个输入图像的分析,提取所述目标粒子的特征图;
[0032]-借助于t-sne算法,减少特征图的变量数量;
[0033]-根据具有减少的变量数量的所述特征图,对所述输入图像进行无监督式分类。
[0034]
根据有利但非限制性的特征,该系统还包括:用于观察样本中的所述目标粒子的设备。
[0035]
根据第三方面和第四方面,提供了以下:一种计算机程序产品,包括代码指令,用于执行根据第一方面的用于对代表样本中的目标粒子的至少一个输入图像进行分类的方法;以及一种由计算机设备件可读的存储介质,在其上的计算机程序产品包括代码指令,用于执行根据第一方面的用于对代表样本中的目标粒子的至少一个输入图像进行分类的方法。
附图说明
[0036]
本发明的其他特征和优点在阅读以下对优选实施例的描述时将变得显而易见。本描述将参照附图给出,在附图中:
[0037]-图1是用于实施根据本发明的方法的架构的示意图;
[0038]-图2a显示了用于观察样本中的粒子的设备的一个示例,该设备在根据本发明的方法的优选实施例中使用;
[0040]-图3a示出了根据本发明的方法的一个实施例中的输入图像的获得;
[0041]-图3b示出了根据本发明的方法的优选实施例中的输入图像的获得;
[0042]-图4显示了根据本发明的方法的优选实施例的步骤;
[0043]-图5a显示了根据本发明的方法的优选实施例中使用的基本图像的字典的一个示例;
[0045]-图5b显示了根据本发明的方法的优选实施例中的特征向量和矩阵的提取的一个示例;
[0046]-图6显示了根据本发明的方法的优选实施例中使用的卷积神经网络架构的一个示例;
[0047]-图7表示了根据本发明的方法的优选实施例中使用的t-sne投影的示例。
具体实施方式
[0048]
架构
[0049]
本发明涉及一种用于对代表样本12中存在的粒子11a-11f(被称为目标粒子)的至少一个图像进行分类的方法。应该注意,该方法可以针对样本12中存在的粒子11a-11f的所有或一些并行实施,每个粒子依次被认为是目标粒子。
[0050]
正如将看到的,本方法可以包括一个或多个机器学习组件,特别是一个或多个分类器,包括卷积神经网络cnn。
[0051]
输入或训练数据是图像类型的,并且代表样本12中的目标粒子11a-11f(换言之,这些是样本的图像,在其中目标粒子是可见的)。正如将看到的,可以提供相同目标粒子11a-11f的图像序列(或者在适当的情况下,如果考虑多个粒子则提供样本12的粒子11a-11f的多个图像序列)作为输入。
[0052]
样本12由液体组成,诸如水、缓冲液、培养基或反应介质(包括或不包括抗生素),待观察的粒子11a-11f位于其中。
[0053]
作为变型,样本12可以采取优选是半透明的固体介质诸如琼脂的形式,粒子11a-11f位于其中。样本12也可以是气体介质。粒子11a-11f可以位于介质内部或者在样本12的表面上。
[0054]
粒子11a-11f可以是诸如细菌、真菌或酵母的微生物。这也可能是细胞、多细胞生物、或任何其他类型的粒子诸如污染物或灰尘的问题。在本描述的其余部分中,将考虑粒子是细菌(并且,正如将看到的,样本12包含抗生素)的优选示例。观察到的粒子11a-11f的尺寸在500纳米和几百微米,或甚至几毫米之间变化。
[0055]
输入图像(或输入图像序列)的“分类(classification)”包括在描述图像的可能类别的集合中确定至少一个类别。例如,在细菌类型粒子的情况下,可以采用二元分类,即,可以采用两种可能的类别,分别指示“分裂(division)”或“不分裂(no division)”,证明对抗生素存在或不存在耐受性。本发明不限于任何一种特定的分类,尽管将主要描述抗生素对所述目标粒子11a-11f的作用的二元分类的示例。
[0056]
本方法借助于服务器1和客户端2在诸如图1所示的架构内实施。服务器1是被训练的设备件(实施训练方法),客户端2是用户设备件(实施分类方法),例如医生或医院的终端。
[0057]
这两件设备1、2可以被结合起来,但是优选地,服务器1是远程设备件,而客户端2是大众市场设备件,特别是桌上型计算机、膝上型计算机等。客户端设备2有利地连接到观察设备10,以便能够直接采集所述输入图像(或者,如下文将看到的,“原始”采集数据诸如样本12的总体图像或甚至电磁矩阵),典型地着眼于直接处理它。可替选地,输入图像将被加载到客户端设备2上。
[0058]
在所有情况下,着眼于交换数据,设备1、2中的每一件典型地是连接到局域网或广域网诸如因特网的远程计算机设备。每件设备包括处理器类型的数据处理装置3、20,以及诸如计算机存储器的数据存储装置4、21,例如闪存或硬盘。客户端2典型地包括用户界面22,诸如允许交互的屏幕。
[0059]
服务器1有利地存储训练数据库,即在各种条件下的粒子11a-11f的图像集合(参见下文)和/或已分类的特征图集合(例如,与指示对抗生素的敏感性或耐受性的标签“分裂”或“不分裂”相关联)。应该注意,训练数据将可能会与定义测试条件的标签相关联,例如指示关于细菌的培养的“菌株”、“抗生素条件”、“时间”等。
[0060]
采集
[0061]
如上文所解释的,本方法能够直接采用以任何方式获得的目标粒子11a-11f的任何图像作为输入。然而,本方法优选地开始于步骤(a),即从由观察设备10递送的数据获得输入图像。
[0062]
以已知的方式,本领域技术人员将能够使用dhm技术(dhm代表数字全息显微术),特别是诸如国际申请wo2017/207184中描述的。特别地,可以采集样本12的强度图像,其没有聚焦于目标粒子(该图像被称为“离焦(out of focus)”)但是能够由数据处理装置(例如其集成到设备10或客户端2的那些设备20中,参见下文)处理,这样的图像被称为全息图。将理解,全息图以某种方式“代表”样本中的所有粒子11a-11f。
[0063]
图2示出了用于观察样本12中存在的粒子11a-11f的设备10的示例。样本12被布置在空间和时间上相干(例如,激光)或伪相干(例如,发光二极管、激光二极管)的光源15与在光源的光谱范围内敏感的数字传感器16之间。优选地,光源15具有窄光谱宽度,例如窄于200nm、窄于100nm或者甚至窄于25nm。在下文中,参照例如位于可见域的光源的中心发射波长。光源15朝向样本的第一面13发射相干信号sn,该信号例如由波导诸如光纤传达。
[0064]
样本12(如典型地解释的培养基)包含在由下载玻片(slide)和上载玻片(例如常规的显微镜载玻片)垂直界定的分析室中。分析室由粘合剂或任何其他密封材料横向地界定。下载玻片和上载玻片对光源15的波长是透明的,样本和分析室允许例如超过50%的光源波长在下载玻片上在法向入射(normal incidence)下通过。
[0065]
优选地,粒子11a-11f位于上载玻片附近的样本12中。为此,上载玻片的底面包括允许粒子附着的配体(ligand),例如微生物的背景下的聚阳离子(例如,聚-l-赖氨酸)。这使得可以包含厚度等于或接近于光学系统景深(也就是厚度小于1mm(例如,镜筒透镜),优选地小于100μm(例如,显微镜物镜))的粒子。粒子11a-11f尽管如此可以在样本12中移动。
[0066]
优选地,该设备包括光学系统23,该光学系统23例如由显微镜物镜和镜筒透镜组成,置于空气中并与样本保持固定距离。光学系统23可选地配备有滤波器,其可以位于物镜前面或者物镜与镜筒透镜之间。光学系统23的特征在于光学轴线;物平面(也被称为焦点平面),其离物镜有一段距离;以及像平面,其由光学系统与物平面共轭。换言之,对于位于物平面中的物体,对应着该物体在像平面(也被称为焦平面)中的清晰图像。系统23的光学性质是固定的(例如,固定焦距的光学器件)。物平面和像平面正交于光学轴线。
[0067]
图像传感器16面向样本的第二面14位于焦平面中或靠近后者。传感器,例如ccd或cmos传感器,包括基本敏感位点(site)的周期性二维阵列,以及以本身已知的方式调整曝光时间和使位点归零的相关联的电子器件。从基本位点输出的信号取决于在曝光时间期间入射到所述位点上的光谱范围内的辐射量。然后,这个信号例如由相关联的电子器件转换成数字图像的图像点或“像素(pixel)”。因此,该传感器产生采取c列l行矩阵形式的数字图像。矩阵中的坐标(c,l),该矩阵的每个像素以本身已知的方式对应于光学系统23的焦平面中的笛卡尔坐标(x(c,l),y(c,l))的位置,例如矩形形状的基本敏感位点的中心的位置。
[0068]
选择周期性阵列的间距(pitch)和填充因子以符合关于观察到的粒子尺寸的奈奎斯特(nyquist)判据,以便定义每个粒子的至少两个像素。因此,图像传感器16采集样本在光源的光谱范围内的透射图像。
[0069]
由图像传感器16采集的图像包括全息信息,就它是由粒子11a-11f衍射的波与已
经穿过样本而不与其进行交互的参考波之间的干涉所产生的而言。如上所述,应该显而易见的是,在cmos或ccd传感器的上下文中,采集到的数字图像是强度图像,相位信息因而在这里被编码在该强度图像中。
[0070]
可替选地,可以将由光源15生成的相干信号sn划分成两个分量,例如借助于半透明板。然后,第一分量充当参考波,第二分量由样本12衍射,光学系统23的像平面中的图像由衍射波与参考波之间的干涉产生。
[0071]
参照图3a,在步骤(a)中,可以从全息图中重建样本12的至少一个总体图像,然后从样本的总体图像中提取所述输入图像。
[0072]
具体而言,将理解的是,目标粒子11a-11f必须在输入图像中以统一的方式表示,并且特别地以预定方向(例如水平方向)为中心并在预定方向上对齐。输入图像还必须具有标准化的尺寸(还期望在输入图像中只看到目标粒子11a-11f)。因此,该输入图像被称为“缩略图(thumbnail)”,并且其尺寸可以例如被定义为250
×
250像素。在输入图像序列的情况下,例如在120分钟的时间间隔内每分钟拍摄一幅图像,该序列由此形成250
×
250
×
120尺寸的3d“堆栈(stack)”。
[0073]
如所解释的,总体图像是由设备10的数据处理装置或客户端2的那些装置20重建的。
[0074]
典型地,(对于每个给定的采集时间)构建一系列的复矩阵,称为“电磁矩阵(electromagnetic matrices)”,这些矩阵基于样本12的强度图像(全息图)、针对相对于光学系统23的焦点平面的多个偏差(特别是定位在样本中的偏差)沿着光学轴线传播的光波的波前进行建模。
[0075]
这些矩阵可以被投影到真实空间(例如经由厄米范数(hermitian norm)),以便在各个焦距处形成总体图像的堆栈。
[0076]
由此可以确定平均焦距(并且选择相应的总体图像,或者从全息图中重新计算),或者甚至确定用于目标粒子的最佳焦距(并且再次选择相应的总体图像,或者从全息图中重新计算)。
[0077]
在任何情况下,参照图3b,步骤(a)有利地包括对所述一个或多个总体图像进行分割,以便检测样本中的所述目标粒子,然后进行裁剪。特别地,所述输入图像可以从样本的总体图像中提取,以便以所述统一的方式代表所述目标粒子。
[0078]
一般而言,分割允许检测所有感兴趣的粒子,同时去除诸如细丝或微菌落的伪影(artifact),以便改善一个或多个总体图像,然后选择所检测的粒子之一作为目标粒子,并且提取相应的缩略图。如所解释的,这可以针对所有检测到的粒子来进行。
[0079]
分割可以以任何已知的方式实施。在图3b的示例中,首先进行精细分割以消除伪影,然后进行粗略分割以检测粒子11a-11f。可以使用任何本领域技术人员已知的分割技术。
[0080]
如果期望获得用于目标粒子11a-11f的输入图像序列,可以使用跟踪技术以跟踪粒子从一个总体图像到下一个的任何移动。
[0081]
应该注意,对于给定的样本(对于样本12的多个粒子或甚至所有粒子)随时间推移获得的所有输入图像可以被池化(pooled)以形成样本12的描述性语料库(corpus)(换言之,实验的描述性语料库),如图3a的右侧所示,该语料库特别地被复制到客户端2的存储装
置21。这是与“粒子”级相对的“场(field)”级。例如,如果粒子11a-11f是细菌,并且样本12包含(或不包含)抗生素,则该描述性语料库包含关于这些细菌在整个采集场中的生长、形态、内部结构和光学性质的所有信息。正如将看到的,该描述性语料库可以被传送到服务器1,以用于集成到所述训练数据库中。
[0082]
特征提取
[0083]
参照图4,本方法特别值得注意的是从输入图像中提取特征图的步骤(b)与取决于所述特征图对输入图像进行分类的步骤(d)分开执行,而不是试图直接对输入图像进行分类,在这两个步骤之间存在借助于t-sne算法减少特征图的变量数量的步骤(c)。更确切地说,在步骤(c)中,构建了特征图的投影,称为“t-sne投影”,这种构建的投影具有数量比所提取的特征图的变量数量更少的变量,有利地只有两个或三个变量。
[0084]
在本描述的其余部分中,将在以下两者之间进行区分:在几何意义上在特征图的“维度”的数量,即这些图延伸的独立方向的数量(例如,向量是1维的对象,而本特征图至少是2维的对象,有利地是3维的对象,有时是4维的对象)与这些特征图的“变量”的数量,即每个维度中的尺寸,即独立自由度的数量(这实际上对应于向量空间中的维度概念——更确切地说,具有给定数量的变量的特征图集合形成了维度等于该变量数量的向量空间,类似地,对于t-sne投影集合也是如此)。因此,步骤(c)有时也被称为“降维(dimensionality reduction)”步骤,因为第一高维向量空间(特征图空间)被映射到第二低维向量空间(2d或3d空间),但实际上减少的是变量的数量。
[0085]
因此,以下将描述其中在步骤(b)结束时提取的特征图分别为以下的两个示例:尺寸为60
×
25并因此具有1500个变量的二维对象(即,维度为2的对象-矩阵);和尺寸为7
×7×
512并因此具有25088个变量的三维对象(即,维度为3的对象)。在这两个示例中,变量的数量减少到2个或3个。
[0086]
正如将看到的,每个步骤可以涉及独立的学习机制,该学习机制可以是(但不一定是)自动的,因此服务器1的所述训练数据库可以包括不一定已经分类的粒子图像和特征图。
[0087]
因此,主要步骤(b)是由客户端2的数据处理装置20提取所述目标粒子的特征图的步骤,也就是说对目标粒子进行“编码(coding)”。
[0088]
本领域技术人员在这里可以使用任何用于提取特征图的技术,包括能够产生具有高维度数(三维或甚至四维)的大规模特征图的技术,因为步骤(c)的t-sne算法巧妙地允许获得特征图的“简化”版本,然后非常容易处理。
[0089]
现在将描述多种技术,这些技术特别是允许在不要求大量计算能力或注释数据库的情况下获得高语义级别的特征图。
[0090]
在提供输入图像序列的情况下,步骤(b)因此有利地包括提取每个输入图像的一个特征图,该特征图可以被结合成称为目标粒子的“轮廓”的单个特征图。更确切地说,这些图全都具有相同的尺寸,并且形成图序列,因此将它们按照输入图像的顺序串接起来就足以获得“高深度”的特征图。在这样的情况下,减少每个t-sne的变量数量就更加有利。
[0091]
可替选地或附加地,对应于与样本12的多个粒子11a-11f相关联的多个输入图像的特征图可以被求和。
[0092]
根据步骤(b)的第一实施例,特征图只是特征向量,并且所述特征是数字系数,每
个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像代表参考粒子,使得由所述系数加权的所述基本图像的线性组合近似于输入图像中的所述粒子的表示。
[0093]
这被称为“稀疏编码”。所述基本图像被称为“原子(atom)”,并且原子的集合被称为“字典(dictionary)”。稀疏编码背后的思想是通过与字典词语进行类比,将任何输入图像表达为所述原子的线性组合。更确切地说,对于尺寸为p的字典d,并且将α表示为尺寸也为p的特征向量,寻找输入图像x的最佳近似dα。换言之,用α*表示最佳向量(输入图像x的稀疏代码),步骤(b)包括解决具有正则化参数λ的泛函的最小化问题(这使得可以在近似的质量与向量的稀疏性之间作出折衷,即涉及尽可能最少的原子)。例如,约束的最小化问题可以表述如下:
[0094][0095]
它也可以表达为变分-公式化问题:
[0096][0097]
所述系数有利地具有区间[0,1]中的值(这比r中的更简单),并且将理解的是由于编码的“稀疏”特性,通常大多数系数具有0的值。与非零系数相关联的原子被称为激活原子。
[0098]
自然地,基本图像是可与输入图像相比的缩略图,即,参考粒子以与输入图像中相同的统一方式被表示在其中,特别地以所述预定方向为中心并且在所述预定方向上对齐,并且基本图像有利地具有与输入图像相同的尺寸(例如250
×
250)。
[0099]
因此,图5a示出了36个基本图像的字典的示例(在具有抗生素头孢泊肟(cefpodoxime)的大肠杆菌的情况下)。
[0100]
参考图像(原子)可以是预定义的。然而,优选地,该方法包括从训练数据库中学习的步骤(b0),在该步骤中,特别是由服务器1的数据处理装置3学习参考图像(即字典的图像),以便在任何时候该方法不需要任何人工干预。
[0101]
这种学习方法被称为“字典学习(dictionary learning)”,因为它涉及学习字典,就其不需要对训练数据库的图像进行注释而言,这种学习方法是无监督式的,并且因此实施起来极其简单。具体而言,将理解,手动注释数以千计的图像将会非常耗时且非常昂贵。
[0102]
这种思想只是为了在训练数据库中提供代表粒子11a-11f在各种条件下的缩略图,并且以此为基础,找到允许任何缩略图尽可能容易地被代表的原子。
[0103]
在提供输入图像序列的情况下,如所解释的,步骤(b)有利地包括提取每个输入图像的一个特征向量,该特征图可以被结合成称为目标粒子的“轮廓”的特征矩阵。更确切地说,这些向量全都具有相同的尺寸(原子的数量),并且形成向量序列,因此将它们按照输入图像的顺序并置(juxtapose)起来就足以获得稀疏的二维代码(编码时空信息,因而是二维的)。
[0104]
图5b显示了提取特征向量的另一个示例,这次是利用25个原子的字典。已经显示了在给定时间t1获得的整个总体图像以及各种所提取的输入图像(对应于检测到的粒子)。因此,表示第二目标粒子的图像可以近似为原子13的0.33倍加上原子2的0.21倍加上原子9的0.16倍(即,向量(0;0.21;0;0;0;0;0;0;0.16 0;0;0;0.33;0;0;0;0;0;0;0;0;0;0;0;0)。
[0105]
中间显示的是被称为“累积直方图(cumulative histogram)”的求和向量。有利地,各系数被归一化使得它们的总和等于1。在右侧已经显示了被称为“激活分布图(activation profile)”的求和矩阵(60分钟内的总和)——可以看出因此其尺寸为60
×
25。
[0106]
将理解,该激活分布图是代表样本12(随时间推移)的高级特征图。
[0107]
根据步骤(b)的第二实施例,卷积神经网络cnn被用于提取特征图。将回想到,cnn特别适合于视觉相关的任务。通常,cnn能够直接对输入图像进行分类(即同时进行步骤(b)和(d))。
[0108]
这里,将步骤(b)和步骤(d)解耦合允许将cnn的使用限于特征提取,并且对于该步骤(b),可以单独使用在公共图像数据库上预训练的cnn,即已经被独立训练过的cnn。这就是所谓的“迁移学习(transfer learning)”。
[0109]
换言之,没有必要在粒子11a-11f的图像的训练数据库上训练或重新训练cnn,因此可以不对其进行注释。具体而言,将理解,对成千上万的图像进行手动注释将会非常耗时且非常昂贵。
[0110]
具体而言,为了执行特征提取的任务,对于cnn来说只要具有辨别能力就足够了,即,能够识别图像(包括在与当前输入图像无关的公共图像数据库中)之间的差异。有利地,所述cnn是图像分类网络,就已知这样的网络将操纵关于图像类别特别有辨别能力的特征图而言,并且因此特别适合于待分类的粒子11a-11f的当前上下文中,即使这不是cnn最初被训练的任务。将理解,图像检测、识别或甚至分割网络是分类网络的特殊情况,因为它们实际上执行(对总体图像的或图像中对象的)分类任务加上另一个任务(诸如在检测网络的情况下确定已分类对象的边界框的坐标,或者在分割网络的情况下生成分割掩模)。
[0111]
至于公共训练图像数据库,将潜在地使用例如众所周知的公共数据库imagenet,该数据库(包含超过150万个注释的图像)可用于实现几乎任何图像处理cnn(用于分类、识别等任务)的监督式学习。
[0112]
因此,可以使用甚至不需要训练的“现成的(off-the-shelf)”cnn将是有利的。在imagenet数据库上预训练的各种分类cnn(即作为在imagenet上训练的结果,可以利用其被初始化为正确值的参数获取)是已知的,例如:vgg模型(vgg代表视觉几何组(visual geometry group)),例如vgg-16模型、alexnet、inception,或甚至是resnet。图6表示vgg-16架构(它具有16层)。
[0113]
一般而言,cnn由以下两部分组成:
[0114]-特征提取第一子网络,最经常包括由卷积层和激活层组成(例如采用relu函数)的一连串的块,以增加特征图的深度,这些块由池化(pooling)层终止,从而允许特征图的尺寸减小(输入降维-通常为2倍)。因此,在图6的示例中,如所解释的,vgg-16具有16层,划分成5个块。第一块接收输入图像(空间尺寸为224
×
224,3个通道对应于图像的rgb字符)作为输入,包括将深度增加到64的2个卷积+relu序列(一个卷积层和一个relu函数激活层),然后是最大池化层(也可以使用全局平均池化),输出是尺寸为112
×
112
×
64的特征图(前两个维度是空间维度,第三个维度是深度——因此每个空间维度除以2)。第二块具有与第一个块完全相同的架构,并且在最后一个卷积+relu序列的输出端生成尺寸为112
×
112
×
128(深度加倍)的特征图,并且生成尺寸为56
×
56
×
128的特征图作为最大池化层的输出。
第三块这次具有三个卷积+relu序列,并且从最后一个卷积+relu序列生成尺寸为56
×
56
×
256(深度加倍)的特征图,并且生成尺寸为28
×
28
×
256的特征图作为来自最大池化层的输出。第四块和第五块具有与第三块完全相同的架构,并且连续生成尺寸为14
×
14
×
512和尺寸为7
×7×
512(深度不再增加)的特征图作为输出。该特征图是“最终”[0115]
图。将理解,在任何级别的图尺寸的方面都没有限制,并且上面提到的尺寸仅仅是示例。
[0116]-特征处理第二子网络,特别是分类器,如果cnn是分类网络的话。该子网络接收由第一子网络生成的最终特征图作为输入,并且返回预期结果,例如,如果cnn执行分类,则返回输入图像的类别。该第二子网络典型地包含一个或多个全连接(fully connected,fc)层和最终激活层,例如采用softmax函数(vgg-16的话就是这种情况)。两个子网络通常以监督方式同时被训练。
[0117]
因此,在第二实施例中,步骤(b)优选地借助于所述预训练的卷积神经网络的特征提取子网络(即第一部分,诸如图6中突出显示的vgg-16的示例)来实施。
[0118]
更确切地说,所述预训练的cnn(诸如vgg-16)并不旨在递送任何特征图,这些仅仅是供内部使用。通过“截断(truncating)”预训练的cnn,即通过只使用第一子网络的层,获得包含“最深”信息的最终特征图作为输出。
[0119]
将理解,作为特征提取子网络,也完全可以采用在其中生成最终特征图的层之前终止的部分,例如只采用块1至3而不是块1至5。这些信息更加广泛,但不够深入。
[0120]
在提供输入图像序列的情况下,应该注意的是可以将这些图结合成单个特征图(通过将它们按照输入图像的顺序串接起来,以便获得“高深度”特征图),而不是提取每个输入图像的一个特征图。然后,可以直接使用所谓的3d cnn,这可以向其供应输入图像的整个序列,这样就不需要逐个图像地工作。
[0121]
为此,步骤(b)包括将序列的所述输入图像预先串接成三维或3d堆栈,然后借助于3d cnn从三维堆栈中直接提取所述目标粒子11a-11f的特征图。
[0122]
三维堆栈由3d cnn处理作为单个单通道三维对象(例如,如果输入图像的尺寸为250
×
250
×
120,并且在120分钟内每分钟采集一个图像,则尺寸为250
×
250
×
120——前两个维度常规上是空间维度(即,输入图像的尺寸),而第三个维度是“时间”维度(采集时间)),而不是作为多通道二维对象(诸如例如与rgb图像一起使用),并且因此输出特征图是四维的。
[0123]
当前的3d cnn使用至少一个3d卷积层,其对各种输入图像的时空依赖性进行建模。
[0124]
所谓3d卷积层,是指应用四维滤波器的卷积层,并且因此能够在已经是三维堆栈的多个通道上工作,即四维特征图。换言之,3d卷积层将四维滤波器应用于四维输入特征图,以便生成四维输出特征图。第四个纬度也是最后一个维度是语义深度,就像在任何特征图中一样。
[0125]
这些层不同于常规的卷积层,常规的卷积层只能在代表二维对象(图像)的多个通道的三维特征图上工作。
[0126]
3d卷积的概念可能看起来是违反直觉的,但是它概括了卷积层的概念,即仅仅规定了深度等于输入通道数量(即输入特征图的深度)的多个“滤波器”,通过在输入的所有维
度上扫描它们来应用(对于图像来说是2d的),滤波器的数量定义了输出深度。
[0127]
因此,我们的3d卷积应用了深度等于三维输入堆栈的通道数量的四维滤波器,并且在三维堆叠的整个体积上扫描这些滤波器,因此不仅在两个空间维度上,而且在时间维度上,即在三维上(因此命名为3d卷积)。因此,每个滤波器实际上获得了一个三维堆栈,即四维特征图。在常规的卷积层中,尽管使用大量的滤波器肯定会增加输出的语义深度(通道的数量),但是输出将始终是三维特征图。
[0128]
变量数量的减少
[0129]
在步骤(b)中获得的特征图(特别是在输入图像序列的情况下)可能具有非常多的变量(几千或甚至几万),因此直接分类将会很复杂。
[0130]
像这样,在步骤(c)中,使用t-sne算法具备以下两个关键优点:
[0131]-使用低维空间(称为投影空间,或者有时称为可视化空间)并且有利地使用二维空间,允许数据的可视化并且与在特征图的原始空间中相比,操纵更加简单且直观;
[0132]-最重要的是,可以在步骤(c)中进行输入图像的无监督式分类,即不需要训练分类器。
[0133]
诀窍在于,可以构建整个训练数据库的t-sne投影,即,取决于训练数据库来定义投影空间。
[0134]
换言之,凭借t-sne算法,可以通过相同的投影空间中投影的两个或三个变量来表示输入图像的特征图和训练数据库的每个特征图,使得在原始空间中接近(远离)的两个特征图分别在投影空间中接近(远离)。
[0135]
具体而言,t-sne算法(t-sne代表t-分布式随机近邻嵌入(t-distributed stochastic neighbor embedding))是一种实现用于数据可视化的降维的非线性方法,允许高维空间的点的集合被表示在二维或三维空间中——数据然后可以用散点图可视化。t-sne算法试图找到一种配置(上面提到的“嵌入”t-sne投影),这种配置根据信息理论准则在点的邻近性方面是最优的。
[0136]
t-sne算法基于邻近性的概率解释。对于原始空间中的成对的点,定义了概率分布,使得彼此靠近的点被选择的概率高,而远离的点被选择的概率低。对于投影空间,也以相同的方式定义了概率分布。t-sne算法包括通过使关于各点在图上的位置的两个分布之间的库尔贝克(kullback-leibler)散度最小化来匹配两个概率密度。
[0137]
t-sne算法可以在粒子级(关于在训练数据库中可获得其图的单个粒子的目标粒子11a-11f)和场级(对于代表多个粒子11a-11f的多个输入图像的整个样本12的情况)两者上实现,特别是在单幅图像而不是堆栈的情况下。
[0138]
应该注意的是,t-sne投影可以特别凭借例如python中的实施方式来有效地实施,因此它可以实时进行。为了加速计算和减少内存占用,在计算所讨论的训练数据库和输入图像的t-sne投影之前,也可以完成第一步的线性降维(例如pca——主成分分析)。在这种情况下,训练数据库的pca投影可以被存储在存储器中,然后剩下的就是完成向所讨论的输入图像的特征图的投影。
[0139]
分类
[0140]
在步骤(c)中,所述输入图像以无监督的方式进行分类,取决于具有减少的变量数量的特征图,即其t-sne投影。
[0141]
将理解,可以使用任何允许对t-sne投影空间进行描述性分析的技术。具体而言,训练数据库的所有信息已经包含在其中,因此,只要查看该投影空间的空间配置就足以得出关于分类的结论。
[0142]
最简单的是使用k-nn方法(k-nn代表k-最近邻(k-nearest neighbors))。
[0143]
思路是查看对应于所讨论的一个或多个输入图像的特征图的点的相邻点,并且查看它们的分类。例如,如果相邻点被分类为“不分裂”,则可以假设所讨论的输入图像必须被分类为“不分裂”。应该注意的是考虑到的近邻可能是有限的,例如取决于菌株、抗生素等。图7显示了大肠杆菌菌株对于各种浓度的头孢泊肟所获得的t-sne嵌入的两个示例。在顶部的示例中,可以清楚地看到两个块,直观地证明了最小抑制浓度(minimum inhibitory concentration,mic)的存在,在该最小抑制浓度以上,形态以及因此细胞分裂就会受到影响。靠近上部的向量可能会被分类为“分裂”,而靠近下部的向量可能会被分类为“不分裂”。在底部的示例中,可以看到只有最高浓度脱颖而出(因此似乎具有抗生素作用)。
[0144]
计算机程序产品
[0145]
根据第二方面和第三方面,本发明涉及一种计算机程序产品,包括用于(特别是在服务器1和/或客户端2的数据处理装置3、20上)执行用于对表示样本12中的目标粒子11a-11f的至少一个输入图像进行分类的方法的代码指令,以及计算机设备件可读存储装置(服务器1和/或客户端2的存储器4、21),该计算机程序产品存储在其上。
技术特征:
1.一种用于对代表样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的方法,所述方法的特征在于,它包括由客户端(2)的数据处理装置(20)实施以下步骤:(b)从所述输入图像中提取所述目标粒子(11a-11f)的特征图;(c)借助于t-sne算法,减少所提取的特征图的变量的数量;(d)根据具有减少的变量数量的所述特征图,对所述输入图像进行无监督式分类。2.根据权利要求1所述的方法,其中,粒子(11a-11f)以统一的方式被表示在所述输入图像及每个基本图像中,并且特别地沿预定方向居中并对齐。3.根据权利要求2所述的方法,包括步骤(a):从所述样本的总体图像中提取所述输入图像,以便以所述统一的方式表示所述目标粒子(11a-11f)。4.根据权利要求3所述的方法,其中,步骤(a)包括:对所述总体图像进行分割,以便检测所述样本(12)中的所述目标粒子(11a-11f),然后将所述输入图像按照所述检测的目标粒子(11a-11f)重新裁剪。5.根据权利要求3和4中的一项所述的方法,其中,步骤(a)包括:从所述样本(12)的由观察设备(10)采集的强度图像获得所述总体图像。6.根据权利要求1至5中的一项所述的方法,其中,所述特征图是数字系数的向量,每个数字系数与基本图像集合中的一个基本图像相关联,每个基本图像代表参考粒子,步骤(a)包括:确定数字系数,使得由所述系数加权的所述基本图像的线性组合近似于所述输入图像中的所述目标粒子(11a-11f)的表示。7.根据权利要求1至5中的一项所述的方法,其中,所述目标粒子(11a-11f)的所述特征图在步骤(b)中借助于在公共图像数据库上预先训练的卷积神经网络来提取。8.根据权利要求1至7中的一项所述的方法,其中,步骤(c)包括:借助于所述t-sne算法,针对样本(12)中的粒子(11a-11f)的已分类的特征图的训练数据库的每个特征图以及所提取的特征图,定义投影空间,具有减少的变量数量的所述特征图是将所提取的特征图投影到所述投影空间的结果。9.根据权利要求8所述的方法,其中,步骤(d)包括:在所述投影空间中实施k-最近邻算法。10.根据权利要求1至9中的一项所述的方法,用于对代表随时间推移的样本(12)中的所述目标粒子(11a-11f)的输入图像序列进行分类,其中步骤(b)包括:对所述序列的每个输入图像的所提取的特征图进行串接。11.一种用于对代表样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的系统,所述系统包括至少一个客户端(2),所述客户端(2)包括数据处理装置(20),其特征在于,所述数据处理装置(20)被配置为实施:-经由对所述至少一个输入图像的分析,提取所述目标粒子(11a-11f)的特征图;-借助于t-sne算法,减少所述特征图的变量数量;-根据具有减少的变量数量的所述特征图,对所述输入图像进行无监督式分类。12.根据权利要求11所述的系统,还包括:用于观察所述样本(12)中的所述目标粒子(11a-11f)的设备(10)。13.一种计算机程序产品,包括代码指令,用于当所述程序在计算机上执行时,执行根据权利要求1至10中的一项所述的用于对代表样本(12)中的目标粒子(11a-11f)的至少一
个输入图像进行分类的方法。14.一种由计算机设备可读的存储介质,在其上的计算机程序产品包括代码指令,用于执行根据权利要求1至10中的一项所述的用于对代表样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的方法。
技术总结
本发明关于一种用于对代表样本(12)中的目标粒子(11a-11f)的至少一个输入图像进行分类的方法,该方法的特征在于,它涉及由客户端(2)的数据处理装置(20)执行以下步骤:(B)从输入图像中提取目标粒子(11a-11f)的特征图;(c)使用t-SNE算法来减少所提取的特征图中的变量数量;(d)基于具有减少的变量数量的特征图,对输入图像进行无监督式分类。输入图像进行无监督式分类。输入图像进行无监督式分类。
技术研发人员:皮埃尔
受保护的技术使用者:拜尔阿斯特公司
技术研发日:2021.10.19
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/