训练语义分割模型的方法和装置及图像检测方法与流程
未命名
07-27
阅读:98
评论:0

1.本公开内容总体上涉及图像处理,更具体的,涉及训练语义分割模型的方法、训练语义分割模型的装置及图像检测方法。
背景技术:
2.图像处理是计算机科学领域与人工智能领域中的一个重要方向。它研究诸如对象定位、对象识别、对象分割、对象检测等的各种理论和方法。
3.近年来,在涉及人工智能的深度学习领域,使用神经网络模型对图像数据进行图像处理的方法越来越多,并且显示出良好的应用前景。
4.常规的以全连接卷积神经网络为代表的语义分割模型的感受野多为3*3或5*5。
技术实现要素:
5.在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
6.根据本公开内容的一个方面,提供了一种计算机实现的训练语义分割模型的方法,包括以迭代方式训练语义分割模型,其中,语义分割模型包括语义分割网络,语义分割网络包括编码器和解码器,并且训练语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征;基于批次融合特征生成分割结果;以及基于分割结果调整语义分割模型和图神经网络。
7.根据本公开内容的一个方面,提供了一种图像检测方法。该方法包括:使用根据前述模型训练方法训练的语义分割模型处理待检测图像。
8.根据本公开内容的一个方面,提供了一种用于迭代训练语义分割模型的装置。语义分割模型包括语义分割网络。语义分割网络包括编码器和解码器。该装置包括:外部知识生成单元和训练单元。外部知识生成单元被配置成使用图神经网络生成针对分割类别集的外部知识特征。训练单元被配置成训练语义分割模型。训练语义分割模型包括:由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征;基于批次融合特征生成分割结果;以及基于分割结果调整语义分割模型和图神经网络。
9.根据本公开内容的一个方面,提供了一种用于训练语义分割模型的装置。该装置包括:存储器,其上存储有指令;以及至少一个处理器,被配置成执行指令以迭代方式训练语义分割模型,其中,语义分割模型包括语义分割网络,语义分割网络包括编码器和解码
器,并且训练语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征;基于批次融合特征生成分割结果;以及基于分割结果调整语义分割模型和图神经网络。
10.根据本公开内容的一个方面,提供了一种其上存储有程序的计算机可读存储介质,当被执行时,该程序使计算机以迭代方式训练语义分割模型。语义分割模型包括语义分割网络,语义分割网络包括编码器和解码器。训练语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征;基于批次融合特征生成分割结果;以及基于分割结果调整语义分割模型和图神经网络。
11.根据本公开内容的一个方面,提供了一种其上存储有程序的计算机可读存储介质,当被执行时,该程序使计算机:使用训练后的语义分割模型处理待检测图像。
12.本公开内容的方法、装置以及存储介质的有益效果包括以下中的至少一个:扩大感受野、提高模型准确度性能。
附图说明
13.参照附图下面说明本公开内容的实施例,这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。相同的附图标记可以表示相同的特征。在附图中:
14.图1示出了根据本公开内容的一个实施例的训练语义分割模型的方法的示例性流程图;
15.图2示出了根据本公开内容的一个实施例的语义分割模型的示意图;
16.图3示出了根据本公开内容的一个实施例的生成外部知识特征的方法的示例性流程图;
17.图4示出了根据本公开内容的一个实施例的示例类别描述句子的示例性列表;
18.图5示出了根据本公开内容的一个实施例的生成批次融合特征的方法的示例性流程图;
19.图6示出了根据本公开内容的一个实施例的确定样本融合特征的方法的示例性流程图;
20.图7示出了根据本公开内容的一个实施例的图像检测方法的示例性流程图;
21.图8示出了根据本公开内容的一个实施例的用于训练语义分割模型的装置的示例性框图;
22.图9示出了根据本公开内容的一个实施例的用于训练语义分割模型的装置的示例性框图;以及
23.图10是根据本公开内容的一个实施例的信息处理设备的示例性框图。
具体实施方式
24.在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。
25.在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开内容,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开内容关系不大的其他细节。
26.应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
27.用于执行本公开内容的实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c++之类,还包括常规的过程式程序设计语言,诸如"c"程序设计语言或类似的程序设计语言。
28.本公开内容的方法可以通过具有相应功能配置的电路来实现。所述电路包括用于处理器的电路。
29.本公开内容涉及利用神经网络实现语义分割。训练后的语义分割模型的输入为待检测图像,输出为指示图像中的各个像素的对应类别的分割结果。同一类别的像素构成的连通区域指示一个对象(object)实体。这些类别在本公开内容中被称为“分割类别”,这些类别构成的集合被称为“分割类别集”。使用样本图像对语义分割模型进行训练。样本图像构成的集合被称为“训练样本集”。训练过程中语义分割模型的参数会被调整,使得模型的性能逐渐提高,甚至稳定。为了扩大语义分割模型的感受野,提高语义分割模型的准确度性能,发明人基于以下构思设计了本公开内容的技术方案:基于融合了视觉特征和与分类图相关联的外部知识特征的融合特征进行语义分割,其中,分类图与训练样本集相关联。
30.本公开内容的一个方面涉及训练语义分割模型mss的方法,该方法可以利用计算机实现。下面参考图1对该方法进行示例性描述。
31.训练语义分割模型mss方法100包括以迭代方式训练语义分割模型mss,其中,语义分割模型mss包括语义分割网络ssn。训练时,语义分割模型mss的输入包括样本图像和图神经网络gnn输出的外部知识特征fe。图神经网络gnn被配置成生成针对分割类别集{c[n]}(“{}”表示集合,c[n]是该集合中第n元素的表示,该集合包括至少一个元素,简化起见,仅示出了一个一般元素c[n])的外部知识特征fe。分割类别集{c[n]}中的分割类别的数量用“n”来表示,n为自然数。例如,当语义分割模型mss是针对食谱图像的语义分割模型时,分割类别集{c[n]}中包括的是诸如“bread roll”(面包圈)、“beef”(牛肉)、“onion”(洋葱)、“tomato”(番茄)、“lettuce”(莴苣)等的n(例如,n=103)个分割类别。语义分割网络ssn具有常规架构,包括编码器和解码器。编码器生成输入图像的编码特征。解码器对编码器的输出特征进行上采样,生成具有与输出图像大小相同的视觉特征。在一个示例训练迭代轮中,训练操作可以包括图1所示的流程。图1示出了根据本公开内容的一个实施例的训练语义分割模型mss的方法100的示例性流程图。
[0032]
在步骤s101,由图神经网络gnn生成针对分割类别集的外部知识特征fe。
[0033]
在步骤s103,由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征。在一个训练迭代轮,一次输入一批样本图像(用im[i]表示其中的一个样本图像)。该批次样本图像的数量用“b”来表示,例如b=8。在训练模型时,通常情况下,b越大(即,每一批次参与训练的样本图像越多),训练后模型的性能越好。样本图像im[i]的视觉特征可以表示为:fv[i],fv[i]∈r
ch*w*h
,其中,ch为输出特征的通道维度的大小,简称通道维度值,w为样本图像的宽度,h为样本图像的高度。批次视觉特征用fb表示,fb∈r
b*ch*w*h
。当b大于1时,可以通过将b个视觉特征对齐叠置在一起得到批次视觉特征fb。
[0034]
在步骤s105,通过融合外部知识特征fe和批次视觉特征fb生成当前批次的批次融合特征fbf,fbf∈r
b*(n+1)*w*h
,其中,“n+1”中的“1”是考虑“背景类别”而增加的维度。此步骤可以由语义分割模型的融合层实现。
[0035]
在步骤s107,基于批次融合特征fbf生成分割结果rs。分割结果rs指示图像中的各个像素的分割类别。此步骤可以由语义分割模型的分类层实现。
[0036]
在步骤s109,基于分割结果调整语义分割模型mss和图神经网络gnn。具体的,可以基于分割结果确定损失函数;基于损失函数使用例如梯度下降法调整模型、网络的参数,从而达到优化模型mss、网络gnn目的。被调整的参数包括网络gnn的参数、网络ssn的参数。
[0037]
通过迭代地执行方法100,达到逐渐优化模型mss、图神经网络gnn的目的,其中,后一迭代轮以前一迭代轮确定的模型为基础进行训练。训练终止的条件例如为:训练达到预定的次数,损失函数已收敛,或损失函数足够小等。最终优化好的(即,迭代训练完成后的)图神经网络gnn生成的外部知识特征可作为训练好的语义分割模型的输入参数或内置参数处理待检测图像。
[0038]
常规语义分割模型多基于3*3、5*5的卷积核对图像进行卷积,并且遵循权值共享,相应的感受野大小就是3*3、5*5。即,常规语义分割模型感受野较小,因此分割性能受到了很大的牵制。方法100在常规语义分割网络的基础上,增加了融合层,其融合由图神经网络gnn给出的外部知识特征和解码器给出的视觉特征。即,本公开内容的语义分割模型mss包括语义分割网络和融合层。图神经网络gnn天然的能够建立起更大的感受野像素之间的空间位置联系,获得更多的上下文信息,从而从根本上解决感受野不足的问题,从而具有提升语义分割的性能的潜力。在语义分割任务中,外部知识可以作为视觉特征的补充,用于提升模型的性能。在方法100中,将语义分割网络生成的视觉特征与图神经网络生成的外部知识特征进行融合,融合特征可以体现整个图像中的每个像素或者比较远的区域之间的关系,从而利用这样融合特征进行语义分割可以扩大感受野,提高语义分割模型的准确度性能。
[0039]
图2示出了根据本公开内容的一个实施例的语义分割模型mss的示意图,其中,示出了在训练阶段,语义分割模型mss的输入、输出情况。如图2中所示,模型mss包括语义分割网络ssn,其中,语义分割网络ssn具有常见的“编码器-解码器”架构。针对使用当前批次样本图像的训练迭代轮,模型mss的输入包括b个样本图像im[i]、im[i+1]、
……
、im[i+b-1],模型mss的输出为分割结果rs。输入图像可以为rgb图像。语义分割网络ssn包括编码器encoder和解码器decoder。编码器encoder接收输入图像对图像的特征进行编码,解码器decoder对编码器输出的特征(特征图)进行上采样(upsample),使得上采样后输出特征与
原图像的大小一样。编码器encoder包括多个层,每个层包括卷积层、池化层。卷积层完成卷积处理(图中用“conv”表示)、归一化处理、激活处理(图中示例性示出为使用线性整流函数(rectified linear unit,relu)进行激活)等。图神经网络gnn用于生成针对分割类别集的外部知识特征fe。语义分割网络ssn的解码器decoder基于编码器的输出生成批次输入图像的批次视觉特征fb。外部知识特征fe输入到语义分割网络mss的融合层。融合层将批次视觉特征fb与外部知识特征fe进行融合得到批次融合特征fbf。语义分割模型mss(例如,使用softmax分类器)基于批次融合特征fbf对图像中的各个像素进行分类,得到分割结果rs。对每个样本图像而言,可以用包括不同颜色的连通域的与该样本图像等大的图像来表示针对该样本图像的分割结果,其中,每种颜色代表一个分割类别。在本公开内容中,图神经网络gnn可以为图卷积神经网络(graph convolutional network,gcn)或图注意力网络(graph attention network,gat)。
[0040]
外部知识为相对于作为内部知识的视觉特征的外部信息。外部知识有助于丰富特征。外部知识可以从训练数据集中获得。下面对利用图神经网络gnn生成外部知识特征fe的方法进行描述。
[0041]
图3示出了根据本公开内容的一个实施例的生成外部知识特征fe的方法300的示例性流程图,其中,针对所述分割类别集的外部知识特征是由图神经网络基于邻接矩阵和文本特征集来生成。
[0042]
在步骤s301,基于训练样本集中的标签确定与分割类别集{c[n]}相关联的分类图gs的节点集{node[n]}(“{}”表示集合,node[n]是该集合中第n元素的表示,该集合包括至少一个元素,简化起见,仅示出了一个一般元素node[n])。节点集{node[n]}与分割类别集{c[n]}对应,节点集{node[n]}中的节点node[n]与分割类别集{c[n]}中的分割类别c[n]对应。标签指示样本图像中相应区域内的对象属于的具体分割类别。
[0043]
在步骤s303,确定文本特征集{v[n]},其中,文本特征集{v[n]}中的文本特征v[n]是表征分割类别集{c[n]}中的相应分割类别c[n]的向量,该向量基于分割类别c[n]的类别名称name[n]来确定。即,此步骤得到n个文本特征向量,文本特征v[n]与分类图gs中的节点node[n]对应。可以用文本特征v[n]表征节点node[n]。文本特征v[n]∈rd,d为分量数,例如,d=64。在一个示例中,可以使用自然语言处理(natural language processing,nlp)工具基于分割类别集中的分割类别c[n]的类别名称name[n]确定分割类别c[n]的文本特征v[n]。自然语言处理工具可以是word2vec、glove(global vectors for word representation)或lstm(long short-term memory,长短期记忆)特征提取器。在一个示例中,使用对比语言图像预训练(contrastive language-image pre-training,clip)工具基于包含分割类别集{c[n]}中的分割类别的类别名称name[n]的类别描述句子(sen[n])确定相应分割类别c[n]的文本特征v[n]。图4示出了根据本公开内容的一个实施例的类别描述句子的示例性列表400(仅示出了列表的一部分),其中,每行为一个类别描述句子。列表400是针对食谱分割类别集的类别描述句子的列表。在一个示例中,类别描述句子可以根据经验由用户自己创建。
[0044]
在步骤s305,确定与图神经网络gnn相关联的邻接矩阵mata。邻接矩阵mata的大小为n*n。邻接矩阵mata矩阵的矩阵元e
nn
′
指示node[n]与node[n’]之间的关系。在一个示例中,可以通过如下方式确定邻接矩阵mata:确定分类图gs的边的值,基于所确定的边的值确
定n*n的矩阵,对该矩阵按列进行归一化(例如,使用目标列中的最大值对该目标列中各个矩阵元进行归一化),将归一化后的矩阵的对角线上矩阵元(即,e
nn
)设置为1。分类图gs的两个节点之node[n]和node[n’]间边的值至少基于以下中的至少一个来确定:与两个节点node[n]和node[n’]对应的两个分割类别c[n]和c[n’]的关于训练样本集{im[i]}的共现计数c
nn
′
;以及与两个节点node[n]和node[n’]对应的两个分割类别c[n]和c[n’]的估计共现概率p
nn
′
。在统计共现计数c
nn
时,c
nn
′
的初始值为0,若在一个样本图像中同时出现分割类别c[n]和c[n’],则c
nn
′
增加1。遍历整个训练样本集,统计训练样本集{im[i]}中同时出现分割类别c[n]和c[n’]的样本图像的数量,即可以得到最终的c
nn
′
。估计共现概率p
nn
′
是由用户根据经验或常识通过估计给出的分割类别c[n]和c[n’]在同一图像中出现的概率。
[0045]
在步骤s307,由图神经网络gnn的特征提取模块bke基于邻接矩阵mata和文本特征集{v[n]}提取针对分割类别集{c[n]}的第一中间部知识特征fe’,fe
′
∈r
n*d
。
[0046]
在步骤s309,由图神经网络gnn的后处理模块bkp对第一中间部知识特征fe’进行后处理得到外部知识特征fe,fe∈r
h*(n+1)*d
。后处理包括;通过在第一中间外部知识特征fe’的类别维度加一得到第二中间外部知识特征fe”,fe
″
∈r
(n+1)*d
,其中,增加的类别维度对应表示背景分割类别的向量,该向量维度为r
1*d
,初始化时各分量的初始化值可以被赋为零;通过将h个第二中间外部知识特征fe”对准地叠置在一起得到外部知识特征fe。外部知识特征fe包括表示背景分割类别的向量。
[0047]
下面对本公开内容所涉及的融合处理进行示例性描述。
[0048]
图5示出了根据本公开内容的一个实施例的生成批次融合特征fbf的方法500的示例性流程图。如图5中所示,方法500的输入为b个样本融合特征fsf[1]、
……
、fsf[b]、
……
fsf[b],输出为批次融合特征fbf。在步骤s501,确定中间批次融合特征fbf’,fbf
′
∈r
b*(d+ch)*w*h
。在当前批次的至少一个样本图像的数量是1时,确定中间批次融合特征包括:将当前批次的样本图像的样本融合特征设置为当前批次的中间批次融合特征。在当前批次的至少一个样本图像的数量大于1时,确定中间批次融合特征包括:通过拼接当前批次的多个样本图像的样本融合特征确定当前批次的中间批次融合特征。任意一个样本融合特征fsf[b]的大小为(d+ch)*w*h,即,fsf[b]∈r
(d+ch)*w*h
。当b大于1时,可以通过将b个样本融合特征对准地叠置在一起来实现拼接,从而得到中间批次融合特征fbf’。在步骤s503,通过对中间批次融合特征fbf’进行第一卷积处理conv1确定当前批次的批次融合特征fbf。第一卷积处理conv1能够改变特征的通道维度值,具体的将通道维度值从d+ch改变到n+1。变通道维度值的第一卷积处理conv1为1*1卷积处理。
[0049]
下面对方法500中所涉及的样本融合特征进行示例性描述。
[0050]
图6示出了根据本公开内容的一个实施例的确定样本融合特征的方法600的示例性流程图,其中,该样本融合特征fsf[b]针对的是当前感兴趣的样本图像im[b],简称当前样本图像。在步骤s601,通过第二卷积处理conv2基于当前样本图像im[b]的视觉特征fv[b]确定当前样本图像的分割特征fs[b]。分割特征fs[b]的大小(n+1)*w*h,即,fs[b]∈r
(n+1)*w*h
。视觉特征fv[b]的大小ch*w*h,即,fv[b]∈r
ch*w*h
。第二卷积处理conv2能够改变特征的通道维度值,具体的将视觉特征的通道维度值从ch改变到n+1。变通道维度值的第二卷积处理conv2为1*1卷积处理。在步骤s603,通过矩阵乘法基于外部知识特征fe和当前样本图像的分割特征fs[b]确定当前样本图像的大小为h*w*d的第一中间样本融合特征fsf’[b],
在进行矩阵乘法前对fs[b]进行转置(transpose)操作,将分割特征的维度分布从[n+1,w,h]变换到[h,w,n+1],即,fsf’[b]=transpose(fs[b])*fe。第一中间样本融合特征fsf’[b]的维度分布为[h,w,d]。在步骤s605,通过按照像素对准拼接当前样本图像的第一中间样本融合特征fsf’[b]和当前样本图像的维度变换特征fch[b]确定当前样本图像的第二中间样本融合特征fsf”[b]。维度变换特征fch[b]是基于当前样本图像的视觉特征fv[b]来确定,维度变换特征fch[b]的维度分布为[h,w,ch]。例如,对视觉特征fv[b]进行转置得到维度变换特征fch[b]。第二中间样本融合特征fsf”[b]的矩阵的维度分布为[h,w,(d+ch)]。在步骤s607,通过对当前样本图像的第二中间样本融合特征fsf”[b]进行行转置确定当前样本图像的样本融合特征fsf[b]。样本融合特征fsf[b]的维度分布为[(d+ch),w,h]。
[0051]
本公开内容的方案对所涉及的语义分割网络ssn没有特别的限制。语义分割网络ssn是一个通用的框架,可以为各种语义切分框架。例如,在一个示例中,用于语义分割模型mss的语义分割网络ssn是基于以下架构中的一个:特征金字塔网络(feature pyramid networks,fpn);十字交叉网络(criss-cross networks,ccnet);以及分割变换器(segmentation transformer,setr)。fpn、ccnet、setr均为神经网络领域的常规技术,其基本原理在此不再赘述。
[0052]
本公开内容的一个方面涉及图像检测方法。下面参照图7进行示例性描述。图7示出了根据本公开内容的一个实施例的图像检测方法700的示例性流程图。在步骤s701,使用本公开内容的用于训练语义分割模型的方法训练语义分割模型mss。在步骤s703,使用训练后的语义分割模型mss处理待检测图像。可选的,在训练已经完成的情况下,方法700可以只包括步骤s703。使用训练后的语义分割模型mss处理待检测图像包括:使用语义分割模型mss的融合层融合外部知识特征fe和待检测图像的视觉特征,其中,外部知识特征fe是由迭代调整后的图神经网络gnn生成。在一个示例中,在检测阶段,在每次检测图像前,都由迭代调整后的图神经网络gnn生成外部知识特征fe。在一个示例中,由于外部知识特征fe的生成与训练样本集有关,与待检测图像无关,所以可以在训练语义分割模型mss完成后(即,图神经网络gnn已完成优化后),存储由迭代调整后的图神经网络gnn生成的外部知识特征(例如,将语义分割模型的代码与生成的外部知识特征打包存储在一起);这样,在检测阶段,每次检测图像时,只需读取存储的外部知识特征即可,无需再运行图神经网络gnn以生成外部知识特征。
[0053]
为了验证方法700的效果,发明人做了一些对比实验。实验选择的数据集为公知的foodseg103数据库,其中包含7118张rgb食谱(菜谱)图像,分割类别的数量n=103。训练mss时,训练样本选择了foodseg103数据库中的4983张图像。图像检测实验选择了foodseg103数据库中的2135张图像。表1示出了三种不同架构的语义分割模型在使用外部知识特征前后的性能,其中,使用gcn生成外部知识特征,使用clip工具确定文本特征。
[0054]
表1三种不同架构语义分割模型在使用外部知识特征前后的性能
[0055]
[0056][0057]
从表1可以看到,在添加外部知识后,三种架构(ccnet、fpn和setr)的语义分割模型的miou(mean intersection over union,平均交并比)、macc(mean accuracy,平均准确度)均有所提升,其中,setr架构的语义分割模型性能最优。
[0058]
发明人还对不同外部知识特征提取方法对setr架构的语义分割模型的性能影响进行了实验。
[0059]
表2不同外部知识特征提取方法下setr架构的语义分割模型的性能
[0060][0061]
表2中“fe”表示“外部知识特征”,“无fe”表示未进行视觉特征与fe的融合(相应的,也就未使用gat、gcn、glove或clip),“+fe”表示进行了视觉特征与fe的融合(相应的,会使用gat/gcn,及glove/clip)。从表2可看到:在使用gcn网络提取外部知识特征,且使用clip工具确定文本特征时,模型的性能最优。
[0062]
本公开内容还提供一种用于训练语义分割模型的装置。下面参照图8进行示例性描述。图8示出了根据本公开内容的一个实施例的用于训练语义分割模型的装置800的示例性框图。语义分割模型包括语义分割网络。语义分割网络包括编码器和解码器。装置800用于以迭代方式训练所述语义分割模型。装置800包括:外部知识生成单元81和训练单元83。训练单元83被配置成训练语义分割模型。训练单元83包括:视觉特征生成单元801、融合单元803、分割单元805和调整单元807。外部知识生成单元81被配置成使用图神经网络生成针对分割类别集的外部知识特征。视觉特征生成单元801被配置成:使用解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征。融合单元803被配置成:通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征。分割单元805被配置成:基于批次融合特征生成分割结果。调整单元807被配置成:基于分割结果调整语义分割模型和图神经网络。装置800与方法100存在对应关系。装置800的进一步配置情况可参考本公开内容对方法100的描述。
[0063]
本公开内容还提供一种用于训练语义分割模型的装置。下面参照图9进行示例性描述。图9示出了根据本公开内容的一个实施例的用于训练语义分割模型的装置900的示例性框图。装置900包括:存储器901,其上存储有指令;以及至少一个处理器903,用于执行指令以实现:以迭代方式训练语义分割模型。语义分割模型包括语义分割网络。语义分割网络包括编码器和解码器。训练语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样
本图像对应的至少一个视觉特征的批次视觉特征;通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征;基于批次融合特征生成分割结果;以及基于分割结果调整语义分割模型和图神经网络。装置900与方法100存在对应关系。装置900的进一步配置情况可参考本公开内容对方法100的描述。
[0064]
本公开内容的一个方面提供一种其上存储有程序的计算机可读存储介质,当被执行时,该程序使计算机以迭代方式训练语义分割模型。语义分割模型包括语义分割网络,语义分割网络包括编码器和解码器。训练语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征;基于批次融合特征生成分割结果;以及基于分割结果调整语义分割模型和图神经网络。程序与方法100存在对应关系。程序的进一步配置情况可参考本公开内容对方法100的描述。
[0065]
本公开内容的一个方面提供一种其上存储有程序的计算机可读存储介质,当被执行时,该程序使计算机:使用训练后的语义分割模型处理待检测图像。训练语义分割模型的方法为本公开内容公开的涉及外部知识特征的方法。使用训练后的语义分割模型处理待检测图像包括:使用语义分割模型的融合层融合外部知识特征和待检测图像的视觉特征,其中,外部知识特征fe是由迭代调整后的图神经网络生成。在一个示例中,训练后的语义分割模型包括内置参数,并且所述内容参数包括由迭代调整后的图神经网络生成的外部知识特征。在将外部知识特征设置为训练后的语义分割模型的内置参数后,每次检测待检测图像时,无需再运行迭代调整后的图神经网络已得到外部知识特征。
[0066]
根据本公开内容一个方面,还提供一种信息处理设备。
[0067]
图10是根据本公开内容的一个实施例的信息处理设备1000的示例性框图。在图10中,中央处理单元(cpu)1001根据存储在只读存储器(rom)1002中的程序或从存储部分1008加载到随机存取存储器(ram)1003的程序来进行各种处理。在ram 1003中,也根据需要来存储在cpu 1001执行各种处理时所需的数据等。
[0068]
cpu 1001、rom 1002以及ram 1003经由总线1004彼此连接。输入/输出接口1005也连接至总线1004。
[0069]
下述部件连接至输入/输出接口1005:包括软键盘等的输入部分1006;包括诸如液晶显示器(lcd)等的显示器以及扬声器等的输出部分1007;诸如硬盘的存储部分1008;以及包括网络接口卡如lan卡、调制解调器等的通信部分1009。通信部分1009经由诸如英特网、局域网、移动网络的网络或其组合执行通信处理。
[0070]
驱动器1010根据需要也连接至输入/输出接口1005。可拆卸介质1011如半导体存储器等根据需要安装在驱动器1010上,使得从其中读取的程序根据需要被安装到存储部分1008。
[0071]
cpu 1001可以运行对应用于训练语义分割模型的方法或用于图像检测方法的程序。
[0072]
本公开内容的方案基于利用图神经网络生成的外部知识特征对语义分割网络进行训练、对图像进行图像检测。本公开内容的方法、装置以及存储介质的有益效果包括以下中的至少一个:扩大语义分割模型的感受野,提高语义分割模型的准确度性能。
[0073]
如上所述,根据本公开内容,提供了训练语义分割模型和检测图像的原理。需要注意的是,本公开内容的方案的效果不一定限于上述效果,并且除了前面段落中描述的效果之外或代替前面段落中描述的效果,可以取得本说明书中示出的效果中的任何效果或者可以从本说明书中理解的其他效果。
[0074]
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下,各实施例之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开内容的保护范围内。
[0075]
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0076]
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
[0077]
附记
[0078]
本公开内容包括但不限于以下方案。
[0079]
1.一种计算机实现的训练语义分割模型的方法,包括以迭代方式训练所述语义分割模型,其中,所述语义分割模型包括语义分割网络,所述语义分割网络包括编码器和解码器,并且训练所述语义分割模型包括:
[0080]
由图神经网络生成针对分割类别集的外部知识特征;
[0081]
由所述解码器基于所述编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;
[0082]
通过融合所述外部知识特征和所述批次视觉特征生成所述当前批次的批次融合特征;
[0083]
基于所述批次融合特征生成分割结果;以及
[0084]
基于所述分割结果调整所述语义分割模型和所述图神经网络。
[0085]
2.根据附记1所述的方法,其中,所述图神经网络被配置成基于邻接矩阵和文本特征集生成针对所述分割类别集的外部知识特征;
[0086]
所述邻接矩阵是基于与所述分割类别集相关联的分类图的边的值来确定;
[0087]
所述分类图包括与所述分割类别集对应的多个节点;
[0088]
所述文本特征集中的文本特征是基于所述分割类别集中的相应分割类别的类别名称来确定;并且
[0089]
所述分类图的两个节点之间边的值至少基于以下中的至少一个来确定:
[0090]
与所述两个节点对应的两个分割类别的关于所述训练样本集的共现计数;以及
[0091]
与所述两个节点对应的两个分割类别的估计共现概率。
[0092]
3.根据附记2所述的方法,其中,所述外部知识特征为大小为h*(n+1)*d的三维矩阵;
[0093]
h为所述训练样本集中每个样本图像的高度;
[0094]
n为所述分割类别集中的分割类别的数量;
[0095]
d为所述文本特征集中的文本特征的分量数;并且
[0096]
所述外部知识特征包括表示背景分割类别的向量。
[0097]
4.根据附记2所述的方法,其中,使用自然语言处理工具基于所述分割类别集中的分割类别的类别名称确定所述文本特征集中的相应分割类别的文本特征。
[0098]
5.根据附记4所述的方法,其中,所述自然语言处理工具为:word2vec、glove或lstm特征提取器。
[0099]
6.根据附记2所述的方法,其中,使用对比语言图像预训练工具基于包含所述分割类别集中的分割类别的类别名称的类别描述句子确相应分割类别的文本特征。
[0100]
7.根据附记2所述的方法,其中,通过以下方式生成所述外部知识特征:
[0101]
由所述图神经网络的特征提取模块基于所述邻接矩阵和所述文本特征集提取针对所述分割类别集的第一中间外部知识特征;
[0102]
通过在所述第一中间外部知识特征的类别维度加一得到第二中间外部知识特征;以及
[0103]
通过将h个所述第二中间外部知识特征对准地叠置在一起得到所述外部知识特征;
[0104]
其中,增加的类别维度对应表示背景分割类别的向量。
[0105]
8.根据附记3所述的方法,其中,通过融合所述外部知识特征和所述批次视觉特征生成所述当前批次的批次融合特征包括:
[0106]
确定中间批次融合特征;以及
[0107]
通过对所述中间批次融合特征进行第一卷积处理确定所述当前批次的批次融合特征;
[0108]
其中,当所述当前批次的至少一个样本图像的数量是1时,确定中间批次融合特征包括:将所述当前批次的样本图像的样本融合特征设置为所述当前批次的中间批次融合特征;并且
[0109]
当所述当前批次的至少一个样本图像的数量大于1时,确定中间批次融合特征包括:通过拼接所述当前批次的多个样本图像的样本融合特征确定所述当前批次的中间批次融合特征。
[0110]
9.根据附记8所述的方法,其中,所述第一卷积处理为用于改变所述中间批次融合特征的通道维度值的1*1卷积处理。
[0111]
10.根据附记8所述的方法,其中,通过以下融合方式确定当前样本图像的样本融合特征:
[0112]
通过第二卷积处理基于所述当前样本图像的视觉特征确定当前样本图像的分割特征;
[0113]
通过矩阵乘法基于所述外部知识特征和所述当前样本图像的分割特征确定所述当前样本图像的大小为h*w*d的第一中间样本融合特征;
[0114]
通过按照像素对准拼接所述当前样本图像的第一中间样本融合特征和所述当前样本图像的维度变换特征确定所述当前样本图像的第二中间样本融合特征;以及
[0115]
通过对所述当前样本图像的第二中间样本融合特征进行转置确定所述当前样本图像的样本融合特征;
[0116]
其中,w为所述训练样本集中每个样本图像的宽度;并且
[0117]
所述当前样本图像的所述维度变换特征是基于所述当前样本图像的视觉特征来确定。
[0118]
11.根据附记10所述的方法,其中,所述第二卷积处理为用于改变所述视觉特征的通道维度值的1*1卷积处理。
[0119]
12.根据附记10所述的方法,其中,通过矩阵乘法基于所述外部知识特征和所述当前样本图像的分割特征确定所述当前样本图像的大小为h*w*d的第一中间样本融合特征包括:
[0120]
在进行所述矩阵乘法前对所述分割特征进行转置。
[0121]
13.根据附记12所述的方法,其中,所述维度变换特征是通过对所述视觉特征进行转置来得到。
[0122]
14.根据附记1所述的方法,其中,所述图神经网络为图卷积神经网络或图注意力网络。
[0123]
15.根据附记1所述的方法,其中,所述语义分割网络是基于以下架构中的一个:
[0124]
特征金字塔网络;
[0125]
十字交叉网络;以及
[0126]
分割变换器。
[0127]
16.一种图像检测方法,其特征在于,包括:
[0128]
使用根据权利要求1至15中的任一项所述的方法训练的语义分割模型处理待检测图像。
[0129]
17.一种用于训练语义分割模型的装置,其特征在于,包括:
[0130]
存储器,其上存储有指令;以及
[0131]
至少一个处理器,被配置成执行所述指令以迭代方式训练所述语义分割模型,其中,所述语义分割模型包括语义分割网络,所述语义分割网络包括编码器和解码器,并且训练所述语义分割模型包括:
[0132]
由图神经网络生成针对分割类别集的外部知识特征;
[0133]
由所述解码器基于所述编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;
[0134]
通过融合所述外部知识特征和所述批次视觉特征生成所述当前批次的批次融合特征;
[0135]
基于所述批次融合特征生成分割结果;以及
[0136]
基于所述分割结果调整所述语义分割模型。
[0137]
18.根据附记17所述的装置,其中,所述图神经网络为图卷积神经网络或图注意力网络。
[0138]
19.根据附记17所述的装置,其中,所述语义分割网络是基于以下架构中的一个:
[0139]
特征金字塔网络;
[0140]
十字交叉网络;以及
[0141]
分割变换器。
[0142]
20.根据附记17所述的装置,其中,所述语义分割网络是基于特征金字塔网络的网络;
[0143]
所述图神经网络为图卷积神经网络;
[0144]
所述图卷积神经网络基于与所述分割类别集对应的文本特征集生成所述外部知识特征;并且
[0145]
所述文本特征集中的文本特征是使用对比语言图像预训练工具基于包含所述分割类别集中的分割类别的类别名称的类别描述句子来确定。
技术特征:
1.一种计算机实现的训练语义分割模型的方法,包括以迭代方式训练所述语义分割模型,其中,所述语义分割模型包括语义分割网络,所述语义分割网络包括编码器和解码器,并且训练所述语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由所述解码器基于所述编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合所述外部知识特征和所述批次视觉特征生成所述当前批次的批次融合特征;基于所述批次融合特征生成分割结果;以及基于所述分割结果调整所述语义分割模型和所述图神经网络。2.根据权利要求1所述的方法,其中,所述图神经网络被配置成基于邻接矩阵和文本特征集生成针对所述分割类别集的外部知识特征;所述邻接矩阵是基于与所述分割类别集相关联的分类图的边的值来确定;所述分类图包括与所述分割类别集对应的多个节点;所述文本特征集中的文本特征是基于所述分割类别集中的相应分割类别的类别名称来确定;并且所述分类图的两个节点之间边的值至少基于以下中的至少一个来确定:与所述两个节点对应的两个分割类别的关于所述训练样本集的共现计数;以及与所述两个节点对应的两个分割类别的估计共现概率。3.根据权利要求2所述的方法,其中,所述外部知识特征为大小为h*(n+1)*d的三维矩阵;h为所述训练样本集中每个样本图像的高度;n为所述分割类别集中的分割类别的数量;d为所述文本特征集中的文本特征的分量数;并且所述外部知识特征包括表示背景分割类别的向量。4.根据权利要求2所述的方法,其中,使用自然语言处理工具基于所述分割类别集中的分割类别的类别名称确定所述文本特征集中的相应分割类别的文本特征。5.根据权利要求4所述的方法,其中,所述自然语言处理工具为:word2vec、glove或lstm特征提取器。6.根据权利要求2所述的方法,其中,使用对比语言图像预训练工具基于包含所述分割类别集中的分割类别的类别名称的类别描述句子确相应分割类别的文本特征。7.根据权利要求3所述的方法,其中,通过融合所述外部知识特征和所述批次视觉特征生成所述当前批次的批次融合特征包括:确定中间批次融合特征;以及通过对所述中间批次融合特征进行第一卷积处理确定所述当前批次的批次融合特征;其中,当所述当前批次的至少一个样本图像的数量是1时,确定中间批次融合特征包括:将所述当前批次的样本图像的样本融合特征设置为所述当前批次的中间批次融合特征;并且当所述当前批次的至少一个样本图像的数量大于1时,确定中间批次融合特征包括:通过拼接所述当前批次的多个样本图像的样本融合特征确定所述当前批次的中间批次融合
特征。8.根据权利要求7所述的方法,其中,通过以下融合方式确定当前样本图像的样本融合特征:通过第二卷积处理基于所述当前样本图像的视觉特征确定当前样本图像的分割特征;通过矩阵乘法基于所述外部知识特征和所述当前样本图像的分割特征确定所述当前样本图像的大小为h*w*d的第一中间样本融合特征;通过按照像素对准拼接所述当前样本图像的第一中间样本融合特征和所述当前样本图像的维度变换特征确定所述当前样本图像的第二中间样本融合特征;以及通过对所述当前样本图像的第二中间样本融合特征进行转置确定所述当前样本图像的样本融合特征;其中,w为所述训练样本集中每个样本图像的宽度;并且所述当前样本图像的所述维度变换特征是基于所述当前样本图像的视觉特征来确定。9.一种图像检测方法,其特征在于,包括:使用根据权利要求1所述的方法训练的语义分割模型处理待检测图像。10.一种用于训练语义分割模型的装置,其特征在于,包括:存储器,其上存储有指令;以及至少一个处理器,被配置成执行所述指令以迭代方式训练所述语义分割模型,其中,所述语义分割模型包括语义分割网络,所述语义分割网络包括编码器和解码器,并且训练所述语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由所述解码器基于所述编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合所述外部知识特征和所述批次视觉特征生成所述当前批次的批次融合特征;基于所述批次融合特征生成分割结果;以及基于所述分割结果调整所述语义分割模型和所述图神经网络。
技术总结
本公开内容涉及训练语义分割模型的方法和装置及图像检测方法。根据本公开内容的一个实施例,该训练语义分割模型的方法包括以迭代方式训练语义分割模型。语义分割模型包括语义分割网络。训练语义分割模型包括:由图神经网络生成针对分割类别集的外部知识特征;由解码器基于编码器的输出生成包括与训练样本集中的当前批次的至少一个样本图像对应的至少一个视觉特征的批次视觉特征;通过融合外部知识特征和批次视觉特征生成当前批次的批次融合特征;基于批次融合特征生成分割结果;以及基于分割结果调整语义分割模型和图神经网络。本公开内容的方法和装置的有益效果包括以下中的至少一个:扩大感受野、提高模型准确度性能。提高模型准确度性能。提高模型准确度性能。
技术研发人员:刘威 张慧港 孙俊
受保护的技术使用者:富士通株式会社
技术研发日:2022.01.10
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/