彩色图像的单目深度估计系统、方法、设备及存储介质
未命名
08-22
阅读:63
评论:0

1.本发明属于计算机视觉中的深度估计技术领域,更具体地,涉及一种彩色图像的单目深度估计系统、方法、设备及存储介质。
背景技术:
2.单目深度估计旨在仅仅利用单张彩色图像估计出对应的深度图。近年来在单目深度估计领域出现了许多基于卷积神经网络(简称cnn)的方法,通过充分学习数据集中不同场景的先验信息,极大地提高了预测效果。
3.然而,尽管基于cnn的监督学习的方法极大地提高了预测效果,但是当前诸多方法的深度预测结果存在明显的不连续性和噪声,且难以恢复场景的细节信息。比如对于场景中的物体,难以在深度图中恢复其结构细节,物体边缘也不够锐利,物体的轮廓也容易与背景融为一体。此外对于一些小目标的深度也难以恢复和保留。这可能给那些需要使用这些深度图的任务(例如无人驾驶、室内机器人导航等)带来了困难。
4.因此,在估计深度图像时,对物体边缘进行精细准确的预测、并能保留更多物体细节信息是非常重要的。
技术实现要素:
5.针对现有技术的以上缺陷或改进需求,本发明提供了一种彩色图像的单目深度估计系统、方法、设备及存储介质,其目的在于在估计深度图像时,对物体边缘进行精细准确的预测、并能保留更多物体细节信息。
6.为实现上述目的,按照本发明的一个方面,提供了一种彩色图像的单目深度估计系统,包括:
7.特征提取模块,包括n层串联的特征提取层,特征提取模块接收到彩色图像后依次经过第1至第n特征提取层进行下采样,第i特征提取层输出结果为特征块i=1,2,3,
……
,n;n≥3;
8.语义分割模块,用于对彩色图像进行语义分割,得到具有多个语义段的语义分割图,每一语义段中的像素点属于同一语义类别;
9.特征解码模块,包括n层特征解码层和位于最后的结果输出层,各特征解码层均包括上采样网络、局部平面引导网络且第1至第n-1特征解码层还均包括语义图神经网络、第2至第n特征解码层还均包括下采样网络;结果输出层包括语义图神经网络和1
×
1卷积网络;其中,语义图神经网络获取多层级特征块进行拼接与融合后得到融合特征块、从融合特征块当前像素点所属语义段内的近邻像素点中获取与当前像素点相关的信息并进行聚合更新得到更新特征块后再与融合特征块再次拼接得到语义输出特征块;
10.其中,在第i特征解码层中,上采样网络对目标特征块进行上采样得到特征块局部平面引导网络获取目标特征并输出中间深度图下采样网络对中间深度
图进行下采样得到中间深度图在第n特征解码层中,目标特征块为特征块在其他的第i特征解码层中,目标特征块为将包含特征块中间深度图和特征块的多层级特征块输入语义图神经网络进行处理后得到的语义输出特征块
11.在结果输出层中,语义图神经网络获取的多层级特征包括特征块和各中间深度图并输出语义输出特征块经1
×
1卷积网络进行卷积后输出深度预测结果。
12.在其中一个实施例中,各语义图神经网络包括全局特征提取结构、构图与传播结构;其中;
13.全局特征提取结构获取多层级特征块进行拼接与融合得到融合特征块;
14.构图与传播结构获取融合特征块和语义分割图,更新融合特征块中的每个像素点的特征信息,得到更新特征块;其中,构图与传播结构包含聚合单元和更新单元,更新每个像素点v的特征信息的过程包括:
15.通过聚合单元执行:在像素点v所属的语义段内寻找k个与像素点v邻近的近邻像素点,构成近邻像素点集合ωv,k≥2;将近邻像素点集合ωv中的各近邻像素点u的特征输入多层感知机后得到对应的输出特征将所有输出特征加权求和,得到聚合特征其中,t为迭代轮次;
16.通过更新单元执行;将像素点v的当前特征和对应得到的聚合特征进行拼接后通过多层感知机进行融合,得到像素点v的更新特征
17.判断迭代轮次是否达到预设迭代次数,若是,则停止迭代,输出更新特征块。
18.在其中一个实施例中,通过计算像素点v的特征与所属语义段内其他像素点的特征之间的l2范数,l2范数越大,表示越邻近。
19.在其中一个实施例中,多层感知机中使用的激活函数为prelu激活函数。
20.在其中一个实施例中,预设迭代次数为2。
21.在其中一个实施例中,全局特征提取结构包含卷积核大小为7
×
7的卷积块和卷积核大小为1
×
1的卷积块,依次通过7
×
7的卷积块和1
×
1的卷积块对拼接后的多层级特征块进行融合。
22.在其中一个实施例中,特征提取模块为预训练好的densenet-161骨干网络,densenet-161骨干网络包含4层串联的特征提取层,依次将输入的彩色图像的尺寸h缩小至h/2、h/4、h/8和h/16。
23.按照本发明的另一方面,提供了一种彩色图像的单目深度估计方法,将彩色图像输入上述的彩色图像的单目深度估计系统,得到深度预测结果。
24.按照本发明的另一方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实
现上述的彩色图像的单目深度估计系统的搭建。
25.按照本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的所述彩色图像的单目深度估计系统的搭建。
26.总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
27.本发明提出了一种新的端到端的单目深度估计系统,在整个网络架构上设计了一个能结合多层次特征的金字塔编解码架构,特征提取模块相当于编码器,特征解码模块相当于解码器。同时,利用语义分割模块对彩色图像中进行语义分割,为不同的对象生成边缘准确的语义段,并且可以精准地识别出场景中的小物体。在进行特征解码时,将语义分割图引入单目深度估计算法中,利用语义分割图来指导不同层次特征的融合,使在每个语义段上进行特征的提取和推理,既有利于得到物体边界清晰的深度图,也有利于提高局部深度预测的准确性,那么就能有效避免模糊边界的产生。同时对于一些小物体而言也能通过其语义段来引导网络保留其特征信息从而在最终的深度预测中保留下来。
附图说明
28.图1是一实施例中的彩色图像的单目深度估计系统的结构框图;
29.图2是一实施例中的语义图神经网络的结构框图。
具体实施方式
30.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
31.如图1所示为一实施例中的彩色图像的单目深度估计系统的结构框图,其主要包括特征提取模块、语义分割模块和特征解码模块。
32.特征提取模块,包括n层串联的特征提取层,特征提取模块接收到彩色图像后依次经过第1至第n特征提取层进行下采样,第i特征提取层输出结果为特征块
33.语义分割模块,用于对彩色图像进行语义分割,得到具有多个语义段的语义分割图,每一语义段中的像素点属于同一语义类别,语义分割图中为场景中的每个语义类别标注出了它们所属的语义段。通过这些语义片段,既可以知道哪些像素是语义相关的,又可以得到不同语义段之间清晰的边界。例如同一幅图像的中猫和狗属于不同的语义类别,将会被划分至两个不同的语义段内。不同语义类别在单独观察时具有相似的深度结构,比如说天空的区域总是无限远,地面区域的深度往往沿垂直方向平滑变化而在水平上保持一致,而且一些物体的深度上面,比如说场景中的某个人所占区域的深度值就会比较接近,而相对应的,不同的语义类别之间也存在非常大的深度值差异。具体的,可以采用目前已有的语义分割算法实现语义分割。
34.特征解码模块,一共n+1个层级,包括n层特征解码层和位于最后的结果输出层。特征信息依次从第n特征解码层到第1特征解码层逐渐解码后从结果输出层输出。各特征解码
层均包括上采样网络、局部平面引导网络且第1至第n-1特征解码层还均包括语义图神经网络、第2至第n特征解码层还均包括下采样网络;结果输出层包括语义图神经网络和1
×
1卷积网络。
35.换言之,特征解码模块的层级结构设计如下:
36.第n特征解码层包括上采样网络(upconv)、局部平面引导网络和下采样网络(ds);
37.第2至第n-1特征解码层包括语义图神经网络(semantic gnn)、上采样网络、局部平面引导网络和下采样网络;
38.第1特征解码层包括语义图神经网络、上采样网络、局部平面引导网络;
39.结果输出层包括语义图神经网络和1
×
1卷积网络。
40.其中,上采样网络用于进行特征上采样,对特征进行解码,放大图像尺寸。下采样网络则是对特征进行下采样,对图像进行编码,缩小图像尺寸。上采样网络和下采样网络均可以采用常规网络架构。局部平面引导网络(lpg)可以采用常规的网络架构,用于初步估计深度信息,得到中间深度图。语义图神经网络对多层级特征块进行拼接与融合得到融合特征块、从融合特征块当前像素点所属语义段内的近邻像素点中获取与当前像素点相关的信息并进行聚合更新得到更新特征块后再与融合特征块再次拼接得到语义输出特征块。
41.在特征解码模块中,不同的特征解码层输入的信号会有所区别。其中,在第i特征解码层中,上采样网络对目标特征块进行上采样得到特征块局部平面引导网络获取目标特征并输出中间深度图下采样网络对中间深度图进行下采样得到中间深度图在第n特征解码层中,目标特征块为特征块在其他的第i特征解码层中,目标特征块为将包含特征块中间深度图和特征块的多层级特征块输入语义图神经网络进行处理后得到的语义输出特征块
42.具体来说,在第n特征解码层中,并不包含语义图神经网络,其输入信号为第n特征提取层的输出结构,即特征块在一实施例中,可以直接将特征块分别输入上采样网络和局部平面引导网络。在另一实施例中,也可以设置空洞空间金字塔池化(atrous spatial pyramid pooling,aspp),将特征块输入aspp扩大特征的感受野后再分别输入上采样网络和局部平面引导网络,通过上采样网络得到特征块通过局部平面引导网络得到中间深度图通过下采样网络得到中间深度图其中,各层级中的局部平面引导网络输出的中间深度图的尺寸需恢复到彩色图像的原始尺寸。
43.在1至第n-1特征解码层中,包含语义图神经网络,各层输入的信号为多层级特征块。例如,对于其中的任意第i特征解码层,获取的多层级特征块包括第i+1特征解码层输出的特征块中间深度图以及第i特征提取层输出的特征块需要说明的,经上采样后的特征块以及经下采样后的中间深度图与特征块
的尺寸是需要保持一致才能进行拼接与融合。语义图神经网络对特征块中间深度图以及第i特征提取层输出的特征块进行拼接与融合得到融合特征块从融合特征块当前像素点所属语义段内的近邻像素点中获取与当前像素点相关的信息并进行聚合更新得到更新特征块后再与融合特征块再次拼接得到语义输出特征块再将语义输出特征块分别输入上采样网络和局部平面引导网络,通过上采样网络得到特征块通过局部平面引导网络得到中间深度图通过下采样网络得到中间深度图
44.在结果输出层中,语义图神经网络获取第1特征解码层输出的特征块以及各特征解码层输出的中间深度图并进行拼接与融合得到融合特征块从融合特征块当前像素点所属语义段内的近邻像素点中获取与当前像素点相关的信息并进行聚合后与当前像素点特征再次拼接得到语义输出特征块特征块经1
×
1卷积网络进行卷积后输出深度预测结果。
45.可以理解的,上述彩色图像的单目深度估计系统中各网络的网络参数可以通过训练确定。该训练为常规的训练方法,即以彩色图片作为样本输入该单目深度估计系统中,对系统进行训练使得输出的深度预测结果趋近于实际的深度结果。
46.尽管传统基于cnn的单目深度估计算法已经能在整体性能指标上取得很好的结果,但是仍然难以恢复场景的结构细节信息,比如获得的深度预测结果中往往存在主要物体边缘过于平滑、小物体的深度信息难以恢复和保留等问题。而且,传统基于cnn的单目深度估计算法,往往使用卷积操作来进行特征的提取和推理,并且使用上采样操作来恢复全尺寸深度图,这样的操作不可避免地会导致前景和背景之间出现不希望的插值,从而导致预测的深度图在前景和背景之间出现不希望的差值,导致边界模糊。
47.本发明提出了一种新的端到端的单目深度估计系统,在整个网络架构上设计了一个能结合多层次特征的金字塔编解码架构,特征提取模块相当于编码器,特征解码模块相当于解码器。同时,利用语义分割模块对彩色图像中进行语义分割,为不同的对象生成边缘准确的语义段,并且可以精准地识别出场景中的小物体。在进行特征解码时,将语义分割图引入单目深度估计算法中,利用语义分割图来指导不同层次特征的融合,使在每个语义段上进行特征的提取和推理,既有利于得到物体边界清晰的深度图,也有利于提高局部深度预测的准确性,那么就能有效避免模糊边界的产生。同时对于一些小物体而言也能通过其语义段来引导网络保留其特征信息从而在最终的深度预测中保留下来。
48.在一实施例中,各层特征提取层对其输入特征块进行下采样后图像的尺寸缩小比例相同。具体的,特征提取模块可以为densenet-161骨干网络,,densenet-161骨干网络包含4层串联的特征提取层,依次将输入的彩色图像的尺寸h缩小至h/2、h/4、h/8和h/16。在其他实施例中,也可以选择其他的结构提取特征,且层数不限定于4。
49.在一实施例中,如图2所示,语义图神经网络包括全局特征提取结构、构图与传播
结构,全局特征提取结构的输出端分别与构图与传播结构的输入端和输出端连接。
50.其中,全局特征提取结构获取多层级特征块进行拼接与融合得到融合特征块,即全局特征提取结构主要用于对拼接的多层级特征进行初步融合并且从中提取全局上下文信息。
51.例如,对于第1至第n-1特征解码层中的任意第i特征解码层,输入的多层级特征为上一个层级输出的特征块中间深度图以及第i特征提取层输出的特征块进行拼接后的拼接特征为:
[0052][0053]
随后,对于拼接后特征进行全局特征融合,得到融合特征块
[0054][0055]
在一实施例中,可以设置多个卷积核尺寸逐渐减小的卷积块,依次通过多个卷积块的卷积操作对拼接后的多层级特征块进行融合。例如,设置卷积核大小为7
×
7的卷积块和卷积核大小为1
×
1的卷积块,依次通过7
×
7的卷积块和1
×
1的卷积块对拼接后的多层级特征块进行融合。
[0056]
为了能更好地保证全局特征信息能够传递到下一层级中去,从而推理出合适的公制深度,本发明将初步融合的融合特征跨连接到构图与传播结构的输出位置,与构图与传播结构输出的更新特征块拼接融合之后输入到下一层级中。
[0057]
构图与传播结构获取融合特征块和语义分割图,更新融合特征块中的每个像素点的特征信息,得到更新特征块。如前文介绍,不同的层级中获取的多层级特征块可能不同,但是语义图神经网络对多层级特征块进行处理的过程是相同的。
[0058]
通常,语义图神经网络虽然能根据语义分割图矫正和增强每个语义段内的特征,但是也因此将推理和计算都局限于每个语义段之内,这就限制了全局的上下文信息的捕获和推理。又由于单目深度估计问题本身存在的固有的尺度模糊性,若结合语义图神经网络仅指导单维度特征识别,这将使得推理出合适的公制深度变得困难。为了保证在最终公制深度图预测的正确性,本发明首先获取多层级特征并拼接后进行一个初步的全局信息融合,再结合语义图神经网络指导多层级特征的进一步融合。
[0059]
在一具体的实施例中,构图与传播结构包括聚合单元和更新单元,通过聚合和更新将融合特征块更新为更新特征块该更新过程会对每个像素点的特征进行更新,且可以只做一次更新,也可以迭代多次,进行多次更新。
[0060]
以更新任意一个像素点v的特征信息为例说明。
[0061]
通过聚合单元执行:在像素点v所属的语义段内寻找k个与像素点v邻近的近邻像素点,构成近邻像素点集合ωv,k≥2;将近邻像素点集合ωv中的各近邻像素点u的特征输入多层感知机后得到对应的输出特征将所有输出特征加权求和,得到聚合特征其中,t为迭代轮次;通过更新单元执行;将像素点v的当前特征和对应得到的聚合
特征进行拼接后通过多层感知机进行融合,得到像素点v的更新特征判断迭代轮次是否达到预设迭代次数,若是,则停止迭代,输出更新特征块。
[0062]
其中,每一层级的构图与传播结构都会获取语义分割图,基于语义分割图就能明确每个像素点所述的语义段。可以针对每个像素点v构建特征相似性图。首先,确定像素点v所属的语义段,以像素点v为顶点,在像素点v所属的语义段内搜索与其连接的k个像素点u,该k个像素点u是与像素点v最相关的像素点,可以通过两个像素点之间的特征空间差值来表示他们之间的相关性。此处使用语义分割图来限制了每个图中的所有节点都属于同一个语义类别。具体来说,对于同一个语义段内的像素点v和像素点u,可以通过计算两个像素点特征的l2距离(l2范数)来衡量相关性的大小,l2损失越小则说明两个像素点越相关,公式如下所示:
[0063][0064]
其中,分别表示特征快中的像素点u和像素点v的特征值。
[0065]
基于每个像素点v的特征相似性图,可以对确定k个与像素点v邻近的近邻像素点,构成近邻像素点集合ωv,然后基于近邻像素点进行特征聚合,聚合过程可用如下公式表示:
[0066][0067]
其中,|ωv|表示集合中节点的数量,聚合函数g即用于聚合v的近邻像素点u∈ωv的特征信息,t表示当前所处的时间步,表示在传播时间为t时近邻像素点u此时的隐藏状态或者说对应的特征向量,表示传播时间为t时节点v从近邻像素点中聚集到的特征信息。聚合函数g可以为一层mlp和prelu激活函数的组合,在传播时间为t时,对于当前节点v的所有近邻像素点u∈ωv,本发明将它们的隐藏状态输入到一个多层感知机(multi-layer perception,mlp)进行计算,然后将所有输出的特征取平均获得聚合特征信息
[0068]
完成像素点v与近邻像素点的特征聚合之后,再进行特征更新,更新过程可用如下公示表示:
[0069][0070]
其中,为像素点v的特征信息,u为更新函数,具体可以是一层mlp和prelu激活函数的组合,具体而言,将与拼接起来,通过一层mlp和prelu激活函数来得到更新后的隐藏状态
[0071]
若只要执行一次迭代,则只要执行一轮上述聚合和更新的过程,完成每个像素点特征信息的聚合与更新。若需要执行多次迭代,则上述聚合和更新的过程需要执行多轮,例如,在t=1时,每个像素点特征更新为特征块更新为特征块然后以特
征块为聚合更新的对象,重新执行上述聚合与更新过程,得到特征块继续以特征块为聚合更新的对象,重新执行上述聚合与更新过程,得到特征块以此类推,直至迭代次数到达预设次数,输出最终的更新特征快
[0072]
需要说明的是,在每一轮迭代中,由于像素点的特征信息会更新,因此,在针对每个像素点v构建特征相似性图,需要重新计算。可以将上述建立的特征相似性图视为语义k近邻图,在传播过程中,语义近邻图会随着节点特征的更新、节点间特征距离的变化而自适应地动态调整图结构,这样,每个节点都能自适应地在深度结构相似的区域内学习有用的局部先验信息。更重要的是,语义k近邻图在整个更新过程中不会跨边界聚合信息,这样相比于固定卷积核窗口大小的卷积神经网络而言,使用语义k近邻图既有利于得到物体边界清晰的深度图,也有利于充分利用同一类别之间深度结构的相似性来提高局部深度预测的准确性。避免了二维卷积中卷积核会跨越物体边界聚集特征的问题,从而能估计出锐利的物体边界。并且由于同一个语义类别的区域在深度结构上往往是相似的,语义图神经网络通过在同一个语义类别上进行推理也有助于局部区域的深度预测。
[0073]
在本发明中,对于同一语义段内的每个节点都能充分融合多层次的特征以及从相关性强的节点中学习对当前节点有利的局部先验信息,利用图网络具有灵活多变的结构、强大的推理能力和归纳偏置能力的特点,在传播过程中自适应地调整和更新每个节点的特征,增强每个语义段内的深度重建效果。
[0074]
需要注意的是,在最后的结果输出层中,本发明取消了跨连接,直接使用语义图神经网络对特征块和各中间深度图进行语义增强处理,然后再经过一个卷积核大小为1
×
1的卷积块得到最后的深度预测结果。
[0075]
相应地,本发明还涉及一种彩色图像的单目深度估计方法,将彩色图像输入上述介绍地彩色图像的单目深度估计系统,得到深度预测结果。
[0076]
相应地,本发明还涉及一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上文彩色图像的单目深度估计系统的搭建。
[0077]
相应地,本发明还涉及一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上文彩色图像的单目深度估计系统的搭建。
[0078]
综上,本发明提出了一种新的端到端的单目深度估计算法,在整个网络架构上设计了一个能结合多层次特征的金字塔编解码架构。通过在解码过程中利用语义信息来引导融合不同层次的特征,保留了场景的空间几何结构信息和场景的语义信息,从而得到结构细节更丰富、深度信息更准确的深度图。而且,在解码过程中根据场景的语义分割图自适应的对相同语义的区域进行特征推理与融合,帮助最终生成物体边缘更加锐利的深度图。
[0079]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种彩色图像的单目深度估计系统,其特征在于,包括:特征提取模块,包括n层串联的特征提取层,特征提取模块接收到彩色图像后依次经过第1至第n特征提取层进行下采样,第i特征提取层输出结果为特征块语义分割模块,用于对彩色图像进行语义分割,得到具有多个语义段的语义分割图,每一语义段中的像素点属于同一语义类别;特征解码模块,包括n层特征解码层和位于最后的结果输出层,各特征解码层均包括上采样网络、局部平面引导网络且第1至第n-1特征解码层还均包括语义图神经网络、第2至第n特征解码层还均包括下采样网络;结果输出层包括语义图神经网络和1
×
1卷积网络;其中,语义图神经网络获取多层级特征块进行拼接与融合后得到融合特征块、从融合特征块当前像素点所属语义段内的近邻像素点中获取与当前像素点相关的信息并进行聚合更新得到更新特征块后再与融合特征块再次拼接得到语义输出特征块;其中,在第i特征解码层中,上采样网络对目标特征块进行上采样得到特征块局部平面引导网络获取目标特征并输出中间深度图下采样网络对中间深度图进行下采样得到中间深度图在第n特征解码层中,目标特征块为特征块在其他的第i特征解码层中,目标特征块为将包含特征块中间深度图和特征块的多层级特征块输入语义图神经网络进行处理后得到的语义输出特征块在结果输出层中,语义图神经网络获取的多层级特征包括特征块和各中间深度图并输出语义输出特征块经1
×
1卷积网络进行卷积后输出深度预测结果。2.如权利要求1所述的彩色图像的单目深度估计系统,其特征在于,各语义图神经网络包括全局特征提取结构、构图与传播结构;其中;全局特征提取结构获取多层级特征块进行拼接与融合得到融合特征块;构图与传播结构获取融合特征块和语义分割图,更新融合特征块中的每个像素点的特征信息,得到更新特征块;其中,构图与传播结构包含聚合单元和更新单元,更新每个像素点v的特征信息的过程包括:通过聚合单元执行:在像素点v所属的语义段内寻找k个与像素点v邻近的近邻像素点,构成近邻像素点集合ω
v
,k≥2;将近邻像素点集合ω
v
中的各近邻像素点u的特征输入多层感知机后得到对应的输出特征将所有输出特征加权求和,得到聚合特征其中,t为迭代轮次;通过更新单元执行;将像素点v的当前特征和对应得到的聚合特征进行拼接后通过多层感知机进行融合,得到像素点v的更新特征判断迭代轮次是否达到预设迭代次数,若是,则停止迭代,输出更新特征块。
3.如权利要求2所述的彩色图像的单目深度估计系统,其特征在于,通过计算像素点v的特征与所属语义段内其他像素点的特征之间的l2范数,l2范数越大,表示越邻近。4.如权利要求2所述的彩色图像的单目深度估计系统,其特征在于,多层感知机中使用的激活函数为prelu激活函数。5.如权利要求2所述的彩色图像的单目深度估计系统,其特征在于,预设迭代次数为2。6.如权利要求2所述的彩色图像的单目深度估计系统,其特征在于,全局特征提取结构包含卷积核大小为7
×
7的卷积块和卷积核大小为1
×
1的卷积块,依次通过7
×
7的卷积块和1
×
1的卷积块对拼接后的多层级特征块进行融合。7.如权利要求1所述的彩色图像的单目深度估计系统,其特征在于,特征提取模块为预训练好的densenet-161骨干网络,densenet-161骨干网络包含4层串联的特征提取层,依次将输入的彩色图像的尺寸h缩小至h/2、h/4、h/8和h/16。8.一种彩色图像的单目深度估计方法,其特征在于,将彩色图像输入权利要求1至9任一项所述的彩色图像的单目深度估计系统,得到深度预测结果。9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述彩色图像的单目深度估计系统的搭建。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述彩色图像的单目深度估计系统的搭建。
技术总结
本发明公开了一种彩色图像的单目深度估计系统、方法、设备及存储介质,属于计算机视觉中的深度估计技术领域,估计系统包括特征提取模块、语义分割模块和特征解码模块,特征解码模块包括语义图神经网络,语义图神经网络获取多层级特征块进行拼接与融合后得到融合特征块、从融合特征块当前像素点所属语义段内的近邻像素点中获取与当前像素点相关的信息并进行聚合更新得到更新特征块后再与融合特征块再次拼接得到语义输出特征块;最后将各特征拼接后输出深度预测结果。利用语义分割图来指导不同层次特征的融合,使在每个语义段上进行特征的提取和推理,既有利于得到物体边界清晰的深度图,也有利于提高局部深度预测的准确性。也有利于提高局部深度预测的准确性。也有利于提高局部深度预测的准确性。
技术研发人员:杨铀 李国安 刘琼
受保护的技术使用者:华中科技大学
技术研发日:2023.04.25
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/