一种基于卷积神经网络的视觉抓取检测方法与流程
未命名
08-29
阅读:86
评论:0

1.本发明属于抓取检测技术领域,涉及一种基于卷积神经网络的视觉抓取检测方法。
背景技术:
2.现有的许多抓取检测方法主要分为不识别目标对象直接输出抓取候选对象的方法、先进行目标对象识别然后进行抓取物体检测的方法、同时进行目标对象识别和抓取物体检测的方法。不识别目标对象直接输出抓取候选对象的方法让抓取角的获取更加便捷,但是会造成抓取角精度的降低,同时这种方法不适合在杂乱的场景中对多物体进行抓取;先进行目标对象识别然后进行抓取物体检测的方法和同时进行目标对象识别和抓取物体检测的方法,这两种方法将问题分解成目标检测问题的抓取检测问题,区别是前一种方法先进行目标检测,然后将目标检测的结果作为输入进行抓取检测,而后一种方法同时进行目标检测和抓取检测,并将这目标检测和抓取检测的结果做一个整合,通过计算两个区域的交并比来建立边界框与抓取矩形之间的关系,如果交并比大于设定的阈值,则将抓取被检测对象。
3.现有的方法中,如果当可抓取区域远远小于整个物体时,物体的抓取矩形和边界框之间的交并比就会太小。因此,这种方法会过滤掉一些抓取候选对象。
技术实现要素:
4.为了解决可抓取区域远远小于整个物体时,物体的抓取矩形和边界框之间的交并比就会太小的问题,本发明提供本发明采用的技术方案是:
5.一种基于卷积神经网络的视觉抓取检测方法,包括以下步骤:
6.获取要抓取物体的rgb图片及深度图片;
7.对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标;
8.去除rgb图片的背景;
9.将去除背景的rgb图片,进行特征提取及特征融合;
10.将融合后的特征同时分别基于目标检测网络和抓取检测网络进行目标检测和抓取检测操作,得到目标检测特征和抓取检测特征;
11.将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性;
12.根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,筛选出最终的抓取检测结果。
13.进一步地,所述对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标通过使用设定好的固定的相机和深度图片里每个点的深度信息,计算出rgb图片中每个像素点的三维坐标,相机参数和深度信息计算每一像素点的三维坐标公
式为:
[0014][0015][0016]
z=d
[0017]
其中,(u,v)代表像素坐标点,(x,y,z)代表三维坐标点,f代表相机焦距,α、β代表像素坐标在像素坐标系下的u坐标轴和v坐标轴上的缩放倍数,c
x
,cy表示相机光轴在图像坐标系中原点到的像素坐标系下的原点的偏移量,d代表深度值。
[0018]
进一步地,所述去除rgb图片的所处环境的背景的基于ransac的平面拟合方法,检测目标所在场景中最大的三维平面,然后将处于三维平面内及三维平面以下的三维坐标点所对应rgb图片像素点的三个通道值赋值为255,去除检测目标的rgb图片的背景。
[0019]
进一步地,所述去除rgb图片的所处环境的背景的基于ransac的平面拟合方法,检测目标所在场景中最大的三维平面
[0020]
s31:在初始的三维坐标中随机选择三个点,计算其对应的平面方程:
[0021]a×
x+b
×
y+c
×
z+d=0
[0022]
s32:计算所有点至该平面的代数距离di,并选取一个阈值d
threshold
,若该点的di≤d
threshold
则认为该点是平面拟合模型的内点,反之则认为是平面拟合模型的外点;代数距离计算公式为:
[0023]di
=|a
×
xi+b
×
yi+c
×
zi+d|
[0024]
s33:重复步骤s32,选取最佳拟合参数,即内点数量最多的平面对应的平面拟合模型参数;每次迭代末尾都会根据期望的误差率、最佳内点个数、总样本个数、当前迭代次数计算一个迭代结束评判因子,根据迭代结束评判因子决定是否停止迭代,迭代结束后,最佳模型参数就是最终的参数估计值。
[0025]
进一步地,所述将去除背景的rgb图片,进行特征提取及特征融合的过程如下:
[0026]
将去除背景后的rgb图片输入resnet进行特征提取和特征融合,通过不同阶段学习的最后一个特征映射将被用作多尺度特征,这些尺度特征映射表示为{s1,s2,s3,s4,s5},这些特征映射相对于原始图像的步幅分别为{2,4,8,16,32},使用{s3,s4,s5}进行特征融合,融合后的特征映射记为{sp3,sp4,sp5}。
[0027]
进一步地,所述将融合后的特征同时进行目标检测和抓取检测操作,得到目标检测特征和抓取检测特征的过程如下:
[0028]
首先将融合后特征输入堆叠卷积块来从纹理和语义信息中获得任务相关的特征表示,
[0029]
然后通过一个3
×
3的卷积块来融合上一层次的任务相关的特征表示和当前层次的任务相关的特征表示得到目标检测任务相关特征和抓取检测任务相关特征
[0030]
最后通过一个1
×
1卷积层来将通道数量与最终预测相匹配,目标检测操作会输出一个mo×
(5+co)通道的输出,其中mo代表着边界框的个数,co是目标的类别数目,抓取检测操作最终会输出一个mg×
(6+ca)通道的输出,其中mg是预测的抓取矩形的数量,ca代表着旋
转角箱子的数目,目标检测头输出表示为fino,抓取检测头输出表示为fing。
[0031]
进一步地,所述将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性的过程如下:
[0032]
将目标检测操作输出的任务相关特征和抓取检测操作输出的任务相关特征
[0033]
首先两个特征将通过一个1
×
1卷积层,得到特征和特征的输出,
[0034]
然后将两个特征映射重塑为二维矩阵,并利用转置矩阵乘法生成输出关联矩阵
[0035]
最后,使用一个sigmoid激活函数来得到抓取检测结果和目标检测结果的联合可能性。
[0036]
进一步地,所述根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,得到筛选出最终的抓取检测结果的过程如下:
[0037]
根据抓取检测结果和目标检测结果的联合可能性和两个设定的参数nmmo、numc以及抓取质量阈值过滤出最终的预测结果,其中numo表示选择fino中目标对象预测值最高的numo个,numc表示每个目标对象最多有numc抓取预测,最后还会根据设定的抓取质量阈值过滤掉抓取质量低于阈值的抓取检测结果,最终输出的结果格式为一组元组,元组中的参数为(xo,yo,wo,ho,clso,xg,yg,wg,hg,θg,sg),其中xo,yo表示目标检测框的中心像素坐标,wo,ho表示目标检测框的宽度和高度,clso表示检测到的对象的类别,xg,yg表示抓取矩形的中心坐标,wg,hg表示为抓取矩形的宽度和高度,θg表示为旋转角度,sg表示为抓取的成功率。
[0038]
进一步地,所述目标检测网络和抓取检测网络的结构相同;
[0039]
所述目标检测网络由一个堆叠卷积块、一个3
×
3卷积块和一个1
×
1卷积层构成;
[0040]
其中卷积块由一个卷积层、一个归一化层和一个leaky relu激活函数构成,3
×
3卷积块代表着卷积块内的卷积层是3
×
3卷积层;
[0041]
堆叠卷积块由五个卷积块构成,五个卷积块为1
×
1卷积块、3
×
3卷积块、1
×
1卷积块、3
×
3卷积块和一个1
×
1卷积块顺序排列构成,其中旋转角箱子是把抓取矩形的旋转角度范围由[0,π]转换成ca个旋转角度的锚点。
[0042]
一种基于卷积神经网络的视觉抓取检测装置,包括
[0043]
获取模块:用于获取要抓取物体的rgb图片及深度图片;
[0044]
预处理模块,用于对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标;
[0045]
去除模块:用于去除rgb图片的背景;
[0046]
特征提取及特征融合:用于将去除背景的rgb图片,进行特征提取及特征融合;
[0047]
目标检测特征模块:用于将融合后的特征同时基于目标检测网络进行目标检测,得到目标检测特征;
[0048]
抓取检测特征模块:用于将融合后的特征同时基于抓取检测网络进行抓取检测操作,得到抓取检测特征;
[0049]
对准操作模块:用于将目标检测后的特征和抓取检测特征,进行对准操作,得到目
标检测结果和抓取检测结果的联合关联性;
[0050]
抓取模块:用于根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,筛选出最终的抓取检测结果。
[0051]
本发明提供的一种基于卷积神经网络的视觉抓取检测方法,是一种新的机器人抓取检测的方法,一种从rgb图片和深度图片中同时进行目标检测和抓取检测的方法,生成更多的抓取候选对象,设计了两个独立的检测分支用于目标检测和抓取检测,并通过对准模块对识别的目标对象和抓取候选对象之间的对应关系进行建模。此外,我们还提出了一种基于深度的方法来过滤掉杂乱场景中的背景,这使我们的目标检测头和抓取检测头专注于目标对象的特征,而不是来自环境的纹理,从而提高了预测的准确率。对现实世界机器人抓取检测的广泛实验研究表明,我们的方法在准确率和可解释性方面优于现有的抓取检测方法。本技术设计了一个使用深度图片过滤掉背景的模块,这个模块过滤了无用的信息,提高了在杂乱场景中抓取的准确率;同时设计了一个对准模块来对识别的对象和抓取候选对象之间的对应关系进行建模,这使得我们的抓取检测方法可以生成更多的抓取候选对象,而且提高了模型预测结果的可解释性。最后,我们进行了实机部署和实验,实验表明我们的方法在准确性和预测结果的可解释性方面明显优于其他方法。
附图说明
[0052]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0053]
图1为本发明的方法流程图;
[0054]
图2为本发明的背景处理的流程图;
[0055]
图3为抓取检测头的结构图;
[0056]
图4为本发明实验的流程图;
[0057]
图5(a)为cornell数据集上在图像级别的准确率对比图、(b)为cornell数据集上对象级别的准确率对比图、(c)为cornell数据集上每秒处理的帧数对比图、(d)为在jacquard数据集上的准确率对比图;
[0058]
图6(a)为图片i的cornell数据集和jacquard数据集实验效果图;(b)为图片ii的cornell数据集和jacquard数据集实验效果图;(c)为图片iii的cornell数据集和jacquard数据集实验效果图;(d)为图片iv的cornell数据集和jacquard数据集实验效果图。
[0059]
图7(a)待去除背景的图片,(b)为本发明的去除背景的效果图。
具体实施方式
[0060]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,下面将参考附图并结合实施例来详细说明本发明。
[0061]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实
际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0063]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0064]
在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
[0065]
为了便于描述,在这里可以使用空间相对术语,如“在
……
之上”、“在
……
上方”、“在
……
上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在
……
上方”可以包括“在
……
上方”和“在
……
下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
[0066]
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
[0067]
图1为本发明的方法流程图;
[0068]
一种基于深度学习的机器人的抓取检测方法,可以详细分为以下步骤:
[0069]
s1:取要抓取物体的rgb图片及深度图片;
[0070]
s2:对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标;
[0071]
s3:去除rgb图片的背景;
[0072]
s4:将去除背景的rgb图片,进行特征提取及特征融合;
[0073]
s5:将融合后的特征同时分别基于目标检测网络和抓取检测网络进行目标检测和
抓取检测操作,得到目标检测特征和抓取检测特征;
[0074]
s6:将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性;
[0075]
s7:根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,筛选出最终的抓取检测结果。
[0076]
步骤s1/s2/s3/s4/s5/s6/s7顺序执行;
[0077]
所述对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标通过使用设定好的固定的相机和深度图片里每个点的深度信息,计算出rgb图片中每个像素点的三维坐标,相机参数和深度信息计算每一像素点的三维坐标公式为:
[0078][0079][0080]
z=d
[0081]
其中,(u,v)代表像素坐标点,(x,y,z)代表三维坐标点,f代表相机焦距,α、β代表像素坐标在像素坐标系下的u坐标轴和v坐标轴上的缩放倍数,c
x
,cy表示相机光轴在图像坐标系中原点到的像素坐标系下的原点的偏移量,d代表深度值。
[0082]
图2为本发明的背景处理的流程图;
[0083]
进一步地:所述去除rgb图片的所处环境的背景的基于ransac的平面拟合方法,检测目标所在场景中最大的三维平面,然后将处于三维平面内及三维平面以下的三维坐标点所对应rgb图片像素点的三个通道值赋值为255,去除检测目标的rgb图片的背景。
[0084]
进一步地:所述去除rgb图片的所处环境的背景的基于ransac的平面拟合方法,检测目标所在场景中最大的三维平面的过程如下:
[0085]
s31:在初始的三维坐标中随机选择三个点,计算其对应的平面方程:
[0086]a×
x+b
×
y+c
×
z+d=0
[0087]
s32:计算所有点至该平面的代数距离di,并选取一个阈值d
threshold
,若该点的di≤d
threshold
则认为该点是平面拟合模型的内点,反之则认为是平面拟合模型的外点;代数距离计算公式为:
[0088]di
=|a
×
xi+b
×
yi+c
×
zi+d|
[0089]
s33:重复步骤s32,选取最佳拟合参数(a、b、c、d),即内点数量最多的平面对应的平面拟合模型参数;每次迭代末尾都会根据期望的误差率、最佳内点个数、总样本个数、当前迭代次数计算一个迭代结束评判因子,根据迭代结束评判因子决定是否停止迭代,迭代结束后,最佳模型参数就是最终的参数估计值。
[0090]
所述将去除背景的rgb图片,进行特征提取及特征融合的过程如下:
[0091]
将去除背景后的rgb图片输入resnet进行特征提取和特征融合,通过不同阶段学习的最后一个特征映射将被用作多尺度特征,这些尺度特征映射表示为,这些特征映射相对于原始图像的步幅分别为{2,4,8,16,32},使用进行特征融合,融合后的特征映射记为。
[0092]
图3为抓取检测头的结构图;
[0093]
所述将融合后的特征同时进行目标检测和抓取检测操作,得到目标检测特征和抓取检测特征的过程如下:
[0094]
首先将融合后特征输入堆叠卷积块来从纹理和语义信息中获得任务相关的特征表示,
[0095]
然后通过一个3
×
3的卷积块来融合上一层次的任务相关的特征表示和当前层次的任务相关的特征表示得到目标检测任务相关特征和抓取检测任务相关特征
[0096]
最后通过一个1
×
1卷积层来将通道数量与最终预测相匹配,目标检测操作会输出一个mo×
(5+co)通道的输出,其中mo代表着边界框的个数,co是目标的类别数目,抓取检测操作最终会输出一个mg×
(6+ca)通道的输出,其中mg是预测的抓取矩形的数量,ca代表着旋转角箱子的数目,目标检测头输出表示为fino,抓取检测头输出表示为fing。
[0097]
所述将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性的过程如下:
[0098]
将目标检测操作输出的任务相关特征和抓取检测操作输出的任务相关特征,
[0099]
首先两个特征将通过一个1
×
1卷积层,得到特征和特征.的输出,
[0100]
然后将两个特征映射重塑为二维矩阵,并利用转置矩阵乘法生成输出关联矩阵,
[0101]
最后,使用一个sigmoid激活函数来得到抓取检测结果和目标检测结果的联合可能性。
[0102]
所述根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,得到要抓取的目标的过程如下:
[0103]
根据抓取检测结果和目标检测结果的联合可能性和两个设定的参数numo、numc以及抓取质量阈值过滤出最终的预测结果,其中numo表示选择fino中目标对象预测值最高的numo个,numc表示每个目标对象最多有numc抓取预测,最后还会根据设定的抓取质量(抓取质量相当于概率,阈值是为了过滤掉概率低的结果)阈值过滤掉抓取质量低于阈值的抓取检测结果,最终输出的结果格式为一组元组,元组中的参数为(xo,yo,wo,ho,clso,xg,yg,wg,hg,θg,sg),其中xo,yo表示目标检测框的中心像素坐标,wo,ho表示目标检测框的宽度和高度,clso表示检测到的对象的类别,xg,yg表示抓取矩形的中心坐标,wg,hg表示为抓取矩形的宽度和高度,θg表示为旋转角度,sg表示为抓取的成功率。
[0104]
所述目标检测网络和抓取检测网络的结构相同;目标检测网络和抓取检测网络网络的结构相同,但完成的功能不同,训练时更新的网络参数就不同,所以输出的特征就不同;
[0105]
所述目标检测网络由一个堆叠卷积块、一个3
×
3卷积块和一个1
×
1卷积层构成;
[0106]
其中卷积块由一个卷积层、一个归一化层和一个leaky relu激活函数构成,3
×
3卷积块代表着卷积块内的卷积层是3
×
3卷积层;
[0107]
堆叠卷积块由五个卷积块构成,五个卷积块为1
×
1卷积块、3
×
3卷积块、1
×
1卷积块、3
×
3卷积块和一个1
×
1卷积块顺序排列构成,其中旋转角箱子是把抓取矩形的旋转角度范围由[0,π]转换成ca个旋转角度的锚点。
[0108]
所述将融合后的特征同时分别基于目标检测网络和抓取检测网络进行目标检测和抓取检测操作,得到目标检测特征和抓取检测特征过程抽象为以下公式:
[0109]
tpo=conv1×1(to)
[0110]
tpg=conv1×1(tg)
[0111]
t
corr
=reshape(tpo)
×
(reshape(tpg))
t
[0112]
fin
corr
=sigmoid(t
corr
)
[0113]
将目标检测网络和抓取检测网络的卷积块部分输出的两个特征通过1
×
1卷积层的作用是得到我们需要的预测特征,然后通过将预测特征重塑为二维矩阵并进行转置矩阵的乘法来得到目标对象与抓取配置的关联矩阵,最终使用sigmoid函数来将关联矩阵转换成范围为[0,1]的联合可能性。
[0114]
一种基于卷积神经网络的视觉抓取检测装置,包括
[0115]
获取模块:用于获取要抓取物体的rgb图片及深度图片;
[0116]
预处理模块,用于对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标;
[0117]
去除模块:用于去除rgb图片的背景;
[0118]
特征提取及特征融合:用于将去除背景的rgb图片,进行特征提取及特征融合;
[0119]
目标检测特征模块:用于将融合后的特征同时基于目标检测网络进行目标检测,得到目标检测特征;
[0120]
抓取检测特征模块:用于将融合后的特征同时基于抓取检测网络进行抓取检测操作,得到抓取检测特征;
[0121]
对准操作模块:用于将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性;
[0122]
抓取模块:用于根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,筛选出最终的抓取检测结果。
[0123]
本实施例由1台gtx 3090显卡服务器搭建,作为本发明方法的测试运行环境,所有实验以及模型的训练均在服务器上进行。具体硬件配置信息如表1所示。
[0124]
表1硬件配置
[0125][0126]
本实施例采用pycharm作为本发明方法的开发环境,python作为编程语言,完成了方法设计和开发。本实施例中包含方法运行的软件环境包括:操作系统ubuntu 18.04,python3.8。具体软件环境如表2所示。
[0127]
表2软件环境
[0128]
软件环境版本操作系统ubuntu 18.04.01python版本3.8开发环境pycharm语言python
[0129]
表3实验数据集统计信息
[0130][0131]
本实施例中,在服务器下实现抓取检测的实验,本方法的验证过程如图4所示主要包括以下步骤:
[0132]
步骤1:数据预处理,读取rgb图片和深度图片,使用设定好的固定的相机和深度图片里每个点的深度信息,计算出rgb图片中每个像素点的三维坐标;
[0133]
步骤2:去除图片背景,使用基于ransac的平面拟合方法来检测场景中最大的三维平面,然后将处于三维平面内及三维平面以下的三维坐标点所对应rgb图片像素点的r、g、b通道值赋值为255;
[0134]
步骤3:本发明方法的模型的训练和选择,将数据集分为训练数据集和测试数据集,训练包括多轮迭代,每轮迭代遍历一次训练数据集,并且每次从中获取一小批样本,送入模型执行前向计算得到检测预测值,并计算检测结果与真值之间的损失函数值,执行梯度反向传播,并更新模型的参数,并根据损失函数值曲线和检测预测值准确率曲线选择模型;
[0135]
步骤4:结果评估,将测试数据集输入训练好的模型,得到抓取预测的结果,计算预测的结果与真值的jaccard index值,如果jaccard index值大于0.25则认为预测正确,并统计准确率;
[0136]
本实施例使用两个数据集验证本发明的有效性,1)cornell,此数据集中有878张图像以及相应的深度图像和三维点云,图像的分辨率是640
×
480,每张图像都包含一个不同位置和方向的可抓取物体。2)jacquard,此数据集是从具有shapenet数据集cad模型的模拟器中收集的,数据集中有54485张图片和11619种不同的对象,大量的样本有利于我们的模型训练,但我们仍然使用一些数据增强策略来增加学习模型的鲁棒性,该数据集中图像的分辨率为1024
×
1024,我们将原始图像缩小到512
×
512的大小,用于训练和测试。
[0137]
评价指标:本文使用准确率(acc)对抓取检测结果的精度进行评估。其中,准确率是指模型所有判断正确的结果占总观测样本的比重,设置jaccard index大于0.25的为正确的结果,计算公式分别如下:
[0138][0139][0140]
其中,tp为预测正确的真正例,fp为预测错误的假正例,fn为预测错误的假反例,tn为预测正确的真反例,为预测的抓取矩形,bg为抓取矩形的真值。
[0141]
模型经训练和测试后,在cornell数据集和jacquard数据集上进行测试实际效果如图7所示。
[0142]
对比方法:本实施例将我们的解决方案与利用两个数据集的其他解决方案进行了比较,具体实验结果如图5所示,图5(a)为cornell数据集上在图像级别的准确率对比图、(b)为cornell数据集上对象级别的准确率对比图、(c)为cornell数据集上每秒处理的帧数对比图、(d)为在jacquard数据集上的准确率对比图;
[0143]
实验结果:在cornell数据集和jacquard数据集实验的效果样例如图7所示,图6(a)为图片i的cornell数据集和jacquard数据集实验效果图;(b)为图片ii的cornell数据集和jacquard数据集实验效果图;(c)为图片iii的cornell数据集和jacquard数据集实验效果图;(d)为图片iv的cornell数据集和jacquard数据集实验效果图。
[0144]
图7(a)待去除背景的图片,(b)为本发明的去除背景的效果图,可见本发明去除背景模块的有效性。
[0145]
最后应说明的是:以上所述仅为本发明的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种基于卷积神经网络的视觉抓取检测方法,其特征在于:包括以下步骤:获取要抓取物体的rgb图片及深度图片;对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标;去除rgb图片的背景;将去除背景的rgb图片,进行特征提取及特征融合;将融合后的特征同时分别基于目标检测网络和抓取检测网络进行目标检测和抓取检测操作,得到目标检测特征和抓取检测特征;将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性;根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,筛选出最终的抓取检测结果。2.根据权利要求1所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标通过使用设定好的固定的相机和深度图片里每个点的深度信息,计算出rgb图片中每个像素点的三维坐标,相机参数和深度信息计算每一像素点的三维坐标公式为:点的三维坐标,相机参数和深度信息计算每一像素点的三维坐标公式为:z=d其中,(u,v)代表像素坐标点,(x,y,z)代表三维坐标点,f代表相机焦距,α、β代表像素坐标在像素坐标系下的u坐标轴和v坐标轴上的缩放倍数,c
x
,c
y
表示相机光轴在图像坐标系中原点到的像素坐标系下的原点的偏移量,d代表深度值。3.根据权利要求1所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述去除rgb图片的所处环境的背景的基于ransac的平面拟合方法,检测目标所在场景中最大的三维平面,然后将处于三维平面内及三维平面以下的三维坐标点所对应rgb图片像素点的三个通道值赋值为255,去除检测目标的rgb图片的背景。4.根据权利要求3所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述去除rgb图片的所处环境的背景的基于ransac的平面拟合方法,检测目标所在场景中最大的三维平面的过程如下:s31:在初始的三维坐标中随机选择三个点,计算其对应的平面方程:a
×
x+b
×
y+c
×
z+d=0s32:计算所有点至该平面的代数距离d
i
,并选取一个阈值d
threshold
,若该点的d
i
≤d
threshold
则认为该点是平面拟合模型的内点,反之则认为是平面拟合模型的外点;代数距离计算公式为:d
i
=|a
×
x
i
+b
×
y
i
+c
×
z
i
+d|s33:重复步骤s32,选取最佳拟合参数,即内点数量最多的平面对应的平面拟合模型参数;每次迭代末尾都会根据期望的误差率、最佳内点个数、总样本个数、当前迭代次数计算
一个迭代结束评判因子,根据迭代结束评判因子决定是否停止迭代,迭代结束后,最佳模型参数就是最终的参数估计值。5.根据权利要求1所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述将去除背景的rgb图片,进行特征提取及特征融合的过程如下:将去除背景后的rgb图片输入resnet进行特征提取和特征融合,通过不同阶段学习的最后一个特征映射将被用作多尺度特征,这些尺度特征映射表示为{s1,s2,s3,s4,s5},这些特征映射相对于原始图像的步幅分别为{2,4,8,16,32},使用{s3,s4,s5}进行特征融合,融合后的特征映射记为{sp3,sp4,sp5}。6.根据权利要求1所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述将融合后的特征同时进行目标检测和抓取检测操作,得到目标检测特征和抓取检测特征的过程如下:首先将融合后特征输入堆叠卷积块来从纹理和语义信息中获得任务相关的特征表示,然后通过一个3
×
3的卷积块来融合上一层次的任务相关的特征表示和当前层次的任务相关的特征表示得到目标检测任务相关特征和抓取检测任务相关特征最后通过一个1
×
1卷积层来将通道数量与最终预测相匹配,目标检测操作会输出一个m
o
×
(5+c
o
)通道的输出,其中m
o
代表着边界框的个数,c
o
是目标的类别数目,抓取检测操作最终会输出一个m
g
×
(6+c
o
)通道的输出,其中m
g
是预测的抓取矩形的数量,c
a
代表着旋转角箱子的数目,目标检测头输出表示为fin
o
,抓取检测头输出表示为fin
g
。7.根据权利要求1所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性的过程如下:将目标检测操作输出的任务相关特征和抓取检测操作输出的任务相关特征首先两个特征将通过一个1
×
1卷积层,得到特征和特征的输出,然后将两个特征映射重塑为二维矩阵,并利用转置矩阵乘法生成输出关联矩阵最后,使用一个sigmoid激活函数来得到抓取检测结果和目标检测结果的联合可能性。8.根据权利要求1所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,得到筛选出最终的抓取检测结果的过程如下:根据抓取检测结果和目标检测结果的联合可能性和两个设定的参数num
o
、num
o
以及抓取质量阈值过滤出筛选出最终的抓取检测结果,其中num
o
表示选择fin
o
中目标对象预测值最高的num
o
个,num
c
表示每个目标对象最多有num
c
抓取预测,根据设定的抓取质量阈值过滤掉抓取质量低于阈值的抓取检测结果,最终输出的结果格式为一组元组,元组中的参数为(x
o
,y
o
,w
o
,h
o
,cls
o
,x
g
,y
g
,w
g
,h
g
,θ
g
,s
g
),其中x
o
,y
o
表示目
标检测框的中心像素坐标,w
o
,h
o
表示目标检测框的宽度和高度,cls
o
表示检测到的对象的类别,x
g
,y
g
表示抓取矩形的中心坐标,w
g
,h
g
表示为抓取矩形的宽度和高度,θ
g
表示为旋转角度,s
g
表示为抓取的成功率。9.根据权利要求1所述的一种基于卷积神经网络的视觉抓取检测方法,其特征在于:所述目标检测网络和抓取检测网络的结构相同;所述目标检测网络由一个堆叠卷积块、一个3
×
3卷积块和一个1
×
1卷积层构成;其中卷积块由一个卷积层、一个归一化层和一个leaky relu激活函数构成,3
×
3卷积块代表着卷积块内的卷积层是3
×
3卷积层;堆叠卷积块由五个卷积块构成,五个卷积块为1
×
1卷积块、3
×
3卷积块、1
×
1卷积块、3
×
3卷积块和一个1
×
1卷积块顺序排列构成,其中旋转角箱子是把抓取矩形的旋转角度范围由[0,π]转换成c
a
个旋转角度的锚点。10.一种基于卷积神经网络的视觉抓取检测装置,其特征在于:包括获取模块:用于获取要抓取物体的rgb图片及深度图片;预处理模块,用于对输入的rgb图片和深度图片进行预处理,得到rgb图片的每个像素点的三维空间坐标;去除模块:用于去除rgb图片的背景;特征提取及特征融合:用于将去除背景的rgb图片,进行特征提取及特征融合;目标检测特征模块:用于将融合后的特征同时基于目标检测网络进行目标检测,得到目标检测特征;抓取检测特征模块:用于将融合后的特征同时基于抓取检测网络进行抓取检测操作,得到抓取检测特征;对准操作模块:用于将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性;抓取模块:用于根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,筛选出最终的抓取检测结果。
技术总结
本发明一种基于卷积神经网络的视觉抓取检测方法,包括以下步骤:获取要抓取物体的RGB图片及深度图片;对输入的RGB图片和深度图片进行预处理,得到RGB图片的每个像素点的三维空间坐标;去除RGB图片的背景;将去除背景的RGB图片,进行特征提取及特征融合;将融合后的特征同时分别基于目标检测网络和抓取检测网络进行目标检测和抓取检测操作,得到目标检测特征和抓取检测特征;将目标检测后的特征和抓取检测特征,进行对准操作,得到目标检测结果和抓取检测结果的联合关联性;根据联合关联性和设定的最终预测的数量以及抓取参数中抓取质量的阈值,筛选出最终的抓取检测结果。本方法可以生成更多的抓取候选对象,而且提高了模型预测结果的可解释性。型预测结果的可解释性。型预测结果的可解释性。
技术研发人员:张阳 黄益 谢立华 李媛 叶科媛
受保护的技术使用者:四川中烟工业有限责任公司
技术研发日:2023.05.29
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种血压管理系统及方法 下一篇:一种图像加密方法和系统、电子设备、存储介质与流程