一种基于注意力机制的6D位姿估计的深度学习算法的制作方法
未命名
08-15
阅读:157
评论:0

一种基于注意力机制的6d位姿估计的深度学习算法
技术领域
1.本发明涉及6d位姿估计技术领域,具体为一种基于注意力机制的6d位姿估计的深度学习算法。
背景技术:
2.6d位姿估计是现实中许多应用中的一个重要组成部分,如增强现实、自动驾驶和机器人抓取等,近些年来,深度学习技术的不断进步和发展,激发了使用卷积神经网络和多头注意力机制技术来解决这一问题,但是6d位姿估计仍然面临很大挑战,传统算法sift通过局部特征匹配方法,对物体的姿态进行定位,但是这种方法只适合纹理丰富的对象,对于纹理较弱的物体,通常采用模板匹配的方法,这种方法对于光照和遮挡的情况效果不佳。
3.目前有很多学者不断将深度学习算法应用到6d位姿估计中,ssd-6d采用基于颜色的方法减少模型对深度数据的依赖,利用3d模型位姿空间分解处理对称性并推理6d位姿,以达到对3维物体的位姿估计。随着卷积神经网络yolo系列的不断发展,yolov5目标检测算法逐渐成为集速度和精度集大成的检测算法,具有速度快和精度高的特点。此外,多头注意力机制技术的从自然语言处理领域引入卷积神经网络也是大放异彩,在yolov5主干网络中加入注意力机制,得到更加精确的定位信息和坐标信息。
4.综上所述,本发明通过设计一种基于注意力机制的6d位姿估计的深度学习算法来解决存在的问题。
技术实现要素:
5.针对现阶段6d位姿估计缺陷以及检测算法yolov5和注意力机制在目标检测定位的优势,本发明一种基于注意力机制的6d位姿估计深度学习算法。经过yolov5-mhsa对图像特征进行提取,并使用针孔相机模型把2d特征转为3维特征,得到图像特征关键点,再使用3dharris关键点提取算法对点云样本进关键点提取,得到点云特征关键点,最后使用奇异值分解方法计算点集之间的旋转平移矩阵,得到最终的6d位姿。
6.为实现上述目的,本发明提供如下技术方案:
7.一种基于注意力机制的6d位姿估计深度学习算法,包括以下步骤:
8.步骤s1,数据构建、数据预处理:6d位姿估计的开源数据集主要是ycb-video、linemod,如需在自己的数据集上进行训练,需要将数据格式准备为与上述两个数据集一致;
9.步骤s2,图像特征提取:yolov5包含主干网络、特征融合层、检测头三部分,为了得到更加精确的特征信息,在主干网络的4个c3特征提取模块后面加上注意力机制(mhsa),增强算法的表征能力,主干网络输出四个大小不同的特征层,特征融合模块对四个特征层进行特征融合,结合深度信息,得到特征的检测和定位信息;
10.步骤s3,2d图像特征转3维图像特征:在yolov5提取的图像特征的基础上,根据投影几何学的针孔摄像机模型,当摄像机的外参和内参已知的情况下,根据转换公式可以将
图像像素点的位置映射到世界坐标系中,从而实现2d到3d映射;首先生成2d图像的视锥体,由视锥体得到图像的深度信息,其次根据转换公式,将2d图像特征转换到3d空间,至此完成2d图像视角到3d图像视角的转换,得到图像特征的关键点;
11.步骤s4,3dharris关键点提取:点云数据的数据量是巨量的,所以在生成点云关键点的特征是需要对点云数据进行采样,点云3dharris关键点提取算法提取关键特征的局部特征点,得到点云特征的关键点;
12.步骤s5,奇异值分解检测头:根据得到的图像特征关键点和点云特征关键点利用奇异值分解方法(svd)计算点集之间的旋转平移矩阵,得到最终的6d位姿。
13.作为本发明优选的方案,步骤s1中的输入为w*h*3的rgb图像,h和w分别的特征图的高和宽,3为通道数。
14.作为本发明优选的方案,步骤s2中yolov5-mhsa输入是[608,608,3]的rgb图像,在4个c3模块后面加入mhsa注意力层,最终得到四个特征图大小分别为[152,152,64]、[76,76,128]、[38,38,256]和[19,19,512],接下来进行特征融合操作,对[19,19,512]特征层进行上采样,进行一次卷积后与[38,38,256]特征层进行融合,依次进行上采样操作,再对上采样融合后进行下采样融合,得到最后的四个有效特征层,再经过解码头得到物体预测框坐标;
[0015]
作为本发明优选的方案,步骤s3中将yolov5-mhsa得到的有效特征层的值从2d映射到3d空间,根据投影几何学的针孔摄像机模型的转换公式为:
[0016]
设p(x,y,1)
t
是图像上的点,p(x,y,z,1)
t
是世界坐标系的点,t是相机坐标系到雷达坐标系的平移参数,r是相机坐标系到激光雷达坐标系的旋转参数,f为焦距,图像上一个像素主点的坐标为o(o
x
,oy),当z=0时,即3维空间高度为0时得到转换公式为:
[0017][0018]
经过矩阵求逆,将2d图像的特征映射到3维空间,即可以将2d检测框的中心点映射到3维空间中,由此得到图像特征关键点。
[0019]
作为本发明优选的方案,步骤s4中对点云样本使用3dharris关键点提取算法进行关键点提取,得到点云特征的局部关键点,以点云关键点的质心为起始点,得到3维坐标下点云关键点的坐标。
[0020]
作为本发明优选的方案,步骤s5中对于得到的图像特征关键点和点云特征关键点利用奇异值分解方法(svd)计算点集之间的旋转平移矩阵,具体如下:
[0021]
设图像特征关键点为点集i,点云特征关键点为点集p,旋转矩阵为r,平移矩阵为t,那么两组点集的平均中心为:
[0022][0023][0024]
其中ii和pi都为3*1的向量,表示点的坐标值。
[0025]
首先计算旋转矩阵,点集之间得协方差矩阵为d,计算公式如下:
[0026][0027]
旋转矩阵的计算方法是奇异值分解(svd),奇异值分解方法原理如下:
[0028]
设a是m*n的矩阵,秩为k,即rank(a)=k。存在一组正交基v:
[0029]
v=(v1,v2,...,vk)
[0030]
矩阵对其变换后仍是正交基,记为u:
[0031]
u=(av1,av2,...,avk)
[0032]
根据上式,正交向量的模有:
[0033][0034]
当vi是a
t
a的特征向量时有:
[0035]
(a
t
a)vi=λvi[0036]
则(5)式可以写为:
[0037]
av
i2
=λiv
it
vi=λi[0038]
即有:
[0039][0040]
单位化正交向量得:
[0041][0042]
用矩阵表示为:
[0043]
av=uσ(7)
[0044]
其中v是n*k矩阵,u是m*k矩阵,σ是m*k矩阵,对(6)式两边乘上v
t
,得到矩阵得奇异值分解结果:
[0045]
a=uσv
t
(8)
[0046]
根据公式(4)和公式(8)有:
[0047]
[u,σ,v]=svd(d)
[0048]
所以最终旋转矩阵为:
[0049]
r=vu
t
[0050]
其次计算平移矩阵,设φ为i和p之间得尺度比例,则有:
[0051][0052]
对(9)式变换并化简得到:
[0053][0054]
此时计算的旋转矩阵为平移矩阵为即为最终的6d位姿。
[0055]
与现有技术相比,本发明的有益效果是:
[0056]
1、本发明中,通过针对现阶段6d位姿估计缺陷以及检测算法yolov5和注意力机制在目标检测定位的优势,本方案提出一种基于注意力机制的6d位姿估计的深度学习算法,经过yolov5-mhsa对图像特征进行提取,并使用针孔相机模型把2d特征转为3维特征,得到图像特征关键点,再使用3dharris关键点提取算法对点云样本进关键点提取,得到点云特征关键点,最后使用奇异值分解方法计算点集之间的旋转平移矩阵,得到最终的6d位姿,从而实现了在开源数据集上位于前列位置。
附图说明
[0057]
图1为本发明网络结构示意图;
[0058]
图2为本发明yolov5-mhsa主干网络结构示意图;
[0059]
图3为本发明3dharris关键点提取算法结构示意图。
具体实施方式
[0060]
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0061]
实施例,请参阅图1-3,本发明提供一种技术方案:
[0062]
面对采用的技术方案进行说明:
[0063]
数据构建、数据预处理、图像特征提取,2d图像特征转3维图像特征、3dharris关键点提取、奇异值分解检测头。整体网络架构如图1:
[0064]
步骤s1:数据构建、数据预处理:
[0065]
6d位姿估计的开源数据集主要是ycb-video、linemod,如需在自己的数据集上进行训练,需要将数据格式准备为与上述两个数据集一致;
[0066]
步骤s2:图像特征提取
[0067]
yolov5-mhsa输入是[608,608,3]的rgb图像,在4个c3模块后面加入mhsa注意力层,最终得到四个特征图大小分别为[152,152,64]、[76,76,128]、[38,38,256]和[19,19,512],接下来进行特征融合操作,对[19,19,512]特征层进行上采样,进行一次卷积后与[38,38,256]特征层进行融合,依次进行上采样操作,再对上采样融合后进行下采样融合,得到最后的四个有效特征层,再经过解码头得到物体预测框坐标;
[0068]
yolov5-mhsa主干网络如图2:
[0069]
步骤s3:2d图像特征转3维图像特征
[0070]
yolov5-mhsa得到的有效特征层的值从2d映射到3d空间,根据投影几何学的针孔摄像机模型的转换公式为:
[0071]
设p(x,y,1)
t
是图像上的点,p(x,y,z,1)
t
是世界坐标系的点,t是相机坐标系到雷达坐标系的平移参数,r是相机坐标系到激光雷达坐标系的旋转参数,f为焦距,图像上一个像素主点的坐标为o(o
x
,oy),当z=0时,即3维空间高度为0时得到转换公式为:
[0072][0073]
经过矩阵求逆,将2d图像的特征映射到3维空间,即可以将2d检测框的中心点映射到3维空间中,由此得到图像特征关键点。
[0074]
步骤s4:3dharris关键点提取
[0075]
对点云样本使用3dharris关键点提取算法进行关键点提取,得到点云特征的局部关键点,以点云关键点的质心为起始点,得到3维坐标下点云关键点的坐标。结构图如图3:
[0076]
步骤s5:奇异值分解检测头
[0077]
对于得到的图像特征关键点和点云特征关键点利用奇异值分解方法(svd)计算点集之间的旋转平移矩阵,具体如下:
[0078]
设图像特征关键点为点集i,点云特征关键点为点集p,旋转矩阵为r,平移矩阵为t,那么两组点集的平均中心为:
[0079][0080][0081]
其中ii和pi都为3*1的向量,表示点的坐标值。
[0082]
首先计算旋转矩阵,点集之间得协方差矩阵为d,计算公式如下:
[0083][0084]
旋转矩阵的计算方法是奇异值分解(svd),奇异值分解方法原理如下:
[0085]
设a是m*n的矩阵,秩为k,即rank(a)=k。存在一组正交基v:
[0086]
v=(v1,v2,...,vk)
[0087]
矩阵对其变换后仍是正交基,记为u:
[0088]
u=(av1,av2,...,avk)
[0089]
根据上式,正交向量的模有:
[0090]
av
i2
=(avi)
t
*(avi)=v
itat
avi(5)
[0091]
当vi是a
t
a的特征向量时有:
[0092]
(a
t
a)vi=λvi[0093]
则(5)式可以写为:
[0094]
av
i2
=λiv
it
vi=λi[0095]
即有:
[0096][0097]
单位化正交向量得:
[0098][0099]
用矩阵表示为:
[0100]
av=uσ(7)
[0101]
其中v是n*k矩阵,u是m*k矩阵,σ是m*k矩阵,对(6)式两边乘上v
t
,得到矩阵得奇异值分解结果:
[0102]
a=uσv
t
(8)
[0103]
根据公式(4)和公式(8)有:
[0104]
[u,σ,v]=svd(d)
[0105]
所以最终旋转矩阵为:
[0106]
r=vu
t
[0107]
其次计算平移矩阵,设φ为i和p之间得尺度比例,则有:
[0108][0109]
对(9)式变换并化简得到:
[0110][0111]
此时计算的旋转矩阵为平移矩阵为即为最终的6d位姿。
[0112]
基于注意力机制的6d位姿估计的深度学习算法具体实施分为以下部分:
[0113]
step1:数据准备
[0114]
6d位姿估计的开源数据集主要是ycb-video、linemod,如需在自己的数据集上进行训练,需要将数据格式准备为与上述两个数据集一致;
[0115]
step2:训练阶段
[0116]
输入图像的大小为[608,608,3],在4个c3模块后面都加入mhsa注意力层,最终得到四个特征图大小分别为[152,152,64]、[76,76,128]、[38,38,256]和[19,19,512],再进行特征融合操作,对[19,19,512]特征层进行上采样,进行一次卷积后与[38,38,256]特征层进行融合,依次进行上采样操作,再对上采样融合后进行下采样融合,得到最后的四个有效特征层,再经过解码头得到物体预测框坐标,再经过针孔摄像头模型将2维特征转为3维特征,得到图像特征关键点。接下来对点云样本使用3dharris关键点提取算法进行关键点提取,得到点云特征的局部关键点,以点云关键点的质心为起始点,得到3维坐标下点云关键点的坐标。对得到的图像特征关键点和点云特征关键点利用奇异值分解方法(svd)计算点集之间的旋转平移矩阵,得到最终的6d位姿。
[0117]
step3:测试阶段
[0118]
针对测试图片,送入网络进行推理,将得到的6d位姿的预测值,和真值进行比较计算add评价指标值,即得到最终精度。
[0119]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于注意力机制的6d位姿估计深度学习算法,包括以下步骤:步骤s1,数据构建、数据预处理:6d位姿估计的开源数据集主要是ycb-video、linemod,如需在自己的数据集上进行训练,需要将数据格式准备为与上述两个数据集一致;步骤s2,图像特征提取:yolov5包含主干网络、特征融合层、检测头三部分,为了得到更加精确的特征信息,在主干网络的4个c3特征提取模块后面加上注意力机制(mhsa),增强算法的表征能力,主干网络输出四个大小不同的特征层,特征融合模块对四个特征层进行特征融合,结合深度信息,得到特征的检测和定位信息;步骤s3,2d图像特征转3维图像特征:在yolov5提取的图像特征的基础上,根据投影几何学的针孔摄像机模型,当摄像机的外参和内参已知的情况下,根据转换公式可以将图像像素点的位置映射到世界坐标系中,从而实现2d到3d映射;首先生成2d图像的视锥体,由视锥体得到图像的深度信息,其次根据转换公式,将2d图像特征转换到3d空间,至此完成2d图像视角到3d图像视角的转换,得到图像特征的关键点;步骤s4,3d harris关键点提取:点云数据的数据量是巨量的,所以在生成点云关键点的特征是需要对点云数据进行采样,点云3d harris关键点提取算法提取关键特征的局部特征点,得到点云特征的关键点;步骤s5,奇异值分解检测头:根据得到的图像特征关键点和点云特征关键点利用奇异值分解方法(svd)计算点集之间的旋转平移矩阵,得到最终的6d位姿。2.根据权利要求1所述的一种基于注意力机制的6d位姿估计深度学习算法,其特征在于,步骤s1中的输入为w*h*3的rgb图像,h和w分别的特征图的高和宽,3为通道数。3.根据权利要求1所述的一种基于注意力机制的6d位姿估计深度学习算法,其特征在于,步骤s2中yolov5-mhsa输入是[608,608,3]的rgb图像,在4个c3模块后面加入mhsa注意力层,最终得到四个特征图大小分别为[152,152,64]、[76,76,128]、[38,38,256]和[19,19,512],接下来进行特征融合操作,对[19,19,512]特征层进行上采样,进行一次卷积后与[38,38,256]特征层进行融合,依次进行上采样操作,再对上采样融合后进行下采样融合,得到最后的四个有效特征层,再经过解码头得到物体预测框坐标。4.根据权利要求1所述的一种基于注意力机制的6d位姿估计深度学习算法,其特征在于,步骤s3中将yolov5-mhsa得到的有效特征层的值从2d映射到3d空间,根据投影几何学的针孔摄像机模型的转换公式为:设p(x,y,1)
t
是图像上的点,p(x,y,z,1)
t
是世界坐标系的点,t是相机坐标系到雷达坐标系的平移参数,r是相机坐标系到激光雷达坐标系的旋转参数,f为焦距,图像上一个像素主点的坐标为o(o
x
,o
y
),当z=0时,即3维空间高度为0时得到转换公式为:经过矩阵求逆,将2d图像的特征映射到3维空间,即可以将2d检测框的中心点映射到3维空间中,由此得到图像特征关键点。5.根据权利要求1所述的一种基于注意力机制的6d位姿估计的深度学习算法,其特征
在于,步骤s4中对点云样本使用3d harris关键点提取算法进行关键点提取,得到点云特征的局部关键点,以点云关键点的质心为起始点,得到3维坐标下点云关键点的坐标。6.根据权利要求1所述的一种基于注意力机制的6d位姿估计深度学习算法,其特征在于,步骤s5中对于得到的图像特征关键点和点云特征关键点利用奇异值分解方法(svd)计算点集之间的旋转平移矩阵,具体如下:设图像特征关键点为点集i,点云特征关键点为点集p,旋转矩阵为r,平移矩阵为t,那么两组点集的平均中心为:么两组点集的平均中心为:其中i
i
和p
i
都为3*1的向量,表示点的坐标值。首先计算旋转矩阵,点集之间得协方差矩阵为d,计算公式如下:旋转矩阵的计算方法是奇异值分解(svd),奇异值分解方法原理如下:设a是m*n的矩阵,秩为k,即rank(a)=k。存在一组正交基v:v=(v1,v2,...,v
k
)矩阵对其变换后仍是正交基,记为u:u=(av1,av2,...,av
k
)根据上式,正交向量的模有:||av
i
||2=(av
i
)
t
*(av
i
)=v
it
a
t
av
i
ꢀꢀꢀꢀ
(5)当v
i
是a
t
a的特征向量时有:(a
t
a)v
i
=λv
i
则(5)式可以写为:||av
i
||2=λ
i
v
it
v
i
=λ
i
即有:单位化正交向量得:用矩阵表示为:av=u∑
ꢀꢀꢀꢀ
(7)其中v是n*k矩阵,u是m*k矩阵,σ是m*k矩阵,对(6)式两边乘上v
t
,得到矩阵得奇异值分解结果:a=u∑v
t
ꢀꢀꢀꢀ
(8)
根据公式(4)和公式(8)有:[u,∑,v]=svd(d)所以最终旋转矩阵为:r=vu
t
其次计算平移矩阵,设φ为i和p之间得尺度比例,则有:对(9)式变换并化简得到:此时计算的旋转矩阵为平移矩阵为即为最终的6d位姿。
技术总结
本发明涉及6D位姿估计技术领域,尤其为一种基于注意力机制的6D位姿估计的深度学习算法,步骤S1,数据构建、数据预处理;步骤S2,图像特征提取;步骤S3,2D图像特征转3维图像特征;步骤S4,3DHarris关键点提取本以及步骤S5,奇异值分解检测头,发明通过针对现阶段6D位姿估计缺陷以及检测算法Yolov5和注意力机制在目标检测定位的优势,经过Yolov5-MHSA对图像特征进行提取,并使用针孔相机模型把2D特征转为3维特征,得到图像特征关键点,再使用3DHarris关键点提取算法对点云样本进关键点提取,得到点云特征关键点,最后使用奇异值分解方法计算点集之间的旋转平移矩阵,得到最终的6D位姿,从而实现了在开源数据集上位于前列位置。从而实现了在开源数据集上位于前列位置。从而实现了在开源数据集上位于前列位置。
技术研发人员:姚健 胡超 邬伟杰 赖盛鑫
受保护的技术使用者:联通(上海)产业互联网有限公司
技术研发日:2023.03.13
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/