一种基于深度补全和图像分割的3D目标检测方法
未命名
08-02
阅读:84
评论:0

一种基于深度补全和图像分割的3d目标检测方法
技术领域
1.本发明涉及自动驾驶领域,尤其是涉及一种基于深度补全和图像分割的3d目标检测方法。
背景技术:
2.目标检测可以分为2d目标检测和3d目标检测,2d目标检测用于识别物体在图像中的位置和大小,但无法获得障碍物与相机之间的距离,对于自动驾驶而言是不够的,因此自动驾驶领域中常使用3d目标检测用于识别障碍物在三维空间中的位置、大小、朝向和类别。另外,图像虽然具有丰富的彩色信息,能够用于检测物体的类别,但缺少深度信息,而激光点云具有准确的深度信息,能够用于检测物体的大小和空间位置,但点云的分辨率较低,在水平方向和垂直方向都远远低于图像的分辨率,使用图像能获得更清晰的障碍物边缘。因此一般使用图像和激光点云融合的方法,同时利用图像的彩色信息和点云的空间信息,完成自动驾驶的障碍物3d目标检测任务。
3.图像和激光点云融合的3d目标检测任务主要有3种方法:基于点云视图的方法、基于图像和点云特征融合的方法、先图像再点云的两阶段方法。在点云视图的方法中,chen等人提出mv3d,将点云投影到俯视图和前视图,输入网络和图像融合,得到了融合后的特征用以完成3d目标检测任务,开创了图像和点云视图融合的先河。ku等人在mv3d的基础上改进,删去了对不影响最终结果精度的反射强度俯视图,并在fpn中引入编码器解码器结构进行高分辨率点云和图片特征提取,将基于视图的方法进一步完善。在特征融合的方法中,liang等人提出pi-rcnn,使用连续卷积将多传感器的特征直接融合到3d点上,使用点池和注意力聚集的方法使融合特征更具有表现力,大大改善3d对象的检测结果。huang等人在epnet中提出li融合层使用激光点云特征来估计对应图像特征的重要性,减少了图像和激光视角差异造成的遮挡现象以及深度不确定性。在先图像后点云的两阶段方法中,charles等人在三个阶段使用三个不同的网络从图像和激光点云获得3d检测框,完成3d目标检测任务,该方法首先用图像的2d检测网络获得所有障碍物的图像检测框,在空间中得到相应的视锥体,然后在锥形中使用点云分割网络获得前景和背景,最后对前景点使用边框回归,获得障碍物最终的输出。但是wang等人认为视锥体内的点云分割既费时又难以获得高精度的结果,因此在图像获得检测框后,将视锥体分割成多个部分提取特征,使用全卷积网络聚合这些特征直接获得了对检测框的预测。
4.当前的图像和激光融合的3d目标检测方法没有完全统一图像和点云的表示形式,所以融合不够彻底,影响结果的精度,并且忽略了点云分辨率较低且分布不均匀的现象,所以对于远距离的障碍物检测效果较差。
技术实现要素:
5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度补全和图像分割的3d目标检测方法,以提高3d目标,尤其是远距离障碍物的检测效果。
6.本发明的目的可以通过以下技术方案来实现:
7.本发明提供了一种基于深度补全和图像分割的3d目标检测方法,包括如下步骤:
8.获取图像信息和稀疏深度图;
9.将所述图像信息和所述稀疏深度图输入基于注意力机制的深度补全网络中,获取稠密深度图;
10.将所述图像信息输入分割网络中,获取图像分割结果,基于所述稠密深度图以及所述图像分割结果,获取包括前景障碍物信息的稠密点云;
11.针对所述稠密点云逐层提取局部特征,通过聚合获取障碍物点云特征,通过边框回归获取障碍物边界框,实现3d目标检测。
12.作为优选的技术方案,所述的稀疏深度图的获取包括如下步骤:
13.获取激光点云信息并投影到图像平面,通过0填充获取所述稀疏深度图。
14.作为优选的技术方案,所述的深度补全网络包括两个并行设置的transfomer子网络,每个针对每个transformer子网络,均包括多个自注意力单元。
15.作为优选的技术方案,所述的自注意力单元的输出为:
[0016][0017]
其中,attention(q,k,v)为自注意力单元的输出,q、k、v分别为注意力机制中的查询矩阵、键矩阵和值矩阵,()
t
表示转置,dk为查询矩阵k的长度,b为块之间的相对位置偏移矩阵。
[0018]
作为优选的技术方案,在所述的深度补全网络的训练过程中,损失函数为非对称的amae函数。
[0019]
作为优选的技术方案,所述的分割网络包括mask r-cnn。
[0020]
作为优选的技术方案,所述的稠密点云的获取包括如下步骤:
[0021]
通过将所述图像信息输入分割网络中,获取包括图像中的障碍物的信息的图像分割结果,使用所述图像分割结果对所述稠密深度图进行分割,基于图像像素深度反投影回3d空间内,获取所述稠密点云。
[0022]
作为优选的技术方案,所述的障碍物点云特征的获取过程包括如下步骤:
[0023]
将所述稠密点云转换到质心坐标系;
[0024]
通过最远点采样选取关键点,实现点云的降采样,选取关键点附近的点,使用pointnet提取区域内空间特征和色彩特征作为局部特征,重复本步骤对每一层进行局部特征提取;
[0025]
通过聚合所有的局部特征得到所述障碍物点云特征。
[0026]
作为优选的技术方案,在最远点采样和关键点附近的点选取的过程中,使用二维的图像像素坐标和像素距离进行采样/选取。
[0027]
作为优选的技术方案,所述的障碍物边界框的获取包括如下步骤:
[0028]
将所述障碍物点云特征输入全连接网络中,获取障碍物的大小、位置和朝向信息。
[0029]
与现有技术相比,本发明具有以下优点:
[0030]
(1)3d目标检测的平均精度高:本发明在第一阶段,将激光点云投影到图像上,得
到具有部分像素点深度值的稀疏深度图,利用深度补全网络融合图像和稀疏深度图获得与图像对应的稠密深度图,并利用图像的实例分割结果对深度图进行分割得到检测目标的前景稠密点云,在第二阶段,使用层级的点云特征提取方法提取稠密点云特征,完成检测目标的边框回归。与现有方法相比,本方法融合了图像和激光点云信息,利用图像信息对点云进行增密处理,使用稠密点云对抗点云密度随距离的下降,提高了平均检测精度。
[0031]
(2)针对远距离障碍物的检测效果良好:对现有3d目标检测方法远距离检测效果差的问题,本发明使用了深度补全和实例分割作为子任务,利用加密点云对抗点云分布的不均匀,利用图像的实例分割提取障碍物对应的像素区域,明显提高对远距离障碍物的检测效果。
附图说明
[0032]
图1为实施例1中基于深度补全和图像分割的3d目标检测方法的整体流程框架示意图;
[0033]
图2为基于transformer的深度补全编码器解码器网络的示意图;
[0034]
图3为前景点云提取过程示意图;
[0035]
图4为深度图分割的示意图;
[0036]
图5为稠密点云的3d目标的一个检测结果示意图;
[0037]
图6为稠密点云的3d目标的另一个检测结果示意图;
[0038]
图7为稠密点云的3d目标的另一个检测结果示意图;
[0039]
图8为点云的层级特征提取示意图;
[0040]
图9为车载实验平台示意图;
[0041]
图10为实车实验结果的一个结果的示意图;
[0042]
图11为实车实验结果的另一个结果的示意图;
[0043]
图12为transformer编码器的结结构示意图。
具体实施方式
[0044]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0045]
实施例1
[0046]
针对于现在图像和激光融合的3d目标检测方法中,图像和激光点云融合不够充分,影响结果精度,且远距离障碍物检测效果较差的问题,本发明提供了一种基于深度补全和图像分割的3d目标检测方法,利用图像信息加密点云,使用稠密点云对抗点云密度随距离的下降。
[0047]
如图1所述,本实施例提供了一种基于深度补全和图像分割的3d目标检测方法,主要分为两个部分,第一部分是前景点云提取,第二部分是障碍物的3d边框回归。在第一阶段,先对图像进行实例分割,获得障碍物的类型和所占据的像素区域,当图像上存在障碍物时,将激光点云投影得到稀疏深度图,融合彩色图像和稀疏深度图,通过基于transformer
的编码解码深度补全网络获得稠密深度图,即彩色图像上每个像素点的深度值。然后利用图像的分割结果分割稠密深度图,将障碍物区域反投影回3d空间得到前景障碍物的彩色稠密点云。在第二阶段,对稠密点云利用层级的特征提取逐步提取局部特征,将局部特征聚合得到障碍物点云特征,利用基于全连接的边框回归网络得到障碍物边界框,完成3d目标检测任务。本方法具体包括如下步骤:
[0048]
步骤s1,采集图像和激光点云,将激光点云投影到图像平面,得到有部分像素点的深度,没有深度的点使用0值填充,获得稀疏深度图。
[0049]
步骤s2,使用基于编码器-解码器的深度补全网络,以图像和稀疏深度图为输入,使用transformer提取两个输入的特征,并使用特征融合模块融合图像和点云的特征,使用解码器解码特征输出与图像对应的稠密深度图。具体过程如图2所述。
[0050]
在特征提取时,对输入特征进行分块,对每一块输入特征矩阵为x,使用网络学习的三个权重wq、wk、wv计算注意力机制中所需要的查询矩阵q、键矩阵k、值矩阵v。
[0051]
(q
t
,k
t
,v
t
)=x
·
(wq,wk,wv)
[0052]
然后计算transformer中的特征自注意力。其中,查询矩阵和键矩阵的点积为特征块之间的相关度分数,并利用k的长度dk将相关度分数标准化,稳定训练时的梯度,加速网络收敛。然后结合块之间的相对位置偏移矩阵b,并使用softmax函数将相关度转化为概率分布,表示分块的值矩阵对当前图像块之间的贡献,使用概率分数值乘以值矩阵获得最后的注意力结果。相对位置偏移表示块与块之间的相对位置关系,是一个可学习的量,在同一层中,相对位置相同的块之间的注意力计算时,使用相同的偏移。
[0053][0054]
本发明对两种不同的输入分别使用一个通道的transformer提取特征,并使用注意力机制进行特征交换用以充分融合两种信息,在网络中交替进行自注意力提取和特征融合。特征融合方式如下,其中下标为rgb和d分别表示来自图像和稀疏深度图的特征。
[0055][0056][0057]
如图12所述,发明使用的transformer编码器,是通过多头的自注意力层来提取图像的特征,通过特征图中每一块的q、k、v计算块与块之间的相关性,加权叠加后,得到新的特征图。并且,该transformer编码器中交替使用自注意力层和特征融合层,在特征融合层中计算图像特征图和深度特征图之间的注意力,完成图像和激光点云的融合。
[0058]
另外,深度补全得到的深度图中,前景障碍物和背景之间的深度值不会出现跳变,而是会出现平滑的渐变,形成过渡带,即深度值拖影,这是实际场景中并不存在的,使用这种深度图分割出障碍物并不能正确地表示障碍物的大小和形状,因此本文使用了非对称的amae函数作为损失函数:
[0059][0060]
其中,e是网络预测值与真值之间的差,γ是非对称系数,用于给真值两侧的预测值增加权重,使结果偏向于真值的某一侧,特别是在点云投影模糊且缺少真值的障碍物边缘。当γ》1时,预测值偏向于更小值,即前景,当γ《1时,预测值偏向于更大值,即背景。本发明使用γ=2使网络预测的结果偏向于前景,以减轻前景和背景之间的拖影问题,能够使前景分割阶段不受背景影响。
[0061]
步骤s3,障碍物前景稠密点云提取。对图像使用mask r-cnn获得图像的实例分割结果,分割得到图像中障碍物的类型和数量,以及所占据的图像像素区域,障碍物类型包括汽车、行人和骑自行车的人三种,因为稠密深度图与图像具有像素的对应关系,可以使用图像分割结果分割稠密深度图,再将图像像素根据深度反投影回3d空间得到前景障碍物的彩色稠密点云。该稠密点云比原始激光点云更加稠密,且具有图像的颜色信息。具体如图3所述,其中(a)、(b)、(c)、(d)、(e)、(f)分别为彩色图片、实例分割、分割掩膜、稠密深度、稠密点云、前景障碍物的示意图。
[0062]
步骤s4,对障碍物的稠密点云进行特征提取。对于每个障碍物,将点云先转换到其质心坐标系下,再逐层提取点的局部特征,将局部特征聚合得到全局特征。在每一层的特征提取过程中,先通过最远点采样选取点云中的关键点,使用这些关键点的特征表示整个障碍物点云,对点云降采样。然后,在点云中查询关键点附近的点,使用pointnet同时提取区域内空间特征和彩色特征作为关键点特征。通过多层的特征提取后,在最后一层聚合所有局部特征得到障碍物的全局特征。如图4所述为深度图分割的示意图。
[0063]
另外,由于稠密点云密度远远高于稀疏点云,在提取特征的过程中会较为耗时,并且稠密点云中的点和图像像素具有对应关系,因此本发明在最远点采样和周围点查询的过程中,不使用空间点的三维坐标和空间距离,而是使用二维的图像像素坐标和像素距离用以加速网络推理。
[0064]
步骤s5,使用障碍物特征进行边框回归,得到每个障碍物的大小、位置和朝向。将障碍物特征输入全连接网络,输出向量(δx,δy,δz,l,w,h,θ),分别表示在质心坐标下的三维坐标和障碍物长宽高,以及朝向,最后将所有障碍物边框转换回激光雷达坐标下得到3d目标检测结果。如图5-8为稠密点云的检测结果的示意图。
[0065]
本发明在ubuntu16.04上进行测试,使用python版本为3.7,网络基于pytorch1.6框架,网络在单张nvidia geforce gtx 1080ti进行推理,整个流程的推理速度为每秒12帧。
[0066]
本发明中使用的深度补全子网络使用kitti深度补全数据集进行训练,该数据集具有85898组训练数据,每一组数据包括彩色图像、激光点云投影得到的稀疏深度图以及多帧激光点云堆叠得到的半稠密深度图,使用半稠密深度图作为深度补全真值,在有深度值的像素点与网络预测的深度值计算误差。另外,为了统一输入,网络使用的图像大小为1216*256。本发明使用的实例分割子任务是通过mask rcnn实现的,所使用的特征提取骨干网络为resnet50,在coco实例分割数据集上训练模型,为了与3d目标检测框架一致,网络只提取汽车、行人和骑自行车的人三个障碍物类别。
[0067]
本发明的第二阶段中使用的边框回归网络在kitti的3d目标检测数据集上进行训
练和验证。数据集包含7480组训练数据和7517组测试数据,每组数据包括图像、激光点云和对应障碍物的真值标注,障碍物类别包括车辆、行人和骑自行车的人三种类别,对三个类别分别训练网络。在训练网络时,需要使用深度补全网络对点云进行加密,获得稠密点云。在训练时,一方面,直接使用真值的障碍物边界框提取稠密点云,在训练集中共有14357辆汽车、2207个行人和734个骑车人,另一方面,使用图像的实例分割结果分割深度图提取障碍物稠密点云,使用两方面的数据训练边框回归网络。
[0068]
在kitti的3d目标检测数据集的验证集上进行测试,从表中可以看出本发明通过稠密点云融合图像和激光点云能够提升目标检测的精度,并通过实例分割和深度补全加密障碍物点云能够提升远距离的检测结果。如表1所述为kitti 3d目标检测车辆验证集ap结果,表2为不同距离下的检测精度。
[0069]
表1 kitti 3d目标检测车辆验证集ap结果
[0070][0071]
表2不同距离下的检测精度
[0072][0073]
最后,本发明依托如图9所示的车载平台进行了真实场景下的数据采集和测试任务,使用的传感器是flir blackfly gige彩色相机和robosense rs-ruby-lite 80线激光雷达,通过将采集到的图像和激光输入网络,获得场景内中的障碍物3d目标检测结果,完成3d目标检测任务。可视化结果如图10-11所示。
[0074]
与现有方法相比,本发明具有如下优点:
[0075]
(1)针对图像和激光点云数据形式和分辨率不同导致难以融合的问题,本文使用基于transformer的深度补全网络加密激光点云,得到与图像对应的稠密点云,统一图像和点云数据,提取彩色稠密点云的特征完成边框回归,提高3d目标检测的精度。
[0076]
(2)针对现有3d目标检测方法远距离检测效果差的问题,本文使用了深度补全和
实例分割作为子任务,利用加密点云对抗点云分布的不均匀,利用图像的实例分割提取障碍物对应的像素区域,明显提高对远距离障碍物的检测效果。
[0077]
实施例2
[0078]
本实施例提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如实施例1所述基于深度补全和图像分割的3d目标检测方法的指令。
[0079]
实施例3
[0080]
本实施例提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如实施例1所述基于深度补全和图像分割的3d目标检测方法的指令。
[0081]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种基于深度补全和图像分割的3d目标检测方法,其特征在于,包括如下步骤:获取图像信息和稀疏深度图;将所述图像信息和所述稀疏深度图输入基于注意力机制的深度补全网络中,获取稠密深度图;将所述图像信息输入分割网络中,获取图像分割结果,基于所述稠密深度图以及所述图像分割结果,获取包括前景障碍物信息的稠密点云;针对所述稠密点云逐层提取局部特征,通过聚合获取障碍物点云特征,通过边框回归获取障碍物边界框,实现3d目标检测。2.根据权利要求1所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,所述的稀疏深度图的获取包括如下步骤:获取激光点云信息并投影到图像平面,通过0填充获取所述稀疏深度图。3.根据权利要求1所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,所述的深度补全网络包括两个并行设置的transfomer子网络,每个针对每个transformer子网络,均包括多个自注意力单元。4.根据权利要求3所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,所述的自注意力单元的输出为:其中,attention(q,k,v)为自注意力单元的输出,q、k、v分别为注意力机制中的查询矩阵、键矩阵和值矩阵,()
t
表示转置,d
k
为查询矩阵k的长度,b为块之间的相对位置偏移矩阵。5.根据权利要求1所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,在所述的深度补全网络的训练过程中,损失函数为非对称的amae函数。6.根据权利要求1所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,所述的分割网络包括mask r-cnn。7.根据权利要求1所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,所述的稠密点云的获取包括如下步骤:通过将所述图像信息输入分割网络中,获取包括图像中的障碍物的信息的图像分割结果,使用所述图像分割结果对所述稠密深度图进行分割,基于图像像素深度反投影回3d空间内,获取所述稠密点云。8.根据权利要求1所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,所述的障碍物点云特征的获取过程包括如下步骤:将所述稠密点云转换到质心坐标系;通过最远点采样选取关键点,实现点云的降采样,选取关键点附近的点,使用pointnet提取区域内空间特征和色彩特征作为局部特征,重复本步骤对每一层进行局部特征提取;通过聚合所有的局部特征得到所述障碍物点云特征。9.根据权利要求8所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,在最远点采样和关键点附近的点选取的过程中,使用二维的图像像素坐标和像素距离
进行采样/选取。10.根据权利要求1所述的一种基于深度补全和图像分割的3d目标检测方法,其特征在于,所述的障碍物边界框的获取包括如下步骤:将所述障碍物点云特征输入全连接网络中,获取障碍物的大小、位置和朝向信息。
技术总结
本发明涉及一种基于深度补全和图像分割的3D目标检测方法。在第一阶段,将激光点云投影到图像上,得到具有部分像素点深度值的稀疏深度图,利用深度补全网络融合图像和稀疏深度图获得与图像对应的稠密深度图,并利用图像的实例分割结果对深度图进行分割得到检测目标的前景稠密点云,在第二阶段,使用层级的点云特征提取方法提取稠密点云特征,完成检测目标的边框回归。与现有方法相比,本方法融合了图像和激光点云信息,利用图像信息对点云进行增密处理,使用稠密点云对抗点云密度随距离的下降,提高了平均检测精度。利用加密点云对抗点云分布的不均匀,利用图像的实例分割提取障碍物对应的像素区域,明显提高对远距离障碍物的检测效果。检测效果。检测效果。
技术研发人员:王晓年 张扬洋 王峻 郭亚锋 姚静
受保护的技术使用者:同济大学
技术研发日:2023.04.24
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/