图像检测模型的训练方法、装置、设备、存储介质和车辆与流程

1.本技术涉及图像检测领域,尤其涉及汽车智能化应用技术领域,具体涉及一种图像检测模型的训练方法、装置、设备、存储介质和车辆。
背景技术:
2.目前,图像检测已经被广泛应用于如自动驾驶、监控等场景,通常可以基于图像检测模型识别上述场景中存在的目标对象;但是由于图像检测模型无法准确的识别部分视角下的目标对象,可能会导致图像检测结果不准确。
3.相关技术中,主要是通过人工采集样本对象在几个固定视角下的二维图像,并将采集到的二维图像作为图像检测模型的训练样本数据,以期图像检测模型能够准确识别更多视角下的目标对象。但是,由于相关技术中人工采集的视角数量少,且不能够真实反映图像检测模型所不能识别的部分视角,仍然会导致图像检测模型的检测结果不准确。
技术实现要素:
4.本技术提供一种图像检测模型的训练方法、装置、设备、存储介质和车辆,以至少解决相关技术中图像检测模型的检测结果不够准确的技术问题。本技术的技术方案如下:
5.根据本技术涉及的第一方面,提供一种图像检测模型的训练方法,包括:获取预设二维图像;预设二维图像包括目标对象;基于预设的神经辐射场(neural radiance fields,nerf)算法对预设二维图像进行处理,得到目标对象对应的三维表示;基于多个预设视角以及三维表示,确定多个目标二维图像;一个目标二维图像包括一个预设视角下的目标对象;根据初始图像检测模型,对每个目标二维图像进行检测,得到每个目标二维图像中目标对象的检测结果;根据每个目标二维图像中目标对象的检测结果以及目标对象的实际信息,确定初始图像检测模型针对每个预设视角的损失值,得到与多个预设视角对应的多个损失值;将多个损失值中最大损失值对应的预设视角确定为目标视角,并基于目标视角对初始图像检测模型进行训练,得到目标图像检测模型。
6.根据上述技术手段,本技术可以通过获取预设二维图像,并基于预设的神经辐射场nerf算法对预设二维图像进行处理,得到目标对象对应的三维表示,然后基于多个预设视角以及三维表示,确定多个目标二维图像。相应的,对每个目标二维图像进行检测,并根据多个检测结果中确定损失值最大的预设视角,将其确定为用于训练初始图像检测模型的目标视角。这样,基于神经辐射场算法和预设二维图像对目标对象进行三维表示重建,并根据重建后的三维表示输出与多个预设视角一一对应的多个目标二维图像,实现了不需要依赖人工采集得到更多其它视角下的二维图像,可以丰富图像检测模型的训练样本。同时,可以根据多个预设视角,获取多个目标二维图像,实现了预设视角的多样性,同时从多个预设视角中确定使初始图像检测模型的损失值最大的目标视角,进而根据目标视角对初始图像检测模型进行训练,可以使图像检测模型能够学习到目标视角下的图像特征,进而可以提高图像检测模型的准确率。
7.在一种可能的实施方式中,上述方法还包括:确定预设的初始训练轮数;根据初始训练轮数,从预设的视角范围中确定多个预设视角;多个预设视角的数量为初始训练轮数。
8.根据上述技术手段,本技术可以通过预先确定预设的初始训练轮数,并根据初始训练轮数,从预设的视角范围中随机生成与初始训练轮数相同的多个预设视角。这样,由于在三维环境下,模型的视角有各种组合和变化,是无法通过穷尽的办法来得到损失值最大的二维图像所对应的视角,所以,通过预设的视角范围和初始训练轮数,实现了确定多个预设视角。
9.在一种可能的实施方式中,上述方法还包括:在多个损失值满足预设条件的情况下,更新初始训练轮数;预设条件包括:多个损失值均小于第一阈值,和/或,多个损失值中的最大损失值与最小损失值的差值小于第二阈值;更新前的初始训练轮数小于更新后的初始训练轮数。
10.根据上述技术手段,本技术可以通过判断多个损失值是否满足预设条件,并在多个损失值满足预设条件的情况下,更新初始训练轮数。这样,通过增加初始训练轮数,实现了一种更新初始训练轮数的方法,也可以确定出使初始图像检测模型损失值最大的目标视角,进而根据目标视角提高图像检测模型的准确率。
11.在一种可能的实施方式中,上述基于目标视角对初始图像检测模型进行训练,得到目标图像检测模型包括:获取目标视角对应的多个样本二维图像;每个样本二维图像中所包括对象的视角为目标视角;将多个样本二维图像作为样本数据,以及,将每个样本二维图像中所包括对象的实际信息作为标签数据,对初始图像检测模型进行训练,得到目标图像检测模型。
12.根据上述技术手段,本技术可以通过获取目标视角对应的多个样本二维图像,将多个样本二维图像作为样本数据,以及,将每个样本二维图像中所包括对象的实际信息作为标签数据,对初始图像检测模型进行训练,得到目标图像检测模型。这样,通过使用多个目标视角下的样本二维图像训练初始图像检测模型,得到目标图像检测模型,可以提高目标图像检测模型检测目标视角下的其它对象的检测能力,有利于提高初始图像检测模型的鲁棒性。
13.根据本技术提供的第二方面,提供一种图像检测模型的训练装置,包括获取单元、处理单元、确定单元、检测单元和训练单元;获取单元,用于获取预设二维图像;预设二维图像包括目标对象;处理单元,用于基于预设的神经辐射场nerf算法对预设二维图像进行处理,得到目标对象对应的三维表示;确定单元,用于基于多个预设视角以及三维表示,确定多个目标二维图像;一个目标二维图像包括一个预设视角下的目标对象;检测单元,用于根据初始图像检测模型,对每个目标二维图像进行检测,得到每个目标二维图像中目标对象的检测结果;确定单元,还用于根据每个目标二维图像中目标对象的检测结果以及目标对象的实际信息,确定初始图像检测模型针对每个预设视角的损失值,得到与多个预设视角对应的多个损失值;确定单元,还用于将多个损失值中最大损失值对应的预设视角确定为目标视角;训练单元,用于基于目标视角对初始图像检测模型进行训练,得到目标图像检测模型。
14.根据上述技术手段,本技术可以通过获取预设二维图像,并基于预设的神经辐射场nerf算法对预设二维图像进行处理,得到目标对象对应的三维表示,然后基于多个预设
视角以及三维表示,确定多个目标二维图像。相应的,对每个目标二维图像进行检测,并根据多个检测结果中确定损失值最大的预设视角,将其确定为用于训练初始图像检测模型的目标视角。这样,基于神经辐射场算法和预设二维图像对目标对象进行三维表示重建,并根据重建后的三维表示输出与多个预设视角一一对应的多个目标二维图像,实现了不需要依赖人工采集得到更多其它视角下的二维图像,可以丰富图像检测模型的训练样本。同时,可以根据多个预设视角,获取多个目标二维图像,实现了预设视角的多样性,同时从多个预设视角中确定使初始图像检测模型的损失值最大的目标视角,进而根据目标视角对初始图像检测模型进行训练,可以使图像检测模型能够学习到目标视角下的图像特征,进而可以提高图像检测模型的准确率。
15.在一种可能的实施方式中,上述确定单元还用于确定预设的初始训练轮数;根据初始训练轮数,从预设的视角范围中确定多个预设视角;多个预设视角的数量为初始训练轮数。
16.根据上述技术手段,本技术可以通过预先确定预设的初始训练轮数,并根据初始训练轮数,从预设的视角范围中随机生成与初始训练轮数相同的多个预设视角。这样,由于在三维环境下,模型的视角有各种组合和变化,是无法通过穷尽的办法来得到损失值最大的二维图像所对应的视角,所以,通过预设的视角范围和初始训练轮数,实现了确定多个预设视角。
17.在一种可能的实施方式中,上述装置还包括更新单元;更新单元,用于在多个损失值满足预设条件的情况下,更新初始训练轮数;预设条件包括:多个损失值均小于第一阈值,和/或,多个损失值中的最大损失值与最小损失值的差值小于第二阈值;更新前的初始训练轮数小于更新后的初始训练轮数。
18.根据上述技术手段,本技术可以通过判断多个损失值是否满足预设条件,并在多个损失值满足预设条件的情况下,更新初始训练轮数。这样,通过增加初始训练轮数,实现了一种更新初始训练轮数的方法,也可以确定出使初始图像检测模型损失值最大的目标视角,进而根据目标视角提高图像检测模型的准确率。
19.在一种可能的实施方式中,上述训练单元具体用于:获取目标视角对应的多个样本二维图像;每个样本二维图像中所包括对象的视角为目标视角;将多个样本二维图像作为样本数据,以及,将每个样本二维图像中所包括对象的实际信息作为标签数据,对初始图像检测模型进行训练,得到目标图像检测模型。
20.根据上述技术手段,本技术可以通过获取目标视角对应的多个样本二维图像,将多个样本二维图像作为样本数据,以及,将每个样本二维图像中所包括对象的实际信息作为标签数据,对初始图像检测模型进行训练,得到目标图像检测模型。这样,通过使用多个目标视角下的样本二维图像训练初始图像检测模型,得到目标图像检测模型,可以提高目标图像检测模型检测目标视角下的其它对象的检测能力,有利于提高初始图像检测模型的鲁棒性。
21.根据本技术提供的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面及其任一种可能的实施方式的方法。
22.根据本技术提供的第四方面,提供一种计算机可读存储介质,当计算机可读存储
介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中及其任一种可能的实施方式的方法。
23.根据本技术提供的第五方面,提供一种车辆,车辆部署有目标图像检测模型,目标图像检测模型用于检测不同对象的类别,或者,位置和类别;目标图像检测模型为基于上述第一方面及其任一种可能的实施方式的方法训练得到的。
24.根据本技术提供的第六方面,提供一种计算机程序产品,计算机程序产品包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述第一方面及其任一种可能的实施方式的方法。
25.需要说明的是,第二方面至第六方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效果,此处不再赘述。
26.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
27.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理,并不构成对本技术的不当限定。
28.图1是根据一示例性实施例示出的一种图像检测模型的训练方法的流程图;
29.图2是根据一示例性实施例示出的一种确定目标二维图像的示意图;
30.图3是根据一示例性实施例示出的又一种图像检测模型的训练方法的流程图;
31.图4是根据一示例性实施例示出的又一种图像检测模型的训练方法的示意图;
32.图5是根据一示例性实施例示出的又一种图像检测模型的训练方法的流程图;
33.图6是根据一示例性实施例示出的又一种图像检测模型的训练方法的流程图;
34.图7是根据一示例性实施例示出的一种图像检测模型的训练装置的框图;
35.图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
36.为了使本领域普通人员更好地理解本技术的技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
37.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
38.在本技术提供的以下实施例中,本技术以电子设备为例进行说明。
39.为了便于理解,以下结合附图对本技术提供的图像检测模型的训练方法进行具体介绍。
40.图1是根据一示例性实施例示出的一种图像检测模型的训练方法的流程图,如图1所示,该图像检测模型的训练方法包括以下步骤:
41.s101、电子设备获取预设二维图像。
42.其中,预设二维图像包括目标对象;目标对象为任意被拍摄的对象;预设二维图像可以是像素级别的三原色(red green blue,rgb)图像,即rgb图像中包含若干像素点的像素值和灰度值。
43.作为一种可能的实现方式,电子设备获取图像采集设备对目标对象拍摄的拍摄图像。
44.需要说明的,图像采集设备是指可以对目标对象拍摄的设备。预设二维图像可以为一个也可以为多个,在预设二维图像为一个的情况下,预设二维图像为图像采集设备基于一个固定的视角对目标对象进行拍摄得到的;在预设二维图像为多个的情况下,预设二维图像为图像采集设备基于不同的视角对目标对象进行拍摄得到的。
45.其中,视角是指图像采集设备拍摄目标对象时的角度。
46.示例性的,图像采集设备可以是相机。
47.s102、电子设备基于预设的神经辐射场nerf算法对预设二维图像进行处理,得到目标对象对应的三维表示。
48.其中,神经辐射场算法是通过神经渲染方式进行三维重建的算法,神经辐射场的主体网络结构是8层全连接神经网络,输入为五维向量,输出为像素点颜色密度和rgb颜色;三维表示是指采用神经辐射场算法对目标对象进行三维重建后得到的结果。
49.作为一种可能的实现方式,电子设备通过传统方法colmap获取对目标对象输出的稀疏重建结果、相机内参、相机外参和三维点的信息。
50.电子设备对每个预设二维图像进行网格点采样,得到各个像素点的坐标,通过相机内参矩阵和相机外参矩阵将二维图像中像素点的坐标转换到相机坐标。
51.电子设备统一世界坐标系下的光线始发点与方向向量,将相机坐标转换到世界坐标系下的三维坐标,然后对光线始发点与方向向量做预处理,在每条光线上,根据最终对颜色贡献更大的点附近进行密集采样,再将处理好的样本点通过embedding嵌入函数进行低维到高维的映射。
52.电子设备将每个样本点对应世界坐标系下的三维坐标和每个样本点对应每条光线的方位视角作为神经辐射场算法的输入,输出目标对象对应的三维表示。
53.在实际应用过程中,可以根据沿着特定光线预测的像素值与对应像素点的像素真值做l2损失函数以优化并更新神经辐射场算法。
54.需要说明的,相机内参包括图片分辨率(图片的高度和宽度)、焦距;相机外参包括相机坐标到世界坐标转换的平移矩阵和旋转矩阵,平移矩阵可以为3
×
3的矩阵,旋转矩阵可以为3
×
1的矩阵;三维点的信息包括光线的始发深度和终止深度。
55.示例性的,神经辐射场接收的五维向量用(x,y,z,θ,φ)表示,(x,y,z)表示样本点的三维坐标,(θ,φ)表示观察样本点的方位视角;神经辐射场输出的像素点颜色密度和rgb颜色用(σ,c)表示,其中是像素点颜色密度,是rgb颜色。
56.神经辐射场算法可以为瞬时神经图元(instant-ngp)、mip映射神经辐射场(mipmapping-nerf,mip-nerf)、基于点的神经辐射场(point-nerf)。
57.s103、电子设备基于多个预设视角以及三维表示,确定多个目标二维图像。
58.其中,一个目标二维图像包括一个预设视角下的目标对象。
59.作为一种可能的实现方式,电子设备使用神经辐射场算法获取每个预设视角下的所有像素点的颜色密度和rgb颜色,并根据所有像素点的颜色密度和rgb颜色,使用图形学中的经典体积渲染方法还原出每个预设视角下的二维图像,得到多个目标二维图像。
60.示例性的,图2示出了一种确定目标二维图像的示意图。如图2所示,以目标对象为相机为例,预设二维图像为基于第一视角拍摄相机的图像。电子设备将基于第一视角拍摄相机的图像和三个预设视角输入到神经辐射场算法中;神经辐射场算法渲染出每个预设视角下相机的图像,并输出三张目标二维图像。
61.s104、电子设备根据初始图像检测模型,对每个目标二维图像进行检测,得到每个目标二维图像中目标对象的检测结果。
62.作为一种可能的实现方式,电子设备将每个目标二维图像输入初始图像检测模型,输出每个目标二维图像中目标对象的类别置信度,并将该类别置信度作为目标对象的检测结果。
63.在这种情况下,上述初始图像检测模型用于检测目标二维图像中目标对象的类别。
64.作为另外一种可能的实现方式,电子设备将每个目标二维图像输入初始图像检测模型,输出每个目标二维图像中目标对象的类别置信度和位置框,并将该类别置信度和检测框作为目标对象的检测结果。
65.在这种情况下,上述初始图像检测模型用于检测目标二维图像中目标对象的类别和位置。
66.需要说明的,上述初始图像检测模型可以为单阶段的图像检测模型,也可以为两阶段的图像检测模型。例如,单阶段的图像检测模型的典型方法为yolo,两阶段的图像检测模型的典型方法为faster-rcnn。
67.示例性的,目标二维图像用r(v)表示,初始图像检测模型的检测结果用f(x)表示,则初始图像检测模型对目标二维图像的检测结果为f(r(v))。
68.s105、电子设备根据每个目标二维图像中目标对象的检测结果以及目标对象的实际信息,计算得到初始图像检测模型针对每个预设视角的损失值,得到与多个预设视角对应的多个损失值。
69.其中,在初始图像检测模型只检测目标二维图像中目标对象的类别的情况下,目标对象的实际信息包括目标对象的真实类别;在初始图像检测模型检测目标二维图像中目标对象的类别以及位置的情况下,目标对象的实际信息包括目标对象的真实类别和目标对象的实际位置信息。
70.作为一种可能的实现方式,电子设备根据每个目标二维图像中目标对象检测结果中的类别置信度和目标对象的真实类别,确定初始图像检测模型针对每个预设视角的损失值,得到与多个预设视角对应的多个损失值。
71.作为另外一种可能的实现方式,电子设备根据每个目标二维图像中目标对象的检测结果中的类别置信度和目标对象的真实类别,确定初始图像检测模型针对每个预设视角的类别置信度损失值,并根据每个目标二维图像中目标对象的检测结果中的位置框和目标对象的真实位置信息,确定初始图像检测模型针对每个预设视角的位置检测损失值,进而根据每个预设视角的类别置信度损失值和位置检测损失值,计算得到初始图像检测模型针
对每个预设视角的损失值。相应的,得到与多个预设视角对应的多个损失值。
72.需要说明的,确定初始图像检测模型针对每个预设视角的损失值满足l(m,n)损失函数,其中m表示初始图像检测模型对目标二维图像的检测结果,则初始图像检测模型针对每个预设视角的损失值为l(f(r(v)),n)。
73.s106、电子设备将多个损失值中最大损失值对应的预设视角确定为目标视角。
74.作为一种可能的实现方式,电子设备将多个预设视角对应的多个损失值按照数值大小排序,得到最大的损失值,并将多个损失值中最大损失值对应的预设视角确定为用于训练初始图像检测模型的目标视角。
75.需要说明的,多个损失值中最大损失值满足max
v l(f(r(v)),n)函数,其中,v表示使得初始图像检测模型损失值最大的视角。
76.s107、电子设备基于目标视角对初始图像检测模型进行训练,得到目标图像检测模型。
77.可以理解的,本技术实施例提供的技术方案,通过获取预设二维图像,并基于预设的神经辐射场nerf算法对预设二维图像进行处理,得到目标对象对应的三维表示,然后基于多个预设视角以及三维表示,确定多个目标二维图像。相应的,对每个目标二维图像进行检测,并根据多个检测结果中确定损失值最大的预设视角,将其确定为用于训练初始图像检测模型的目标视角。这样,基于神经辐射场算法和预设二维图像对目标对象进行三维表示重建,并根据重建后的三维表示输出与多个预设视角一一对应的多个目标二维图像,实现了不需要依赖人工采集得到更多其它视角下的二维图像,可以丰富图像检测模型的训练样本。同时,可以根据多个预设视角,获取多个目标二维图像,实现了预设视角的多样性,同时从多个预设视角中确定使初始图像检测模型的损失值最大的目标视角,进而根据目标视角对初始图像检测模型进行训练,可以使图像检测模型能够学习到目标视角下的图像特征,进而可以提高图像检测模型的准确率。
78.在一些实施例中,为了确定多个预设视角,如图3所示,本技术实施例提供的图像检测模型的训练方法还包括以下步骤:
79.s201、电子设备确定预设的初始训练轮数。
80.需要说明的,预设的初始训练轮数为运维人员预先在电子设备中设置的。
81.s202、电子设备根据初始训练轮数,从预设的视角范围中确定多个预设视角。
82.其中,多个预设视角的数量为初始训练轮数。
83.作为一种可能的实现方式,电子设备从预设的视角范围中随机生成与初始训练轮数相同的多个预设视角。
84.作为另外一种可能的实现方式,电子设备从预设的视角范围中确定与初始训练轮数相同的并且均匀分布的多个预设视角。
85.示例性的,预设的初始训练轮数为100,预设的视角范围为90度到160度。
86.可以理解的,本技术实施例提供的技术方案,通过预先确定预设的初始训练轮数,并根据初始训练轮数,从预设的视角范围中随机生成与初始训练轮数相同的多个预设视角。这样,由于在三维环境下,模型的视角有各种组合和变化,是无法通过穷尽的办法来得到损失值最大的二维图像所对应的视角,所以,通过预设的视角范围和初始训练轮数,实现了确定多个预设视角。
87.在一些实施例中,为了能够确定使初始图像检测模型损失值最大的目标视角,进而根据目标视角提高图像检测模型的准确率,如图4所示,本技术实施例提供的图像检测模型的训练方法还包括以下步骤:
88.s301、电子设备判断多个损失值是否满足预设条件。
89.其中,预设条件包括:多个损失值均小于第一阈值,和/或,多个损失值中的最大损失值与最小损失值的差值小于第二阈值。
90.作为一种可能的实现方式,电子设备将每个损失值与第一阈值比较,以及计算得到多个损失值中最大损失值与最小损失值的差值,并将该差值与第二阈值比较。相应的,在多个损失值均小于第一阈值,和/或,多个损失值中的最大损失值与最小损失值的差值小于第二阈值的情况下,电子设备判断多个损失值满足预设情况。
91.在其它情况下,电子设备判断多个损失值不满足预设情况,不需要更新初始训练轮数。
92.可以理解的,多个损失值均小于第一阈值表示初始图像检测模型可以准确地检测多个预设视角下的目标二维图像中的目标对象,多个损失值中的最大损失值与最小损失值的差值小于第二阈值表示初始图像检测模型针对多个预设视角的损失值整体波动较小,还需要重新确定出使得初始图像检测模型损失值最大的目标视角。
93.s302、在多个损失值满足预设条件的情况下,电子设备更新初始训练轮数。
94.其中,更新前的初始训练轮数小于更新后的初始训练轮数。
95.在另外一种实施例中,在多个损失值满足预设条件的情况下,电子设备还可以更新预设的视角范围。例如,可以增大预设的视角范围,或者改变预设的视角范围。
96.可以理解的,本技术实施例提供的技术方案,通过判断多个损失值是否满足预设条件,并在多个损失值满足预设条件的情况下,更新初始训练轮数。这样,通过增加初始训练轮数,实现了一种更新初始训练轮数的方法,也可以确定出使初始图像检测模型损失值最大的目标视角,进而根据目标视角提高图像检测模型的准确率。
97.在一些实施例中,为了优化视角,如图5所示,本技术实施例提供的图像检测模型的训练方法还包括以下步骤:
98.s401、电子设备预训练神经辐射场算法。
99.其中,预训练神经辐射场算法可以参照上述s101到s102的实现方式。
100.s402、电子设备确定训练轮数、视角、视角范围,并初始化计数器。
101.需要说明的,训练轮数用n表示,初始化计数器的值为0。
102.s403、电子设备基于神经辐射场算法和预设视角,确定预设视角下的目标二维图像。
103.其中,电子设备基于神经辐射场算法和预设视角,确定预设视角下的目标二维图像可以参照上述s103的实现方式。
104.s404、电子设备根据初始图像检测模型,对目标二维图像进行检测,得到目标二维图像中目标对象的检测结果。
105.其中,电子设备根据初始图像检测模型,对目标二维图像进行检测,得到目标二维图像中目标对象的检测结果可以参照上述s104的实现方式。
106.s405、电子设备根据目标二维图像中目标对象的检测结果,计算得到初始图像检
测模型针对预设视角的损失值。
107.其中,电子设备根据目标二维图像中目标对象的检测结果,计算得到初始图像检测模型针对每个预设视角的损失值可以参照上述s105的实现方式。
108.s406、电子设备根据损失函数梯度下降,更新优化视角。
109.作为一种可能的实现方式,电子设备根据损失函数梯度下降,更新预设视角。
110.需要说明的,更新预设视角可以通过改变预设的视角范围,还可以通过改变预设的视角范围内的视角实现。
111.例如,可以增大预设的视角范围,或者改变预设的视角范围。
112.s407、电子设备判断已确定的目标二维图像数量是否小于预设的训练轮数。
113.s408、电子设备在目标二维图像的数量小于预设的训练轮数的情况下,更新计数器,并继续执行上述s403到s406的步骤。
114.需要说明的,更新计数器满足以下公式一:
115.更新后计数器的值=更新前计数器的值+1公式一
116.s409、电子设备在目标二维图像的数量大于等于预设的训练轮数的情况下,将所有损失值中最大损失值对应的预设视角确定为用于训练初始图像检测模型的目标视角。
117.在一些实施例中,为了训练得到目标检测模型,如图6所示,本技术实施例提供的图像检测模型的训练方法中,上述s107包括以下步骤:
118.s501、电子设备获取目标视角对应的多个样本二维图像。
119.其中,每个样本二维图像中所包括对象的视角为目标视角。
120.作为一种可能的实现方式,电子设备获取不同对象在与目标视角相同下的多个样本二维图像。
121.示例性的,不同对象可以为车辆、行人等,目标视角可以为仰视30度。
122.s502、电子设备将多个样本二维图像作为样本数据,以及,将每个样本二维图像中所包括对象的实际信息作为标签数据,对初始图像检测模型进行训练,得到目标图像检测模型。
123.作为一种可能的实现方式,电子设备将每个样本二维图像输入到初始图像检测模型中,根据初始图像检测模型输出的检测结果,并结合每个样本二维图像中所包括对象的实际信息对初始图像检测模型进行参数调整,得到目标图像检测模型。
124.可以理解的,本技术实施例提供的技术方案,通过获取目标视角对应的多个样本二维图像,将多个样本二维图像作为样本数据,以及,将每个样本二维图像中所包括对象的实际信息作为标签数据,对初始图像检测模型进行训练,得到目标图像检测模型。这样,通过使用多个目标视角下的样本二维图像训练初始图像检测模型,得到目标图像检测模型,可以提高目标图像检测模型检测目标视角下的其它对象的检测能力,有利于提高初始图像检测模型的鲁棒性。
125.上述主要从方法的角度对本技术实施例提供的方案进行了介绍。为了实现上述功能,图像检测模型的训练装置或电子设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条
件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
126.本技术实施例可以根据上述方法,示例性的对图像检测模型的训练装置或电子设备进行功能模块的划分,例如,图像检测模型的训练装置或电子设备可以包括对应各个功能划分的各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
127.图7是根据一示例性实施例示出的一种图像检测模型的训练装置的框图。参照图7,该图像检测模型的训练装置600包括:获取单元601、处理单元602、确定单元603、检测单元604和训练单元606。
128.获取单元601,用于获取预设二维图像;预设二维图像包括目标对象。
129.处理单元602,用于基于预设的神经辐射场nerf算法对预设二维图像进行处理,得到目标对象对应的三维表示。
130.确定单元603,用于基于多个预设视角以及三维表示,确定多个目标二维图像;一个目标二维图像包括一个预设视角下的目标对象。
131.检测单元604,用于根据初始图像检测模型,对每个目标二维图像进行检测,得到每个目标二维图像中目标对象的检测结果。
132.确定单元603,还用于根据每个目标二维图像中目标对象的检测结果以及目标对象的实际信息,确定初始图像检测模型针对每个预设视角的损失值,得到与多个预设视角对应的多个损失值。
133.确定单元603,还用于将多个损失值中最大损失值对应的预设视角确定为目标视角。
134.训练单元606,用于基于目标视角对初始图像检测模型进行训练,得到目标图像检测模型。
135.可选的,如图7所示,本技术实施例提供的确定单元603还用于:
136.确定预设的初始训练轮数。
137.根据初始训练轮数,从预设的视角范围中确定多个预设视角;多个预设视角的数量为初始训练轮数。
138.可选的,如图7所示,本技术实施例提供的图像检测模型的训练装置600还包括更新单元605;更新单元605,用于在多个损失值满足预设条件的情况下,更新初始训练轮数;预设条件包括:多个损失值均小于第一阈值,和/或,多个损失值中的最大损失值与最小损失值的差值小于第二阈值;更新前的初始训练轮数小于更新后的初始训练轮数。
139.可选的,如图7所示,本技术实施例提供的训练单元606具体用于:获取目标视角对应的多个样本二维图像;每个样本二维图像中所包括对象的视角为目标视角;将多个样本二维图像作为样本数据,以及,将每个样本二维图像中所包括对象的实际信息作为标签数据,对初始图像检测模型进行训练,得到目标图像检测模型。
140.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
141.图8是根据一示例性实施例示出的一种电子设备的框图。如图8所示,电子设备700包括但不限于:处理器701和存储器702。
142.其中,上述的存储器702,用于存储上述处理器701的可执行指令。可以理解的是,上述处理器701被配置为执行指令,以实现上述实施例中的图像检测模型的训练方法。
143.需要说明的是,本领域技术人员可以理解,图8中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图8所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
144.处理器701是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器701可包括一个或多个处理单元。可选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
145.存储器702可用于存储软件程序以及各种数据。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能模块所需的应用程序(比如确定单元、处理单元等)等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
146.在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器702,上述指令可由电子设备700的处理器701执行以实现上述实施例中的图像检测模型的训练方法。
147.在实际实现时,图7中的获取单元601、处理单元602、确定单元603、检测单元604、更新单元605和训练单元606的功能均可以由图8中的处理器701调用存储器702中存储的计算机程序实现。其具体的执行过程可参考上实施例中的图像检测模型的训练方法部分的描述,这里不再赘述。
148.可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、cd-rom、磁带、软盘和光数据存储设备等。
149.在示例性实施例中,还提供了一种车辆,车辆部署有上述的目标图像检测模型,目标图像检测模型用于检测不同对象的类别,或者,位置和类别;目标图像检测模型为基于上述图像检测模型的训练方法训练得到的。
150.在示例性实施例中,本技术实施例还提供了一种包括一条或多条指令的计算机程序产品,该一条或多条指令可以由电子设备的处理器701执行以完成上述实施例中的图像检测模型的训练方法。
151.需要说明的是,上述计算机可读存储介质中的指令或计算机程序产品中的一条或多条指令被电子设备的处理器执行时实现上述图像检测模型的训练方法实施例的各个过程,且能达到与上述图像检测模型的训练方法相同的技术效果,为避免重复,这里不再赘述。
152.通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上
述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全分类部或者部分功能。
153.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
154.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全分类部单元来实现本实施例方案的目的。
155.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
156.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全分类部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例方法的全分类部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
157.以上,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种图像检测模型的训练方法,其特征在于,包括:获取预设二维图像;所述预设二维图像包括目标对象;基于预设的神经辐射场nerf算法对所述预设二维图像进行处理,得到所述目标对象对应的三维表示;基于多个预设视角以及所述三维表示,确定多个目标二维图像;一个目标二维图像包括一个预设视角下的所述目标对象;根据初始图像检测模型,对每个目标二维图像进行检测,得到所述每个目标二维图像中所述目标对象的检测结果;根据所述每个目标二维图像中所述目标对象的检测结果以及所述目标对象的实际信息,确定所述初始图像检测模型针对每个预设视角的损失值,得到与所述多个预设视角对应的多个损失值;将所述多个损失值中最大损失值对应的预设视角确定为目标视角,并基于所述目标视角对所述初始图像检测模型进行训练,得到目标图像检测模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定预设的初始训练轮数;根据所述初始训练轮数,从预设的视角范围中确定所述多个预设视角;所述多个预设视角的数量为所述初始训练轮数。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述多个损失值满足预设条件的情况下,更新所述初始训练轮数;所述预设条件包括:所述多个损失值均小于第一阈值,和/或,所述多个损失值中的最大损失值与最小损失值的差值小于第二阈值;更新前的所述初始训练轮数小于更新后的所述初始训练轮数。4.根据权利要求1-3中任一项所述的方法,其特征在于,基于所述目标视角对所述初始图像检测模型进行训练,得到目标图像检测模型,包括:获取所述目标视角对应的多个样本二维图像;每个样本二维图像中所包括对象的视角为所述目标视角;将所述多个样本二维图像作为样本数据,以及,将所述每个样本二维图像中所包括对象的实际信息作为标签数据,对所述初始图像检测模型进行训练,得到所述目标图像检测模型。5.一种图像检测模型的训练装置,其特征在于,包括:获取单元、处理单元、确定单元、检测单元和训练单元;所述获取单元,用于获取预设二维图像;所述预设二维图像包括目标对象;所述处理单元,用于基于预设的神经辐射场nerf算法对所述预设二维图像进行处理,得到所述目标对象对应的三维表示;所述确定单元,用于基于多个预设视角以及所述三维表示,确定多个目标二维图像;一个目标二维图像包括一个预设视角下的所述目标对象;所述检测单元,用于根据初始图像检测模型,对每个目标二维图像进行检测,得到所述每个目标二维图像中所述目标对象的检测结果;所述确定单元,还用于根据所述每个目标二维图像中所述目标对象的检测结果以及所述目标对象的实际信息,确定所述初始图像检测模型针对每个预设视角的损失值,得到与
所述多个预设视角对应的多个损失值;所述确定单元,还用于将所述多个损失值中最大损失值对应的预设视角确定为目标视角;所述训练单元,用于基于所述目标视角对所述初始图像检测模型进行训练,得到目标图像检测模型。6.根据权利要求5所述的装置,其特征在于,所述确定单元还用于:确定预设的初始训练轮数;根据所述初始训练轮数,从预设的视角范围中确定所述多个预设视角;所述多个预设视角的数量为所述初始训练轮数。7.根据权利要求6所述的装置,其特征在于,所述装置还包括更新单元;所述更新单元,用于在所述多个损失值满足预设条件的情况下,更新所述初始训练轮数;所述预设条件包括:所述多个损失值均小于第一阈值,和/或,所述多个损失值中的最大损失值与最小损失值的差值小于第二阈值;更新前的所述初始训练轮数小于更新后的所述初始训练轮数。8.根据权利要求5-7中任一项所述的装置,其特征在于,所述训练单元具体用于:获取所述目标视角对应的多个样本二维图像;每个样本二维图像中所包括对象的视角为所述目标视角;将所述多个样本二维图像作为样本数据,以及,将所述每个样本二维图像中所包括对象的实际信息作为标签数据,对所述初始图像检测模型进行训练,得到目标图像检测模型。9.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中存储的计算机执行指令由电子设备的处理器执行时,所述电子设备能够执行如权利要求1至4中任一项所述的方法。11.一种车辆,其特征在于,所述车辆部署有目标图像检测模型,所述目标图像检测模型用于检测不同对象的类别,或者,位置和类别;所述目标图像检测模型为基于权利要求1-4中任一项所述的方法训练得到的。
技术总结
本申请涉及一种图像检测模型的训练方法、装置、设备、存储介质和车辆,涉及图像检测技术领域。该方法包括:基于预设的神经辐射场算法对预设二维图像进行处理,得到目标对象对应的三维表示;基于多个预设视角以及三维表示,确定多个目标二维图像;根据初始图像检测模型,对每个目标二维图像进行检测,得到每个目标二维图像中目标对象的检测结果,并确定初始图像检测模型针对每个预设视角的损失值,得到与多个预设视角对应的多个损失值。进一步的,将多个损失值中最大损失值对应的预设视角确定为目标视角,并基于所述目标视角对所述初始图像检测模型进行训练,得到目标图像检测模型。由此,可以提高图像检测模型检测图像的准确率。可以提高图像检测模型检测图像的准确率。可以提高图像检测模型检测图像的准确率。
技术研发人员:江天 罗咏刚 马金燕
受保护的技术使用者:重庆长安汽车股份有限公司
技术研发日:2023.03.30
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/