基于卷积神经网络的体素标记方法、装置、终端及介质与流程
未命名
08-02
阅读:111
评论:0

1.本技术涉及计算机技术领域,特别是涉及一种基于卷积神经网络的体素标记方法、装置、终端及介质。
背景技术:
2.体素(voxel)是体积元素(volume pixel)的简称,包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来。一如其名,是数字数据于三维空间分割上的最小单位,体素用于三维成像、科学数据与医学影像等领域。体素(voxel)也可理解为像素(pixel)、体积(volume)和元素(element)的组合词,相当于3d空间中的像素。如图1所示,展示为某一包围盒的体素示意图,其中,每一个立方体都表示一个体素(voxel);height表示该包围盒的高度,本图以5个体素高度为例;depth表示该包围盒的深度,本图以5个体素深度为例;width表示该包围盒的宽度,本图以5个体素宽度为例;boundsmin(local origin)表示该包围盒的最小位置(局部原点);boundsmax表示该包围盒的最大位置;cellheight表示栅格高度即体素高度;cellsize表示栅格尺寸即体素尺寸(包括体素的深度和宽度);cell column表示单元格列。
3.当前对于体素的应用非常广泛,在游戏行业中,一般会用于对大型3d场景进行体素化处理,结合图2a、2b所示,分别展示为原始3d场景示意图和体素化后的3d场景示意图。现有体素化的技术都比较成熟,一般游戏制作时,首先会将3d场景体素化,然后对每个体素进行标记,比如有些地方禁止让玩家走上去,可以标记为不可行走;有些地方禁止用于相机碰撞,可以标记为不可碰撞等等,如图2c所示,展示为标记后的3d栋场景示意图,根据不同颜色进行不同标记,其中区域
①
的颜色表示不可行走标记;区域
②
的颜色表示不可碰撞标记;区域
③
的颜色表示可行走标记。现有标记过程一般需要人工标记,适用于场景较小的情况,当面对超大型场景,生成的体素会有千万的量级,如果单纯靠人工进行标记,将产生巨大的工作量。
4.目前对于一张1024*1024大小的场景,基于现有的标记工具,一个人需要几个小时的时间才能粗略标记完成,如果要进行精细化标记,甚至要以天为单位。而且面对在开发阶段的项目,场景的变化是非常频繁的,每天都在变化;每次场景发生变化,就需要人工进行标记处理,对此,标记的人工成本也会持续增加。如图3所示,展示为现有体素标记方法的流程示意图。现有技术中通过人工进行标记不仅人工成本高,而且工作效率低下,费时又费力。
5.深度学习(dl,deep learning)是机器学习(ml,machine learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(ai,artificial intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
6.目前,作为深度学习的代表算法之一,卷积神经网络(convolutional neural networks,cnn)在计算机视觉、分类等领域上,都取得了非常好的效果。但是现有的卷积神经网络却无法直接处理3d体素数据。
技术实现要素:
7.鉴于以上所述现有技术的缺点,本技术的目的在于提供一种基于卷积神经网络的体素标记方法、装置、终端及介质,用于解决现有技术中卷积神经网络无法处理3d体素数据、通过人工标记体素化数据费时费力且成本高效率低的技术问题。
8.为实现上述目的及其他相关目的,本技术的第一方面提供一种基于卷积神经网络的体素标记方法,所述方法包括:获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据;将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型;利用所述voxelai模型对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。
9.于本技术的第一方面的一些实施例中,所述获取历史场景体素化数据包括:获取历史三维场景中所有物体的多边形网格数据并进行体素化处理,以得到历史场景体素化数据;其中,所述历史场景体素化数据表征历史三维场景中所有体素的属性信息的集合;所述体素的属性信息包括对应体素的定位数据、层级数据、高度数据。
10.于本技术的第一方面的一些实施例中,将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型,具体过程包括:将所述历史场景体素化数据根据实际需求进行数据展开,以得到对应场景中所有体素的多层二维特征图;其中,所述二维特征图用以表征当前体素与周边体素的关联特征信息;所述多层二维特征图包括多个不同维度的所述二维特征图;对所述多层二维特征图进行卷积、池化操作,并结合所述历史场景体素化数据作为卷积神经网络的全连接层的输入,并将所述历史体素标记数据作为输出进行监督学习,以训练基于卷积神经网络的voxelai模型。
11.于本技术的第一方面的一些实施例中,将所述历史场景体素化数据根据实际需求进行数据展开,以得到对应场景中所有体素的多层二维特征图,具体包括以下任意一种或多种的组合:当实际需求为判断场景中对应当前体素与周边体素是否平滑时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在预设平滑度范围内,以得到当前体素与周边体素的二维平滑度特征图;当实际需求为判断场景中对应当前体素与周边体素是否可行走时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在行走高度范围内,以得到当前体素与周边体素的二维行走高度特征图;当实际需求为判断场景中对应当前体素与周边体素是否可跳跃时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在跳跃高度范围内,以得到当前体素与周边体素的二维跳跃高度特征图;当实际需求为分析场景中对应当前体素的周边层级关系时,提取当前体素与周边体素的层级信息,并依次分析周边体素与当前体素的层级关系,以得到当前体素与周边体素的二维层级差特征图;当实际需求为判断场景中对应当前体素是否孤立时,提取当前体素与周边体素的层级信息,并依次判断周边体素与当前体素的层级差是否在相同层级范围内,以得到当前体素与周边体素的二维同层级特征图;其中,所述多层二维特征图包括所述二维平滑度特征图、二维行走高度特征
图、二维跳跃高度特征图、二维同层级特征图、二维层级差特征图中任意一种或多种组合。
12.于本技术的第一方面的一些实施例中,所述voxelai模型包括:依次连接的输入层、展开层、卷积层、池化层、全连接层、输出层。
13.于本技术的第一方面的一些实施例中,所述方法还包括:当所述历史三维场景发生改变时,获取对应的变更三维场景的多边形网格数据并进行体素化处理,以得到变更场景体素化数据;将所述变更场景体素化数据输入至所述voxelai模型以得到第一变更体素标记数据;根据实际需求通过人工标记对所述第一变更体素标记数据进行修正,以得到第二变更体素标记数据;将所述变更场景体素化数据作为输入以及将所述第二变更体素标记数据作为输出以优化训练基于卷积神经网络的voxelai模型。
14.为实现上述目的及其他相关目的,本技术的第二方面提供一种基于卷积神经网络的体素标记装置,包括:数据获取模块,用于获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据;模型训练模块,用于将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型;目标标记模块,用于利用所述voxelai模型对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。
15.为实现上述目的及其他相关目的,本技术的第三方面提供一种电子终端,包括:存储器及处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如上所述方法。
16.为实现上述目的及其他相关目的,本技术的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
17.综上所述,本技术提供的一种基于卷积神经网络的体素标记方法、装置、终端及介质,具有以下有益效果:
18.1、本技术提供的基于卷积神经网络的voxelai模型可以通过对3d体素化数据进行数据展开以形成多层二维特征图,可以实现卷积神经网络对3d体素化数据进行学习;另外,通过展开的多层二维特征图可以识别场景物件信息,还可以对复杂场景进行定制化识别和标记;
19.2、本技术提供的voxelai模型可以实现对3d体素化数据的自动化标记,不仅解决了人工标记成本过高的问题,而且大幅度提高了标记效率;
20.3、本技术提供的voxelai模型稳定性较高,即使场景频繁变动,也可以随时自动化标记,解放人力,提升效率。
附图说明
21.图1显示为现有技术中关于某一包围盒的体素示意图。
22.图2a显示为获取的原始3d场景示意图。
23.图2b显示为基于现有技术体素化后的3d场景示意图。
24.图2c显示为通过人工标记后的3d场景示意图。
25.图3显示为现有体素标记方法的流程示意图。
26.图4显示为本技术于一实施例中的基于卷积神经网络的体素标记方法的流程示意图。
27.图5显示为本技术于一实施例中的voxelai模型的网络结构示意图。
28.图6显示为本技术于一实施例中的多层二维特征图;其中,图6a、6b、6c、6d、6e分别显示为当前体素与周边体素的二维平滑度特征图、二维行走高度特征图、二维跳跃高度特征图、二维层级差特征图、二维同层级特征图;图中心灰色方格表示当前体素。
29.图7显示为本技术于一实施例中的基于卷积神经网络的体素标记装置的模块示意图。
30.图8显示为本技术于一实施例中的电子终端的结构示意图。
具体实施方式
31.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
32.需要说明的是,在下述描述中,参考附图,附图描述了本技术的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本技术的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本技术的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本技术。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
33.在通篇说明书中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
34.再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“a、b或c”或者“a、b和/或c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a、b和c”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
35.为解决上述背景技术中的问题,本技术提出一种基于卷积神经网络的体素标记方法、装置、终端及介质,用于解决现有技术中卷积神经网络无法处理3d体素数据、通过人工标记体素化数据费时费力且成本高效率低的技术问题。与此同时,为了使本发明的目的、技
术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
36.如图4所示,展示为本技术于一实施例中的基于卷积神经网络的体素标记方法的流程示意图,所述方法包括以下步骤:
37.步骤s1:获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据。
38.于本技术一实施例中,所述获取历史场景体素化数据包括:
39.获取历史三维场景中所有物体的多边形网格数据并进行体素化处理,以得到历史场景体素化数据;
40.其中,所述历史场景体素化数据表征历史三维场景中所有体素的属性信息的集合;所述体素的属性信息包括对应体素的定位数据、层级数据、高度数据。
41.需说明的是,使用标记工具通过人工对所述历史场景体素化数据的关联特征信息进行精确标记以得到历史体素标记数据。其中,所述关联特征信息包括对应当前体素与周边体素的高度差、层级差等信息;所述历史体素标记数据是指基于所述关联特征信息对对应当前体素是否属于平滑区域、是否可以行走、是否可以跳跃、是否孤立等的判断结果。
42.步骤s2:将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型。
43.如图5所示,展示为本技术于一实施例中的voxelai模型的网络结构示意图。
44.于本技术一实施例中,所述voxelai模型包括:依次连接的输入层、展开层、卷积层、池化层、全连接层、输出层。
45.需说明的是,所述展开层对输入的所述历史场景体素化数据进行数据展开,通过提取所述历史场景体素化数据中当前体素和周边体素的特征差以得到多层二维特征图。其中,周边体素包括周边n*n个体素,而n的取值可根据场景中物件平均体素化尺寸或最大体素化尺寸决定。例如,场景中最大的一个模型物件,体素化后占据了10*10的范围大小,则最大体素化尺寸为10*10;而平均化体素化尺寸则是场景中物件体素化后的平均大小。
46.于本技术一实施例中,步骤s2的具体过程包括:
47.1)将所述历史场景体素化数据根据实际需求进行数据展开,以得到对应场景中所有体素的多层二维特征图;
48.其中,所述二维特征图用以表征当前体素与周边体素的关联特征信息;所述关联特征信息包括:高度信息、层级信息等;所述多层二维特征图包括多个不同维度的所述二维特征图。
49.需说明的是,基于“同一图像中相邻像素的强关联性和强相似度”这一原理,所述二维特征图用以表征当前体素与周边体素的关联特征信息。
50.如图6所示,展示为本技术于一实施例中的多层二维特征图;其中,图6a、6b、6c、6d、6e分别显示为当前体素与周边体素的二维平滑度特征图、二维行走高度特征图、二维跳跃高度特征图、二维层级差特征图、二维同层级特征图;图中心灰色方格表示当前体素。
51.具体的,将所述历史场景体素化数据根据实际需求进行数据展开,以得到对应场景中所有体素的多层二维特征图,具体包括以下任意一种或多种的组合:
52.当实际需求为判断场景中对应当前体素与周边体素是否平滑时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在预设平滑度范围内,以得到当前体素与周边体素的二维平滑度特征图;
53.例如,提取周边5
×
5个体素的高度信息,依次判断周边体素与当前体素的高度差是否在预设平滑度范围内(如0.02m),若在所述预设平滑度范围内则记为0,否则记为1,以形成如图6a所示的二维平滑度特征图,该图描述了当前体素与周边体素之间的平滑度特征。由此图可看出当前体素所在区域为较平滑的区域。
54.当实际需求为判断场景中对应当前体素与周边体素是否可行走时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在行走高度范围内,以得到当前体素与周边体素的二维行走高度特征图;
55.例如,提取周边5
×
5个体素的高度信息,依次判断周边体素与当前体素的高度差是否在可行走高度范围内,若在所述行走高度范围内则记为1,否则记为0,以形成如图6b所示的二维行走高度特征图,该图描述了当前体素与周边体素之间能否直接行走到达的特征。由此图可看出当前体素相较于图6a存在一些行走高度范围内的周边体素,而这些周边体素是指可以通过台阶到达的区域。
56.需说明的是,所述行走高度是指游戏内玩家可以直接操作移动单位距离内所能爬升的最大高度。
57.当实际需求为判断场景中对应当前体素与周边体素是否可跳跃时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在跳跃高度范围内,以得到当前体素与周边体素的二维跳跃高度特征图;
58.例如,提取周边5
×
5个体素的高度信息,依次判断周边体素与当前体素的高度差是否在可跳跃高度范围内,若在所述跳跃高度范围内则记为1,否则记为0,以形成如图6c所示的二维跳跃高度特征图,该图描述了当前体素与周边体素之间能否跳跃到达的特征。由此图可看出当前体素相较于图6b存在一些跳跃高度范围内的周边体素,而这些周边体素是指可以通过跳跃到达的区域。但是,还存在一些无法通过跳跃到达的区域,可推断对应区域内存在较为高大的物件,如大型建筑物等。
59.需说明的是,所述跳跃高度是指游戏内玩家平地起跳所能爬升的最大高度。
60.当实际需求为分析场景中对应当前体素的周边层级关系时,提取当前体素与周边体素的层级信息,并依次分析周边体素与当前体素的层级关系,以得到当前体素与周边体素的二维层级差特征图;
61.例如,提取周边5
×
5个体素的层级信息,依次分析周边体素与当前体素的层级关系,若层级差为正或者周边体素在当前体素的层级之上,则记为1;若两者层级相同,则记为0;若层级差为负或者周边体素在当前体素的层级之下,则记为-1,以形成如图6d所示的二维层级差特征图,该图描述了当前体素与周边体素之间的层级关系特征。
62.当实际需求为判断场景中对应当前体素是否孤立时,提取当前体素与周边体素的层级信息,并依次判断周边体素与当前体素的层级差是否在相同层级范围内,以得到当前体素与周边体素的二维同层级特征图;
63.例如,提取周边5
×
5个体素的层级信息,依次判断周边体素与当前体素的层级差是否在相同层级范围内,若属于相同层级范围内,则记为1,否则记为0;以形成如图6e所示
的二维同层级特征图,该图描述了当前体素与周边体素之间是否存在相同层级的特征。
64.其中,所述多层二维特征图包括所述二维平滑度特征图、二维行走高度特征图、二维跳跃高度特征图、二维同层级特征图、二维层级差特征图中任意一种或多种组合。
65.另外,所述多层二维特征图还包括二维高度差特征图、二维交叉特征图、二维体素块自身高度差特征图等。所述二维高度差特征图表征周边体素与当前体素的高度差特征;所述二维交叉特征图表征周边体素与当前体素交叉部分的占比和高度值特征;所述二维体素块自身高度差特征图表征周边体素相邻体素高度与当前体素高度的差值特征。
66.2)对所述多层二维特征图进行卷积、池化操作,并结合所述历史场景体素化数据作为卷积神经网络的全连接层的输入,并将所述历史体素标记数据作为输出进行监督学习,以训练基于卷积神经网络的voxelai模型。
67.具体的,使用m*m大小的卷积核(例如,可使用2*2大小的卷积核)对所述多层二维特征图进行卷积操作以提取特征,并对卷积结果进行最大池化操作以降低维度,输出得到处理后的特征图信息。
68.需说明的是,所述池化层为可有可无的设置,根据所述多层二维特征图的大小决定是否使用池化层,以及使用的池化层大小。由于所述池化层的作用为压缩特征图,降低计算复杂度并提取主要特征;所以当展开层输出的所述多层二维特征图已经将特征描述较为清晰时(比如,展开层为3*3大小的特征图),可选择不使用池化层以避免特征被过度压缩。
69.需说明的是,将所述历史场景体素化数据作为卷积神经网络的全连接层的输入,可以弥补所述展开层、卷积层、池化层对其处理后产生的信息丢失。所述全连接层包括多个输入神经元和两个输出神经元。
70.于本技术一实施例中,所述方法还包括:
71.当所述历史三维场景发生改变时,获取对应的变更三维场景的多边形网格数据并进行体素化处理,以得到变更场景体素化数据;
72.将所述变更场景体素化数据输入至所述voxelai模型以得到第一变更体素标记数据;
73.根据实际需求通过人工标记对所述第一变更体素标记数据进行修正,以得到第二变更体素标记数据;
74.将所述变更场景体素化数据作为输入以及将所述第二变更体素标记数据作为输出以优化训练基于卷积神经网络的voxelai模型。
75.需说明的是,将场景发生改变后的处理数据作为训练数据可以扩增样本的多样性,以使训练结果更加准确可靠。
76.步骤s3:利用所述voxelai模型对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。
77.具体的,通过获取目标三维场景的多边形网格数据并进行体素化处理,以得到目标场景体素化数据。所述目标场景体素化数据表征目标三维场景中所有体素属性信息的集合。
78.值得注意的是,本技术关于所述voxelai模型的训练,可以根据场景的属性不同而进行针对性训练,以生成不同属性场景的voxelai模型;比如封闭场景模型(如室内)和开放场景模型(如室外、野外等)。
79.综上所述,本技术提供的基于卷积神经网络的voxelai模型通过对3d体素化数据进行数据展开以形成多层二维特征图,可以实现卷积神经网络对3d体素化数据进行学习;另外,通过展开的多层二维特征图可以识别场景物件信息,还可以对复杂场景进行定制化识别和标记。所述voxelai模型可以实现对3d体素化数据的自动化标记,不仅解决了人工标记成本过高的问题,而且大幅度提高了标记效率。针对一般小场景标记耗时可做到秒级;针对超大型场景(如1024*1024)标记处理时间在分钟级内即可完成。
80.如图7所示,展示为本技术于一实施例中的基于卷积神经网络的体素标记装置的模块示意图。所述基于卷积神经网络的体素标记装置700包括:数据获取模块710、模型训练模块720、目标标记模块730。
81.数据获取模块710,用于获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据;
82.模型训练模块720,用于将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型;
83.目标标记模块730,用于利用所述voxelai模型对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。
84.应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,目标标记模块730可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上目标标记模块730的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
85.例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器(digital signal processor,简称dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
86.如图8所示,展示为本技术于一实施例中的电子终端800的结构示意图。所述电子终端800包括:存储器810和处理器820;所述存储器810用于存储计算机指令;所述处理器820运行计算机指令实现如图1所述的方法。
87.在一些实施例中,所述电子终端800中的所述存储器810和所述处理器820的数量均可以是一或多个,而图8中均以一个为例。
88.于本技术一实施例中,所述电子终端800中的处理器820会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器810并由处理器820来运行存储
在存储器810中的应用程序,从而实现如图1所述的方法。
89.所述存储器810可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器810存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
90.所述处理器820可以是通用处理器,包括中央处理器(central processingunit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specificintegrated circuit,简称asic)、现场可编程门阵列(field programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
91.在一些具体的应用中,所述电子终端800的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图8中将各种总线都成为总线系统。
92.于本技术一实施例中,本技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。
93.在任何可能的技术细节结合层面,本技术可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本技术的各个方面的计算机可读程序指令。
94.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
95.这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
96.用于执行本技术操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及过程式编程语言—诸如“c”语言或类似的编程语言。计
算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本技术的各个方面。
97.综上所述,本技术提供了一种基于卷积神经网络的体素标记方法、装置、终端及介质,包括:获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据;将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型;利用所述voxelai模型对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。
98.本技术提供的基于卷积神经网络的voxelai模型可以通过对3d体素化数据进行数据展开以形成多层二维特征图,可以实现卷积神经网络对3d体素化数据进行学习;另外,通过展开的多层二维特征图可以识别场景物件信息,还可以对复杂场景进行定制化识别和标记;本技术提供的voxelai模型可以实现对3d体素化数据的自动化标记,不仅解决了人工标记成本过高的问题,而且大幅度提高了标记效率;本技术提供的voxelai模型稳定性较高,即使场景频繁变动,也可以随时自动化标记,解放人力,提升效率。
99.本技术有效克服了现有技术中的种种缺点而具高度产业利用价值。
100.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
技术特征:
1.一种基于卷积神经网络的体素标记方法,其特征在于,所述方法包括:获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据;将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型;利用所述voxelai模型对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。2.根据权利要求1所述的一种基于卷积神经网络的体素标记方法,其特征在于,所述获取历史场景体素化数据包括:获取历史三维场景中所有物体的多边形网格数据并进行体素化处理,以得到历史场景体素化数据;其中,所述历史场景体素化数据表征历史三维场景中所有体素的属性信息的集合;所述体素的属性信息包括对应体素的定位数据、层级数据、高度数据。3.根据权利要求2所述的一种基于卷积神经网络的体素标记方法,其特征在于,将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型,具体过程包括:将所述历史场景体素化数据根据实际需求进行数据展开,以得到对应场景中所有体素的多层二维特征图;其中,所述二维特征图用以表征当前体素与周边体素的关联特征信息;所述多层二维特征图包括多个不同维度的所述二维特征图;对所述多层二维特征图进行卷积、池化操作,并结合所述历史场景体素化数据作为卷积神经网络的全连接层的输入,并将所述历史体素标记数据作为输出进行监督学习,以训练基于卷积神经网络的voxelai模型。4.根据权利要求3所述的一种基于卷积神经网络的体素标记方法,其特征在于,将所述历史场景体素化数据根据实际需求进行数据展开,以得到对应场景中所有体素的多层二维特征图,具体包括以下任意一种或多种的组合:当实际需求为判断场景中对应当前体素与周边体素是否平滑时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在预设平滑度范围内,以得到当前体素与周边体素的二维平滑度特征图;当实际需求为判断场景中对应当前体素与周边体素是否可行走时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在行走高度范围内,以得到当前体素与周边体素的二维行走高度特征图;当实际需求为判断场景中对应当前体素与周边体素是否可跳跃时,提取当前体素与周边体素的高度信息,并依次判断周边体素与当前体素的高度差是否在跳跃高度范围内,以得到当前体素与周边体素的二维跳跃高度特征图;当实际需求为分析场景中对应当前体素的周边层级关系时,提取当前体素与周边体素的层级信息,并依次分析周边体素与当前体素的层级关系,以得到当前体素与周边体素的二维层级差特征图;当实际需求为判断场景中对应当前体素是否孤立时,提取当前体素与周边体素的层级信息,并依次判断周边体素与当前体素的层级差是否在相同层级范围内,以得到当前体素与周边体素的二维同层级特征图;
其中,所述多层二维特征图包括所述二维平滑度特征图、二维行走高度特征图、二维跳跃高度特征图、二维同层级特征图、二维层级差特征图中任意一种或多种组合。5.根据权利要求3所述的一种基于卷积神经网络的体素标记方法,其特征在于,所述voxelai模型包括:依次连接的输入层、展开层、卷积层、池化层、全连接层、输出层。6.根据权利要求3所述的一种基于卷积神经网络的体素标记方法,其特征在于,所述方法还包括:当所述历史三维场景发生改变时,获取对应的变更三维场景的多边形网格数据并进行体素化处理,以得到变更场景体素化数据;将所述变更场景体素化数据输入至所述voxelai模型以得到第一变更体素标记数据;根据实际需求通过人工标记对所述第一变更体素标记数据进行修正,以得到第二变更体素标记数据;将所述变更场景体素化数据作为输入以及将所述第二变更体素标记数据作为输出以优化训练基于卷积神经网络的voxelai模型。7.一种基于卷积神经网络的体素标记装置,其特征在于,包括:数据获取模块,用于获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据;模型训练模块,用于将所述历史场景体素化数据作为输入以及将所述历史体素标记数据作为输出以训练基于卷积神经网络的voxelai模型;目标标记模块,用于利用所述voxelai模型对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。8.一种电子终端,其特征在于,所述终端包括:存储器及处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如权利要求1至6中任意一项所述方法。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法。
技术总结
本发明提供一种基于卷积神经网络的体素标记方法、装置、终端及介质,包括:获取历史场景体素化数据,并对其进行人工标记以得到历史体素标记数据;将历史场景体素化数据作为输入以及将历史体素标记数据作为输出以训练基于卷积神经网络的VoxelAI模型;利用其对目标场景体素化数据进行自动化标记,以得到目标体素标记数据。本申请提供的VoxelAI模型通过对3D体素化数据进行数据展开以形成多层二维特征图,可以实现卷积神经网络对3D体素化数据进行学习,进而实现对3D体素化数据的自动化标记,不仅解决了人工标记成本过高的问题,而且提高了标记效率。了标记效率。了标记效率。
技术研发人员:迟庆鹏
受保护的技术使用者:上海灵刃网络科技有限公司
技术研发日:2023.04.25
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/