模型生成方法、模型生成装置、电子设备、存储介质与流程

未命名 10-21 阅读：59 评论：0

1.本公开涉及人工智能技术领域，尤其涉及一种模型生成方法、模型生成装置、电子设备及计算机可读存储介质。

背景技术：

2.三维人体建模是计算机视觉和图形学的研究核心问题之一，并且基于单视角的三维人体重建技术已经得到了一些应用。例如，服务机器人与人交互时，需要从自身的角度估计交互对象的三维人体模型；增强现实应用需要从自身角度估计目标人体的三维模型。由于单视图图像仅能够观察到正面人体表面，因此重建三维模型需要人体几何学的先验知识。常用的方法是使用rgb-d(彩色点云)相机，从单一视角拍摄彩色图像和深度图像，然后将基于统计的参数人体模型拟合到rgb-d图片中。但是在物体遮挡的情况下，人体可见面积小使得模型拟合不足，而且被遮挡物体的图像信息也会造成混淆，使得上述方法无法可靠地实现单视图三维人体重建。因此，上述方法的应用存在局限性。
3.现有三维重建技术中，解决遮挡问题的技术有基于参数化模型和非参数化模型两类。基于参数化的方法是将参数化人体模型的表面顶点存储在材质图中，同时训练一个编码解码网络，用于修复因遮挡产生的缺陷材质图。而非参数化方法需要预先得到场景中人体的三维形状模板，之后再结合场景流、分割图以及光照信息同时重建出多人的三维形状。该方法只适合场景中没有出现相互遮挡或者遮挡较小的情况，当图像中的人与人的遮挡非常严重时，该方法的三维形状重建效果不太理想。
4.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

5.本公开提供了一种模型生成方法、模型生成装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服现有技术中多人场景下，三维人体模型生成效果不佳的问题。
6.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
7.根据本公开的一个方面，提供一种模型生成方法，包括：获取多帧待处理图像，每一帧待处理图像中均包括多个人体；对所述每一帧待处理图像中的多个人体的位置关系进行估计，得到所述每一帧待处理图像的多人位置关系信息；确定所述每一帧待处理图像中的人体网格点的位置，并基于所述多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定所述每一帧待处理图像的人体形态信息；提取所述每一帧待处理图像的人体隐式特征；基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成所述人体的三维人体模型。
8.在本公开的一种示例性实施例中，所述对所述每一帧待处理图像中的多个人体的
位置关系进行估计，得到所述每一帧待处理图像的多人位置关系信息，包括：利用预先训练的残差网络对所述每一帧待处理图像提取图像特征；利用预先训练的多层感知机对所述每一帧待处理图像的图像特征进行人体的位置关系拟合，得到所述每一帧待处理图像的多人位置关系信息。
9.在本公开的一种示例性实施例中，所述确定所述每一帧待处理图像中的人体网格点的位置，并基于所述多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定所述每一帧待处理图像的人体形态信息，包括：从所述每一帧待处理图像中提取人体网格点和人体网格点的特征，根据所述人体网格点和所述人体网格点的特征生成所述人体网格图谱；利用预先训练的第一图神经网络对所述人体网格图谱进行处理，得到所述人体网格点的位置；将所述多帧待处理图像中的人体网格点的位置形成人体网格序列；利用预先训练的循环神经网络对所述人体网格序列进行处理，得到所述每一帧待处理图像的人体形态信息。
10.在本公开的一种示例性实施例中，所述提取所述每一帧待处理图像的人体隐式特征，包括：对所述每一帧待处理图像进行人体目标检测，根据检测结果从所述每一帧待处理图像中提取人体局部图像；对所述每一帧待处理图像对应的人体局部图像提取隐式特征，得到所述每一帧待处理图像的人体隐式特征。
11.在本公开的一种示例性实施例中，所述对所述每一帧待处理图像对应的人体局部图像提取隐式特征，包括：提取所述人体局部图像的图像特征、纹理特征、边缘特征；融合所述人体局部图像的图像特征、纹理特征、边缘特征，得到所述人体局部图像的外观特征；对所述人体局部图像的外观特征进行全连接处理和激活处理，得到所述人体局部图像的隐式特征。
12.在本公开的一种示例性实施例中，所述基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成所述人体的三维人体模型，包括：基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成位置关系图谱；利用预先训练的第二图神经网络对所述位置关系图谱进行处理，得到所述每一帧待处理图像的人体姿态信息；根据所述每一帧待处理图像的人体隐式特征对所述每一帧待处理图像的人体姿态信息进行优化，根据优化结果生成所述人体的三维人体模型。
13.在本公开的一种示例性实施例中，所述基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成位置关系图谱，包括：基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息，生成人体节点、人体位置节点；根据所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，确定所述人体节点的特征、所述人体位置节点的特征、所述人体节点与所述人体节点之间的边特征，并对所述人体节点与所述位置节点之间的边特征进行初始化，生成所述位置关系图谱。
14.根据本公开的一个方面，提供一种模型生成装置，包括：待处理图像获取模块，用于获取多帧待处理图像，每一帧待处理图像中均包括多个人体；位置关系估计模块，用于对所述每一帧待处理图像中的多个人体的位置关系进行估计，得到所述每一帧待处理图像的
多人位置关系信息；形态信息确定模块，用于确定所述每一帧待处理图像中的人体网格点的位置，并基于所述多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定所述每一帧待处理图像的人体形态信息；隐式特征提取模块，用于提取所述每一帧待处理图像的人体隐式特征；人体模型生成模块，用于基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成所述人体的三维人体模型。
15.根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
16.根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。
17.本公开的示例性实施例具有以下有益效果：
18.获取多帧待处理图像，每一帧待处理图像中均包括多个人体；对每一帧待处理图像中的多个人体的位置关系进行估计，得到每一帧待处理图像的多人位置关系信息；确定每一帧待处理图像中的人体网格点的位置，并基于多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定每一帧待处理图像的人体形态信息；提取每一帧待处理图像的人体隐式特征；基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成人体的三维人体模型。一方面，本示例性实施例提出一种新的模型生成方法，相比于现有技术采用单一图像的人体姿态信息构建模型的方式，本示例性实施例考虑到复杂场景下人体之间的位置关系以及隐式特征信息，通过图像中多个人体的位置关系信息、人体形态信息和人体隐式特征多个维度的信息，生成人体的三维人体模型，使得生成的三维人体模型准确性和精度更高；另一方面，本示例性实施例能在多人场景中，利用多帧待处理图像，生成准确、有效的三维人体模型，克服了现有技术针对多人场景下三维人体模型构建效果不理想的问题。
19.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1示意性示出本示例性实施例中一种模型生成方法的流程图；
22.图2示意性示出本示例性实施例中一种模型生成方法的子流程图；
23.图3示意性示出本示例性实施例中隐式特征提取的流程图；
24.图4示意性示出本示例性实施例中另一种模型生成方法的流程图；
25.图5示意性示出本示例性实施例中一种模型生成装置的结构框图；
26.图6示意性示出本示例性实施例中一种用于实现上述方法的电子设备。
具体实施方式
27.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
28.本公开的示例性实施例首先提供了一种模型生成方法，下面结合附图1对本示例性实施例做进一步说明，如图1所示，模型生成方法可以包括以下步骤s110～s150：
29.步骤s110，获取多帧待处理图像，每一帧待处理图像中均包括多个人体。
30.其中，待处理图像是指本示例性实施例中需要进行处理的图像，待处理图像中可以包括多个人体，即待处理图像中包括多个人物对象，例如待处理图像可以是多人合影的图像，或者其他采集到多个人的人体的图像等。多个人体可以是具有关联的，例如互相认识的多个人的合影图像；也可以是没有关联的，例如随机在人群中采集的多人图像等。
31.在本示例性实施例中，待处理图像可以是连续或不连续的多帧待处理图像，具体可以通过多种方式获取，例如可以通过摄像头采集一段视频流，将其中的每一帧图像都作为待处理图像，或者将其中的部分帧作为待处理图像等，也可以是从相册中提取不同时刻拍摄的关于多个人体的图像作为待处理图像等，本公开对此不做具体限定。
32.在一示例性实施例中，上述步骤s110可以包括：
33.获取包括多个人体的视频流；
34.对视频流进行抽帧处理，以确定多帧待处理图像。
35.本示例性实施例可以先获取包括多个人体的视频流，例如通过摄像头实时拍摄一段视频，或者从网络下载一段视频等。然后，通过对视频流进行抽帧处理，可以确定出多帧待处理图像，其中，抽帧可以是按照预设时间间隔进行抽帧，例如每隔2s(秒)抽取一帧作为待处理图像；也可以是按照时间顺序，随机抽取预设数量的图像帧，作为待处理图像等，本公开对此不做具体限定。
36.步骤s120，对每一帧待处理图像中的多个人体的位置关系进行估计，得到每一帧待处理图像的多人位置关系信息。
37.复杂场景中的多个人体与其相对位置关系之间往往存在联系，为了利用这一特性提高初始估计的精度，本示例性实施例可以对每一帧待处理图像中多个人体的位置关系进行估计，确定多人位置关系信息。其中，多个位置关系信息可以包括不同人体之间的左右/前后位置关系、坐标关系、遮挡关系等等。
38.具体的，本示例性实施例可以通过预先训练的位置关系图神经网络待处理图像进行处理，对人体姿态与位置布局进行联合细化。
39.在一示例性实施例中，上述步骤s120，可以包括：
40.利用预先训练的残差网络对每一帧待处理图像提取图像特征；
41.利用预先训练的多层感知机对每一帧待处理图像的图像特征进行人体的位置关系拟合，得到每一帧待处理图像的多人位置关系信息。
42.对于多人位置关系的估计，本示例性实施例首先采用可以采用预先训练的残差网络(resnet)提取输入的待处理图像的图像特征，该图像特征是指从图像中提取的用于表征多种图像信息的数据，例如其可以包括图像结构、纹理、颜色、布局等多方面信息，本示例性
实施例可以以向量或矩阵形式的图像特征对图像进行表示。然后，采用多层感知机(mlp)对每一帧待处理图像的图像特征进行处理，以对三维人物的位置布局关系参数进行拟合。本示例性实施例通过上述过程，可以从初始估计提供的图像特征中学习图像上下文关系，对人体姿态与位置布局进行联合细化。
43.步骤s130，确定每一帧待处理图像中的人体网格点的位置，并基于多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定每一帧待处理图像的人体形态信息。
44.其中，人体网格点的位置可以通过人体在网格点的坐标，或者人体所在网格点的序号、标号或坐标等数据进行表征。通过确定每一帧待处理图像中的人体网格点的位置，可以先确定由人体网格点位置形成的人体网格序列，进一步基于人体网格序列，确定每一帧待处理图像的人体形态信息。其中，人体形态信息是指能够表征人物形态的指标数据，其可以包括能够表现如人物的高矮胖瘦、穿衣轮廓等与人物形状相关的形状参数，也可以包括能够表现如人物位置、姿态等与人物状态相关的位姿参数等。人物形态信息可以用于构建各个人体的三维人体模型。
45.本示例性实施例可以通过每一帧待处理图像中的人体网格点的位置，反映人体在当前帧图像时刻的形态状态，进而通过多帧待处理图像中人体网格点的位置形成的人体网格序列，表征人体在多帧待处理图像对应时间序列上人体的运动变化状态。
46.在一示例性实施例中，如图2所示，上述步骤s130可以包括以下步骤：
47.步骤s210，从每一帧待处理图像中提取人体网格点和人体网格点的特征，根据人体网格点和人体网格点的特征生成人体网格图谱；
48.步骤s220，利用预先训练的第一图神经网络对人体网格图谱进行处理，得到人体网格点的位置；
49.步骤s230，将多帧待处理图像中的人体网格点的位置形成人体网格序列；
50.步骤s240，利用预先训练的循环神经网络对人体网格序列进行处理，得到每一帧待处理图像的人体形态信息。
51.为了实现基于视频序列的三维人体重建，本示例性实施例提出利用结合图卷积网络和循环神经网络，如gru(gated recurrent unit，循环门控单元)来回归人体网格坐标。进而确定每一帧待处理图像的人体形态信息。
52.具体的，本示例性实施例可以对待处理图像或者待处理图像的人体区域进行网格化处理，以确定用于表征人体的人体网格区域，通过提取人体网格点和人体网格点的特征，来生成人体网格图谱。其中，人体网格点可以是人体网格的顶点，提取人体网格点可以是确定人体网格点的过程，例如确定人体网格顶点的序号或其他标识信息等，并确定人体网格顶点的特征信息，例如网格点所在的位置、自身特点，或与人体、背景区域的关系等特征信息，并对其进行编码处理。然后，根据人体网格点和人体网格点的特征可以生成人体网格图谱，该人体网格图谱是指用于表示人体网格点和人体网格点特征的图数据。进一步的，利用预先训练的第一图神经网络对人体网格图谱进行处理，得到人体网格点的位置，如每个人体网格顶点的三维坐标，即先通过第一图神经网络利用网格拓扑捕获三维人体的完整信息。将多帧待处理图像中的人体网格点的位置进行整理，以根据时间序列顺序，形成人体网格序列；最后，将人体网格序列作为预先训练的循环神经网络模型的输入，确定每一帧待处理图像的人体形态信息。
53.为了加快神经网络的训练速度，本示例性实施例可以在图卷积层中加入了残差连接和组归一化。利用gru网络处理时间序列数据，以捕获人类运动的顺序性质。
54.步骤s140，提取每一帧待处理图像的人体隐式特征。
55.其中，人体隐式特征是指除人物形态特征之外的其他特征信息，例如人体所在区域的纹理信息，图像中人体与背景区域接触的边缘区域特征信息，或者其他特征信息等。人体隐式特征可以用于对人体特征进行补充，以对整个人物特征进行完善。
56.本示例性实施例可以通过神经网络模型对待处理图像进行处理，以提取人物隐式特征，也可以通过特定编码网络对人物隐含数据进行编码，以提取人物隐含特征信息等。
57.在一示例性实施例中，上述步骤s130，可以包括：
58.对每一帧待处理图像进行人体目标检测，根据检测结果从每一帧待处理图像中提取人体局部图像；
59.对每一帧待处理图像对应的人体局部图像提取隐式特征，得到每一帧待处理图像的人体隐式特征。
60.本示例性实施例可以先采用目标检测网络，对每一帧待处理图像进行人体目标检测，得到检测结果，该检测结果可以包括每一帧待处理图像是否包括人、包括几个人、每个人所在的位置(如可以通过检测框表示)等等，进而基于检测结果，可以从每一帧待处理图像中提取人体局部图像，例如可以依据检测框对待处理图像中的多个人进行裁剪，以提取各个人体局部图像。
61.进一步的，可以通过预先配置的局部隐式嵌入网络从待处理图像中提取隐式特征，得到每一帧待处理图像的人体隐式特征，其中，该隐式特征可以是待处理图像中隐含的局部形状信息或其他隐含关系特征等。
62.为了从图像帧生成局部深度隐式函数所需的隐式特征，实现更具挑战性的三维物体重建任务，本示例性实施例提出局部隐式嵌入网络。为了给后续阶段提供人体的二维图像信息和三维特征，本示例性实施例基于局部深度隐式函数的方法进行人体重建的任务，结合了结构化表示和隐式表示来提供较高的三维表示精度。局部隐式嵌入网络可以使用vgg(网络模型)作为图像编码器，以及一个五层mlp来编码隐式表示向量，即隐式特征，配合局部深度隐式函数解码即可确定人体模型。为了有效地学习隐式表示，人体的纹理和边缘特征编码会以嵌入编码的形式与vgg的图像特征进行串联，将人体形状的先验信息引入到网络中，以提升重建的精度。
63.在一示例性实施例中，上述对每一帧待处理图像对应的人体局部图像提取隐式特征，可以包括：
64.提取人体局部图像的图像特征、纹理特征、边缘特征；
65.融合人体局部图像的图像特征、纹理特征、边缘特征，得到人体局部图像的外观特征；
66.对人体局部图像的外观特征进行全连接处理和激活处理，得到人体局部图像的隐式特征。
67.其中，图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征等等，纹理特征可以是人体区域的纹理数据，边缘特征可以是指人体轮廓特征或者人体与背景区域接壤区域的特征，如颜色变化、亮度变化或者位置变化特征等等。本示例性实施例可
以通过预先训练的网络模型对人体局部图像进行图像特征、纹理特征和边缘特征的提取，进而将其进行融合，得到人体局部图像的外观特征，融合可以通过将图像特征、纹理特征和边缘特征的向量进行拼接处理得到，也可以将图像特征、纹理特征和边缘特征的向量进行组合，生成融合矩阵等。最后，对人体局部图像的外观特征进行全连接处理和激活处理，即可以得到人体局部图像的隐式特征。
68.图3示出本示例性实施例中一种隐式特征提取的流程示意图，具体可以包括：获取多帧待处理图像310，对处理图像进行人体目标检测，根据检测结果从每一帧待处理图像中提取人体局部图像；针对每一帧待处理图像对应的人体局部图像，可以通过vgg图像编码器320提取人体局部图像的图像特征330，并提取人体局部图像的纹理特征和边缘特征340；进一步的，对人体局部图像的图像特征、纹理特征、边缘特征进行特征融合处理350，得到人体局部图像的外观特征360；最后，对人体局部图像的外观特征进行全连接处理和激活处理370，得到人体局部图像的隐式特征380。
69.步骤s150，基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成人体的三维人体模型。
70.在确定多人位置关系信息、每一帧待处理图像的人体形态信息，以及每一帧待处理图像的人体隐式特征后，即可以生成人体的三维人体模型，具体的可以将多人位置关系信息、每一帧待处理图像的人体形态信息，以及每一帧待处理图像的人体隐式特征共同作为输入数据，进行处理，生成三维人体模型，也可以先根据每一帧待处理图像的人体形态信息生成初步的三维人体模型，再通过人体隐式特征对其进行补充和优化，生成最终的三维人体模型。
71.在一示例性实施例中，上述步骤s150可以包括：
72.基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成位置关系图谱；
73.利用预先训练的第二图神经网络对位置关系图谱进行处理，得到每一帧待处理图像的人体姿态信息；
74.根据每一帧待处理图像的人体隐式特征对每一帧待处理图像的人体姿态信息进行优化，根据优化结果生成人体的三维人体模型。
75.本示例性实施例可以根据多人位置关系信息、待处理图像的人体形态信息以及人体隐式特征，生成位置关系图谱，并通过第二图神经网络对该位置关系图谱进行处理，得到每一帧待处理图像的人体姿态信息，即本示例性实施例可以通过第二图神经网络对位置关系图谱的处理，对初步确定的每一帧待处理图像的人体形态信息进行细化和优化，以得到优化后的人体姿态信息，例如人体的位姿。最后，再基于每一帧的人体隐式特征，对处理后的每一帧图像的人体姿态信息进行优化，根据优化结果，生成人体的三维人体模型。
76.在一示例性实施例中，上述基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成位置关系图谱，包括：
77.基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息，生成人体节点、人体位置节点；
78.根据每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信
息、每一帧待处理图像的人体隐式特征，确定人体节点的特征、人体位置节点的特征、人体节点与人体节点之间的边特征，并对人体节点与位置节点之间的边特征进行初始化，生成位置关系图谱。
79.在本示例性实施例中，整个输入的待处理图像可以被建模为一个关系图谱，根据每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息，可以生成图谱中的人体节点、人体位置节点。具体来说，关系图谱可以从一个由物体和布局节点构成的完全图开始构建，各节点之间都有不定向的边，使得信息可以在人体和人体位置的布局之间流动。在本示例性实施例中，第二图神经网络可以将不同的特征经过扁平化处理后串联成一个向量，再编码为一定长度的表示向量嵌入到节点中。对于人体位置节点，其特征可以包括图像编码器的特征、相机姿态参数、三维人物的位置编码特征。对于人体节点，其特征可以包括来自图像-关系特征、人体三维姿态参数、深度隐式特征；对于连接人体与人体的关系节点，其特征包括从每对人体对象检测框提取的几何特征、二维检测框的归一化参数；对于连接人体与人体位置的关系节点，初始化为常数，在第二图神经网络消息更新的过程中变化。本示例性实施例可以根据每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，确定人体节点的特征、人体位置节点的特征、人体节点与人体节点之间的边特征，并对人体节点与位置节点之间的边特征进行初始化，生成位置关系图谱。
80.图4示出本示例性实施例中另一种模型生成方法的流程图，具体可以包括以下步骤：
81.步骤s402，获取多帧待处理图像；每一帧待处理图像中均包括多个人体；
82.步骤s404，利用预先训练的残差网络对每一帧待处理图像提取图像特征；
83.步骤s406，利用预先训练的多层感知机对每一帧待处理图像的图像特征进行人体的位置关系拟合，得到每一帧待处理图像的多人位置关系信息；
84.步骤s408，从每一帧待处理图像中提取人体网格点和人体网格点的特征，根据人体网格点和人体网格点的特征生成人体网格图谱；
85.步骤s410，利用预先训练的第一图神经网络对人体网格图谱进行处理，得到人体网格点的位置；
86.步骤s412，将多帧待处理图像中的人体网格点的位置形成人体网格序列；
87.步骤s414，利用预先训练的循环神经网络对人体网格序列进行处理，得到每一帧待处理图像的人体形态信息；
88.步骤s416，对每一帧待处理图像进行人体目标检测，根据检测结果从每一帧待处理图像中提取人体局部图像；
89.步骤s418，对每一帧待处理图像对应的人体局部图像提取隐式特征，得到每一帧待处理图像的人体隐式特征；
90.步骤s420，基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成位置关系图谱；
91.步骤s422，利用预先训练的第二图神经网络对位置关系图谱进行处理，得到每一帧待处理图像的人体姿态信息；
92.步骤s424，根据每一帧待处理图像的人体隐式特征对每一帧待处理图像的人体姿
态信息进行优化，根据优化结果生成人体的三维人体模型。
93.基于上述说明，在本示例性实施例中，获取多帧待处理图像，每一帧待处理图像中均包括多个人体；对每一帧待处理图像中的多个人体的位置关系进行估计，得到每一帧待处理图像的多人位置关系信息；确定每一帧待处理图像中的人体网格点的位置，并基于多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定每一帧待处理图像的人体形态信息；提取每一帧待处理图像的人体隐式特征；基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成人体的三维人体模型。一方面，本示例性实施例提出一种新的模型生成方法，相比于现有技术采用单一图像的人体姿态信息构建模型的方式，本示例性实施例考虑到复杂场景下人体之间的位置关系以及隐式特征信息，通过图像中多个人体的位置关系信息、人体形态信息和人体隐式特征多个维度的信息，生成人体的三维人体模型，使得生成的三维人体模型准确性和精度更高；另一方面，本示例性实施例能在多人场景中，利用多帧待处理图像，生成准确、有效的三维人体模型，克服了现有技术针对多人场景下三维人体模型构建效果不理想的问题。
94.本公开的示例性实施例还提供了一种模型生成装置。参照图5，该装置500可以包括，待处理图像获取模块510，用于获取多帧待处理图像，每一帧待处理图像中均包括多个人体；位置关系估计模块520，用于对每一帧待处理图像中的多个人体的位置关系进行估计，得到每一帧待处理图像的多人位置关系信息；形态信息确定模块530，用于确定每一帧待处理图像中的人体网格点的位置，并基于多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定每一帧待处理图像的人体形态信息；隐式特征提取模块540，用于提取每一帧待处理图像的人体隐式特征；人体模型生成模块550，用于基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成人体的三维人体模型。
95.在一示例性实施例中，位置关系估计模块包括：图像特征提取单元，用于利用预先训练的残差网络对每一帧待处理图像提取图像特征；位置关系拟合单元，用于利用预先训练的多层感知机对每一帧待处理图像的图像特征进行人体的位置关系拟合，得到每一帧待处理图像的多人位置关系信息。
96.在一示例性实施例中，形态信息确定模块包括：网格图谱生成单元，用于从每一帧待处理图像中提取人体网格点和人体网格点的特征，根据人体网格点和人体网格点的特征生成人体网格图谱；位置确定单元，用于利用预先训练的第一图神经网络对人体网格图谱进行处理，得到人体网格点的位置；序列形成单元，用于将多帧待处理图像中的人体网格点的位置形成人体网格序列；形态信息确定单元，用于利用预先训练的循环神经网络对人体网格序列进行处理，得到每一帧待处理图像的人体形态信息。
97.在一示例性实施例中，隐式特征提取模块，包括：局部图像提取单元，用于对每一帧待处理图像进行人体目标检测，根据检测结果从每一帧待处理图像中提取人体局部图像；隐式特征获得单元，用于对每一帧待处理图像对应的人体局部图像提取隐式特征，得到每一帧待处理图像的人体隐式特征。
98.在一示例性实施例中，隐式特征获得单元，包括：特征提取子单元，用于提取人体局部图像的图像特征、纹理特征、边缘特征；特征融合子单元，用于融合人体局部图像的图
像特征、纹理特征、边缘特征，得到人体局部图像的外观特征；特征处理子单元，用于对人体局部图像的外观特征进行全连接处理和激活处理，得到人体局部图像的隐式特征。
99.在一示例性实施例中，人体模型生成模块，包括：位置关系图谱生成单元，用于基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成位置关系图谱；人体姿态获得单元，用于利用预先训练的第二图神经网络对位置关系图谱进行处理，得到每一帧待处理图像的人体姿态信息；模型生成单元，用于根据每一帧待处理图像的人体隐式特征对每一帧待处理图像的人体姿态信息进行优化，根据优化结果生成人体的三维人体模型。
100.在一示例性实施例中，位置关系图谱生成单元，包括：节点确定子单元，用于基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息，生成人体节点、人体位置节点；图谱生成子单元，用于根据每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，确定人体节点的特征、人体位置节点的特征、人体节点与人体节点之间的边特征，并对人体节点与位置节点之间的边特征进行初始化，生成位置关系图谱。
101.上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明，未披露的细节内容可以参见方法部分的实施例内容，因此此处不再赘述。
102.本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。
103.所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
104.下面参照图6来描述根据本公开的这种示例性实施例的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
105.如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。
106.其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元610可以执行图1、图2、图3或图4所示的步骤等。
107.存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(rom)623。
108.存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
109.总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
110.电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得
该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
111.通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。
112.本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
113.本公开的示例性实施例还提供了一种用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
114.程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
115.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
116.可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
117.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备
上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
118.此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
119.应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
120.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。
121.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

技术特征：
1.一种模型生成方法，其特征在于，包括：获取多帧待处理图像，每一帧待处理图像中均包括多个人体；对所述每一帧待处理图像中的多个人体的位置关系进行估计，得到所述每一帧待处理图像的多人位置关系信息；确定所述每一帧待处理图像中的人体网格点的位置，并基于所述多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定所述每一帧待处理图像的人体形态信息；提取所述每一帧待处理图像的人体隐式特征；基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成所述人体的三维人体模型。2.根据权利要求1所述的方法，其特征在于，所述对所述每一帧待处理图像中的多个人体的位置关系进行估计，得到所述每一帧待处理图像的多人位置关系信息，包括：利用预先训练的残差网络对所述每一帧待处理图像提取图像特征；利用预先训练的多层感知机对所述每一帧待处理图像的图像特征进行人体的位置关系拟合，得到所述每一帧待处理图像的多人位置关系信息。3.根据权利要求1所述的方法，其特征在于，所述确定所述每一帧待处理图像中的人体网格点的位置，并基于所述多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定所述每一帧待处理图像的人体形态信息，包括：从所述每一帧待处理图像中提取人体网格点和人体网格点的特征，根据所述人体网格点和所述人体网格点的特征生成所述人体网格图谱；利用预先训练的第一图神经网络对所述人体网格图谱进行处理，得到所述人体网格点的位置；将所述多帧待处理图像中的人体网格点的位置形成人体网格序列；利用预先训练的循环神经网络对所述人体网格序列进行处理，得到所述每一帧待处理图像的人体形态信息。4.根据权利要求1所述的方法，其特征在于，所述提取所述每一帧待处理图像的人体隐式特征，包括：对所述每一帧待处理图像进行人体目标检测，根据检测结果从所述每一帧待处理图像中提取人体局部图像；对所述每一帧待处理图像对应的人体局部图像提取隐式特征，得到所述每一帧待处理图像的人体隐式特征。5.根据权利要求4所述的方法，其特征在于，所述对所述每一帧待处理图像对应的人体局部图像提取隐式特征，包括：提取所述人体局部图像的图像特征、纹理特征、边缘特征；融合所述人体局部图像的图像特征、纹理特征、边缘特征，得到所述人体局部图像的外观特征；对所述人体局部图像的外观特征进行全连接处理和激活处理，得到所述人体局部图像的隐式特征。6.根据权利要求1所述的方法，其特征在于，所述基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式
特征，生成所述人体的三维人体模型，包括：基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成位置关系图谱；利用预先训练的第二图神经网络对所述位置关系图谱进行处理，得到所述每一帧待处理图像的人体姿态信息；根据所述每一帧待处理图像的人体隐式特征对所述每一帧待处理图像的人体姿态信息进行优化，根据优化结果生成所述人体的三维人体模型。7.根据权利要求6所述的方法，其特征在于，所述基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成位置关系图谱，包括：基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息，生成人体节点、人体位置节点；根据所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，确定所述人体节点的特征、所述人体位置节点的特征、所述人体节点与所述人体节点之间的边特征，并对所述人体节点与所述位置节点之间的边特征进行初始化，生成所述位置关系图谱。8.一种模型生成装置，其特征在于，包括：待处理图像获取模块，用于获取多帧待处理图像，每一帧待处理图像中均包括多个人体；位置关系估计模块，用于对所述每一帧待处理图像中的多个人体的位置关系进行估计，得到所述每一帧待处理图像的多人位置关系信息；形态信息确定模块，用于确定所述每一帧待处理图像中的人体网格点的位置，并基于所述多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定所述每一帧待处理图像的人体形态信息；隐式特征提取模块，用于提取所述每一帧待处理图像的人体隐式特征；人体模型生成模块，用于基于所述每一帧待处理图像的多人位置关系信息、所述每一帧待处理图像的人体形态信息、所述每一帧待处理图像的人体隐式特征，生成所述人体的三维人体模型。9.一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

技术总结
本公开提供了一种模型生成方法、模型生成装置、电子设备及计算机可读存储介质，属于人工智能技术领域。该方法包括：获取多帧待处理图像，每一帧待处理图像中均包括多个人体；对每一帧待处理图像中的多个人体的位置关系进行估计，得到每一帧待处理图像的多人位置关系信息；确定每一帧待处理图像中的人体网格点的位置，并基于多帧待处理图像中的人体网格点的位置形成的人体网格序列，确定每一帧待处理图像的人体形态信息；提取每一帧待处理图像的人体隐式特征；基于每一帧待处理图像的多人位置关系信息、每一帧待处理图像的人体形态信息、每一帧待处理图像的人体隐式特征，生成人体的三维人体模型。本公开可以有效、准确的构建人体模型。体模型。体模型。

技术研发人员：张超颖苏明兰刘巧俏
受保护的技术使用者：中国电信股份有限公司
技术研发日：2023.07.07
技术公布日：2023/10/19

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

模型生成方法、模型生成装置、电子设备、存储介质与流程

版权声明

评论

航空之家

相关推荐

文章排行

最近发表

标签列表

模型生成方法、模型生成装置、电子设备、存储介质与流程

版权声明

相关文章

评论

航空之家

相关推荐

文章排行

最近发表

标签列表