一种关键点的识别方法、装置、电子设备及存储介质与流程

未命名 09-24 阅读:55 评论:0


1.本公开实施例涉及图像识别技术领域,尤其涉及一种关键点的识别方法、装置、电子设备及存储介质。


背景技术:

2.人脸关键点可以表征人脸中的特定位置,例如可以包括眼瞳点、鼻子点和轮廓点等。在识别视频中的人脸关键点时,存在相邻两帧人脸的位置变化很小,但关键点预测结果不同的情况,该情况可表现为关键点的抖动。关键点的抖动会影响后续的人脸相关任务,因此亟待解决。
3.现有技术中,在识别视频中的人脸关键点时,通常在预测得到当前帧的人脸关键点后,将该人脸关键点与时序靠前的相邻帧的人脸关键点进行加权平滑,得到最终的当前帧的人脸关键点,以减缓抖动。
4.现有技术的不足之处至少包括:加权平滑的系数需要人工调整,不具备灵活性;通过平滑的方式只能轻微缓解抖动,抖动问题仍然存在;当相邻帧的人脸的位置变化较大时,会存在预测得到的关键点与实际特定位置偏移较大的问题,导致关键点预测不准确。


技术实现要素:

5.本公开实施例提供了一种关键点的识别方法、装置、电子设备及存储介质,无需人工调整参数,能够明显降低抖动,且可保证关键点预测的准确性。
6.第一方面,本公开实施例提供了一种关键点的识别方法,包括:
7.将目标视频帧输入预设模型,基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置;
8.根据所述各关键点的至少三个预测位置,确定所述各关键点在所述目标视频帧中的候选区域;
9.根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。
10.第二方面,本公开实施例还提供了一种关键点的识别装置,包括:
11.预测位置确定模块,用于将目标视频帧输入预设模型,基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置;
12.候选区域确定模块,用于根据所述各关键点的至少三个预测位置,确定所述各关键点在所述目标视频帧中的候选区域;
13.最终位置确定模块,用于根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。
14.第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
15.一个或多个处理器;
16.存储装置,用于存储一个或多个程序,
17.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例任一所述的关键点的识别方法。
18.第四方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的关键点的识别方法。
19.本公开实施例的技术方案,将目标视频帧输入预设模型,基于预设模型输出目标视频帧中各关键点的至少三个预测位置;根据各关键点的至少三个预测位置,确定各关键点在目标视频帧中的候选区域;根据各关键点在比目标视频帧时序靠前的相邻帧中的最终位置,从各候选区域中确定对应关键点在目标视频帧中的最终位置。
20.通过预设模型可以预测出每个关键点在目标视频帧中可能出现的三个预测位置,进而可以由每个关键点的至少三个预设位置,得到每个关键点在目标视频帧中大概率出现的候选区域。由于相邻视频帧之间关键点位置具有关联性,可以根据各关键点在前一相邻帧中的最终位置,从各候选区域中选择出对应关键点的稳定性最高的位置。该方法不仅可保证关键点预测的准确性,明显降低抖动,还可以避免人工调整参数,提高方法灵活性。
附图说明
21.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
22.图1为本公开实施例一所提供的一种关键点的识别方法的流程示意图;
23.图2为本公开实施例一所提供的一种关键点的识别方法中各关键点的位置示意图;
24.图3为本公开实施例二所提供的一种关键点的识别方法中预设模型的结构示意图;
25.图4为本公开实施例二所提供的一种关键点的识别方法中预设模型的结构示意图;
26.图5为本公开实施例二所提供的一种关键点的识别方法中确定预设模型的全连接层的参数的流程框图;
27.图6为本公开实施例三所提供的一种关键点的识别装置的结构示意图;
28.图7为本公开实施例四所提供的一种电子设备的结构示意图。
具体实施方式
29.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
30.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
31.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
32.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
33.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
34.实施例一
35.图1为本公开实施例一所提供的一种关键点的识别方法的流程示意图。本公开实施例适用于视频中的关键点识别的情形,例如视频中面部关键点识别的情形。该方法可以由关键点的识别装置来执行,该装置可以通过软件和/或硬件的形式实现,该装置可配置于电子设备中,例如配置于手机、电脑等设备中。
36.如图1所示,本实施例提供的关键点的识别方法,可以包括:
37.s110、将目标视频帧输入预设模型,基于预设模型输出目标视频帧中各关键点的至少三个预测位置。
38.在研发本公开实施例提供的关键点识别方法的过程中,进行了两类实验:一、将几乎静止的相邻帧输入到同一模型中输出关键点的位置;二、将同一视频帧输入不同模型中输出关键点的位置。实验一的结果为:几乎静止的相邻帧中关键点的位置不同。实验二的结果为:同一视频帧经不同模型输出的关键点的位置也不相同。
39.由上述实验可得出的结论,至少包括:对于同一视频帧,相同关键点可存在多个合理的预测位置;使用同一模型预测基本相同的相邻帧中关键点的位置时所出现的抖动现象,与使用不同模型预测相同视频帧中关键点的位置时所出现的抖动现象趋于一致。
40.基于此,本公开实施例中,可以使用不同模型对目标视频帧中每个关键点可能出现的至少三个位置进行预测,即得到至少三个预测位置。该些预测位置可以认为是各关键点可能出现的合理的位置,且可以认为等效于使用相同模型,在预测目标视频帧的前一视频帧后,预测目标视频帧时各关键点可能出现的抖动的位置。
41.本实施例中的预设模型可以包括:多个不同的模型,和/或包含多个输出分支的同一模型。其中,预设模型可以预先经过监督、半监督或无监督训练得到,且训练过程中使用的样本视频与目标视频帧所属视频的视频种类相同,训练过程中的关键点标签与预测的目标视频帧中关键点的数量、类别相同。
42.其中,针对不同种类的视频,可以采用对应的预设模型预测出不同数量、不同类别的关键点。例如,针对面部视频,可以采用对应的预设模型预测出68个面部关键点,且关键点的类别例如可以包括眼瞳点、鼻子点、嘴角点和面部轮廓点等。又如,针对肢体视频,可以采用对应的预设模型预测出17个肢体关键点,且关键点的类别例如可以包括肩点、手肘点、手腕点、胯骨点和膝盖点等。
43.本实施例中,基于预设模型可以预测出目标视频帧中每个关键点的至少三个预测位置。示例性的,当目标视频帧中的关键点为10个时,若针对每个关键点可预测出对应的3个预测位置,则预测10个关键点共可得到30个预测位置。
44.s120、根据各关键点的至少三个预测位置,确定各关键点在目标视频帧中的候选区域。
45.针对每一个关键点,可以根据预测得到的至少三个预测位置,确定对应关键点在目标视频中大概率出现的候选区域。其中,确定候选区域的方式可以包但不限于:将至少三个预测位置中最外层的位置进行连线,将围合起来的区域作为候选区域;或者根据至少三个预测位置拟合成预设图形,将预设图形内的区域作为候选区域,其中候选图形例如为三角形、圆形等。其他根据预测位置确定候选区域的方式也可应用于此,在此不做穷举。
46.s130、根据各关键点在比目标视频帧时序靠前的相邻帧中的最终位置,从各候选区域中确定对应关键点在目标视频帧中的最终位置。
47.本实施例中,比目标视频时序靠前的相邻帧,可以认为是目标视频帧的前一视频帧。可以在获取目标视频帧的前一视频帧中各关键点的最终位置后,针对每个关键点,在对应的候选区域中确定相较于与该关键点在前一视频帧中的最终位置抖动较小的位置,并将其作为该关键点在目标视频帧中的最终位置,从而可以明显减缓抖动。
48.并且,由于从各关键点的候选区域中选择出最终位置,可以避免预测得到的关键点与实际特定位置偏移较大的问题,提高了预测准确性。此外,相较于传统的采用加权平滑识别关键点的方式,本实施例无需进行加权参数的人工调整,提高了方法的灵活性。
49.示例性的,图2为本公开实施例一所提供的一种关键点的识别方法中各关键点的位置示意图。图2中,以面部视频中的眼眉区域的关键点为例,对目标视频帧中各关键点的多个预测位置,以及比目标视频时序靠前的相邻帧中各关键点的最终位置进行了示意。
50.参见图2,眼眉区域的关键点的类别可以包括眉头、眉峰和眉尾。眉头在目标视频帧的预测位置可以包括a1、a2和a3三个位置,可将该三个位置围合成的三角形作为眉头在目标视频帧中的候选区域;眉峰在目标视频帧的预测位置可以包括b1、b2和b3三个位置,可将该三个位置围合成的三角形作为眉峰在目标视频帧中的候选区域;眉尾在目标视频帧的预测位置可以包括c1、c2和c3三个位置,可将该三个位置围合成的三角形作为眉尾在目标视频帧中的候选区域。此外,眉头在比目标视频时序靠前的相邻帧的最终位置可以用a’表示,眉峰在该相邻帧的最终位置可以用b’表示,眉尾在该相邻帧的最终位置可以用c’表示。
51.在一些可选的实现方式中,根据各关键点在比目标视频帧时序靠前的相邻帧中的最终位置,从各候选区域中确定对应关键点在目标视频帧中的最终位置,包括:判断各关键点在相邻帧中的最终位置,是否在对应的候选区域内;根据判断结果,从各候选区域中确定对应关键点在目标视频帧中的最终位置。
52.其中,针对每个关键点,可以判断其在相邻帧的最终位置,是否在目标视频帧中对应的候选区域内。其中候选区域的边界可以包含于候选区域内,也可以不包含,在此不做限定。其中,判断结果可以包括,关键点在相邻帧的最终位置在对应的候选区域内,以及关键点在相邻帧的最终不为未在对应的候选区域内。
53.根据判断结果,从各候选区域中确定对应关键点在目标视频帧中的最终位置,可以包括:若各关键点在相邻帧中的最终位置在对应的候选区域内,则可以将各关键点在相邻帧中的最终位置,作为在目标视频帧中的最终位置。从而可以最大程度上减缓抖动现象,保证关键点的稳定性。
54.若存在相邻帧中的最终位置未在对应的候选区域内的关键点,则可以认为该些点
在相邻帧和目标视频帧中位移较大,此时关键点位置的变化可认为并非抖动,而是关键点移动。在这种情况下,根据判断结果,从各候选区域中确定对应关键点在目标视频帧中的最终位置,可以包括:根据判断结果,从各关键点中确定目标点;该目标点在相邻帧中的最终位置未在对应的候选区域内。将目标点对应的候选区域内的任一位置,作为目标点在目标视频帧中的最终位置。并且,针对全部关键点中除目标点之外的剩余点,也可以将其在相邻帧中的最终位置,作为在目标视频帧中的最终位置。
55.在一些实现方式中,在根据判断结果确定目标点之后,还可以从与目标点对应的候选区域内,确定距目标点在相邻帧中的最终位置距离最小的目标位置,并将目标位置作为目标点在目标视频帧中的最终位置。从而可以保证各目标点的移动距离最小,提高目标视频帧中各关键点的统一的稳定性。
56.示例性的,再次参见图2,可以认为a’和c’在对应的候选区域内,则可以将a’和c’分别作为眉头和眉尾在目标视频帧中的最终位置。b’未在对应的候选区域内,可以认为眉峰产生了较大位移,此时可以从眉峰的候选区域内,确定距b’距离最小的目标位置b,并将b作为眉峰在目标视频帧中的最终位置。
57.在一些可选的实现方式中,应用于面部处理类应用,关键点为面部关键点。其中,面部处理类应用可以包括但不限于,基于面部的身份识别应用、表情识别应用和面部添加特效应用等。
58.在这些可选的实现方式中,面部处理类应用可以实时采集面部视频,也可以从预设存储空间读取已存储的面部视频。面部处理类应用识别面部关键点的步骤,可以包括:依时序将面部视频的视频帧输入预设模型,且可以将当前输入预设模型的视频帧作为目标视频帧;基于预设模型输出目标视频帧中各面部关键点的至少三个预测位置;根据各面部关键点的至少三个预测位置,确定各面部关键点在目标视频帧中的候选区域;根据各面部关键点在前一输入帧中的最终位置,从各候选区域中确定对应面部关键点在目标视频帧中的最终位置。其中,首帧视频帧中各面部关键点的最终位置,可以为候选区域中的任一位置,例如中心位置或任一预测位置等,在此不做限定。
59.此外,关键点识别方法除应用于面部处理类应用外,还可应用于其他类应用,对应的视频的种类也可以为其他种类。识别其他种类视频中关键点的过程,可以参考识别面部视频中面部关键点的过程,在此不做穷举。
60.本公开实施例的技术方案,将目标视频帧输入预设模型,基于预设模型输出目标视频帧中各关键点的至少三个预测位置;根据各关键点的至少三个预测位置,确定各关键点在目标视频帧中的候选区域;根据各关键点在比目标视频帧时序靠前的相邻帧中的最终位置,从各候选区域中确定对应关键点在目标视频帧中的最终位置。
61.通过预设模型可以预测出每个关键点在目标视频帧中可能出现的三个预测位置,进而可以由每个关键点的至少三个预设位置,得到每个关键点在目标视频帧中大概率出现的候选区域。由于相邻视频帧之间关键点位置具有关联性,可以根据各关键点在前一相邻帧中的最终位置,从各候选区域中选择出对应关键点的稳定性最高的位置。该方法不仅可保证关键点预测的准确性,明显降低抖动,还可以避免人工调整参数,提高方法灵活性。
62.实施例二
63.本公开实施例与上述实施例中所提供的关键点的识别方法中各个可选方案可以
结合。本实施例所提供的关键点的识别方法,对生成各关键点的多个预测位置的步骤进行了详细描述。通过将预设模型的同一特征提取层之后连接不同的全连接层,能够基于各全连接层输出每个关键点的多个预测位置。进一步的,在输入全连接层间通过深度卷积层对特征图像进行处理,能够增加预测结果的差异性,可以保证候选区域为一个较合适的范围。
64.此外,本实施例还对各全连接层的系数的确定步骤进行了详细描述。通过更改样本视频帧质量,可以扩展得到多张调整帧。由于各调整帧中相同关键点的位置理论上具备一致性,通过利用多个全连接层分别确定各调整帧的多个预测位置,并针对每个全连接层根据输出的相同关键点在各调整帧中的预测位置确定抖动向量,能够根据抖动向量间的夹角完成对各全连接层的系数的训练,从而实现基于各全连接层系数,能够在不同质量的视频帧下输出鲁棒性较高的候选区域。
65.示例性的,图3为本公开实施例二所提供的一种关键点的识别方法中预设模型的结构示意图。参见图3,在一些可选的实现方式中,基于预设模型输出目标视频帧中各关键点的至少三个预测位置,可以包括:
66.基于预设模型的特征提取层(图中用fe表示),确定目标视频帧的特征图像(图中用f表示);将特征图像f输入预设模型的至少三个全连接层(图中用fc表示),基于至少三个全连接层fc输出各关键点的至少三个预测位置(图中用landmark-1、landmark-2、...landmark-n表示)。
67.在这些可选的实现方式中,通过共用预设模型的特征提取层,并在之后连接不同的全连接层,不仅能够基于各全连接层输出每个关键点的多个预测位置,并且还可以简化模型部署。
68.示例性的,图4为本公开实施例二所提供的一种关键点的识别方法中预设模型的结构示意图。图4为图3基础上的一些改进,未描述的细节可参见图3。参见图4,在一些进一步的实现方式中,在将特征图像输入预设模型的至少三个全连接层之前,还可以包括:
69.将特征图像f分别输入与各全连接层对应的深度卷积层(图中用depth-wise表示);相应的,将特征图像输入预设模型的至少三个全连接层,包括:将各深度卷积层的卷积结果输入对应的全连接层fc。
70.在这些可选的实现方式中,在输入全连接层间通过深度卷积层对特征图像进行处理,能够增加预测结果的差异性,可以保证候选区域为一个较合适的范围。
71.示例性的,图5为本公开实施例二所提供的一种关键点的识别方法中确定预设模型的全连接层的参数的流程框图。参见图5,在一些可选的实现方式中,至少三个全连接层的系数,可以通过下述步骤确定:
72.首先,将样本视频帧(图中用s0表示)进行图像质量调整,得到各调整帧(图中用s1和s2表示)。图5中,可以将与s1的相关处理步骤用实线表示,将与s2相关的处理步骤用虚线表示。其中,将样本视频帧进行图像质量调整,可以包括但不限于:向样本视频帧添加噪声、将样本视频帧进行平滑去噪处理、提高样本视频帧的分辨率和改变样本视频帧的亮度等。其中,各调整帧可以为将样本视频按照同种调整类型,不同调整程度进行图像质量调整后的视频帧;也可以为将样本视频按照不同调整类型进行图像质量调整后的视频帧。
73.其次,将各调整帧的特征图像(图中用f1和f2表示),输入预设模型的至少三个全连接层(图中包括fc1、fc2和fc3三个全连接层)。其中,调整帧s1和s2可以基于同一预设模
型的特征提取层fe进行特征提取,分别得到对应的特征图像f1和f2。此外,在确定特征图像后,输入各全连接层前,还可以经深度卷积层处理,以增加预测结果的差异性。
74.再次,基于至少三个全连接层,输出各关键点分别在各调整帧中的预测位置。例如,针对s0中的关键点1,可基于上述同一预设模型的全连接层fc1、fc2和fc3,根据特征图像f1输出该关键点在调整帧s1中的三个预测位置landmark-1、landmark-2和landmark-3,根据特征图像f2输出该关键点在调整帧s2中的三个预测位置landmark-4、landmark-5和landmark-6。此外,除关键点1之外的其他关键点,也可采用相同方式确定分别在各调整帧中的预测位置。
75.然后,针对各全连接层,根据输出的相同关键点在各调整帧中的预测位置确定抖动向量。例如,针对图5中全连接层fc1,landmark-1和landmark-4为关键点1在调整帧s1和s2中的预测位置,可以将landmark-1和landmark-4的位置坐标相减得到全连接层fc1的抖动向量v1。其中,抖动向量的方向例如可以为由landmark-1到landmark-4方向,或由landmark-4到landmark-1方向。同理,可确定针对全连接层fc2和fc3的抖动向量v2和v3,且v2和v3的方向确定方式与v1一致。
76.最后,以各全连接层的抖动向量之间的夹角满足预设角度为目标,对各全连接层的系数进行调整。其中,预设角度可以根据全连接层的数量,预先设置为不同的数值。例如,当全连接层为图5中的3个时,为保证基于3个全连接层输出的预测位置,在视频帧中具有相同的出现概率,可以将预设角度设置为120度。此时,可以以v1、v2和v3之间的夹角都趋近于120度为目标,对fc1、fc2和fc3三个全连接层的参数进行调整。
77.此外,在一些实现方式中调整帧的数量可以为三个以上。在这种情况下,每个全连接层可以输出同一关键点的三个以上的预设位置。此时,在基于至少三个全连接层,输出各关键点分别在各调整帧中的预测位置之后,调整各全连接层参数,可以包括:
78.首先,可以针对每个全连接层,确定预设位置两两之间的初始抖动向量;然后,可以根据各初始抖动向量确定对应全连接层的抖动向量。例如,可以将各初始抖动向量的平均向量、最大向量或最小向量作为对应的全连接层的抖动向量。最后,可以以各全连接层的抖动向量之间的夹角满足预设角度为目标,对各全连接层的系数进行调整。
79.或者,在确定每个全连接层的各初始抖动向量后,可以包括:随机选取各全连接层的初始抖动向量,以每次选择的各全连接层的初始抖动向量之间的夹角满足预设角度为目标,对各全连接层的系数进行调整。此外,其他的全连接层的系数调整方式也可以应用于此,在此不做穷举。
80.本公开实施例的技术方案,对生成各关键点的多个预测位置的步骤进行了详细描述。通过将预设模型的同一特征提取层之后连接不同的全连接层,能够基于各全连接层输出每个关键点的多个预测位置。进一步的,在输入全连接层间通过深度卷积层对特征图像进行处理,能够增加预测结果的差异性,可以保证候选区域为一个较合适的范围。
81.此外,本实施例还对各全连接层的系数的确定步骤进行了详细描述。通过更改样本视频帧质量,可以扩展得到多张调整帧。由于各调整帧中相同关键点的位置理论上具备一致性,通过利用多个全连接层分别确定各调整帧的多个预测位置,并针对每个全连接层根据输出的相同关键点在各调整帧中的预测位置确定抖动向量,能够根据抖动向量间的夹角完成对各全连接层的系数的训练,从而实现基于各全连接层系数,能够在不同质量的视
频帧下输出鲁棒性较高的候选区域。
82.本公开实施例提供的关键点的识别方法与上述实施例提供的关键点的识别方法属于同一公开构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且相同的技术特征在本实施例与上述实施例中具有相同的有益效果。
83.实施例三
84.图6为本公开实施例三所提供的一种关键点的识别装置的结构示意图。本公开实施例适用于视频中的关键点识别的情形,例如视频中面部关键点识别的情形。
85.如图6所示,本实施例提供的关键点的识别装置,可以包括:
86.预测位置确定模块610,用于将目标视频帧输入预设模型,基于预设模型输出目标视频帧中各关键点的至少三个预测位置;
87.候选区域确定模块620,用于根据各关键点的至少三个预测位置,确定各关键点在目标视频帧中的候选区域;
88.最终位置确定模块630,用于根据各关键点在比目标视频帧时序靠前的相邻帧中的最终位置,从各候选区域中确定对应关键点在目标视频帧中的最终位置。
89.在一些可选的实现方式中,最终位置确定模块,可以用于:
90.判断各关键点在相邻帧中的最终位置,是否在对应的候选区域内;
91.根据判断结果,从各候选区域中确定对应关键点在目标视频帧中的最终位置。
92.在一些可选的实现方式中,最终位置确定模块,可以用于:
93.若各关键点在相邻帧中的最终位置在对应的候选区域内,则将各关键点在相邻帧中的最终位置,作为在目标视频帧中的最终位置。
94.在一些可选的实现方式中,最终位置确定模块,可以用于:
95.根据判断结果,从各关键点中确定目标点;目标点在相邻帧中的最终位置未在对应的候选区域内;
96.从与目标点对应的候选区域内,确定距目标点在相邻帧中的最终位置距离最小的目标位置,并将目标位置作为目标点在目标视频帧中的最终位置。
97.在一些可选的实现方式中,预测位置确定模块,可以用于:
98.基于预设模型的特征提取层,确定目标视频帧的特征图像;
99.将特征图像输入预设模型的至少三个全连接层,基于至少三个全连接层输出各关键点的至少三个预测位置。
100.在一些可选的实现方式中,预测位置确定模块,还可以用于:
101.在将特征图像输入预设模型的至少三个全连接层之前,将特征图像分别输入与各全连接层对应的深度卷积层;
102.相应的,将特征图像输入预设模型的至少三个全连接层,包括:将各深度卷积层的卷积结果输入对应的全连接层。
103.在一些可选的实现方式中,关键点的识别装置,还可以包括:
104.系数确定模块,可通过下述步骤确定至少三个全连接层的系数:
105.将样本视频帧进行图像质量调整,得到各调整帧;
106.将各调整帧的特征图像,输入预设模型的至少三个全连接层;
107.基于至少三个全连接层,输出各关键点分别在各调整帧中的预测位置;
108.针对各全连接层,根据输出的相同关键点在各调整帧中的预测位置确定抖动向量;
109.以各全连接层的抖动向量之间的夹角满足预设角度为目标,对各全连接层的系数进行调整。
110.在一些可选的实现方式中,关键点的识别装置可应用于面部处理类应用,关键点为面部关键点。
111.本公开实施例所提供的关键点的识别装置,可执行本公开任意实施例所提供的关键点的识别方法,具备执行方法相应的功能模块和有益效果。
112.值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
113.实施例四
114.下面参考图7,其示出了适于用来实现本公开实施例的电子设备(例如图7中的终端设备或服务器)700的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
115.如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(read-only memory,rom)702中的程序或者从存储装置706加载到随机访问存储器(random access memory,ram)703中的程序而执行各种适当的动作和处理。在ram 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
116.通常,以下装置可以连接至i/o接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
117.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置706被安装,或者从rom702被安装。在该计算机程序被处理装置701执行时,执行本公开实施例的关键点的识别方法中限定的上述功能。
118.本公开实施例提供的电子设备与上述实施例提供的关键点的识别方法属于同一公开构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
119.实施例五
120.本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的关键点的识别方法。
121.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read-only memory,eprom)或闪存(flash)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
122.在一些实施方式中,客户端、服务器可以利用诸如http(hyper text transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
123.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
124.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
125.将目标视频帧输入预设模型,基于预设模型输出目标视频帧中各关键点的至少三个预测位置;根据各关键点的至少三个预测位置,确定各关键点在目标视频帧中的候选区域;根据各关键点在比目标视频帧时序靠前的相邻帧中的最终位置,从各候选区域中确定对应关键点在目标视频帧中的最终位置。
126.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
127.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
128.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元、模块的名称在某种情况下并不构成对该单元、模块本身的限定。
129.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(field programmable gate array,fpga)、专用集成电路(application specific integrated circuit,asic)、专用标准产品(application specific standard parts,assp)、片上系统(system on chip,soc)、复杂可编程逻辑设备(cpld)等等。
130.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
131.根据本公开的一个或多个实施例,【示例一】提供了一种关键点的识别方法,该方法包括:
132.将目标视频帧输入预设模型,基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置;
133.根据所述各关键点的至少三个预测位置,确定所述各关键点在所述目标视频帧中的候选区域;
134.根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。
135.根据本公开的一个或多个实施例,【示例二】提供了一种关键点的识别方法,还包括:
136.在一些可选的实现方式中,所述根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置,包括:
137.判断所述各关键点在所述相邻帧中的最终位置,是否在对应的候选区域内;
138.根据判断结果,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。
139.根据本公开的一个或多个实施例,【示例三】提供了一种关键点的识别方法,还包括:
140.在一些可选的实现方式中,所述根据判断结果,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置,包括:
141.若所述各关键点在所述相邻帧中的最终位置在对应的所述候选区域内,则将所述各关键点在所述相邻帧中的最终位置,作为在所述目标视频帧中的最终位置。
142.根据本公开的一个或多个实施例,【示例四】提供了一种关键点的识别方法,还包括:
143.在一些可选的实现方式中,所述根据判断结果,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置,包括:
144.根据判断结果,从各所述关键点中确定目标点;所述目标点在所述相邻帧中的最终位置未在对应的所述候选区域内;
145.从与所述目标点对应的候选区域内,确定距所述目标点在所述相邻帧中的最终位置距离最小的目标位置,并将所述目标位置作为所述目标点在所述目标视频帧中的最终位置。
146.根据本公开的一个或多个实施例,【示例五】提供了一种关键点的识别方法,还包括:
147.在一些可选的实现方式中,所述基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置,包括:
148.基于所述预设模型的特征提取层,确定所述目标视频帧的特征图像;
149.将所述特征图像输入所述预设模型的至少三个全连接层,基于所述至少三个全连接层输出各关键点的至少三个预测位置。
150.根据本公开的一个或多个实施例,【示例六】提供了一种关键点的识别方法,还包括:
151.在一些可选的实现方式中,在所述将所述特征图像输入所述预设模型的至少三个全连接层之前,还包括:
152.将所述特征图像分别输入与各所述全连接层对应的深度卷积层;
153.相应的,所述将所述特征图像输入所述预设模型的至少三个全连接层,包括:将各所述深度卷积层的卷积结果输入对应的全连接层。
154.根据本公开的一个或多个实施例,【示例七】提供了一种关键点的识别方法,还包括:
155.在一些可选的实现方式中,所述至少三个全连接层的系数,通过下述步骤确定:
156.将样本视频帧进行图像质量调整,得到各调整帧;
157.将所述各调整帧的特征图像,输入所述预设模型的至少三个全连接层;
158.基于所述至少三个全连接层,输出各关键点分别在所述各调整帧中的预测位置;
159.针对各所述全连接层,根据输出的相同关键点在所述各调整帧中的预测位置确定抖动向量;
160.以各所述全连接层的抖动向量之间的夹角满足预设角度为目标,对各所述全连接层的系数进行调整。
161.根据本公开的一个或多个实施例,【示例八】提供了一种关键点的识别方法,还包括:
162.在一些可选的实现方式中,应用于面部处理类应用,所述关键点为面部关键点。
163.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
164.此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
165.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

技术特征:
1.一种关键点的识别方法,其特征在于,包括:将目标视频帧输入预设模型,基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置;根据所述各关键点的至少三个预测位置,确定所述各关键点在所述目标视频帧中的候选区域;根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。2.根据权利要求1所述的方法,其特征在于,所述根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置,包括:判断所述各关键点在所述相邻帧中的最终位置,是否在对应的候选区域内;根据判断结果,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。3.根据权利要求2所述的方法,其特征在于,所述根据判断结果,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置,包括:若所述各关键点在所述相邻帧中的最终位置在对应的所述候选区域内,则将所述各关键点在所述相邻帧中的最终位置,作为在所述目标视频帧中的最终位置。4.根据权利要求2所述的方法,其特征在于,所述根据判断结果,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置,包括:根据判断结果,从各所述关键点中确定目标点;所述目标点在所述相邻帧中的最终位置未在对应的所述候选区域内;从与所述目标点对应的候选区域内,确定距所述目标点在所述相邻帧中的最终位置距离最小的目标位置,并将所述目标位置作为所述目标点在所述目标视频帧中的最终位置。5.根据权利要求1所述的方法,其特征在于,所述基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置,包括:基于所述预设模型的特征提取层,确定所述目标视频帧的特征图像;将所述特征图像输入所述预设模型的至少三个全连接层,基于所述至少三个全连接层输出各关键点的至少三个预测位置。6.根据权利要求5所述的方法,其特征在于,在所述将所述特征图像输入所述预设模型的至少三个全连接层之前,还包括:将所述特征图像分别输入与各所述全连接层对应的深度卷积层;相应的,所述将所述特征图像输入所述预设模型的至少三个全连接层,包括:将各所述深度卷积层的卷积结果输入对应的全连接层。7.根据权利要求5所述的方法,其特征在于,所述至少三个全连接层的系数,通过下述步骤确定:将样本视频帧进行图像质量调整,得到各调整帧;将所述各调整帧的特征图像,输入所述预设模型的至少三个全连接层;基于所述至少三个全连接层,输出各关键点分别在所述各调整帧中的预测位置;针对各所述全连接层,根据输出的相同关键点在所述各调整帧中的预测位置确定抖动
向量;以各所述全连接层的抖动向量之间的夹角满足预设角度为目标,对各所述全连接层的系数进行调整。8.根据权利要求1-7中任一所述的方法,其特征在于,应用于面部处理类应用,所述关键点为面部关键点。9.一种关键点的识别装置,其特征在于,包括:预测位置确定模块,用于将目标视频帧输入预设模型,基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置;候选区域确定模块,用于根据所述各关键点的至少三个预测位置,确定所述各关键点在所述目标视频帧中的候选区域;最终位置确定模块,用于根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。10.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的关键点的识别方法。11.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的关键点的识别方法。

技术总结
本公开实施例公开了一种关键点的识别方法、装置、电子设备及存储介质,其中该方法包括:将目标视频帧输入预设模型,基于所述预设模型输出所述目标视频帧中各关键点的至少三个预测位置;根据所述各关键点的至少三个预测位置,确定所述各关键点在所述目标视频帧中的候选区域;根据所述各关键点在比所述目标视频帧时序靠前的相邻帧中的最终位置,从各所述候选区域中确定对应关键点在所述目标视频帧中的最终位置。无需人工调整参数,能够明显降低抖动,且可保证关键点预测的准确性。且可保证关键点预测的准确性。且可保证关键点预测的准确性。


技术研发人员:王亮亮
受保护的技术使用者:北京字跳网络技术有限公司
技术研发日:2022.03.17
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐