一种基于深度估计和跨模态特征共享的双阶段人脸解析方法

未命名 09-22 阅读:88 评论:0


1.本发明属于人工智能技术领域,具体涉及一种基于深度估计和跨模态特征共享的双阶段人脸解析方法。


背景技术:

2.随着计算机视觉和人工智能技术的不断发展,人脸解析技术已经被广泛应用于人脸识别、人脸表情识别、姿态估计等领域。然而,传统的人脸解析方法往往存在一些问题。首先,传统的基于深度学习的人脸解析方法在实际应用中往往存在着需要大量的数据集训练、计算量大、效果不稳定等问题。其次,传统的多模态特征融合技术在处理复杂的人脸图像时也存在着一定的局限性,如在不同模态的图像之间存在着很大的差异,难以实现精确的特征共享。
3.为了解决这些问题,我们提出了一种新的双阶段人脸解析方法,该方法利用深度估计技术和跨模态特征共享技术相结合,实现了对人脸图像的准确解析和表达。具体来说,该方法通过利用深度学习技术进行人脸区域的分割和深度估计,实现了对人脸图像的深度信息的获取和处理。然后,通过跨模态特征共享技术将深度信息和rgb图像信息进行融合,提取并共享双模态图像的特征,从而实现了对人脸图像的高效解析和表达。该方法具有较高的准确率和鲁棒性,具有很高的实际应用价值。


技术实现要素:

4.为克服现有技术不足,本发明提出一种基于深度估计和跨模态特征共享的双阶段人脸解析方法。实现了人脸解析。本发明提出了一种名为facenet的深度学习模型,具体的步骤如下:
5.步骤1、实验数据的预处理;
6.步骤2、构建第一阶段的深度估计网络模型(facenet1);
7.步骤3、构建第二阶段的人脸解析网络模型(facenet2);
8.步骤4、训练facenet网络模型,facenet由第一阶段的深度估计网络模型(facenet1)和第二阶段的人脸解析网络模型(facenet2)共同组成;
9.步骤5、采用训练好的facenet网络模型在多个人脸解析数据集上进行实验,并对实验结果进行评估。
10.所述步骤1具体包括以下步骤:
11.步骤1.1为了提高模型的泛化能力,首先对图像进行归一化处理;
12.步骤1.2对归一化后的图像进行裁剪,大小为512
×
512;
13.步骤1.3对裁剪后的图像进行数据增强,具体通过随机旋转和随机缩放;
14.步骤1.4划分训练集、验证集和测试集。
15.所述步骤2包括以下步骤:
16.步骤2.1构建编码网络,从人脸rgb图像中提取深度特征信息;
17.对于输入的rgb图像(h为输入图像的高,w为输入图像的宽),我们首先利用resnet18作为深度估计网络的编码器,提取输入图像的语义信息。由于resnet18具有五层结构,因此我们将第i层的输出特征记为具有五层结构,因此我们将第i层的输出特征记为(ci为第i层特征的通道数)。
18.进一步的,然后对输入的rgb图像进行五次平均池化操作,得到五张不同尺寸的特征图,第i次池化操作得到的特征图记为张不同尺寸的特征图,第i次池化操作得到的特征图记为
19.进一步的,然后对输入的rgb图像进行五次下采样操作,得到五张不同尺寸的特征图,第i次下采样操作得到的特征图记为不同尺寸的特征图,第i次下采样操作得到的特征图记为然后我们将x
i-down
与上采样后的x
i+1-down
做差,即可得到第i层的拉普拉斯残差x
i-laplacian
,通过拉普拉斯残差增强模型对边界特征的提取能力。第i层拉普拉斯残差计算公式具体公式如下:
20.x
i-laplacian
=x
i-down-up(x
i+1-down
)
21.其中up代表了上采样操作,在本发明中我们使用双线性插值算法进行上采样。
22.将第i次池化后的特征图、resnet18的第i层特征和第i层的拉普拉斯残差进行通道维度的拼接,得到
23.步骤2.2构建残差连接,并在残差连接中中添加连续扩张卷积模块、局部全局特征交互模块和多尺度加减法模块。
24.第i次池化后的特征图与resnet18的第i层特征拼接后得到的新特征首先连续扩张卷积模块,提取多尺度局部特征
25.进一步的,输出特征经过一层局部全局特征交互模块,捕获更多的上下文信息,得到输出特征
26.进一步的,输出特征与下一层经过同样操作得到的输出特征一起送入多尺度加减法模块,消除编码特征间的语义差距和冗余特征的干扰,提取多尺度特征信息,提高模型对小物体的检测能力,得到残差连接的输出特征yi。
27.连续扩张卷积模块的主要结构如下。对于输入特征首先经过一层卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。再经过一层标准化层、一层1
×
1的卷积层、gelu激活函数和一层1
×
1的卷积层,得到输出特征连续扩张卷积模块表示如下:
[0028][0029]
其中linearg代表了1
×
1卷积操作和gelu激活函数,linear是1
×
1卷积操作,bn是批标准化层,ddwconvr是卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。
[0030]
局部全局特征交互模块的主要结构如下。首先将输入特征编码为三个矩阵,分别为q、k和v。相比于原始的自我注意力机制不同,我们设计了一种新的轻量级注意力机制降低复杂度。具体而言,我们首先将k的转置与v相乘,得到全局注意图为输入特征的通道数。再将q与g相乘,即可得到注意力的计算结果。然后输出结果再经过一层标准化层、一层1
×
1的卷积层、gelu激活函数和一层1
×
1的卷积层,即可得到输出结果具体公式如下所示:
[0031][0032][0033]
其中attention(q,k,v)=q(k
t
v),linearg代表了1
×
1卷积操作和gelu激活函数,linear是1
×
1卷积操作,ln是层标准化操作。
[0034]
多尺度加减法模块的主要结构如下,首先定义减法单元su和加法单元au。
[0035][0036][0037]
其中conv代表了卷积操作,|
·
|代表了取绝对值操作,是逐个元素减法操作,是逐个元素加法操作,fa和fb是输入的特征。
[0038]
进一步的,对于输入的特征和我们首先对进行上采样操作,的分辨率恢复到和一样,得到上采样操作由一层3
×
3卷积层、双线性插值和一层3
×
3卷积层组成。
[0039]
进一步的,我们将和一起送入多尺度减法单元和多尺度加法单元得到特征msu和mau,再将msu和mau进行通道维度的拼接,即可得到输出特征yi。具体公式如下所示:
[0040][0041][0042]
yi=concat(msu,mau)
[0043]
其中filter(
·
)k×k代表了k
×
k大小的卷积层,conv是卷积操作,concat是通道维度的拼接操作。
[0044]
步骤2.3构建多监督深度估计。
[0045]
对于五层编码器,每一层输出的特征都会经过残差连接,yi为第i层残差连接输出的特征。yi会经过一个预测头,预测头由1
×
1卷积层、双线性插值和sigmoid激活函数组成。
最终输出该层的深度估计预测结果最终输出该层的深度估计预测结果其中y
1-depth
是与输入图片大小相同的深度图。
[0046]
所述步骤3包括以下步骤:
[0047]
步骤3.1构建编码网络,从人脸rgb图像中提取语义特征信息,从人脸深度图像中提取深度特征信息;
[0048]
对于输入的rgb图像和facenet1得到的预测深度图(h为输入图像的高,w为输入图像的宽)。我们首先利用两个resnet50作为人脸解析网络的两个编码器。对于输入的rgb图像,首先经过第一个resnet50语义编码器提取rgb图像的语义信息。resnet50共有五层,但我们只采用其前四层,因此我们将第i层的输出特征记为(ci为第i层特征的通道数);
[0049]
进一步的,对于facenet1得到的预测深度图,首先经过第二个resnet50深度编码器提取深度图像的深度特征信息。resnet50共有五层,但我们只采用其前四层,因此我们将第i层的输出特征记为(ci为第i层特征的通道数);
[0050]
步骤3.2构建辅助重建模块,保留深度编码器在特征提取过程中的判别特征;
[0051]
对于resnet50深度编码器所提取的五层深度特征,我们在第二层、第三层和第四层特征中增加辅助重建模块,用于保留判别特征。
[0052]
辅助重建模块的主要结构如下,首先构建重建单元ru,首先对x
i-depth
进行双线性插值操作。然后将插值后的特征送入一层3
×
3卷积层、批标准化层、relu激活函数和一层3
×
3卷积层,得到新的特征新的特征在大小和通道数上与x
(i-1)-depth
相同。具体重建单元ru的计算公式如下:
[0053]
x
i-depth-up
=up(x
i-depth
)
[0054][0055]
其中conv为3
×
3卷积操作,relu为relu激活函数,bn为批标准化层。
[0056]
进一步的,将与x
(i-1)-depth
之间计算重建损失,公式如下:
[0057][0058]
其中是深度编码器第i层的重建损失,mse代表了mse损失函数。
[0059]
步骤3.3提取共享特征空间下的rgb特征和深度图特征
[0060]
将resnet50深度编码器的第二层特征x
2-depth
和resnet50语义编码器的第二层特征x
2-rgb
进行通道维度的拼接,然后送入融合特征提取模块,进行融合特征的特征提取,融合特征提取模块的结构与resnet50的第三层和第四层结构相同,最终输出融合特征x
fusion

[0061]
进一步的,将x
fusion
送入两个特征区分模块,从中提取处共享特征空间下的rgb特
征和深度图特征特征区分模块由一层3
×
3卷积层、批标准化层和一层3
×
3卷积层组成。
[0062]
步骤3.4构建跨模态共享特征融合模块,将共享特征空间下的rgb特征共享特征空间下的深度图特征rgb模态特有特征和深度模态特有特征送入跨模态共享特征融合模块进行特征融合;
[0063]
跨模态共享特征融合模块的主要结构如下,首先将x
4-rgb
和x
4-depth
进行变形,变形为
[0064]
进一步的,构建图信号矩阵。我们将每个位置点视为图上的一个结点,每个结点由三种特征组成,分别是rgb模态特有特征、共有特征和深度模态特有特征。因此我们构建两个图信号矩阵,分别是和
[0065][0066][0067]
进一步的,图的点可以表示为:
[0068][0069]
进一步的,计算不同模态之间的亲和力矩阵,首先是rgb模态之间的亲和力矩阵t
rgb-rgb
=x
4-rgb
.x
4-rgbt
。其次是rgb模态与深度模态之间的亲和力矩阵其次是深度模态与rgb模态之间的亲和力矩阵最后是深度模态之间的亲和力矩阵t
depth-depth
=x
4-depth
·
x
4-deptht
。然后构建图的邻接矩阵:
[0070][0071]
top k表示只保留矩阵每行最大的k个元素,其余元素的值设置为0。
[0072]
进一步的,特征融合后,将进行特征之间的亲和力传播,具体公式如下:
[0073][0074]
其中σ是relu激活函数,w是可学习的权重矩阵,d为图的度矩阵。
[0075]
步骤3.5构建解码器,将经过跨模态共享特征融合模块的特征进行解码,输出人脸解析结果;
[0076]
对于经过跨模态共享特征融合模块的特征首先进行变形,然后经过四层解码器,每一层解码器由3
×
3卷积层、双线性插值和一层3
×
3卷积层组成,最终得到人脸解析的预测结果y
face-parsing

[0077]
所述步骤4包括以下步骤:
[0078]
步骤4.1计算facenet的损失函数,facenet的损失函数主要由三部分组成,一个是深度估计多监督损失、重建损失和人脸解析损失组成。
[0079]
首先是深度估计多监督损失,在深度估计网络中,共输出了五个尺寸的深度图将每个尺寸的预测深度图与实际深度图计算损失,我们使用berhu loss作为损失函数。
[0080][0081][0082]yi-depth-true
为第i层真实的深度图,berhu代表了berhu损失函数。
[0083]
进一步的,我们计算重建损失和人脸解析损失,在人脸解析损失中我们使用交叉熵损失函数。
[0084][0085][0086]
其中ce代表了交叉熵损失函数,y
face-parsing-true
为真实的人脸解析图。;
[0087]
步骤4.2在训练过程中使用随机梯度下降优化算法sgd;
[0088]
步骤4.3facenet编码阶段的resnet18和resnet50网络权重采用在imagenet数据集上预训练的权重;
[0089]
步骤4.4在训练过程中采用poly学习率策略,学习率更新公式为:
[0090][0091]
其中,learnrate为当前epoch的学习率,initial_rate为初始学习率。iter为当前epoch数目,total_iter为总的epoch数目。
[0092]
所述步骤5包括以下步骤:
[0093]
步骤5.1引入f1系数来评价人脸解析和情感识别的效果,定义如下:
[0094][0095]
与现有技术相比,本发明的有益结果使:
[0096]
本发明通过建立facenet的深度学习模型,实现了基于深度估计和跨模态特征共享的双阶段人脸解析。增加跨模态特征共享融合模块,可以使模型充分利用rgb模态信息和深度图模态信息。
附图说明
[0097]
图1为方法流程图。
[0098]
图2为第一阶段的深度估计网络模型(facenet1)。
[0099]
图3为第二阶段的人脸解析网络模型(facenet2)。
具体实施方式
[0100]
下面结合附图和具体实施例对本发明作进一步的说明。
[0101]
为了解决在人脸解析上所遇到的问题,本发明设计了一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,用于人脸解析。具体来说,facenet由第一阶段的深度估计网络模型(facenet1)和第二阶段的人脸解析网络模型(facenet2)共同组成。在深度估计网络模型(facenet1)中,我们利用拉普拉斯残差来增强模型对人脸边缘的感知能力。同时,在残差连接中添加连续扩张卷积模块、局部全局特征交互模块和多尺度加减法模块,从而捕获上下文信息和多尺度信息,消除特征之间的冗余信息。并且添加了多监督模块,提高深度估计的准确率。在人脸解析网络模型(facenet2)中,我们增加了跨模态特征共享融合模块,增强模型对rgb模态和深度模态的感知能力,既保留了两种模态的独有特征,也保留了两种模态的共性特征。
[0102]
实施例1实验数据的预处理。
[0103]
(1)对数据归一化处理。
[0104]
(2)对图片进行裁剪为大小512
×
512。
[0105]
(3)对裁剪后的图像进行数据增强,进行随机旋转和随机缩放。
[0106]
(4)划分数据集为训练集、验证集和测试集。
[0107]
实施例2构建facenet网络模型。
[0108]
(1)构建深度估计网络模型(facenet1)的编码网络,从人脸rgb图像中提取深度特征信息。
[0109]
(2)对于编码网络输出的每一层特征,都会经过残差连接部分,残差连接包含扩张卷积模块、局部全局特征交互模块和多尺度加减法模块。
[0110]
(3)在深度估计网络模型(facenet1)中,增加了深度估计多监督损失。
[0111]
(4)构建两个resnet50作为人脸解析网络模型(facenet2)的编码网络,从人脸rgb图像中提取语义特征信息,从人脸深度图像中提取深度特征信息。
[0112]
(5)对于resnet50深度编码器所提取的五层深度特征,我们在第二层、第三层和第四层特征中增加辅助重建模块,用于保留判别特征
[0113]
(6)构建跨模态共享特征融合模块,进行rgb模态特征和深度模态特征的融合。
[0114]
实施例3训练facenet网络模型。
[0115]
(1)采用sgd优化方式作为优化方法。
[0116]
(2)facenet编码阶段的resnet18和resnet50网络权重采用在imagenet数据集上预训练的权重。
[0117]
(3)采用poly学习率调整策略
[0118]
实施例4采用训练好的facenet网络模型在公开人脸数据集celebamask_hq和lapa上进行实验,并对实验效果进行评估。

技术特征:
1.一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于包括如下步骤:步骤1、实验数据的预处理;步骤2、构建第一阶段的深度估计网络模型(facenet1);步骤3、构建第二阶段的人脸解析网络模型(facenet2);步骤4、训练facenet网络模型,facenet由第一阶段的深度估计网络模型(facenet1)和第二阶段的人脸解析网络模型(facenet2)共同组成;步骤5、采用训练好的facenet网络模型在多个人脸解析数据集上进行实验,并对实验结果进行评估。2.根据权利要求1所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于所述步骤2包括以下步骤:步骤2.1构建编码网络,从人脸rgb图像中提取深度特征信息;步骤2.2构建残差连接,并在残差连接中中添加连续扩张卷积模块、局部全局特征交互模块和多尺度加减法模块;步骤2.3构建多监督深度估计。3.根据权利要求2所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤2.1具体实现如下:对于输入的rgb图像(h为输入图像的高,h为输入图像的高),我们首先利用resnet18作为深度估计网络的编码器,提取输入图像的语义信息。由于resnet18具有五层结构,因此我们将第i层的输出特征记为层结构,因此我们将第i层的输出特征记为(c
i
为第i层特征的通道数)。进一步的,然后对输入的rgb图像进行五次平均池化操作,得到五张不同尺寸的特征图,第i次池化操作得到的特征图记为尺寸的特征图,第i次池化操作得到的特征图记为进一步的,然后对输入的rgb图像进行五次下采样操作,得到五张不同尺寸的特征图,第i次下采样操作得到的特征图记为寸的特征图,第i次下采样操作得到的特征图记为然后我们将x
i-down
与上采样后的x
i+1-down
做差,即可得到第i层的拉普拉斯残差x
i-laplacian
,通过拉普拉斯残差增强模型对边界特征的提取能力。拉普拉斯残差计算公式具体公式如下:x
i-laplacian
=x
i-down-up(x
i+1-down
)其中up代表了上采样操作,在本发明中我们使用双线性插值算法进行上采样。将第i次池化后的特征图、resnet18的第i层特征和第i层的拉普拉斯残差进行通道维度的拼接,得到4.根据权利要求2所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤2.2具体实现如下:第i次池化后的特征图与resnet18的第i层特征拼接后得到的新特征首先连续扩张卷积模块,提取多尺度局部特征
进一步的,输出特征经过一层局部全局特征交互模块,捕获更多的上下文信息,得到输出特征进一步的,输出特征与下一层经过同样操作得到的输出特征一起送入多尺度加减法模块,消除编码特征间的语义差距和冗余特征的干扰,提取多尺度特征信息,提高模型对小物体的检测能力,得到残差连接的输出特征y
i
。连续扩张卷积模块的主要结构如下:对于输入特征首先经过一层卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。再经过一层归一化层、一层1
×
1的卷积层、gelu激活函数和一层1
×
1的卷积层,得到输出特征连续扩张卷积模块表示如下:其中linear
g
代表了1
×
1卷积操作和gelu激活函数,linear是1
×
1卷积操作,bn是批标准化层,ddwconv
r
是卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。局部全局特征交换模块的主要结构如下:首先将输入特征编码为三个矩阵,分别为q、k和v。相比于原始的自我注意力机制不同,我们设计了一种新的轻量级注意力机制降低复杂度。具体而言,我们首先将k的转置与v相乘,得到全局注意图为输入特征的通道数。再将q与g相乘,即可得到注意力的计算结果。然后输出结果再经过一层归一化层、一层1
×
1的卷积层、gelu激活函数和一层1
×
1的卷积层,即可得到输出结果具体公式如下所示:具体公式如下所示:其中attention(q,k,v)=q(k
t
v),linear
g
代表了1
×
1卷积操作和gelu激活函数,linear是1
×
1卷积操作,ln是层标准化操作。多尺度加减法模块的主要结构如下:首先定义减法单元su和加法单元au;多尺度加减法模块的主要结构如下:首先定义减法单元su和加法单元au;其中conv代表了卷积操作,|
·
|代表了取绝对值操作,是逐个元素减法操作,是逐个元素加法操作,f
a
和f
b
是输入的特征;进一步的,对于输入的特征和我们首先对进行上采样操作,的分辨率恢复到和一样,得到上采样操作由一层3
×
3卷积层、双线性插值和一层3
×
3卷积层组成;
进一步的,我们将和一起送入多尺度减法单元和多尺度加法单元得到特征msu和mau,再将msu和mau进行通道维度的拼接,即可得到输出特征y
i
。具体公式如下所示:。具体公式如下所示:y
i
=concat(msu,mau)其中filter(
·
)
k
×
k
代表了k
×
k大小的卷积层,conv是卷积操作,concat是通道维度的拼接操作。5.根据权利要求2所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤2.3具体实现如下:对于五层编码器,每一层输出的特征都会经过残差连接,y
i
为第i层残差连接输出的特征。y
i
会经过一个预测头,预测头由1
×
1卷积层、双线性插值和sigmoid激活函数组成。最终输出该层的深度估计预测结果输出该层的深度估计预测结果其中y
1-depth
是与输入图片大小相同的深度图。6.根据权利要求1所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于所述步骤3包括以下步骤:步骤3.1构建编码网络,从人脸rgb图像中提取语义特征信息,从人脸深度图像中提取深度特征信息,我们首先利用两个resnet50(只采用前四层)作为人脸解析网络的两个编码器。对于输入的rgb图像,首先经过第一个resnet50语义编码器提取rgb图像的语义信息,我们将第i层的输出特征记为们将第i层的输出特征记为(c
i
为第i层特征的通道数)。对于facenet1得到的预测深度图,首先经过第二个resnet50深度编码器提取深度图像的深度特征信息,我们将第i层的输出特征记为(c
i
为第i层特征的通道数)。步骤3.2构建辅助重建模块,保留深度编码器在特征提取过程中的判别特征;对于resnet50深度编码器所提取的四层深度特征,我们在第二层、第三层和第四层特征中增加辅助重建模块,用于保留判别特征;步骤3.3提取共享特征空间下的rgb特征和深度图特征步骤3.4构建跨模态共享特征融合模块,将共享特征空间下的rgb特征共享特征空间下的深度图特征rgb模态特有特征和深度模态特有特征送入跨模态共享特征融合模块进行特征融合;
步骤3.5构建解码器,将经过跨模态共享特征融合模块的特征进行解码,输出人脸解析结果;共有四层解码器,每一层解码器由3
×
3卷积层、双线性插值和一层3
×
3卷积层组成,最终得到人脸解析的预测结果y
face-parsing
。7.根据权利要求6所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于辅助重建模块的主要结构如下:首先构建重建单元ru,首先对x
i-depth
进行双线性插值操作。然后将插值后的特征送入一层3
×
3卷积层、批标准化层、relu激活函数和一层3
×
3卷积层,得到新的特征新的特征在大小和通道数上与x
(i-1)-depth
相同。具体重建单元ru的计算公式如下:x
i-depth-up
=up(x
i-depth
)其中conv为3
×
3卷积操作,relu为relu激活函数,bn为批标准化层;进一步的,将与x
(i-1)-depth
之间计算重建损失,公式如下:其中是深度编码器第i层的重建损失,mse代表了mse损失函数。8.根据权利要求6所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤3.3具体实现如下:将resnet50深度编码器的第二层特征x
2-depth
和resnet50语义编码器的第二层特征x
2-rgb
进行通道维度的拼接,然后送入融合特征提取模块,进行融合特征的特征提取,融合特征提取模块的结构与resnet50的第三层和第四层结构相同,最终输出融合特征x
fusion
;进一步的,将x
fusion
送入两个特征区分模块,从中提取处共享特征空间下的rgb特征和深度图特征特征区分模块由3
×
3卷积层、批标准化层和一层3
×
3卷积层组成。9.根据权利要求6所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于跨模态共享特征融合模块的主要结构如下:首先将x
4-rgb
和x
4-depth
进行变形,变形为进行变形,变形为进一步的,构建图信号矩阵。我们将每个位置点视为图上的一个结点,每个结点由三种特征组成,分别是rgb模态特有特征、共有特征和深度模态特有特征。因此我们构建两个图信号矩阵,分别是和和和进一步的,图的点可以表示为:
进一步的,计算不同模态之间的亲和力矩阵,首先是rgb模态之间的亲和力矩阵t
rgb-rgb
=x
4-rgb
·
x
4-rgbtt
。其次是rgb模态与深度模态之间的亲和力矩阵其次是深度模态与rgb模态之间的亲和力矩阵最后是深度模态之间的亲和力矩阵t
depth-depth
=x
4-depth
·
x
4-deptht
。然后构建图的邻接矩阵:top k表示只保留矩阵每行最大的k个元素,其余元素的值设置为0;进一步的,特征融合后,将进行特征之间的亲和力传播,具体公式如下:其中σ是激活函数,w是可学习的权重矩阵,d为图的度矩阵。10.根据权利要求1所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤4包括构建损失函数:首先是深度估计多监督损失,在深度估计网络中,共输出了五个尺寸的深度图将每个尺寸的预测深度图与实际深度图计算损失,我们使用berhu loss作为损失函数;loss作为损失函数;y
i-depth-true
为第i层真实的深度图,berhu代表了berhu损失函数;进一步的,我们计算重建损失和人脸解析损失,在人脸解析损失中我们使用交叉熵损失函数;失函数;其中ce代表了交叉熵损失函数,y
face-parsing-true
为真实的人脸解析图。

技术总结
本发明公开了一种基于深度估计和跨模态特征共享的双阶段人脸解析方法。本发明步骤如下:1、实验数据的预处理;2、构建第一阶段的深度估计网络模型(FaceNet1);3、构建第二阶段的人脸解析网络模型(FaceNet2);4、训练FaceNet网络模型,FaceNet由第一阶段的深度估计网络模型(FaceNet1)和第二阶段的人脸解析网络模型(FaceNet2)共同组成;5、采用训练好的FaceNet网络模型在多个人脸解析数据集上进行实验,并对实验结果进行评估。本发明所设计的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法具有较高的准确率和鲁棒性,具有很高的实际应用价值。很高的实际应用价值。很高的实际应用价值。


技术研发人员:李沛红 王浩宇
受保护的技术使用者:中国科学技术大学
技术研发日:2023.06.13
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐