一种基于时序注意力机制的因果分离卷积的表情识别方法与流程
未命名
08-29
阅读:113
评论:0

1.本发明属于深度学习图像处理和模式识别领域,具体的说是一种基于时序注意力机制的因果分离卷积的表情识别方法。
背景技术:
2.注意力缺陷障碍(attention deficit hyperactivity disorder,adhd)又称多动症,是儿童期最常见的精神障碍之一,主要表现为注意力不集中、行为冲动和不分场合的过度活动。为此,研究者应用深度相机开展了多动症儿童的表情识别方案来评估儿童的活动水平。人的表情识别是深度学习图像处理和模式识别领域的研究者重点关注的课题,该问题在图像处理、表情识别分析等具体应用上具有广泛的实际应用价值。但同样,该问题具有较大的挑战性。一是传统的表情识别精度不佳。二是小样本数据在训练过程中容易出现过拟合。
3.目前的表情识别主要是基于深度学习的方法,具体包括卷积神经网络、循环神经网络等。虽然这些方法在一些应用中展现出良好的性能,但仍然存在以下几个主要问题:1)传统卷积神经网络不能解决具备时序特征的问题;2)传统循环神经网络在训练过程中容易出现梯度消失和梯度爆炸的风险;3)在实际应用中所采集的训练数据集是有限的,因此神经网络的训练过程容易出现过拟合现象。
技术实现要素:
4.为解决上述现有技术存在的不足之处,本发明提出一种基于时序注意力机制的因果分离卷积的表情识别方法。该方法将具备时序特征挖掘能力的因果分离注意力卷积网络(casual dilated attention-based convolutional network,cdacn)与支持向量机(support vector machine,svm)相结合,既增强了连续时间下图像特征的提取能力,提高了表情识别的准确率,又降低了神经网络训练过程中的过拟合风险。
5.为实现上述目的,本发明采用如下技术方案:
6.一种基于时序注意力机制的因果分离卷积的表情识别方法,它包括以下步骤:
7.步骤1、获取连续脸部运动视频,对其进行预处理后将相邻的多帧图像串联起来形成超图,并人为对这些超图进行进行人工标注作为标签,同时对所有的数据划分训练集p={pi|i∈[1,n
p
]}和测试集q={qi|i∈[1,nq]},其中n
p
和nq分别表示训练集和测试集的数据总量;
[0008]
步骤2、将训练集中的数据p按批次b输入基于时序注意力的因果分离卷积神经网络中进行训练,得到训练完毕的表情识别模型;
[0009]
步骤3、去除神经网络的输出层,将因果分离注意力卷积网络作为特征提取器与支持向量机连接,并在冻结神经网络的参数后对支持向量机进行训练,得到cdacn-svm模型;
[0010]
步骤4、将测试集中的数据q用于因果分离注意力卷积网络和支持向量机相结合的cdacn-svm模型上进行表情识别。
[0011]
本技术方案进一步的优化,所述步骤2中的基于时序注意力的因果分离卷积神经网络结构为依次连接数据输入层、空间卷积层、时序注意力机制层、因果分离卷积层、批归一化层、全连接层、dropout层、输出层;数据输入层用于读取预处理后的超图;空间卷积层用于抽取当前帧的空间状态特征,并将空间信息融合为一维的时序信息;时序注意力机制层用于从复杂特征中增强目标信息,同时削弱冗余信息;因果分离卷积层用于挖掘数据特征在长时间尺度上的依赖性;批归一化层用于加快网络的训练和收敛的速度;全连接层用于将前层计算得到的特征空间映射样本标记空间;dropout层用于减轻网络训练过程中的过拟合现象;输出层用于表情分类识别。
[0012]
本技术方案更进一步的优化,所述输入层数据维度为b
×c×h×
w,分别表示超图的批数量、通道数量、超图分辨率的高度以及超图分辨率的宽度。
[0013]
本技术方案更进一步的优化,所述空间卷积层的输入通道数量为c,其空间卷积核的尺寸为c1×kh1
×kw1
,分别表示卷积核尺寸的深度、高度以及宽度,其沿着超图深度、高度、宽度滑动的步长均设置为s1,空间卷积层的作用是用于学习超图图像的空间语义信息,并将空间信息融合为一维的时序信息,时序特征可记为{f0,f1,
…
,f
t
},f
0:t
表示超图图像序列转化后的时序特征。
[0014]
本技术方案更进一步的优化,所述时序注意力机制层包括三个卷积核为1*1的卷积层,每一个卷积层都将输入序列f
0:t
映射为一个向量,三个向量分别记为key(k
0:t
)、query(q
0:t
)以及value(v
0:t
)。向量key和query的维度均为为db。注意力机制的权重计算如下:
[0015][0016]
其中,ki和qj分别为key和query中的特征点,i:j=0,1,
…
,t。权重矩阵w的下三角部分可表示为
[0017][0018]
此外,采用softmax操作将w
l
转化为m
l
,并结合向量value中的特征点vi可以得到时序注意力特征图a
t
:
[0019][0020]
本技术方案更进一步的优化,所述因果分离卷积层由因果卷积和分离卷积构成,因果卷积考虑了时序特征的因果关系而分离卷积则在不增加学习参数的同时增加了卷积核的局部感受野;假设输入序列为f
0:t
,期望输出为y
0:t
,因果分离卷积确保时刻t的当前输出y
t
仅由f
0:t
决定,与f
t+1:t
无关;此外,对于一维序列以及一个卷积核针对序列f上的元素fs的因果分离卷积操作f如下:
[0021][0022]kw2
为因果分离卷积核尺寸,gi为卷积核g中的第i个元素,d表示分离因子。因果分离卷积层的通道数量为c2,时间维度上的步长为s2。
[0023]
本技术方案更进一步的优化,所述批归一化层可以加快网络的训练和收敛的速度,批归一化层的计算如下:
[0024][0025]
γ和β是可学习的参数,用于对输入数据进行变换。μb与分别为输入批次数据的均值和方差,xi表示其中一条输入批次数据,ε
bn
表示常数项。
[0026]
本技术方案更进一步的优化,所述输出层为表情分类器,表情分类器的损失函数为:
[0027][0028]
其中,yi表示真实标签类别,g表示表情分类器的输出经过归一化后得到的关于每个类别的后验概率输出,f表示真实的表情标签总类别数。
[0029]
本技术方案进一步的优化,所述特征提取器是指保存训练完毕的因果分离注意力卷积网络的模型结构以及内部参数后,去除网络的输出层,将网络全连接层的输出作为支持向量机的输入;在训练支持向量机的过程中,神经网络的参数不参与更新。
[0030]
本技术方案进一步的优化,所述步骤3中支持向量机采用的核函数为径向基函数。
[0031]
与现有的表情识别方法不同,本发明考虑多帧图像的空间特征以及时序因果性,以此设计了包含空间卷积、时序注意力机制、以及因果分离卷积的神经网络结构,并加入了基于径向基核函数的支持向量机,从而解决了现有方法对于连续图片时空特征学习鲁棒性较差、模型不实用等问题,同时从图片流中可以获取更加精确的表情特征。基于以上改进,本发明提出的基于时序注意力机制的因果分离卷积的表情识别方法具有更强大的特征挖掘能力和更高的表情识别效率,能够快速处理深度相机拍摄的图片流。
[0032]
上述技术方案创新之处在于:
[0033]
1、使用空间卷积和因果分离卷积分别学习图片流的空间与时间特征,能够更加清晰自然地处理表情识别任务。并融合了时序注意力机制来提高来增强图片中有效特征的提取,从而提高网络建模过程中的可解释性。
[0034]
2、使用深度学习方法与传统统计学习方法相结合,既利用了神经网络强大的特征挖掘能力,也利用了支持向量机精细的多类别分类性能。这种二次训练的机制有助提升模型的泛化性能以及表情识别的准确率。
附图说明
[0035]
图1为因果分离卷积模块的示意图;
[0036]
图2为时序注意力机制模块的示意图;
[0037]
图3为因果分离注意力卷积网络与支持向量机联合训练机制的示意图。
具体实施方式
[0038]
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0039]
图1展示了本发明针对表情识别的因果分离注意力卷积神经网络中因果分离卷积模块的示意图。该模块包括因果分离卷积模块的输入、三个因果分离卷积层以及因果分离卷积模块的输出。输入的时序特征经过三个因果分离卷积层得到模块的输出。三个因果分
离卷积层的卷积核的尺寸均设置为3,滑动步长为1,分离因子分别为1、2、4。
[0040]
图2展示了本发明针对表情识别的因果分离注意力卷积神经网络中时序注意力机制模块的示意图。该模块包含了三个卷积核为1*1的卷积层,这些卷积层将输入特征序列映射到三个特征向量,分别为key(k
0:t
)、query(q
0:t
)以及value(v
0:t
)。最终通过向量点乘以及softmax操作得到输出特征。
[0041]
图3展示了本发明针对高准确度表情识别方法所提出的因果分离注意力卷积神经网络与支持向量机的联合训练机制的示意图。联合训练机制分两步进行,第一步利用训练样本训练因果分离注意力卷积网络,网络的优化器选择adam优化器,损失函数为交叉熵损失函数,输出层的激活函数为softmax函数。第二步将训练好的因果分离注意力卷积网络作为特征提取器训练支持向量机,最终得到完整的表情识别模型。
[0042]
操作的具体步骤如下:
[0043]
步骤1、获取大规模人脸表情及其对应的标注数据集,对其进行预处理后将相邻的三帧图像组成超图,并人为对这些超图进行人工标注作为标签,标签包含烦躁与平静。同时,对所有的数据划分训练集p={pi|i∈[1,n
p
]}和测试集q={qi|i∈[1,nq]},其中n
p
和nq分别表示训练集和测试集的数据总量,该实施例训练集合测试集的比例为4:1。
[0044]
步骤2、将训练集数据随机地按批次输入因果分离注意力卷积神经网络中进行训练,神经网络的构建顺序依次是数据输入层、空间卷积层、时序注意力机制层、因果分离卷积层、批归一化层、全连接层、dropout层以及输出层。
[0045]
基于时序注意力的因果分离卷积神经网络,包括数据输入层、空间卷积层、时序注意力机制层、因果分离卷积层、批归一化层、全连接层、dropout层以及输出层;数据输入层用于读取预处理后的超图;空间卷积层用于抽取当前帧的空间状态特征,并将空间信息融合为一维的时序信息。时序注意力机制层用于从复杂特征中增强目标信息,同时削弱冗余信息;因果分离卷积层用于挖掘数据特征在长时间尺度上的依赖性;批归一化层用于加快网络的训练和收敛的速度;全连接层用于将前层计算得到的特征空间映射样本标记空间;dropout层用于减轻网络训练过程中的过拟合现象;输出层用于表情分类识别。
[0046]
数据输入层数据维度为b
×c×h×
w,分别表示超图的批数量、通道数量、超图分辨率的高度以及超图分辨率的宽度。
[0047]
空间卷积层的输入通道数量为c,其空间卷积核的尺寸为c1×kh1
×kw1
,分别表示卷积核尺寸的深度、高度以及宽度,其沿着超图深度、高度、宽度滑动的步长均设置为s1。空间卷积层的作用是用于学习超图图像的空间语义信息,并将空间信息融合为一维的时序信息,时序特征可记为{f0,f1,
…
,f
t
},f
0:t
表示超图图像序列转化后的时序特征。
[0048]
时序注意力机制层包括三个卷积核为1*1的卷积层,每一个卷积层都将输入序列f
0:t
映射为一个向量,三个向量分别记为key(k
0:t
)、query(q
0:t
)以及value(v
0:t
)。向量key和query的维度均为为db。注意力机制的权重计算如下:
[0049][0050]
其中,ki和qj分别为key和query中的特征点,i:j=0,1,
…
,t。权重矩阵w的下三角部分可表示为
[0051][0052]
此外,采用softmax操作将w
l
转化为m
l
,并结合向量value中的特征点vi可以得到时序注意力特征图a
t
:
[0053][0054]
因果分离卷积层由因果卷积和分离卷积构成,因果卷积考虑了时序特征的因果关系而分离卷积则在不增加学习参数的同时增加了卷积核的局部感受野。假设输入序列为f
0:t
,期望输出为y
0:t
,因果分离卷积确保时刻t的当前输出y
t
仅由f
0:t
决定,与f
t+1:t
无关。此外,对于一维序列以及一个卷积核针对序列f上的元素fs的因果分离卷积操作f如下:
[0055][0056]kw2
为因果分离卷积核尺寸,gi为卷积核g中的第i个元素,d表示分离因子。因果分离卷积层的通道数量为c2,时间维度上的步长为s2。
[0057]
批归一化层可以加快网络的训练和收敛的速度,批归一化层的计算如下:
[0058][0059]
γ和β是可学习的参数,用于对输入数据进行变换。μb与分别为输入批次数据的均值和方差,xi表示其中一条输入批次数据,ε
bn
表示常数项。
[0060]
全连接层是由多个神经元组成,用于连接时序因果卷积层。全连接层的输入与因果分离卷积层的输出通道数量相同,均为c3,全连接层的输出与dropout层相连接。
[0061]
dropout层可以让神经元的激活值以一定的概率p停止工作,从而提高模型的泛化性能并减少过拟合现象。
[0062]
输出层为表情分类器,其涵盖常见的表情类别,表情类别的数量为f。抽取的特征映射到分类空间得到各个类别的概率大小,将所有类的概率按由大到小排序,并且返回最大概率值所对应的表情类别,最后得到表情类别。
[0063]
表情分类器的损失函数为:
[0064][0065]
其中,yi表示真实标签类别,g表示表情分类器的输出经过归一化后得到的关于每个类别的后验概率输出,f表示真实的表情标签总类别数。
[0066]
每个迭代周期的训练数据量为64,神经网络优化器为adam优化器,学习率为0.01,损失函数为交叉熵损失函数,经过10个周期后,得到训练完毕的神经网络。
[0067]
其中,输入层数据维度为64
×3×
256
×
768;空间卷积层的输入通道数量为3,其空间卷积核的尺寸为3
×
256
×
1,其沿着超图深度、高度、宽度滑动的步长均设置为1;因果分离卷积模块包括三个因果卷积层,每个因果卷积层的通道数量为10,因果卷积核的尺寸为3,时间维度上的步长为1,分离因子依次是1、2、4;全连接层神经元的个数设为64;dropout的参数设为0.5;输出层为表情分类器,其涵盖常见的表情类别,表情类别的数量为2,包括烦躁与平静。
[0068]
步骤3、去除因果分离注意力卷积网络的输出层,并将因果分离注意力卷积网络作为特征提取器与支持向量机连接,冻结因果分离注意力卷积网络的参数后对支持向量机进行训练,支持向量机的核函数选择径向基函数。
[0069]
特征提取器是指保存训练完毕的因果分离注意力卷积网络的模型结构以及内部参数后,去除网络的输出层,将网络全连接层的输出作为支持向量机的输入。在训练支持向量机的过程中,神经网络的参数不参与更新。
[0070]
步骤4、将测试集数据用于因果分离注意力卷积网络和支持向量机相结合的新模型(cdacn-svm)上进行表情识别测试,并将性能良好的cdacn-svm模型部署在实际应用场景中。
[0071]
cdacn-svm新模型即为表情识别模型。利用测试数据集q来测试cdacn-svm模型的表情识别准确度,并将性能良好的cdacn-svm模型部署在实际应用场景中。
[0072]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
或“包含
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
[0073]
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
技术特征:
1.一种基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:步骤1、获取连续脸部运动视频,对其进行预处理后将相邻的多帧图像串联起来形成超图,并人为对这些超图进行标签,同时对所有的数据划分训练集p={p
i
|i∈[1,n
p
]}和测试集q={q
i
|i∈[1,n
q
]},其中n
p
和n
q
分别表示训练集和测试集的数据总量;步骤2、将训练集中的数据p按批次b输入基于时序注意力的因果分离卷积神经网络中进行训练,得到训练完毕的表情识别模型;步骤3、去除神经网络的输出层,将因果分离注意力卷积网络作为特征提取器与支持向量机连接,并在冻结神经网络的参数后对支持向量机进行训练,得到cdacn-svm模型;步骤4、将测试集中的数据q用于因果分离注意力卷积网络和支持向量机相结合的cdacn-svm模型上进行表情识别。2.如权利要求1所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述步骤2中的基于时序注意力的因果分离卷积神经网络结构为依次连接数据输入层、空间卷积层、时序注意力机制层、因果分离卷积层、批归一化层、全连接层、dropout层、输出层;数据输入层用于读取预处理后的超图;空间卷积层用于抽取当前帧的空间状态特征,并将空间信息融合为一维的时序信息;时序注意力机制层用于从复杂特征中增强目标信息,同时削弱冗余信息;因果分离卷积层用于挖掘数据特征在长时间尺度上的依赖性;批归一化层用于加快网络的训练和收敛的速度;全连接层用于将前层计算得到的特征空间映射样本标记空间;dropout层用于减轻网络训练过程中的过拟合现象;输出层用于表情分类识别。3.如权利要求2所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述输入层数据维度为b
×
c
×
h
×
w,分别表示超图的批数量、通道数量、超图分辨率的高度以及超图分辨率的宽度。4.如权利要求2所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述空间卷积层的输入通道数量为c,其空间卷积核的尺寸为c1×
k
h1
×
k
w1
,分别表示卷积核尺寸的深度、高度以及宽度,其沿着超图深度、高度、宽度滑动的步长均设置为s1,空间卷积层的作用是用于学习超图图像的空间语义信息,并将空间信息融合为一维的时序信息,时序特征可记为{f0,f1,
…
,f
t
},f
0:t
表示超图图像序列转化后的时序特征。5.如权利要求2所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述时序注意力机制层包括三个卷积核为1*1的卷积层,每一个卷积层都将输入序列f
0:t
映射为一个向量,三个向量分别记为key(k
0:t
)、query(q
0:t
)以及value(v
0:t
),向量key和query的维度均为为d
b
,注意力机制的权重计算如下:其中,k
i
和q
j
分别为key和query中的特征点,i:j=0,1,
…
,t,权重矩阵w的下三角部分可表示为
此外,采用softmax操作将w
l
转化为m
l
,并结合向量value中的特征点,最后可以得到时序注意力特征图a
t
:6.如权利要求2所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述因果分离卷积层由因果卷积和分离卷积构成,因果卷积考虑了时序特征的因果关系而分离卷积则在不增加学习参数的同时增加了卷积核的局部感受野;假设输入序列为f
0:t
,期望输出为y
0:t
,因果分离卷积确保时刻t的当前输出y
t
仅由f
0:t
决定,与f
t+1:t
无关;此外,对于一维序列以及一个卷积核针对序列f上的元素f
s
的因果分离卷积操作f如下:k
w2
为因果分离卷积核尺寸,g
i
为卷积核g中的第i个元素,d表示分离因子,因果分离卷积层的通道数量为c2,时间维度上的步长为s2。7.如权利要求2所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述批归一化层可以加快网络的训练和收敛的速度,批归一化层的计算如下:γ和β是可学习的参数,用于对输入数据进行变换,μ
b
与分别为输入批次数据的均值和方差,x
i
表示其中一条输入批次数据,ε
bn
表示常数项。8.如权利要求2所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述输出层为表情分类器,表情分类器的损失函数为:其中,y表示真实标签类别,f表示表情分类器的输出经过归一化后得到的关于每个类别的后验概率输出,f表示真实的表情标签总类别数。9.如权利要求1所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述特征提取器是指保存训练完毕的因果分离注意力卷积网络的模型结构以及内部参数后,去除网络的输出层,将网络全连接层的输出作为支持向量机的输入;在训练支持向量机的过程中,神经网络的参数不参与更新。10.如权利要求1所述的基于时序注意力机制的因果分离卷积的表情识别方法,其特征在于,它包括以下步骤:所述步骤3中支持向量机采用的核函数为径向基函数。
技术总结
本发明属于深度学习图像处理和模式识别领域,具体的说是一种基于时序注意力机制的因果分离卷积的表情识别方法。该方法包括:步骤1、获取大规模人脸表情及其对应的标注数据集,对其进行预处理后将相邻的三帧图像组成超图,并人为对这些超图进行标签。步骤2、将训练集数据随机地按批次输入因果分离注意力卷积神经网络中进行训练。步骤3、去除因果分离注意力卷积网络的输出层,并将因果分离注意力卷积网络作为特征提取器与支持向量机连接,冻结因果分离注意力卷积网络的参数后对支持向量机进行训练。步骤4、将测试集数据用于因果分离注意力卷积网络和支持向量机相结合的新模型(CDACN-SVM)上进行表情识别测试。SVM)上进行表情识别测试。SVM)上进行表情识别测试。
技术研发人员:梁益伟 刘润泽 宋昱辰 周教伦 石秉杰
受保护的技术使用者:梁益伟
技术研发日:2023.05.26
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/