面向司法场景的多模态融合身份鉴别方法、介质及设备
未命名
09-29
阅读:80
评论:0
1.本发明属于身份识别领域,具体涉及一种面向司法场景的多模态融合身份鉴别方法、介质及设备。
背景技术:
2.在司法领域的立案、庭审、诉服等场景中,均需要对当事人、代理人等人员身份进行识别。指纹、人脸、虹膜等是最为常见的用于进行人员身份鉴别的生物信息。
3.司法领域的场景中往往对于身份识别的准确率要求极高。理论上,基于多模态数据进行融合能够进一步提升身份鉴别能力。但现有技术中的多模态融合方案在实际应用中存在一些问题,例如与本发明最接近的案例为cn115565228a则仅使用两种模态的数据(人脸和虹膜)进行融合,仅主要用在特殊场景,克服单项生物特征局部遮挡或缺损带来的无法识别的问题。但是,与普通的身份识别场景不同的是,立案、庭审、诉服等场景中往往会因为情绪激动、长时间处于高压氛围等原因,导致人员的脸部出现扭曲或者原本不存在的皱纹等情况。对于此类情形,如何利用多模态数据,实现准确的身份鉴别,是目前亟待解决的技术问题。
技术实现要素:
4.本发明的目的在于解决现有技术中存在的问题,并提供一种面向司法场景的多模态融合身份鉴别方法、介质及设备。
5.本发明所采用的具体技术方案如下:
6.第一方面,本发明提供了一种面向司法场景的多模态融合身份鉴别方法,其包括:
7.s1、获取目标人员的多模态数据,包括人脸图像、虹膜图像或指纹图像;
8.s2、对人员的指纹图像、虹膜图像及人脸图像分别进行模态特征提取,得到第一指纹特征、第一虹膜特征和第一人脸特征,同时基于人脸图像进一步提取微表情特征及人脸关键点特征;
9.s3、将第一指纹特征、第一虹膜特征和第一人脸特征输入经过稀疏自适应多任务学习方法联合学习的多模态特征融合模块,经过进一步特征提取和融合后分别形成第二指纹特征、第二虹膜特征和第二人脸特征;
10.s4、将人脸关键点特征以及第二人脸特征输入在皱纹去相关约束下经过面部解耦与结构学习的图卷积神经网络中,得到去除皱纹的人脸解耦特征;
11.s5、将第二指纹特征、第二虹膜特征、去除皱纹的人脸解耦特征以及微表情特征拼接后输入自注意力模块中,通过自注意力机制形成多模态融合特征,以多模态融合特征在人员库中进行特征匹配,获得身份鉴别结果。
12.作为上述第一方面的优选,所述多模态特征融合模块包括用于提取特征的基础网络以及用于适应新任务的自适应扩展机制模块;
13.所述基础网络中包含多个级联的特征提取模块,基础网络的输入为提取到的多模
态特征,输出为经过进一步特征提取和融合得到的多模态特征;
14.所述自适应扩展机制模块具有多组,每一组自适应扩展机制模块对应于处理所述多模态特征中的一个特征模态;每一组自适应扩展机制模块中的模块数量与所述基础网络中的特征提取模块数量相同,每个特征提取模块的输出端连接一个自适应扩展机制模块,特征提取模块的原始输出首先经过自适应扩展机制模块,再将自适应扩展机制模块的输出以残差连接的方式加到所述原始输出上,并作为特征提取模块下游级联模块的输入;
15.所述自适应扩展机制模块中,模块输入首先经过由三个卷积层构成的特征适配器后得到中间特征,中间特征再输入门控裁剪策略模块中,经过gumbel-softmax操作获得代表当前自适应扩展机制模块是否需要激活的0或1取值的概率,将该概率与所述中间特征相乘后作为当前自适应扩展机制模块的输出。
16.作为上述第一方面的优选,所述特征适配器中的三个卷积层尺寸分别为1
×
1、3
×
3和1
×
1。
17.作为上述第一方面的优选,所述多模态特征融合模块在联合学习时所采用的稀疏自适应多任务学习方法如下:
18.在所述多模态特征融合模块末端连接三个不同的分类头,从而构成多任务学习框架进行多任务联合学习;
19.针对指纹图像、虹膜图像及人脸图像三类不同模态的图像样本,将其分别进行模态特征提取后,将提取的特征输入所述多任务学习框架中进行联合学习;联合学习过程中,每一种模态的图像样本特征输入多任务学习框架后,先经过所述多模态特征融合模块,经过基础网络以及对应模态的一组自适应扩展机制模块处理后,输出特征进入对应的分类头中获得人员身份鉴别结果;
20.且多任务联合学习时,每个模态的学习所用的损失函数表示为:
[0021][0022]
其中为人员身份识别对应的分类交叉熵损失;为神经网络的稀疏约束,为神经网络的激活约束,两个约束的计算式为:
[0023][0024][0025]
式中:l表示所述基础网络中的特征提取模块数量,θ
j,k
表示第j个特征提取模块对应的自适应扩展机制模块的第k个网络参数,|ωj|表示第j个特征提取模块对应的自适应扩展机制模块的可学习权重参数集合ωj的模;和分别表示稀疏度和激活度,计算式为:
[0026]
[0027][0028]
式中:表示批次中第k个样本对应的门控裁剪策略模块输出概率,|b|为一个批次中的样本数量,表示计算概率,σ表示阈值。
[0029]
作为上述第一方面的优选,所述图卷积神经网络中,根据人脸关键点特征以及第二人脸特征生成去除皱纹的人脸解耦特征的方法如下:
[0030]
s401、使用人脸关键点特征e4基于多头加注意力机制预测人脸关键区域注意力图集合:
[0031][0032]
式中:w1和w2是可学习的特征变换矩阵,tanh为tanh激活函数,softmax代表softmax操作;得到的人脸关键区域注意力图集合a中包含多个注意力图,第i个注意力图ai对应于第i个人脸关键点所在的人脸关键区域;
[0033]
s402、将人脸关键区域注意力图集合a中的各注意力图加权到第二人脸特征上,得到区域人脸特征集合v;
[0034]
s403、根据人脸关键区域注意力图集合a中各注意力图之间的重合度,判断任意两个区域人脸特征vi,vj之间是否存在连接边,若vi,vj对应的注意力图ai,aj的重合度超过阈值,则视为存在连接边,否则视为不存在连接边;
[0035]
s404、以区域人脸特征集合v作为图中的节点集合,并根据s403中的判断结果确定节点之间的连接边并构造邻接矩阵,将图输入图卷积神经网络(gcn)中,再对图卷积神经网络输出的节点特征进行图均值池化操作,得到去除皱纹的人脸解耦特征e3
*
。
[0036]
作为上述第一方面的优选,两个注意力图之间的所述重合度采用并交比进行计算。
[0037]
作为上述第一方面的优选,所述图卷积神经网络在训练时,需要输入从人脸图像中提取的皱纹特征作为辅助监督信号,且图卷积神经网络与自注意力模块联合进行训练,实现皱纹去相关约束下的面部解耦与结构学习;训练所用的损失函数包含两个损失项,第一个损失项为s5中最终得到的身份鉴别结果的range loss,第二个损失项为所述图卷积神经网络输出的人脸解耦特征与所述皱纹特征的相似度。
[0038]
第二方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述第一方面任一方案所述的面向司法场景的多模态融合身份鉴别方法。
[0039]
第三方面,本发明提供了一种计算机电子设备,其包括存储器和处理器;
[0040]
所述存储器,用于存储计算机程序;
[0041]
所述处理器,用于当执行所述计算机程序时,实现如上述第一方面任一方案所述的面向司法场景的多模态融合身份鉴别方法。
[0042]
第四方面,本发明提供了一种软硬件一体的司法场景身份鉴别设备,其包括:
[0043]
指纹图像采集装置,用于采集目标人员的指纹图像;
[0044]
虹膜图像采集装置,用于采集目标人员的虹膜图像;
[0045]
人脸图像采集装置,用于采集目标人员的人脸图像;
[0046]
身份识别模块,用于根据采集到的指纹图像、虹膜图像和人脸图像,按照如上述第一方面任一方案所述的面向司法场景的多模态融合身份鉴别方法,得到目标人员的身份鉴别结果。
[0047]
本发明相对于现有技术而言,具有以下有益效果:
[0048]
1)本发明提供了一种融合人脸、虹膜及指纹等多模态数据的身份鉴别方法,该方法能够应用在智慧司法应用场景,包括立案、庭审及诉服等司法身份鉴别场景。本发明基于多模态数据进行融合,能够进一步提升身份鉴别能力。
[0049]
2)本发明结合特征适配器和基于门控的裁剪策略设计了自适应扩展机制模块,并通过自适应扩展机制模块来实现了多模态特征融合模块在不同多模态数据中的联合学习。本发明借助稀疏自适应多任务学习方法进行联合学习,使一个模型能够同时对三个模态数据进行联合学习,支持一个模型同时输出三个模态的识别结果。
[0050]
3)为了精准的识别人员身份信息,本发明融入面部微表情、皱纹及关键点信息,确保不会因为面部纹理变化带来的误识别问题,最终借助自注意力机制对多模态特征及面部微特征进行联合学习,得到最终的识别结果,从而大大提高了司法场景中的身份识别准确率。
附图说明
[0051]
图1为面向司法场景的多模态融合身份鉴别方法的步骤流程图;
[0052]
图2为多模态特征融合模块连接分类头后构成的多任务学习框架示意图;
[0053]
图3为自适应扩展机制模块的结构示意图;
[0054]
图4为整个多模态融合身份鉴别方法训练时的框架示意图。
具体实施方式
[0055]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
[0056]
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0057]
在本发明的一个较佳实施例中,提供了一种面向司法场景的身份鉴别方法,其包括以下步骤:
[0058]
s1、获取目标人员的多模态数据,包括人脸图像、虹膜图像或指纹图像。
[0059]
s2、对人员的指纹图像、虹膜图像及人脸图像分别进行模态特征提取,得到第一指纹特征、第一虹膜特征和第一人脸特征,同时基于人脸图像进一步提取微表情特征及人脸关键点特征。
[0060]
s3、将第一指纹特征、第一虹膜特征和第一人脸特征输入经过稀疏自适应多任务
学习方法联合学习的多模态特征融合模块,经过进一步特征提取和融合后分别形成第二指纹特征、第二虹膜特征和第二人脸特征。
[0061]
s4、将人脸关键点特征以及第二人脸特征输入在皱纹去相关约束下经过面部解耦与结构学习的图卷积神经网络中,得到去除皱纹的人脸解耦特征。
[0062]
s5、将第二指纹特征、第二虹膜特征、去除皱纹的人脸解耦特征以及微表情特征拼接后输入自注意力模块中,通过自注意力机制形成多模态融合特征,以多模态融合特征在人员库中进行特征匹配,获得身份鉴别结果。
[0063]
本发明可对多模态数据进行融合,借助一套模型架构可实现三种模态的识别,能够进一步提升总体的身份鉴别能力,可应用在司法领域的立案、庭审、诉服等场景中对人员身份进行识别。
[0064]
需要说明的是,本发明中的s1步骤所说的获取目标人员的多模态数据,包括人脸图像、虹膜图像或指纹图像,可以是通过硬件设备在线获取相应的图像,也可以是离线读取已由硬件设备记录的相应图像,对此可不做限定。
[0065]
另外,本发明中对人员的指纹图像、虹膜图像及人脸图像分别进行的模态特征提取,属于现有技术,可参照各类图像自身在进行身份识别时的现有方案来实现。在本发明的实施例中,指纹图像的指纹识别系统可采用fingernet模型,对应的特征提取模型简称为fingerext;人脸图像的人脸识别系统可采用facenet模型,对应的特征提取模型简称为faceext;虹膜识别的虹膜识别系统可采用transformer模型,对应的特征提取模型简称为irisext。这些特征提取模型都需要预先进行训练,训练方式属于现有技术,对此不再赘述。因此,第一指纹特征、第一虹膜特征和第一人脸特征的提取过程可分别表述如下:
[0066]
第一指纹特征提取:将指纹图像f1输入用于指纹识别系统的已训练模型,提取对应指纹数据的特征表达,并经过layernorm进一步的归一化,该过程形式化为:
[0067]
e1=layernorm(fingerext(f1))
[0068]
第一虹膜特征提取:将虹膜图像i输入虹膜识别系统中的已训练模型,则取其第三层、第七层和倒数第二层特征(分别记为irisext_3、irisext_7、irisext_-2)进行特征提取,该过程形式化为:
[0069]
e2=layernorm(irisext_3(i)+irisext_7(i)+irisext_{-2}(i))
[0070]
第一人脸特征提取:将人脸图像f2输入人脸识别系统中的已训练模型,则取其倒数第二层特征为对应人脸数据的特征表达,再经过layernorm进一步的归一化,该过程形式化为
[0071]
e3=layernorm(faceext(f2))
[0072]
另外,针对基于采集的人脸图像数据,还可以利用相应的预训练模型(业界公开或自行预训练),提取人脸图像的人脸关键点特征、皱纹特征及微表情特征,分别记为得到e4,e5和e6特征。人脸关键点、皱纹及微表情的特征提取,均存在现有技术。例如,微表情识别的识别系统可采用lbp-top(local binary pattern),对应的特征提取模型简称为merext。同样,表情特征提取:基于表情识别系统中的已训练模型,同样取其第三层、第七层和倒数第二层特征(分别记为merext_3、merext_7、merext_-2)进行特征提取,形式化为:
[0073]
e6=layernorm(merext_3(i)+merext_7(i)+merext_{-2}(i))
[0074]
需要注意的是,在本发明中,为了使所有提取的特征映射到同一维度空间中,这些
从不同模态中提取的特征均需要进行linear线性映射。
[0075]
另外,在本发明的实施例中,由于本发明中需要同时输入多种模态的数据,因此设计了多任务学习框架来同时对人脸特征、虹膜特征、指纹特征进行融合学习。具体而言,该多任务学习框架是通过上述多模态特征融合模块来实现的。参见图2所示,多模态特征融合模块包括用于提取特征的基础网络以及用于适应新任务的自适应扩展机制模块。
[0076]
上述基础网络中包含多个级联的特征提取模块,基础网络的输入为提取到的多模态特征,输出为经过进一步特征提取和融合得到的多模态特征。基础网络的具体形式不限,在实施例中可采用resnet来实现,resnet的中间卷积部分包括stage1到stage4共计四个stage,每个stage可对应于基础网络中的一个特征提取模块,因此基础网络中一共有四个特征提取模块。
[0077]
在应用过程中,本发明尝试依据多任务学习框架对多个模态联合学习,其作用原理主要通过自适应扩展机制(adaptively expanding mechanism,aes)模块来实现。继续参见图2所示,aes模块具有多组,每一组aes模块对应于处理多模态特征中的一个特征模态,即在多模态特征融合模块中每增加一种模态的特征,则需要对应增加一组aes模块来促使了神经网络能够自适应于新模态的身份识别任务。而且,每一组aes模块中的模块数量与上述基础网络中的特征提取模块数量相同,对应于前述具有四个特征提取模块的实施例而言,每一组aes模块中包含四个aes模块。每个特征提取模块的输出端连接一个aes模块,特征提取模块的原始输出hj首先经过aes模块,获得aes模块的输出记为f
i,j
,再将aes模块的输出f
i,j
以残差连接的方式加到上述原始输出hj上,并作为特征提取模块下游级联模块的输入。此处特征提取模块的下游级联模块需要根据网络结构而定,对于最后一个特征提取模块而言其下游级联模块为整个多模态特征融合模块后端级联的网络模块(训练时为分类头),而不是最后一个特征提取模块的下游级联模块依然是特征提取模块。
[0078]
本发明中的aes模块通过内部的特殊机制,可以起到开关作用。参见图3所示,展示了aes模块的网络结构原理。第j个aes模块中,模块输入为对应的第j个特征提取模块输出hj,hj首先经过由三个卷积层构成的特征适配器d
i,j
后得到中间特征d
i,j
(hj),在本发明的实施例中,上述特征适配器中的三个卷积层尺寸分别为1
×
1、3
×
3和1
×
1,其对应的权重矩阵记为w
1i,j
、w
2i,j
、w
3i,j
。
[0079]
中间特征d
i,j
(hj)再输入门控裁剪策略模块中,经过gumbel-softmax操作获得代表当前aes模块是否需要激活的概率(该概率的取值为0或1),将该概率与中间特征d
i,j
(hj)相乘后作为当前aes模块的输出。
[0080]
由此可见,上述aes模块中包括两个重要模块:特征适配器(feature adapter)负责拓展适配新学习任务,基于门控(gate-based)的裁剪策略(pruning strategy)用于控制所拓展的神经元是否可以被裁剪掉,从而实现以最小化拓展代价实现最好多任务学习性能。如果gumbel-softmax操作获得的概率为0,则特征适配器输出中间特征d
i,j
(hj)实际并没有加到特征提取模块输出hj上,但gumbel-softmax操作获得的概率为0,则特征适配器输出的中间特征d
i,j
(hj)被加到了hj上,可以形式化为
[0081][0082]
在本发明的门控裁剪策略中,其主要作用是负责相应的神经元是否需要激活,但
激活操作与否属于二值操作而不可微。因此,本发明并没与采用传统的softmax,而是采用gumbel-softmax估计器进行近似计算。gumbel-softmax属于现有技术,其表达式如下:
[0083][0084]
其中,k表示0或1,v表示k的概率,g表示标准的gumbel(0,1)分布。进一步的,其one-hot形式表达为如下
[0085][0086]
其中,τ为相应的温度系数,默认为1。
[0087]
另外,由于多模态特征融合模块需要针对多模态数据进行多任务学习。因此,在多任务学习中会面临拓展网络过大带来的计算代价增多的问题。在本发明的实施例中,为了克服这个问题,提出了一种稀疏激活正则(sparsity-activation regularization)机制来保证。具体的,稀疏约束表达为
[0088][0089]
其中,l表示上述基础网络中的特征提取模块数量,θ
j,k
表示第j个特征提取模块对应的aes模块的第k个网络参数,|ωj|表示第j个特征提取模块对应的aes模块的可学习权重参数集合ωj的模。
[0090]
另外,定义第j个特征提取模块对应的aes模块的稀疏度为
[0091][0092]
其中,表示计算式子成立的概率,σ表示阈值,为超参数。
[0093]
而第j个特征提取模块对应的aes模块的激活度可以定义为:
[0094][0095]
其中,表示批次中第k个样本对应的门控裁剪策略模块输出概率|b|为batch中样本个数。
[0096]
那么对应的激活正则可表达为
[0097][0098]
那么,对于第i个任务,该多任务学习框架的训练损失可以表达为
[0099][0100]
其中,为人员身份识别对应的分类交叉熵损失;为神经网络的上述稀疏约束,为神经网络的上述激活约束,λs和λa分别为两个权重超参数,可根据实际进行优化。
[0101]
在上述s3步骤中,对多模态特征融合模块进行联合学习时,可基于上述定义采用
一种稀疏自适应多任务学习方法,做法如下:
[0102]
在该多模态特征融合模块末端连接三个不同的分类头,从而构成多任务学习框架进行多任务联合学习。针对指纹图像、虹膜图像及人脸图像三类不同模态的图像样本,将其分别进行模态特征提取后,将提取的特征输入该多任务学习框架中进行联合学习;联合学习过程中,每一种模态的图像样本特征输入多任务学习框架后,先经过上述多模态特征融合模块,经过基础网络以及对应模态的一组aes模块处理后,输出特征进入对应的分类头中获得人员身份鉴别结果。
[0103]
该多模态特征融合模块经过上述稀疏自适应多任务学习后,在用于实际推理时刻去除三个分类头,将第一指纹特征e1、第一虹膜特征e2和第一人脸特征e3输入该多模态特征融合模块,经过进一步特征提取和融合后即可分别形成新的三个特征e1'、e2'和e3',即前述的第二指纹特征、第二虹膜特征和第二人脸特征。
[0104]
另外,为了解决立案、庭审、诉服等场景中因为情绪激动、长时间处于高压氛围等原因导致人员的脸部出现扭曲或者原本不存在的皱纹等情况,上述s4步骤的图卷积神经网络需要对人脸进行结构解耦,并进行去皱纹处理。由此,在本发明的实施例中,上述s4步骤的图卷积神经网络中,根据人脸关键点特征以及第二人脸特征生成去除皱纹的人脸解耦特征的方法如下:
[0105]
s401、使用人脸关键点特征e4基于多头加注意力机制(multi-head additive attention)预测人脸关键区域注意力图集合:
[0106][0107]
式中:w1和w2是可学习的特征变换矩阵,tanh为tanh激活函数,softmax代表softmax操作。
[0108]
需要说明的是,由于人脸关键点有多个,因此上述人脸关键点特征e4实际上是一个特征集合。使用人脸关键点特征e4采用多头加注意力机制预测人脸关键区域注意图(attention map)时,对应得到的人脸关键区域注意力图集合a中也包含多个注意力图,第i个注意力图ai对应于第i个人脸关键点所在的人脸关键区域。由此,每一个注意力图代表一个关键区域高亮的区域,实现对人脸特征e1进行有关区域的解耦。
[0109]
s402、将人脸关键区域注意力图集合a中的各注意力图加权到第二人脸特征上,得到区域人脸特征集合v。该过程可以用公式表述为:
[0110]
v=f
disen
(e3
′
,a)
[0111]
式中:f
disen
表示用概率化的注意力图,对第二人脸特征e3'进行加权求和,得到区域人脸特征集合v。同样的,由于集合a中也包含多个注意力图,对应的区域人脸特征集合v中也包含了一系列的区域人脸特征vi。
[0112]
s403、根据人脸关键区域注意力图集合a中各注意力图之间的重合度,判断任意两个区域人脸特征vi,vj之间是否存在连接边,若vi,vj对应的注意力图ai,aj的并交比超过阈值,则视为存在连接边,否则视为不存在连接边。
[0113]
在本发明的实施例中,根据注意力图之间的重合度,确定区域人脸特征之间是否存在连接边的过程可以表述为:
[0114]ci,j
=i(iou(ai,aj>c))
[0115]
其中:i(
·
代表指示函数,满足条件返回1,不满足条件返回0。iou代表交并比,计
算注意力图之间的重合面积和注意力图合并面积的比例。αc为可手动调节的阈值,属于可优化的超参数。
[0116]
s404、以区域人脸特征集合v作为图中的节点集合,并根据s403中的判断结果确定节点之间的连接边并构造邻接矩阵,将图输入图卷积神经网络(gcn)中,再对图卷积神经网络输出的节点特征进行图均值池化操作,得到去除皱纹的人脸解耦特征e3
*
。
[0117]
具体而言,该步骤中输入gcn的图以区域人脸特征集合v作为节点集合,节点之间的连接由c
i,j
指定,通过gcn进行人脸区域和整体的结构学习:
[0118]v*
=gcn(v,c)
[0119]
e3
*
=pool(v
*
)
[0120]
其中c为以c
i,j
为元素排列构成的邻接矩阵;gcn的具体层数可根据实际进行优化,在本发明的实施例中,为三层图卷积神经网络;pool为图均值池化操作。
[0121]
上述图卷积神经网络在训练时,需要输入从人脸图像中提取的皱纹特征e5作为辅助监督信号,且图卷积神经网络与自注意力模块联合进行训练,实现皱纹去相关约束下的面部解耦与结构学习;训练所用的损失函数包含两个损失项,第一个损失项为s5中最终得到的身份鉴别结果的range loss,第二个损失项为上述图卷积神经网络输出的人脸解耦特征与上述皱纹特征e5的相似度,其公式可表达为:
[0122][0123]
其中φ为相似度度量函数,本实施例中可采用余弦相似度。引入的原因是司法庭审等场景中面部皱纹这种生物特征具有可变性,会随着情绪变化以及其他因素改变,因此需要采用上述约束损失函数进行场景特异性去相关,使图卷积神经网络输出的人脸解耦特征与皱纹特征e5的相似度尽可能低,即达到去除皱纹影响的目的。综上,本发明中整个多模态融合身份鉴别方法中各模型训练时的整体框架如图4所示。特别需要说明的是,其中的多模态特征融合模块需要预先利用前述的多任务学习框架进行多任务联合学习,而在图卷积神经网络与自注意力模块联合的联合训练阶段可以保持参数固定,当然也可以在预训练的基础上进行微调。
[0124]
同样的,司法诉服场景中受情绪化表达的影响,面部会有较多微表情,可视为目标身份的特点信息。因此,本发明中还基于采集的人脸数据和预训练模型提取了人脸图像微表情特征,即e6特征,参与最终生物特征识别环节中的多模态特征融合。
[0125]
在本发明的实施例中,在s6步骤的生物特征识别环节中,可对不同模态的特征表达进行融合,即得到的融合特征为emb=concat(e1',e2',e3
*
,e6),并输入自注意力模块中采用自注意力机制self-attention进行融合建模,其中融合特征emb作为k,q和v值,具体的表达式如下:
[0126][0127]
需要说明的是,即为自注意力模块的输出特征,该特征可直接在库中与各人员的特征进行相似度计算,并按照相似度进行人员匹配。
[0128]
另外需要注意的是,在实际应用中,虽然本发明需要输入多种模态的图像,但是假如存在某个模态数据缺失,则直接默认归一化为1(即不参与融合),也可以同样输出身份鉴
别结果。
[0129]
由此,本发明基于上述s1~s5所述的方法,提出了一种基于多模态数据融合的人员身份识别模式,其能够同时兼顾人脸、虹膜和指纹数据识别并应用在不同的场景中(如立案、庭审、诉服),且融合后的模型能够实现更优的身份鉴别能力。本发明所需的多模态数据包含多种人体身份属性信息,目前这些身份识别技术在司法领域中进行应用。例如,在司法领域的立案、庭审、诉服等场景中,均会对人员身份进行识别,而中基于多模态数据(人脸、虹膜、指纹)进行融合能够进一步提升身份鉴别能力。
[0130]
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的面向司法场景的多模态融合身份鉴别方法对应的一种电子设备,其包括存储器和处理器;
[0131]
所述存储器,用于存储计算机程序;
[0132]
所述处理器,用于当执行所述计算机程序时,实现前述任一实施例中描述的面向司法场景的多模态融合身份鉴别方法。
[0133]
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
[0134]
由此,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的面向司法场景的多模态融合身份鉴别方法对应的一种计算机可读存储介质,该所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现前述任一实施例中描述的面向司法场景的多模态融合身份鉴别方法。
[0135]
具体而言,在上述两个实施例的计算机可读存储介质中,存储的计算机程序被处理器执行,可执行前述s1~s5的步骤。
[0136]
可以理解的是,上述存储介质可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。同时存储介质还可以是u盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0137]
可以理解的是,上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0138]
另外需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本技术所提供的各实施例中,所述的系统和方法中对于步骤或者模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或步骤可以结合或者可以集成到一起,一个模块或者步骤亦可进行拆分。
[0139]
另外,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提
供的面向司法场景的多模态融合身份鉴别方法对应的一种软硬件一体的司法场景身份鉴别装置,其包括:
[0140]
指纹图像采集装置,用于采集目标人员的指纹图像;
[0141]
虹膜图像采集装置,用于采集目标人员的虹膜图像;
[0142]
人脸图像采集装置,用于采集目标人员的人脸图像;
[0143]
身份识别模块,用于根据采集到的指纹图像、虹膜图像和人脸图像,按照前述任一实施例中描述的面向司法场景的多模态融合身份鉴别方法,得到目标人员的身份鉴别结果。
[0144]
需要说明的是,此处的指纹图像采集装置、虹膜图像采集装置、人脸图像采集装置均存在现有的硬件设备,可采用任意能够实现相应采集功能的设备实现,对此不做限制。
[0145]
另外,在本发明的实施例中,为应对针对立案、诉服、庭审等场景中往往出现计算资源受限这一问题,还可以进一步将多模态数据通过特点存储硬件进行自适应划分、相对分离存储和典型特征缓存,引入物理约束机制,采用分布式并行异步特征匹配计算。同时,在计算硬件上,针对不同场景需求,适配和结合cpu、gpu、fpga和npu等硬件,在软件协同层,设计资源调度、通讯协议、容错机制和分布式框架,以支撑数据采集、存储缓存、调度负载、训练优化和推理预测全生命周期的软硬件一体身份鉴别。
[0146]
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
技术特征:
1.一种面向司法场景的多模态融合身份鉴别方法,其特征在于,包括:s1、获取目标人员的多模态数据,包括人脸图像、虹膜图像或指纹图像;s2、对人员的指纹图像、虹膜图像及人脸图像分别进行模态特征提取,得到第一指纹特征、第一虹膜特征和第一人脸特征,同时基于人脸图像进一步提取微表情特征及人脸关键点特征;s3、将第一指纹特征、第一虹膜特征和第一人脸特征输入经过稀疏自适应多任务学习方法联合学习的多模态特征融合模块,经过进一步特征提取和融合后分别形成第二指纹特征、第二虹膜特征和第二人脸特征;s4、将人脸关键点特征以及第二人脸特征输入在皱纹去相关约束下经过面部解耦与结构学习的图卷积神经网络中,得到去除皱纹的人脸解耦特征;s5、将第二指纹特征、第二虹膜特征、去除皱纹的人脸解耦特征以及微表情特征拼接后输入自注意力模块中,通过自注意力机制形成多模态融合特征,以多模态融合特征在人员库中进行特征匹配,获得身份鉴别结果。2.如权利要求1所述的面向司法场景的多模态融合身份鉴别方法,其特征在于,所述多模态特征融合模块包括用于提取特征的基础网络以及用于适应新任务的自适应扩展机制模块;所述基础网络中包含多个级联的特征提取模块,基础网络的输入为提取到的多模态特征,输出为经过进一步特征提取和融合得到的多模态特征;所述自适应扩展机制模块具有多组,每一组自适应扩展机制模块对应于处理所述多模态特征中的一个特征模态;每一组自适应扩展机制模块中的模块数量与所述基础网络中的特征提取模块数量相同,每个特征提取模块的输出端连接一个自适应扩展机制模块,特征提取模块的原始输出首先经过自适应扩展机制模块,再将自适应扩展机制模块的输出以残差连接的方式加到所述原始输出上,并作为特征提取模块下游级联模块的输入;所述自适应扩展机制模块中,模块输入首先经过由三个卷积层构成的特征适配器后得到中间特征,中间特征再输入门控裁剪策略模块中,经过gumbel-softmax操作获得代表当前自适应扩展机制模块是否需要激活的0或1取值的概率,将该概率与所述中间特征相乘后作为当前自适应扩展机制模块的输出。3.如权利要求2所述的面向司法场景的多模态融合身份鉴别方法,其特征在于,所述特征适配器中的三个卷积层尺寸分别为1
×
1、3
×
3和1
×
1。4.如权利要求2所述的面向司法场景的多模态融合身份鉴别方法,其特征在于,所述多模态特征融合模块在联合学习时所采用的稀疏自适应多任务学习方法如下:在所述多模态特征融合模块末端连接三个不同的分类头,从而构成多任务学习框架进行多任务联合学习;针对指纹图像、虹膜图像及人脸图像三类不同模态的图像样本,将其分别进行模态特征提取后,将提取的特征输入所述多任务学习框架中进行联合学习;联合学习过程中,每一种模态的图像样本特征输入多任务学习框架后,先经过所述多模态特征融合模块,经过基础网络以及对应模态的一组自适应扩展机制模块处理后,输出特征进入对应的分类头中获得人员身份鉴别结果;且多任务联合学习时,每个模态的学习所用的损失函数表示为:
其中为人员身份识别对应的分类交叉熵损失;为神经网络的稀疏约束,为神经网络的激活约束,两个约束的计算式为:为神经网络的激活约束,两个约束的计算式为:式中:l表示所述基础网络中的特征提取模块数量,θ
j,k
表示第j个特征提取模块对应的自适应扩展机制模块的第k个网络参数,|ω
j
|表示第j个特征提取模块对应的自适应扩展机制模块的可学习权重参数集合ω
j
的模;和分别表示稀疏度和激活度,计算式为:分别表示稀疏度和激活度,计算式为:式中:表示批次中第k个样本对应的门控裁剪策略模块输出概率,|b|为一个批次中的样本数量,表示计算概率,σ表示阈值。5.如权利要求1所述的面向司法场景的多模态融合身份鉴别方法,其特征在于,所述图卷积神经网络中,根据人脸关键点特征以及第二人脸特征生成去除皱纹的人脸解耦特征的方法如下:s401、使用人脸关键点特征e4基于多头加注意力机制预测人脸关键区域注意力图集合:式中:w1和w2是可学习的特征变换矩阵,tanh为tanh激活函数,softmax代表softmax操作;得到的人脸关键区域注意力图集合a中包含多个注意力图,第i个注意力图a
i
对应于第i个人脸关键点所在的人脸关键区域;s402、将人脸关键区域注意力图集合a中的各注意力图加权到第二人脸特征上,得到区域人脸特征集合v;s403、根据人脸关键区域注意力图集合a中各注意力图之间的重合度,判断任意两个区域人脸特征v
i
,v
j
之间是否存在连接边,若v
i
,v
j
对应的注意力图a
i
,a
j
的重合度超过阈值,则视为存在连接边,否则视为不存在连接边;s404、以区域人脸特征集合v作为图中的节点集合,并根据s403中的判断结果确定节点之间的连接边并构造邻接矩阵,将图输入图卷积神经网络(gcn)中,再对图卷积神经网络输出的节点特征进行图均值池化操作,得到去除皱纹的人脸解耦特征e3
*
。6.如权利要求5所述的面向司法场景的多模态融合身份鉴别方法,其特征在于,两个注意力图之间的所述重合度采用并交比进行计算。
7.如权利要求1所述的面向司法场景的多模态融合身份鉴别方法,其特征在于,所述图卷积神经网络在训练时,需要输入从人脸图像中提取的皱纹特征作为辅助监督信号,且图卷积神经网络与自注意力模块联合进行训练,实现皱纹去相关约束下的面部解耦与结构学习;训练所用的损失函数包含两个损失项,第一个损失项为s5中最终得到的身份鉴别结果的range loss,第二个损失项为所述图卷积神经网络输出的人脸解耦特征与所述皱纹特征的相似度。8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~7任一所述的面向司法场景的多模态融合身份鉴别方法。9.一种计算机电子设备,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1~7任一所述的面向司法场景的多模态融合身份鉴别方法。10.一种软硬件一体的司法场景身份鉴别设备,其特征在于,包括:指纹图像采集装置,用于采集目标人员的指纹图像;虹膜图像采集装置,用于采集目标人员的虹膜图像;人脸图像采集装置,用于采集目标人员的人脸图像;身份识别模块,用于根据采集到的指纹图像、虹膜图像和人脸图像,按照如权利要求1~9任一所述的面向司法场景的多模态融合身份鉴别方法,得到目标人员的身份鉴别结果。
技术总结
本发明公开了一种面向司法场景的多模态融合身份鉴别方法、介质及设备,属于身份识别领域。本发明能够通过对多种表征人体身份的人脸、虹膜及指纹等模态数据进行特征提取,并融入面部微表情、皱纹及关键点信息,确保不会因为面部纹理变化带来的误识别问题,最终借助自注意力机制对多模态特征及面部微特征进行联合学习,得到最终的识别结果。该方法能够应用在智慧司法的立案、庭审及诉服等司法身份鉴别场景中,实现优异地身份鉴别能力。实现优异地身份鉴别能力。实现优异地身份鉴别能力。
技术研发人员:吴飞 况琨 赵天琦 张圣宇
受保护的技术使用者:浙江大学
技术研发日:2023.06.16
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/