一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法
未命名
10-22
阅读:81
评论:0
1.本发明涉及检索方法技术领域,尤其涉及一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法。
背景技术:
2.随着众多社交网络平台的兴起,互联网上存在着大量的非结构化数据,这些数据以不同的模态(如图像,短视频,博客,评论和语音等)存储在网络中。多模态数据的激增使得人们对于数据的获取观念发生改变,人们对多模态数据进行高效检索的需求变得迫切。在现有的非结构化数据的检索方法中,无监督跨模态哈希(ucmh)检索方法由于其高效的存储和检索效率,以及标签不相关性获得广泛的关注。然而,检索精度有限仍然是在生产中应用ucmh方法的瓶颈。
3.在一个智能体的学习过程中,不仅要从现有的书本中学习固有的知识,还要向不同的教师或者专家学习富有经验性和实践性的额外知识。在这样一个学习过程中,个体不拘泥于固有的知识,用教师或专家的实践性知识验证所学的知识,从而获得较强的知识泛化能力。在机器学习领域,一个模型不仅需要从所固有的信息中学习知识(例如数据标签,手工特征等),还需要向教师或专家模型学习包含丰富语义信息的先验知识。
4.常见的无监督方法表示一组实例中的一对一关系,而不是其他邻域关系,因此存在相似性度量不准确的问题,导致检索精度有限,且现有的知识蒸馏方法没有探索多教师知识蒸馏的问题,且存在知识提炼不充分的问题。
技术实现要素:
5.本发明提出了一个动态多专家知识蒸馏(dmkd)的方法应用于无监督跨模态哈希检索,首先,使用现有的视觉语言预训练模型作为多专家模型,提取多模态数据细粒度的语义特征,设计了一种多专家选择机制,以动态地为不同训练样本的专家模型分配权重,并优化学生模型的性能,并系统地开发了一个多级别知识蒸馏的框架(mlkd),它包含一个辅助图卷积网络和一个多级别(特征级别,关系级别,响应级别)知识蒸馏模块,所提出的mlkd框架将专家模型提炼的特征进行邻域聚合,并实现多级别的知识蒸馏,在三个多模态检索基线数据集上进行的广泛实验证明了所提出方法的有效性,实验结果证明了dmkd与几种先进的无监督跨模态哈希方法相比的优越性。
6.本发明提供的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,所述无监督跨模态哈希检索方法由先后的四个部分组成:
7.学生哈希编码模块(she),通过深度神经网络将多模态数据编码为特征向量,然后通过全连接层映射为哈希码;
8.动态多专家选择模块(dmes),采用各种视觉语言预训练(vlp)模型作为专家模型,并设计了一个自适应学生的动态多专家选择策略,从而为每个批量的数据分配最优的专家模型;
9.图卷积哈希编码模块(gche);
10.多级别知识蒸馏模块(mlkd),设计一个多级知识蒸馏的框架,引入gnn来处理基于图的知识蒸馏,将教师网络的拓扑语义作为拓扑感知知识转移到学生网络中。
11.优选的,所述多级别知识蒸馏模块(mlkd)包含三种级别的知识蒸馏,分别是响应级别、特征级别和关系级别。
12.优选的,所述学生哈希编码模块(she)中,将图像和文本数据编码为中间层向量hi和h
t
,将视觉编码器表示为enci,文本特征编码器表示为enc
t
,公式如下:
[0013][0014]
其中i和t表示小批次的训练图像-文本配对,θi和θ
t
表示不同模态编码器的参数,m表示批次大小,hi和h
t
为通过全连接层被映射为二进制向量。
[0015]
优选的,所述学生哈希编码模块(she)中,在将图像和文本数据编码之后,通过迭代量化产生哈希码bi和b
t
,公式表达如下:
[0016][0017][0018]
其中α表示训练轮数,enc
*
(
·
,θ
hi
),*∈{hi,ht}表示图像和文本模态的哈希编码器,图像和文本模态的哈希码bi和b
t
被用来构造不同模态的余弦自相似性矩阵s
bi
和s
bt
。
[0019]
优选的,所述动态多专家选择模块(dmes)中,使用多个视觉语言预训练(vlp)模型作为多专家模型,并将多模态数据输入vl编码器以获得相应的特征,该方程式表示如下:
[0020][0021][0022]
其中vlenc
*
(
·
,θ
*
),*∈{i,t}代表vl变压器(专家模型)、k代表第k个被选择的专家模型,di和d
t
分别表示特征向量的维度;
[0023]
随后,用和来构造相应的相似性矩阵其中包含专家模型的细粒度特征相似度。
[0024]
优选的,在构造相应的相似性矩阵后,将不同专家模型的特征相似度与学生中间层特征相似度sh=cos(hi,h
t
)∈[-1,+1]m×m进行比较,从而选择与学生模型学习最匹配的专家,其公式如下:
[0025][0026]
其中arg min()表示用于索引最小值的函数,k表示为相应批次训练样本所选择的专家模型的索引。
[0027]
优选的,所述图卷积哈希编码(gche)中,在得到专家模型特征和后,首先构建专家特征相似度矩阵se,其公式表达如下:
[0028]
[0029]
s.t.0≤β,γ,δ≤1,β+γ+δ=1.
[0030]
其中β,γ,δ是平衡不同模态相似性的超参数;
[0031]
与此同时,所选择的专家特征和以及相似性矩阵被送入相应的图卷积神经网络中以聚合相似特征的信息产生更加高质量的哈希码;
[0032]
两层的图卷积哈希编码处理描述如下:
[0033][0034][0035]
其中w
(1)
和w
(2)
为可学习的参数矩阵,σ表示图神经网络中间层的激活函数,h
gi
和h
gt
表示gcn的中间层特征,α表示训练轮次,量化将哈希码的离散优化转换为一系列的连续性量化问题,由于利用图神经网络强大的邻域特征建模能力来聚合相似的数据特征,产生的哈希码b
gi
和b
gt
自然会保持原始特征的相似性。
[0036]
优选的,所述多级别的知识蒸馏(mlkd)中,哈希级知识提炼比较了由she组件和gche组件产生的哈希码bi,b
t
,b
gi
和b
gt
;
[0037]
基于关系的知识蒸馏对比学生网络的哈希相似度s
bi
,s
bt
和图卷积网络(gcn)哈希相似性s
gi
,s
gt
的损失,其中s
bi
=cos(bi,bi),s
bt
=cos(b
t
,b
t
)∈[-1,+1]m×m,同理可得图卷积哈希相似性矩阵s
gi
=cos(b
gi
,b
gi
),s
gt
=cos(b
gt
,b
gt
)∈[-1,+1]m×m;
[0038]
对于特征层面的知识提炼,利用学生网络中间层特征hi和h
t
,以及图卷积网络中间层特征h
gi
,h
gt
来构建均方误差损失;
[0039]
最后利用模态内相似性矩阵s
bi
,s
bt
和模态间相似性矩阵对专家特征相似性矩阵se进行近似,其中这些损失函数表示如下:
[0040][0041][0042][0043][0044][0045]
其中l
hash
表示哈希码水平kd损失,使gcn产生的哈希码与学生的哈希码一致,l
intra
表示模内相似性重构损失,将模态内哈希码的自相似性矩阵s
bi
,s
bt
与专家矩阵se进行比较,从而提炼出与学生网络的细粒度相似性,μ是一个可扩展的超参数,可调整哈希码的量化范围,l
cross
表示跨模态的相似性损失,有助于不同模态哈希码的融合和保存相似性,其中表示向量的内积,l
relation
表示基于关系的知识提炼损失,它将专家特征的细粒度相似性提炼
到学生网络中,最后特征级知识蒸馏损失l
feature
对学生和专家编码器中间层的特征进行蒸馏。
[0046]
优选的,所述多级别知识蒸馏模块(mlkd)中采用的动态多专家知识蒸馏(dmkd)方法是在nvidia rtx 3090gpu和32gb内存机器上用python编程语言和pytorch深度学习框架实现。
[0047]
与相关技术相比较,本发明具有如下有益效果:
[0048]
本发明受视觉语言预训练的启发,提出了一种有效的无监督跨模态哈希检索方法dmkd,采用各种多模态模型作为专家模型,开发了一种多专家选择策略dmes,以动态地为不同批次的训练样本分配专家模型权重,使学生模型从这种差异化的学习中获得对多模态知识的理解,所提出的多级别知识蒸馏模块mlkd,它包含三种级别的知识蒸馏(基于响应,基于特征和基于关系的知识蒸馏),该模块集合多种级别的知识蒸馏,更全面而有效地将专家模型的细粒度多模态信息蒸馏到学生模型,在三个多模态检索基准数据集上进行的充分实验表明,所提出的dmkd方法可以比其它无监督方法更有效的优化哈希函数,验证了所提出方法的优越性。
附图说明
[0049]
图1为三个多模态检索基线的数据集;
[0050]
图2为在两个检索任务以及三个基准数据集上map@5000对比结果;
[0051]
图3为在mirflickr-25k和nus-wide数据集上与基于师生范式的方法对比结果;
[0052]
图4为i
→
t和t
→
i任务中用ms coco基线数据集分析得到的top-k精度曲线;
[0053]
图5为i
→
t和t
→
i任务中用mirflickr-25k基线数据集分析得到的top-k精度曲线;
[0054]
图6为i
→
t和t
→
i任务中用nus-wide基线数据集分析得到的top-k精度曲线;
[0055]
图7为在mirflickr-25k和nus-wide数据集上与基于师生范式的方法对比结果;
[0056]
图8为在mirflickr-25k数据集上对ε,τ,η,λ进行128位的参数敏感性分析结果图;
[0057]
图9为本发明中采用的dmkd方法的算法流程图。
具体实施方式
[0058]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0059]
1包括深度跨模态哈希,视觉语言预训练和知识蒸馏的一些相关工作介绍;
[0060]
1.1深度跨模态哈希:
[0061]
深度学习在许多领域获得令人满意的效果。通过深度学习方法提取的深度特征包含更丰富的语义信息,并且具有更强的表达原始数据的能力。因此,将深度学习和哈希方法相结合应用于多模态检索可以显著提高检索效率。
[0062]
基于这一思想,近年来提出了许多具有创造性的方法。在这一部分,将介绍一些最
近具有代表性的深度跨模态哈希方法。
[0063]
跨模态哈希方法根据是否使用标签大致分为两类:有监督方法和无监督方法。有监督哈希方法使用语义标签弥合模态鸿沟并实现不同模态数据的语义对齐,从而使数据映射到哈希码的过程中保持标签的相似性。最经典的深度跨模态哈希工作是由jiang等人提出的dcmh,它首次结合了跨模态哈希算法和深度学习,并将特征和哈希码的学习统一到一个端到端的框架中。irgr提出了一种基于多实例关系图的推理方法,该方法充分利用了实例之间的细粒度关系来构造相似度矩阵,建立全局和局部实例关系图。然而,这些有监督的方法需要标签参与训练,但标签的获取需要大量的人工成本且标签往往存在噪声。
[0064]
因此无监督哈希方法因其标签独立性而具有更多的研究价值和应用前景。无监督跨模态哈希最具代表性的工作之一是深度联合语义重构哈希(djsrh),它设计一个联合语义亲和矩阵来统一不同模态数据的相似关系,并实现特征相似性矩阵和哈希矩阵的重构方法。在此方法的基础上,衍生了许多创造性的方法。例如,联合分布的相似性哈希(jdsh)提出了一种加权方案,该方案能够通过拉近语义相似的实例对和拉开语义不同的实例对来生成更具鉴别力的哈希码。深度自适应增强哈希(daeh)提出了一种具有判别相似性指导和自适应增强优化的策略,并使用额外的教师网络进行增强。然而,这些无监督方法表示一组实例中的一对一关系,而不是其他邻域关系,因此存在相似性度量不准确的问题,导致检索精度有限。受视觉语言预训练的启发,本发明探索使用多种视觉语言预训练模型进行知识蒸馏,从而提高检索的性能。
[0065]
1.2多模态表征学习:
[0066]
目前,多模态表征学习得到广泛的研究。这些工作尝试训练一个大型的多模态预训练模型,使它能够适用于各种下游任务(包括图文匹配和检索,目标检测等)。根据不同模态数据的交互方式,现有的多模态表征学习模型大致可分为两类:
[0067]
单流模型和双流模型。双流模型使用两个独立的编码器来学习视觉和语言的高级表征,它使用各种模态交互方式来进行视觉语言的语义对齐。单流模型将视觉输入切成patch,或者通过目标检测器获取视觉区域,文本单词编码成token,然后将视觉区域和文本token拼接并输入到一个统一的编码其中进行区域和单词的语义对齐。在经典的单流模型中,uniter通过联合多模态嵌入为异构的下游视觉语言任务提供动力,并在预训练任务中使用条件掩蔽。
[0068]
在双流模型的一系列经典工作中,clip使用一种无监督对比学习方法对4亿个图像文本对进行预训练,从自然语言的监督信息中学习可迁移的视觉模型,实现模型在下游任务的零样本转移。simvlm通过利用大规模弱监督来降低训练复杂性,并使用单前缀语言建模目标进行端到端训练。受视觉语言预训练相关工作的启发。
[0069]
据所知,本发明首次探索动态多专家知识蒸馏在无监督跨模态哈希检索任务上的性能并进行相关分析。
[0070]
1.3知识蒸馏(kd):
[0071]
知识蒸馏是一种模型压缩的方法,首次被hinton et.al提出。具体而言,知识蒸馏一般采用师生学习范式,将复杂、学习能力强的教师网络学到的特征表示“知识蒸馏”出来,传递给参数量小、学习能力弱的学生网络。
[0072]
蒸馏可以使得学生学习到教师模型中更加软化的知识,从而有效提升学生模型的
能力。一些基于知识蒸馏的检索方法已经获得了一些研究。例如,jog提出了一种有效的联合教学无监督学习框架,以追求高性能但轻量级的跨模态检索。核心思想是利用跨任务教师,以迁移知识来指导学生学习。
[0073]
kdcmh的教师模型采用了一种基于分布的无监督的相似性哈希方法。具体来说,它利用师生优化来传播知识,教师模型采用了一种基于分布的相似性权衡策略,该方法可以构造更有效的相似度矩阵。虽然这些方法取得了可观的性能,但它们还存在一些局限性。现有的知识蒸馏方法没有探索多教师知识蒸馏的问题,且存在知识提炼不充分的问题。因此,本发明设计了一个包含三种级别知识的蒸馏框架,从而将教师模型的知识更充分地蒸馏到学生网络,从而提升无监督跨模态哈希检索的性能。
[0074]
2方法论述
[0075]
2.1问题符号定义
[0076]
本发明将表示多模态图像-文本数据集,其中ii和ti表示成对的图像-文本数据。数据集被随机地切分成批量的训练样本o={o1,o2,...,oj}。对于每个批次的训练样本其中m表示批量大小。本发明使用和来表示vl专家模型的图像和文字特征编码。此外,本发明将学生哈希编码器生成的哈希码表示为bi∈{-1,+1}m×c和b
t
∈{-1,+1}m×c。由图卷积网络生成的哈希码表示为b
gi
∈{-1,+1}m×c和b
gt
∈{-1,+1}m×c,其中c代表哈希码长度。
[0077]
本发明将哈希码bi,b
t
,b
gi
,b
gt
构建对应的自相似性矩阵。然后,使用余弦相似性函数分别计算哈希码的相似性矩阵s
bi
=cos(bi,bi)∈[-1,+1]m×m和s
bt
=cos(b
t
,b
t
)∈[-1,+1]m×m。同理可得,使用图卷积哈希编码模块生成的哈希码来构造相似性矩阵s
gi
=cos(b
gi
,b
gi
)∈[-1,+1]m×m和s
gt
=cos(b
gt
,b
gt
)∈[-1,+1]m×m。
[0078]
无监督的跨模态散列旨在通过使用不同模态的样本对的信息将数据投射到一个统一的二进制空间来实现快速查询。同时,在数据映射中保留了数据的语义内在相似性。
[0079]
2.2模型概述
[0080]
如图2所示,本发明所提出的dmkd是一个端到端的学习框架,它集成了四个部分:学生哈希编码、动态多专家选择、图卷积哈希编码和多级别知识蒸馏模块。本发明的步骤如下:
[0081]
学生哈希编码(she):为了获取深层次语义信息的特征表示,所提出的she模块将图像和文本数据编码为中间层向量hi和h
t
。本发明将视觉编码器表示为enci,文本特征编码器表示为enc
t
,公式如下:
[0082][0083]
其中i和t表示小批次的训练图像-文本配对。θi和θ
t
表示不同模态编码器的参数。m表示批次大小。hi和h
t
为通过全连接层被映射为二进制向量,之后通过迭代量化产生哈希码bi和b
t
。公式表达如下:
[0084][0085][0086]
其中α表示训练轮数,enc
*
(
·
,θ
hi
),*∈{hi,ht}表示图像和
文本模态的哈希编码器。迭代量化策略被用来减少哈希码二值化的精度损失。最后,图像和文本模态的哈希码bi和b
t
被用来构造不同模态的余弦自相似性矩阵s
bi
和s
bt
。
[0087]
动态多专家选择(dmes):在的实验中,发现强大的专家模型不一定能训练出更好的学生模型,这受限于训练样本的差异和学生网络的表示能力。因此,本发明设计了一个动态多专家选择机制,为不同批次的训练样本选择合适的专家(教师)模型。首先,使用多个视觉语言预训练(vlp)模型作为多专家模型,并将多模态数据输入vl编码器以获得相应的特征。该方程式表示如下:
[0088][0089][0090]
其中vlenc
*
(
·
,θ
*
),*∈{i,t}代表vl变压器(专家模型)、k代表第k个被选择的专家模型。di和d
t
分别表示特征向量的维度。
[0091]
随后,本发明用和来构造相应的相似性矩阵其中值得注意的是,包含专家模型的细粒度特征相似度。最后,为了提供选择的依据,本发明将不同专家模型的特征相似度与学生中间层特征相似度sh=cos(hi,h
t
)∈[-1,+1]m×m进行比较,从而选择与学生模型学习最匹配的专家。其公式如下:
[0092][0093]
其中arg min()表示用于索引最小值的函数,k表示为相应批次训练样本所选择的专家模型的索引。
[0094]
图卷积哈希编码(gche):为了进一步挖掘专家模型的细粒度知识,本发明设计了gche组件来捕获更多的结构化语义。具体来说,得到专家模型特征和后,首先构建专家特征相似度矩阵se。其公式表达如下:
[0095][0096]
其中β,γ,δ是平衡不同模态相似性的超参数。
[0097]
与此同时,为了得到更为富有语义信息的哈希码,所选择的专家特征和以及相似性矩阵被送入相应的图卷积神经网络中。从而在这个过程中聚合相似特征的信息产生更加高质量的哈希码。两层的图卷积哈希编码处理描述如下:
[0098][0099][0100]
其中w
(1)
和w
(2)
为可学习的参数矩阵,σ表示图神经网络中间层的激活
函数。h
gi
和h
gt
表示gcn的中间层特征。此外,与公式2类似,α表示训练轮次,量化将哈希码的离散优化转换为一系列的连续性量化问题。最后,由于利用图神经网络强大的邻域特征建模能力来聚合相似的数据特征,产生的哈希码b
gi
和b
gt
自然会保持原始特征的相似性。具体来说,由于矩阵se的引导,相似的数据会产生更多的相关哈希码,而不相似的数据会产生更多的鉴别哈希码。
[0101]
多级别的知识蒸馏(mlkd):为了更全面地提炼出学生网络的多模态相似性信息,随提出的mlkd组件包含多层次的知识蒸馏。具体来说,哈希级知识提炼比较了由she组件和gche组件产生的哈希码bi,b
t
,b
gi
和b
gt
。基于关系的知识蒸馏对比学生网络的哈希相似度s
bi
,s
bt
和图卷积网络(gcn)哈希相似性s
gi
,s
gt
的损失,其中s
bi
=cos(bi,bi),s
bt
=cos(b
t
,b
t
)∈[-1,+1]m×m。同理可得图卷积哈希相似性矩阵s
gi
=cos(b
gi
,b
gi
),s
gt
=cos(b
gt
,b
gt
)∈[-1,+1]m×m。对于特征层面的知识提炼,利用学生网络中间层特征hi和h
t
,以及图卷积网络中间层特征h
gi
,h
gt
来构建均方误差损失。最后,利用模态内相似性矩阵s
bi
,s
bt
和模态间相似性矩阵对专家特征相似性矩阵se进行近似,其中这些损失函数表示如下:
[0102][0103][0104][0105][0106][0107]
其中l
hash
表示哈希码水平kd损失,使gcn产生的哈希码与学生的哈希码一致。l
intra
表示模内相似性重构损失。它将模态内哈希码的自相似性矩阵s
bi
,s
bt
与专家矩阵se进行比较,从而提炼出与学生网络的细粒度相似性。μ是一个可扩展的超参数,可调整哈希码的量化范围。l
cross
表示跨模态的相似性损失,有助于不同模态哈希码的融合和保存相似性,其中表示向量的内积。l
relation
表示基于关系的知识提炼损失,它将专家特征的细粒度相似性提炼到学生网络中。最后,特征级知识蒸馏损失l
feature
对学生和专家编码器中间层的特征进行蒸馏,从而保证信息的流畅传递。
[0108]
2.3整体代价函数
[0109]
整个模型的参数由sgd优化器迭代学习,直到模型的检索精度不再提高,训练结束。整体成本函数的公式表示如下:
[0110][0111]
s.t.bi,b
t
∈{-1,+1}m×c.
[0112]
其中ε,τ,η,λ是权衡的超参数。特别指出的是,在所提出的dmkd框架中使用的多专家网络可以用其他的多模态表征学习模型代替。
[0113]
学生哈希网络的持续优化是通过最小化成本函数实现的,图9中阐述了所提dmkd方法的详细训练及优化过程。
[0114]
3实验
[0115]
3.1数据集
[0116]
ms coco:ms coco的全称是microsoft common objects in context,它是一个规模非常庞大的数据集,用于目标检测、分割、图像描述等等场景。它包含123287张图片和对应的文本描述,每一对图像文本对包含一个91类的多标签,从而能够提供更多上下文信息。
[0117]
mirflickr-25k:
[0118]
该数据集是一个多标签数据集应用于多媒体任务,它采集了flickr网站上的来自24个不同类别的25,000张照片,相关文本和标签。为了表示相关的文本内容,它还提供了一个1386维的特征向量,该特征向量是通过对文本进行主成分分析而获得的。
[0119]
nus-wide:它是一个多标签数据集,包含从真实场景中收集的269,648个图文对及其相应的标签。在本发明的实验中,沿用之前相关工作的设置,选择了10个最广泛使用的类别和相关的186,577个图像文本对,每个文本短语提供了1000维的bow特征向量表示。这三个检索基准数据集的数据集划分展示在说明书附图1中的表格内。
[0120]
3.2实验设置
[0121]
在本发明中,所提出的dmkd方法是在nvidia rtx 3090gpu和32gb内存机器上用python编程语言和pytorch深度学习框架实现的。本发明的超参数设置如下:。此外,采用随机梯度下降算法进行网络的参数优化,学习率设置为0.01,权重衰减设置为5e-4,动量设置为0.9。
[0122]
为了统一实验的设置,遵循之前的先进方法,并利用vgg-16作为图像提取器。文本编码器使用全连接层作为骨干网络。对于gcn哈希编码模块,使用两层图卷积网络(df→
4096
→
c)来生成哈希码,其中df代表输入维度,c
[0123]
表示哈希码长度。对于多专家模型,本发明使用预训练的视觉语言模型不同变体(clip-rn101、clip-vit-b/16和clip-vit-b/32)作为多专家模型。特别是,专家模型可以用其他多模态表征学习模型替换。
[0124]
3.3性能对比
[0125]
在本发明中,为了证明所提出dmkd方法的有效性,在三个基线数据集(mscoco、mirflickr-25k和nus-wide)上进行了综合实验。通过性能比较、消融研究和参数分析,对提出的方法进行了整体分析。
[0126]
在本发明中,为了证明所提出的dmkd的功效。在三个数据集上与几个无监督的基线方法进行比较,包括djsrh,jdsh、hnh,dsah,dgcpn,duch,daeh。在i
→
t和t
→
i任务中分别用map@5000和top-n精度曲线来比较所有基线的检索精度,分别参考说明书附图2-6。
[0127]
3.4top-k精度曲线比较
[0128]
参考说明书附图4-6,即可得到在三个基准数据集上使用各种模型的top-n曲线的精度。
[0129]
3.5消融实验
[0130]
为了证明每个组件的有效性和贡献,设计了四个变体模型来验证每个组件的影响。消融研究的结果见表4,这些变体模型的描述如下:
[0131]
(1)dmkd-1:表示该变体模型不使用哈希级知识蒸馏。
[0132]
(2)dmkd-2:它表示这个变体没有特征级的知识蒸馏。
[0133]
(3)dmkd-3:它代表这个变体没有关系级的知识蒸馏损失。
[0134]
(4)dmkd-4:它表示该变体不使用动态多专家选择(dmes)组件。
[0135]
参考说明书附图7,其是在mirflickr-25k和nus-wide数据集上与基于师生范式的方法进行比较。
[0136]
3.6参数敏感性分析
[0137]
系统地研究了所提出的dmkd方法对超参数ε,τ,η,λ变化的敏感性。参数敏感性分析如图8所示。
[0138]
4结论
[0139]
本发明提出了一个新颖而有效的无监督跨模态哈希检索方法(dmkd),在所提出的方法中,一个自适应学生网络的动态多专家选择策略被设计用来为不同批次的多模态数据选择最优的专家模型。该策略使学生模型在这种差异化的学习过程中更好的优化哈希函数。其次,为了更有效的进行知识蒸馏,一个多级知识蒸馏框架被提出。该框架包含一个基于gnn的辅助编码网络和一个三种级别的知识蒸馏模块(即特征级别,关系级别,哈希码级别),这能更全面的将专家模型的细粒度多模态知识蒸馏到学生网络,从和提升ucmh的检索精度。最后,dmkd方法在不增加模型参数量的情况下提升了ucmh的检索性能,保持了模型的轻量化。在三个广泛使用的多媒体检索数据集上进行的充分的实验表明,所提出的方法能够通过视觉语言知识蒸馏方法提升学生模型的哈希表示学习能力,在多个评价指标上的性能优于最近的具有代表性的无监督跨模态哈希方法。
[0140]
需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0141]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述无监督跨模态哈希检索方法由先后的四个部分组成:学生哈希编码模块(she),通过深度神经网络将多模态数据编码为特征向量,然后通过全连接层映射为哈希码;动态多专家选择模块(dmes),采用各种视觉语言预训练(vlp)模型作为专家模型,并设计了一个自适应学生的动态多专家选择策略,从而为每个批量的数据分配最优的专家模型;图卷积哈希编码模块(gche);多级别知识蒸馏模块(mlkd),设计一个多级知识蒸馏的框架,引入gnn来处理基于图的知识蒸馏,将教师网络的拓扑语义作为拓扑感知知识转移到学生网络中。2.根据权利要求1所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述多级别知识蒸馏模块(mlkd)包含三种级别的知识蒸馏,分别是响应级别、特征级别和关系级别。3.根据权利要求1所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述学生哈希编码模块(she)中,将图像和文本数据编码为中间层向量h
i
和h
t
,将视觉编码器表示为enc
i
,文本特征编码器表示为enc
t
,公式如下:其中i和t表示小批次的训练图像-文本配对,θ
i
和θ
t
表示不同模态编码器的参数,m表示批次大小,h
i
和h
t
为通过全连接层被映射为二进制向量。4.根据权利要求3所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述学生哈希编码模块(she)中,在将图像和文本数据编码之后,通过迭代量化产生哈希码b
i
和b
t
,公式表达如下:,公式表达如下:其中α表示训练轮数,enc
*
(
·
,θ
hi
),*∈{hi,ht}表示图像和文本模态的哈希编码器,图像和文本模态的哈希码b
i
和b
t
被用来构造不同模态的余弦自相似性矩阵s
bi
和s
bt
。5.根据权利要求4所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述动态多专家选择模块(dmes)中,使用多个视觉语言预训练(vlp)模型作为多专家模型,并将多模态数据输入vl编码器以获得相应的特征,该方程式表示如下:作为多专家模型,并将多模态数据输入vl编码器以获得相应的特征,该方程式表示如下:其中vlenc
*
(
·
,θ
*
),*∈{i,t}代表vl变压器(专家模型)、k代表第k个被选择的专家模型,d
i
和d
t
分别表示特征向量的维度;随后,用和来构造相应的相似性矩阵其中其中包含专家模型的细粒度特征相似度。
6.根据权利要求5所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,在构造相应的相似性矩阵后,将不同专家模型的特征相似度与学生中间层特征相似度s
h
=cos(h
i
,h
t
)∈[-1,+1]
m
×
m
进行比较,从而选择与学生模型学习最匹配的专家,其公式如下:其中argmin()表示用于索引最小值的函数,k表示为相应批次训练样本所选择的专家模型的索引。7.根据权利要求6所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述图卷积哈希编码(gche)中,在得到专家模型特征和后,首先构建专家特征相似度矩阵s
e
,其公式表达如下:s.t.0≤β,γ,δ≤1,β+γ+δ=1.其中β,γ,δ是平衡不同模态相似性的超参数;与此同时,所选择的专家特征和以及相似性矩阵被送入相应的图卷积神经网络中以聚合相似特征的信息产生更加高质量的哈希码;两层的图卷积哈希编码处理描述如下:两层的图卷积哈希编码处理描述如下:其中w
(1)
和w
(2)
为可学习的参数矩阵,σ表示图神经网络中间层的激活函数,h
gi
和h
gt
表示gcn的中间层特征,α表示训练轮次,量化将哈希码的离散优化转换为一系列的连续性量化问题,由于利用图神经网络强大的邻域特征建模能力来聚合相似的数据特征,产生的哈希码b
gi
和b
gt
自然会保持原始特征的相似性。8.根据权利要求7所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述多级别的知识蒸馏(mlkd)中,哈希级知识提炼比较了由she组件和gche组件产生的哈希码b
i
,b
t
,b
gi
和b
gt
;基于关系的知识蒸馏对比学生网络的哈希相似度s
bi
,s
bt
和图卷积网络(gcn)哈希相似性s
gi
,s
gt
的损失,其中s
bi
=cos(b
i
,b
i
),s
bt
=cos(b
t
,b
t
)∈[-1,+1]
m
×
m
,同理可得图卷积哈希相似性矩阵s
gi
=cos(b
gi
,b
gi
),s
gt
=cos(b
gt
,b
gt
)∈[-1,+1]
m
×
m
;对于特征层面的知识提炼,利用学生网络中间层特征h
i
和h
t
以及图卷积网络中间层特征h
gi
,h
gt
来构建均方误差损失;最后利用模态内相似性矩阵s
bi
,s
bt
和模态间相似性矩阵对专家特征相似性矩阵s
e
进行近似,其中这些损失函数表示如下:
其中l
hash
表示哈希码水平kd损失,使gcn产生的哈希码与学生的哈希码一致,l
intra
表示模内相似性重构损失,将模态内哈希码的自相似性矩阵s
bi
,s
bt
与专家矩阵s
e
进行比较,从而提炼出与学生网络的细粒度相似性,μ是一个可扩展的超参数,可调整哈希码的量化范围,l
cross
表示跨模态的相似性损失,有助于不同模态哈希码的融合和保存相似性,其中表示向量的内积,l
relation
表示基于关系的知识提炼损失,它将专家特征的细粒度相似性提炼到学生网络中,最后特征级知识蒸馏损失l
feature
对学生和专家编码器中间层的特征进行蒸馏。9.根据权利要求1-8任一项所述的一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,其特征在于,所述多级别知识蒸馏模块(mlkd)中采用的动态多专家知识蒸馏(dmkd)方法是在nvidia rtx 3090gpu和32gb内存机器上用python编程语言和pytorch深度学习框架实现。
技术总结
本发明公开了一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法,涉及检索方法技术领域,包括:学生哈希编码模块(SHE),通过深度神经网络将多模态数据编码为特征向量,然后通过全连接层映射为哈希码;动态多专家选择模块(DMES),采用各种视觉语言预训练(VLP)模型作为专家模型,并设计了一个自适应学生的动态多专家选择策略,从而为每个批量的数据分配最优的专家模型;图卷积哈希编码模块(GCHE);多级别知识蒸馏模块(MLKD),设计一个多级知识蒸馏的框架,引入GNN来处理基于图的知识蒸馏,将教师网络的拓扑语义作为拓扑感知知识转移到学生网络中。本发明在三个多模态检索基准数据集上进行的充分实验表明验证了所提出方法的优越性。的优越性。的优越性。
技术研发人员:李明勇 李业文 张捷 吴宏浩
受保护的技术使用者:重庆师范大学
技术研发日:2023.05.20
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/