一种基于文本生成和迭代匹配的图文检索方法
未命名
10-08
阅读:81
评论:0

1.本发明属于跨模态检索领域,具体涉及一种基于文本生成和迭代匹配的图文检索方法。
背景技术:
2.随着移动网络、自媒体平台的迅速发展,大量的图像和文本数据不断涌现,这使得跨模态图像-文本检索的需求日渐庞大。图像-文本跨模态检索是根据一种模态信息在另一种模态的检索库中检索相关样本的任务,其在学术界和工业界都有着广泛的应用。然而,由于图像和文本的特征表示方式不同,跨模态图文检索面临着模态异构问题,度量图像和文本的相似性存在困难。
3.随着移动网络、自媒体平台的迅速发展,大量的图像和文本数据不断涌现,这使得跨模态图像-文本检索的需求日渐庞大。图像-文本跨模态检索是根据一种模态信息在另一种模态的检索库中检索相关样本的任务,其在学术界和工业界都有着广泛的应用。然而,由于图像和文本的特征表示方式不同,跨模态图文检索面临着模态异构问题,度量图像和文本的相似性存在困难。
技术实现要素:
4.本发明的目的在于针对解决背景技术中提出的问题,提出一种基于文本生成和迭代匹配的图文检索方法。
5.为实现上述目的,本发明所采取的技术方案为:
6.本发明提出的一种基于文本生成和迭代匹配的图文检索方法,包括:
7.s1、利用bi-gru网络模型和cnn网络模型依次提取出初始文本特征向量和初始图像特征向量。
8.s2、分别对bi-gru网络模型和cnn网络模型进行如下训练:
9.s2.1、基于初始文本特征向量,对初始图像特征向量中的每一项图像特征,进行图像特征迭代融合操作,获取融合后的图像特征向量,并进行k次迭代融合,得到经过k次迭代融合后的图像特征向量。
10.s2.2、基于初始图像特征向量,对初始文本特征向量中的每一项文本特征,进行文本特征迭代融合操作,获取融合后的文本特征向量,并进行k次迭代融合,得到经过k次迭代融合后的文本特征向量。
11.s2.3、利用分别经过k次迭代融合后的图像特征向量和文本特征向量设计三元组损失函数优化迭代融合操作过程。
12.s2.4、将经过k次迭代融合后的图像特征向量输入至包括编码器和解码器的文本生成模块中,生成文本特征序列,并设计损失函数优化文本生成模块。
13.s3、将待检索的图像或文本对应输入至训练好的cnn网络模型或bi-gru网络模型中,对应输出图像特征或文本特征。
14.s4、将输出的图像特征或文本特征与数据库中文本特征或图像特征进行余弦相似度计算,并将数据库中相似度最大的前若干名的文本特征或图像特征作为检索的结果输出。
15.优选地,利用bi-gru网络模型和cnn网络模型依次提取出初始文本特征向量和初始图像特征向量,包括:
16.令初始图像特征向量为v0={v
0i
|i=1,2,
…
,m,v
0i
∈rd},初始文本特征向量为t0={t
0j
|j=1,2,
…
,n,t
0j
∈rd},其中,rd表示d维的向量,v
0i
表示初始图像特征向量中的第i个图像特征,m表示图像特征数量,t
0j
表示初始文本特征向量中的第j个文本特征,n表示文本特征数量。
17.优选地,基于初始文本特征向量,对初始图像特征向量中的每一项图像特征,进行图像特征迭代融合操作,获取融合后的图像特征向量,并进行k次迭代融合,得到经过k次迭代融合后的图像特征向量,包括:
18.在进行第k次迭代融合的图像特征向量表示为vk={v
ki
|i=1,2,
…
,m,v
ki
∈rd},其中k表示迭代次数,且k=0,1,2,
…
k,v
ki
表示在进行第k次迭代融合的图像特征向量中的第i个图像特征;
19.s2.1.1、对于第k次迭代融合,使用余弦函数分别计算每个图像特征v
ki
与初始文本特征向量t0中每个文本特征t
0j
的相似性s
kij
,且计算公式如下:
[0020][0021]
其中,t表示转置,sim表示余弦函数;
[0022]
s2.1.2、然后对相似性s
kij
进行相似度归一化,且计算公式如下:
[0023][0024]
其中,表示相似性s
kij
进行相似度归一化后的,relu表示激活函数;
[0025]
s2.1.3、对每个图像特征v
ki
,采用自适应方法,通过softmax函数分别计算每一个图像特征v
ki
与初始文本特征向量t0中每个文本特征t
0j
的关系权重α
kij
,即注意力值,且计算公式如下:
[0026][0027]
其中,表示用于调整注意力分布的温度系数,α
kij
表示第k次迭代融合中图像特征向量vk中第i个图像特征v
ki
与初始文本特征向量t0中第j个文本特征t
0j
的关系权重;
[0028]
s2.1.4、通过跨模态注意力机制让每个图像特征分别与每个文本特征都进行交互(删),以加权求和的方式计算出一个图像特征v
ki
在初始文本特征向量t0中的上下文关系且计算公式如下:
[0029][0030]
其中,表示第k次迭代融合中第i个图像特征v
ki
与初始文本特征向量t0的上下文关系图像特征;
[0031]
则第k次迭代融合的图像特征向量vk与初始文本特征向量t0的上下文关系图像特征向量
[0032]
s2.1.5、利用门控机制将每个图像特征v
ki
分别与每个上下文关系图像特征进行特征蒸馏,得到蒸馏后的图像特征v
ki
*,且公式表示如下:
[0033][0034]
其中,d(
·
)表示门控机制;
[0035]
然后聚合图像特征向量vk和上下文关系图像特征向量得到蒸馏后的图像特征向量v
k+1
={v
ki
*|i=1,2,
…
,m,v
ki
*∈rd},且为第k次迭代融合后的图像特征向量,并作为下一次图像特征迭代融合的输入;
[0036]
将得到上下文关系图像特征向量的过程和图像特征蒸馏的过程依次循环迭代k次,得到经过k次迭代融合后的图像特征向量。
[0037]
优选地,基于初始图像特征向量,对初始文本特征向量中的每一项文本特征,进行文本特征迭代融合操作,获取融合后的文本特征向量,并进行k次迭代融合,得到经过k次迭代融合后的文本特征向量,包括:
[0038]
在进行第k次迭代融合的文本特征向量表示为tk={t
kj
|j=1,2,
…
,n,t
kj
∈rd},t
kj
表示在进行第k次迭代融合的文本特征向量中的第j个文本特征;
[0039]
s2.2.1、对于第k次迭代融合,使用余弦函数分别计算每个文本特征t
kj
与初始图像特征向量v0中的每个图像特征v
0i
的相似性s
kij’,且计算公式如下:
[0040][0041]
s2.2.2、然后对相似性s
kij’进行相似度归一化,且计算公式如下:
[0042][0043]
其中,表示相似性s
kij’进行相似度归一化后的;
[0044]
s2.2.3、对每个文本特征t
kj
,采用自适应方法,通过softmax函数分别计算每一个文本特征t
kj
与初始图像特征向量v0中的每个图像特征v
0i
的关系权重α
kij’,即注意力值,且计算公式如下:
[0045][0046]
其中,α
kij’表示第k次迭代融合中文本特征向量tk中第j个文本特征t
kj
与初始图像特征向量v0中第i个图像特征v
0i
的关系权重;
[0047]
s2.2.4、通过跨模态注意力机制让每个图像特征分别与每个文本特征都进行交互,(删)以加权求和的方式总结出一个文本特征t
kj
在初始图像特征向量v0中的上下文关系且计算公式如下:
[0048][0049]
其中,表示第k次迭代融合中第i个文本特征t
kj
与初始图像特征向量v0的上下文关系文本特征;
[0050]
则第k次迭代融合的文本特征向量tk与初始图像特征向量v0的上下文关系文本特征向量
[0051]
s2.2.5、利用门控机制将每个文本特征t
kj
分别与每个上下文关系文本特征进行特征蒸馏,得到蒸馏后的文本特征t
kj*
,且公式表示如下:
[0052][0053]
然后聚合文本特征向量tk和上下文关系图像特征向量得到蒸馏后的文本特征向量t
k+1
={t
kj*
|i=1,2,
…
,n,t
kj*
∈rd},且为第k次迭代融合后的文本特征向量,并作为下一次文本特征迭代融合的输入;
[0054]
将得到上下文关系文本特征向量的过程和文本特征蒸馏的过程依次循环迭代k次,得到经过k次迭代融合后的文本特征向量。
[0055]
优选地,利用分别经过k次迭代融合后的图像特征向量和文本特征向量设计三元组损失函数优化迭代融合操作过程,包括:
[0056]
对于第k次迭代融合,计算迭代融合后的图像特征向量中图像特征v
ki
与上下文关系图像特征的相似度,以及计算迭代融合后的文本特征向量中文本特征t
kj
与上下文关系文本特征的相似度,然后加和得到第k次迭代融合的整体图像-文本相似度fk(v,t),且公式如下:
[0057][0058]
其中,v表示整体图像,t表示整体文本;
[0059]
经过k次迭代后将所有的整体图像-文本相似度求和,得到图像和文本之间总的相似度f(v,t),且公式如下:
[0060][0061]
得到小区域强负样本的三元组损失l
triplet
:
[0062][0063]
其中,[x]
+
≡max(x,0)保证值不为负,α表示边缘因子,表示整体图像的负样本,表示整体文本的负样本。
[0064]
优选地,将经过k次迭代融合后的图像特征向量输入至包括编码器和解码器的文本生成模块中,生成文本特征序列,包括:
[0065]
编码器的第一层为linear层,编码器的第二层为第一gru层;
[0066]
解码器的第一层为嵌入层,解码器的第二层为dropout层,解码器的第三层为第二gru层;
[0067]
首先将经过k次迭代融合后的图像特征输入至编码器的linear层并经过dropout操作输出第一图像特征;
[0068]
然后将第一图像特征输入至第一gru层,第一gru层利用图像特征转换函数将输入的第一图像特征中的各特征转变为一个固定维度的向量且第一图像特征中的所有特征都完成转变得到序列特征空间其中a表示总步长数;
[0069]
将各向量输入至解码器中,且依次经过嵌入层、dropout层和第二gru层处理,并且在第二gru层中用当前时间步对应的文本特征xa和前一个隐藏单元生成的隐藏状态h
a-1
,生成包含了上文信息的隐藏状态向量ha,每个时间步长对应一个隐藏单元,且用函数表示如下:
[0070]
ha=f
θ
(xa,h
a-1
)
[0071]
计算每个生成时间步长a上对应的正确文本特征的生成概率:
[0072]
通过向量点积计算当前隐藏状态ha与词汇表中每个文本特征嵌入向量的相似度,并且将相似度作为每个文本特征类别的生成概率p(w|ha),且计算公式如下:
[0073][0074]
其中,d表示包含n个文本特征的词汇表,ww表示词汇表d中每个文本特征w的学习嵌入向量;
[0075]
将词汇表中的n个文本特征看成n个类别,在第a个时间步长上,根据由n个文本特征组成以one-hot编码的样本真实文本特征分布向量la=[l0,l1,
…
,l
n-1
],通过公式(1)得到当前时间步长a上生成文本特征的概率分布向量为pa=[p0,p1,
…
,p
n-1
],其中p0,p1,
…
,p
n-1
中的最大值p
max-a
即为每个生成时间步a上对应的正确文本特征sa的生成概率;
[0076]
完成a个时间步的计算,由每个时间步隐藏状态序列{h1,h2,
…
,ha}和公式(1),得到每个时间步生成文本特征的概率分布向量序列{p1,p2,
…
,pa},然后取每个时间步a上的最大值p
max-a
对应的正确文本特征sa,最终生成了对应的生成文本序列s={s1,
…
,sa}。
[0077]
优选地,设计损失函数优化文本生成模块,包括:
[0078]
最小化每个时间步长生成文本特征的概率分布向量和真实文本特征分布向量的交叉熵,然后通过累加每个时间步长得到整个句子的损失值l
align
:
[0079][0080]
其中,e表示优化参数,la(i)表示第i个真实文本特征分布向量,pa(i)表示第i个生成文本特征的概率分布向量。
[0081]
优选地,bi-gru网络模型和cnn网络模型训练过程的整体损失l
total
设计如下:
[0082]
使用超参数来聚合三元组损失与文本生成模块的损失,且具体公式如下:
[0083]
l
total
=l
triplet
+μ*l
align
。
[0084]
与现有技术相比,本发明的有益效果为:
[0085]
本基于文本生成和迭代匹配的图文检索方法通过分别训练bi-gru网络模型和cnn网络模型,利用训练好的bi-gru网络模型和cnn网络模型分别提取文本特征和图像特征,再分别与数据库中的图像特征和文本特征计算相似度,将数据库中相似度最大的前若干名的图像特征和文本特征作为检索的结果输出,实现图文检索;
[0086]
在训练bi-gru网络模型和cnn网络模型过程中,首先通过迭代融合获取迭代融合后的图像特征向量和文本特征向量,再将迭代完成后的图像特征输入至文本生成模块中,转化为文本序列,以实现对公共语义空间的优化;文本生成模块采用特征转换的思路将图像特征映射到句子特征,通过图文信息交互增强了图像和文本的整体语义相关性,有效解决跨模态图文检索中难以直接度量图像和文本的相似性的问题,提升图文检索精度。
附图说明
[0087]
图1为本发明基于文本生成和迭代匹配的图文检索方法框架示意图;
[0088]
图2为本发明基于文本生成模型的结构示意图;
[0089]
图3为本发明基于文本生成和迭代匹配的图文检索方法的流程示意图。
具体实施方式
[0090]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0091]
需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本技术。
[0092]
在一个实施例中,如图1-3所示,一种基于文本生成和迭代匹配的图文检索方法,包括:
[0093]
s1、利用bi-gru网络模型和cnn网络模型依次提取出初始文本特征向量和初始图像特征向量,具体包括:
[0094]
令初始图像特征向量为v0={v
0i
|i=1,2,
…
,m,v
0i
∈rd},初始文本特征向量为t0={t
0j
|j=1,2,
…
,n,t
0j
∈rd},其中,rd表示d维的向量,v
0i
表示初始图像特征向量中的第i
个图像特征,m表示图像特征数量,t
0j
表示初始文本特征向量中的第j个文本特征,n表示文本特征数量。
[0095]
其中初始图像特征向量v0和初始文本特征向量t0中k的取值为0,且在取0时,在该次迭代融合后的结果为图像特征向量v1和文本特征向量t2。
[0096]
s2、分别对bi-gru网络模型和cnn网络模型进行如下训练:
[0097]
s2.1、基于初始文本特征向量,对初始图像特征向量中的每一项图像特征,进行图像特征迭代融合操作,获取融合后的图像特征向量,并进行k次迭代融合,得到经过k次迭代融合后的图像特征向量。
[0098]
s2.1具体包括:首先在进行第k次迭代融合的图像特征向量表示为vk={v
ki
|i=1,2,
…
,m,v
ki
∈rd},其中k表示迭代次数,且k=0,1,2,
…
k,v
ki
表示在进行第k次迭代融合的图像特征向量中的第i个图像特征。
[0099]
s2.1.1、对于第k次迭代融合,使用余弦函数分别计算每个图像特征v
ki
与初始文本特征向量t0中每个文本特征t
0j
的相似性s
kij
,且计算公式如下:
[0100][0101]
其中,t表示转置,sim表示余弦函数。
[0102]
s2.1.2、然后对相似性s
kij
进行相似度归一化,且计算公式如下:
[0103][0104]
其中,表示相似性s
kij
进行相似度归一化后的,relu表示激活函数;
[0105]
s2.1.3、对每个图像特征v
ki
,采用自适应方法,通过softmax函数分别计算每一个图像特征v
ki
与初始文本特征向量t0中每个文本特征t
0j
的关系权重α
kij
(即注意力值),且计算公式如下:
[0106][0107]
其中,表示用于调整注意力分布的温度系数,α
kij
表示第k次迭代融合中图像特征向量vk中第i个图像特征v
ki
与初始文本特征向量t0中第j个文本特征t
0j
的关系权重;
[0108]
s2.1.4、以加权求和的方式计算出一个图像特征v
ki
在初始文本特征向量t0中的上下文关系(即通过跨模态注意力机制让每个图像特征分别与初始文本特征向量中每个文本特征都进行交互),且计算公式如下:
[0109][0110]
其中,表示第k次迭代融合中第i个图像特征v
ki
与初始文本特征向量t0的上下文关系图像特征;
[0111]
则第k次迭代融合的图像特征向量vk与初始文本特征向量t0的上下文关系图像特
征向量
[0112]
s2.1.5、利用门控机制将每个图像特征v
ki
分别与每个上下文关系图像特征进行特征蒸馏,得到蒸馏后的图像特征v
ki*
,且公式表示如下:
[0113][0114]
其中,d(
·
)表示门控机制。
[0115]
然后聚合图像特征向量vk和上下文关系图像特征向量得到蒸馏后的图像特征向量v
k+1
={v
ki*
|i=1,2,
…
,m,v
ki*
∈rd},且为第k次迭代融合后的图像特征向量,并作为下一次图像特征迭代融合的输入。
[0116]
将得到上下文关系图像特征向量的过程和图像特征蒸馏的过程依次循环迭代k次,得到经过k次迭代融合后的图像特征向量。
[0117]
s2.2、基于初始图像特征向量,对初始文本特征向量中的每一项文本特征,进行文本特征迭代融合操作,获取融合后的文本特征向量,并进行k次迭代融合,得到经过k次迭代融合后的文本特征向量。
[0118]
s2.2具体包括:首先在进行第k次迭代融合的文本特征向量表示为tk={t
kj
|j=1,2,
…
,n,t
kj
∈rd},t
kj
表示在进行第k次迭代融合的文本特征向量中的第j个文本特征。
[0119]
s2.2.1、对于第k次迭代融合,使用余弦函数分别计算每个文本特征t
kj
与初始图像特征向量v0中的每个图像特征v
0i
的相似性s
kij’,且计算公式如下:
[0120][0121]
s2.2.2、然后对相似性s
kij’进行相似度归一化,且计算公式如下:
[0122][0123]
其中,表示相似性s
kij’进行相似度归一化后的。
[0124]
s2.2.3、对每个文本特征t
kj
,采用自适应方法,通过softmax函数分别计算每一个文本特征t
kj
与初始图像特征向量v0中的每个图像特征v
0i
的关系权重α
kij’(即注意力值),且计算公式如下:
[0125][0126]
其中,α
kij’表示第k次迭代融合中文本特征向量tk中第j个文本特征t
kj
与初始图像特征向量v0中第i个图像特征v
0i
的关系权重。
[0127]
s2.2.4、以加权求和的方式总结出一个文本特征t
kj
在初始图像特征向量v0中的上下文关系(即通过跨模态注意力机制让每个文本特征分别与初始图像特征向量中每个文本特征都进行交互),且计算公式如下:
[0128]
[0129]
其中,表示第k次迭代融合中第i个文本特征t
kj
与初始图像特征向量v0的上下文关系文本特征。
[0130]
则第k次迭代融合的文本特征向量tk与初始图像特征向量v0的上下文关系文本特征向量
[0131]
s2.2.5、利用门控机制将每个文本特征t
kj
分别与每个上下文关系文本特征进行特征蒸馏,得到蒸馏后的文本特征t
kj*
,且公式表示如下:
[0132][0133]
然后聚合文本特征向量tk和上下文关系图像特征向量得到蒸馏后的文本特征向量t
k+1
={t
kj*
|i=1,2,
…
,n,t
kj*
∈rd},且为第k次迭代融合后的文本特征向量,并作为下一次文本特征迭代融合的输入。
[0134]
将得到上下文关系文本特征向量的过程和文本特征蒸馏的过程依次循环迭代k次,得到经过k次迭代融合后的文本特征向量。
[0135]
s2.3、利用分别经过k次迭代融合后的图像特征向量和文本特征向量设计三元组损失函数优化迭代融合操作过程。
[0136]
s2.3具体包括:对于第k次迭代融合,计算迭代融合后的图像特征向量中图像特征v
ki
与上下文关系图像特征的相似度,以及计算迭代融合后的文本特征向量中文本特征t
kj
与上下文关系文本特征的相似度,然后加和得到第k次迭代融合的整体图像-文本相似度fk(v,t),且公式如下:
[0137][0138]
其中,v表示整体图像,t表示整体文本。
[0139]
经过k次迭代后将所有的整体图像-文本相似度求和,得到图像和文本之间总的相似度f(v,t),且公式如下:
[0140][0141]
得到小区域强负样本的三元组损失l
triplet
:
[0142][0143]
其中,[x]
+
≡max(x,0)保证值不为负,α表示边缘因子,表示整体图像的负样本,表示整体文本的负样本。
[0144]
s2.4、将经过k次迭代融合后的图像特征向量输入至包括编码器和解码器的文本生成模块中,生成文本特征序列,并设计损失函数优化文本生成模块。
[0145]
s2.4具体包括:所述编码器的第一层为linear层,所述编码器的第二层为第一gru(门控循环单元)层;
[0146]
所述解码器的第一层为嵌入层,所述解码器的第二层为dropout层,所述解码器的第三层为第二gru(门控循环单元)层。
[0147]
首先将经过k次迭代融合后的图像特征输入至编码器的linear层并经过dropout操作(防止过拟合)输出第一图像特征。
[0148]
然后将第一图像特征输入至第一gru层,第一gru层利用图像特征转换函数将输入的第一图像特征中的各特征转变为一个固定维度的向量且第一图像特征中的所有特征都完成转变得到序列特征空间其中a表示总步长数。
[0149]
将各向量输入至解码器中,且依次经过嵌入层(如图2所示,在嵌入层中计算各向量的注意力值,将注意力值与各向量嵌入后的向量拼接,并输入至dropout层)、dropout层(防止过拟合)和第二gru层(第二gru层包括若干个隐藏单元)处理,并且在第二gru层中用当前时间步对应的文本特征xa和前一个隐藏单元生成的隐藏状态h
a-1
,生成包含了上文信息的隐藏状态向量ha,每个时间步长对应一个隐藏单元,且用函数表示如下:
[0150]
ha=f
θ
(xa,h
a-1
)
[0151]
计算每个生成时间步长a上对应的正确文本特征的生成概率。
[0152]
通过向量点积计算当前隐藏状态ha与词汇表中每个文本特征嵌入向量的相似度,并且将相似度作为每个文本特征类别的生成概率p(w|ha),且计算公式如下:
[0153][0154]
其中,d表示包含n个文本特征的词汇表,ww表示词汇表d中每个文本特征w的学习嵌入向量。
[0155]
将词汇表中的n个文本特征看成n个类别,在第a个时间步长上,根据由n个文本特征组成以one-hot编码的样本真实文本特征分布向量la=[l0,l1,
…
,l
n-1
],通过公式(1)得到当前时间步长a上生成文本特征的概率分布向量为pa=[p0,p1,
…
,p
n-1
],其中p0,p1,
…
,p
n-1
中的最大值p
max-a
即为每个生成时间步a上对应的正确文本特征sa的生成概率。
[0156]
完成a个时间步的计算,由每个时间步隐藏状态序列{h1,h2,
…
,ha}和公式(1),得到每个时间步生成文本特征的概率分布向量序列{p1,p2,
…
,pa},然后取每个时间步a上的最大值p
max-a
对应的正确文本特征sa,最终生成了对应的生成文本序列s={s1,
…
,sa}(文本序列用于和标签文本进行对比,提高各模型的学习能力)。
[0157]
设计损失函数优化文本生成模块包括:
[0158]
最小化每个时间步长生成文本特征的概率分布向量和真实文本特征分布向量的交叉熵,然后通过累加每个时间步长得到整个句子的损失值l
align
:
[0159][0160]
其中,e表示优化参数,la(i)表示第i个真实文本特征分布向量,pa(i)表示第i个生成文本特征的概率分布向量。
[0161]
bi-gru网络模型和cnn网络模型训练过程的整体损失l
total
设计如下:
[0162]
使用超参数来聚合三元组损失与文本生成模块的损失,且具体公式如下:
[0163]
l
total
=l
triplet
+μ*l
align
。
[0164]
s3、将待检索的图像或文本对应输入至训练好的cnn网络模型或bi-gru网络模型中,对应输出图像特征或文本特征。
[0165]
具体为,训练好的cnn网络模型输出图像特征,训练好的bi-gru网络模型输出文本特征。
[0166]
s4、将输出的图像特征或文本特征与数据库中文本特征或图像特征进行余弦相似度计算,并将数据库中相似度最大的前若干名的文本特征或图像特征作为检索的结果输出。
[0167]
具体为,相似度最大的前若干名的数量不作限制,如为前10名。将输出的图像特征与数据库中文本特征进行余弦相似度计算,并将数据库中相似度最大的前10名的文本特征作为检索的结果输出;将输出的文本特征与数据库中图像特征进行余弦相似度计算,并将数据库中相似度最大的前10名的图像特征作为检索的结果输出。
[0168]
在一个实施例中,图1对应训练模型的框架称为imtg框架,在利用imtg框架对各模型进行训练过程中,采用两个基准数据集,其中一个数据集为flickr30k:由31,000张图片和158,915个英文文本组成。每张图像都标注有5个英文文本。本文使用29000张图像进行训练,1000张图像验证,1000张图像测试;另一个数据集为ms coco:包含约123,287张图像,每个图像至少有5个英文文本。本文使用122,287张图像来训练所有模型,1000张图像用于验证,另外1000张图像用于测试。
[0169]
利用评价标准召回率recall@k(正确答案出现在前k个返回结果的样例占总测试样例的比例,通常衡量的是recall@1,recall@5,recall@10,主要衡量正确答案是否有出现)中的r@1、r@5和r@10评估指标来衡量文本检索和图像检索性能,并统计了r@sum(所有评价度量的总和),在flickr30k数据集和ms coco数据集上分别与现有的模型(双路卷积网络dcp、语义排序法sco、交叉注意网络scan、视觉语义网络vsrn、基于循环注意的迭代匹配imram和多语义视觉嵌入网络pvse)进行比较,且比较的各实验结果分别为表1(在flickr30k数据集上与现有的模型比较)和表2(在ms coco数据集上与现有的模型比较)所示:
[0170]
表1
[0171][0172]
表2
[0173][0174][0175]
从表1和表2可知,本方法使用的imtg相比现有的模型,文本检索和图像检索性能都最优越。
[0176]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0177]
以上所述实施例仅表达了本技术描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
技术特征:
1.一种基于文本生成和迭代匹配的图文检索方法,其特征在于:所述基于文本生成和迭代匹配的图文检索方法,包括:s1、利用bi-gru网络模型和cnn网络模型依次提取出初始文本特征向量和初始图像特征向量;s2、分别对bi-gru网络模型和cnn网络模型进行如下训练:s2.1、基于初始文本特征向量,对初始图像特征向量中的每一项图像特征,进行图像特征迭代融合操作,获取融合后的图像特征向量,并进行k次迭代融合,得到经过k次迭代融合后的图像特征向量;s2.2、基于初始图像特征向量,对初始文本特征向量中的每一项文本特征,进行文本特征迭代融合操作,获取融合后的文本特征向量,并进行k次迭代融合,得到经过k次迭代融合后的文本特征向量;s2.3、利用分别经过k次迭代融合后的图像特征向量和文本特征向量设计三元组损失函数优化迭代融合操作过程;s2.4、将经过k次迭代融合后的图像特征向量输入至包括编码器和解码器的文本生成模块中,生成文本特征序列,并设计损失函数优化文本生成模块;s3、将待检索的图像或文本对应输入至训练好的cnn网络模型或bi-gru网络模型中,对应输出图像特征或文本特征;s4、将输出的图像特征或文本特征与数据库中文本特征或图像特征进行余弦相似度计算,并将数据库中相似度最大的前若干名的文本特征或图像特征作为检索的结果输出。2.如权利要求1所述的基于文本生成和迭代匹配的图文检索方法,其特征在于:利用bi-gru网络模型和cnn网络模型依次提取出初始文本特征向量和初始图像特征向量,包括:令初始图像特征向量为v0={v
0i
|i=1,2,
…
,m,v
0i
∈r
d
},初始文本特征向量为t0={t
0j
|j=1,2,
…
,n,t
0j
∈r
d
},其中,r
d
表示d维的向量,v
0i
表示初始图像特征向量中的第i个图像特征,m表示图像特征数量,t
0j
表示初始文本特征向量中的第j个文本特征,n表示文本特征数量。3.如权利要求2所述的基于文本生成和迭代匹配的图文检索方法,其特征在于:所述基于初始文本特征向量,对初始图像特征向量中的每一项图像特征,进行图像特征迭代融合操作,获取融合后的图像特征向量,并进行k次迭代融合,得到经过k次迭代融合后的图像特征向量,包括:在进行第k次迭代融合的图像特征向量表示为v
k
={v
ki
|i=1,2,
…
,m,v
ki
∈r
d
},其中k表示迭代次数,且k=0,1,2,
…
k,v
ki
表示在进行第k次迭代融合的图像特征向量中的第i个图像特征;s2.1.1、对于第k次迭代融合,使用余弦函数分别计算每个图像特征v
ki
与初始文本特征向量t0中每个文本特征t
0j
的相似性s
kij
,且计算公式如下:其中,t表示转置,sim表示余弦函数;s2.1.2、然后对相似性s
kij
进行相似度归一化,且计算公式如下:
其中,表示相似性s
kij
进行相似度归一化后的,relu表示激活函数;s2.1.3、对每个图像特征v
ki
,采用自适应方法,通过softmax函数分别计算每一个图像特征v
ki
与初始文本特征向量t0中每个文本特征t
0j
的关系权重α
kij
,即注意力值,且计算公式如下:其中,表示用于调整注意力分布的温度系数,α
kij
表示第k次迭代融合中图像特征向量v
k
中第i个图像特征v
ki
与初始文本特征向量t0中第j个文本特征t
0j
的关系权重;s2.1.4、通过跨模态注意力机制让每个图像特征分别与每个文本特征都进行交互(删),以加权求和的方式计算出一个图像特征v
ki
在初始文本特征向量t0中的上下文关系且计算公式如下:其中,表示第k次迭代融合中第i个图像特征v
ki
与初始文本特征向量t0的上下文关系图像特征;则第k次迭代融合的图像特征向量v
k
与初始文本特征向量t0的上下文关系图像特征向量s2.1.5、利用门控机制将每个图像特征v
ki
分别与每个上下文关系图像特征进行特征蒸馏,得到蒸馏后的图像特征v
ki*
,且公式表示如下:其中,d(
·
)表示门控机制;然后聚合图像特征向量v
k
和上下文关系图像特征向量得到蒸馏后的图像特征向量v
k+1
={c
ki*
|i=1,2,
…
,m,v
ki*
∈r
d
},且为第k次迭代融合后的图像特征向量,并作为下一次图像特征迭代融合的输入;将得到上下文关系图像特征向量的过程和图像特征蒸馏的过程依次循环迭代k次,得到经过k次迭代融合后的图像特征向量。4.如权利要求3所述的基于文本生成和迭代匹配的图文检索方法,其特征在于:所述基于初始图像特征向量,对初始文本特征向量中的每一项文本特征,进行文本特征迭代融合操作,获取融合后的文本特征向量,并进行k次迭代融合,得到经过k次迭代融合后的文本特征向量,包括:在进行第k次迭代融合的文本特征向量表示为t
k
={t
kj
|j=1,2,
…
,n,t
kj
∈r
d
},t
kj
表示在进行第k次迭代融合的文本特征向量中的第j个文本特征;s2.2.1、对于第k次迭代融合,使用余弦函数分别计算每个文本特征t
kj
与初始图像特征
向量v0中的每个图像特征v
0i
的相似性s
kij’,且计算公式如下:s2.2.2、然后对相似性s
kij’进行相似度归一化,且计算公式如下:其中,表示相似性s
kij’进行相似度归一化后的;s2.2.3、对每个文本特征t
kj
,采用自适应方法,通过softmax函数分别计算每一个文本特征t
kj
与初始图像特征向量v0中的每个图像特征v
0i
的关系权重α
kij’,即注意力值,且计算公式如下:其中,α
kij’表示第k次迭代融合中文本特征向量t
k
中第j个文本特征t
kj
与初始图像特征向量v0中第i个图像特征v
0i
的关系权重;s2.2.4、通过跨模态注意力机制让每个图像特征分别与每个文本特征都进行交互,(删)以加权求和的方式总结出一个文本特征t
kj
在初始图像特征向量v0中的上下文关系且计算公式如下:其中,表示第k次迭代融合中第i个文本特征t
kj
与初始图像特征向量v0的上下文关系文本特征;则第k次迭代融合的文本特征向量t
k
与初始图像特征向量v0的上下文关系文本特征向量s2.2.5、利用门控机制将每个文本特征t
kj
分别与每个上下文关系文本特征进行特征蒸馏,得到蒸馏后的文本特征t
kj*
,且公式表示如下:然后聚合文本特征向量t
k
和上下文关系图像特征向量得到蒸馏后的文本特征向量t
k+1
={t
kj*
|i=1,2,
…
,n,t
kj*
∈r
d
},且为第k次迭代融合后的文本特征向量,并作为下一次文本特征迭代融合的输入;将得到上下文关系文本特征向量的过程和文本特征蒸馏的过程依次循环迭代k次,得到经过k次迭代融合后的文本特征向量。5.如权利要求4所述的基于文本生成和迭代匹配的图文检索方法,其特征在于:所述利用分别经过k次迭代融合后的图像特征向量和文本特征向量设计三元组损失函数优化迭代融合操作过程,包括:
对于第k次迭代融合,计算迭代融合后的图像特征向量中图像特征v
ki
与上下文关系图像特征的相似度,以及计算迭代融合后的文本特征向量中文本特征t
kj
与上下文关系文本特征的相似度,然后加和得到第k次迭代融合的整体图像-文本相似度f
k
(v,t),且公式如下:其中,v表示整体图像,t表示整体文本;经过k次迭代后将所有的整体图像-文本相似度求和,得到图像和文本之间总的相似度f(v,t),且公式如下:得到小区域强负样本的三元组损失l
triplet
:其中,[x]
+
≡max(x,0)保证值不为负,α表示边缘因子,表示整体图像的负样本,表示整体文本的负样本。6.如权利要求5所述的基于文本生成和迭代匹配的图文检索方法,其特征在于:所述将经过k次迭代融合后的图像特征向量输入至包括编码器和解码器的文本生成模块中,生成文本特征序列,包括:所述编码器的第一层为linear层,所述编码器的第二层为第一gru层;所述解码器的第一层为嵌入层,所述解码器的第二层为dropout层,所述解码器的第三层为第二gru层;首先将经过k次迭代融合后的图像特征输入至编码器的linear层并经过dropout操作输出第一图像特征;然后将第一图像特征输入至第一gru层,第一gru层利用图像特征转换函数将输入的第一图像特征中的各特征转变为一个固定维度的向量且第一图像特征中的所有特征都完成转变得到序列特征空间其中a表示总步长数;将各向量输入至解码器中,且依次经过嵌入层、dropout层和第二gru层处理,并且在第二gru层中用当前时间步对应的文本特征x
a
和前一个隐藏单元生成的隐藏状态h
a-1
,生成包含了上文信息的隐藏状态向量h
a
,每个时间步长对应一个隐藏单元,且用函数表示如下:h
a
=f
θ
(x
a
,h
a-1
)计算每个生成时间步长a上对应的正确文本特征的生成概率:通过向量点积计算当前隐藏状态h
a
与词汇表中每个文本特征嵌入向量的相似度,并且将相似度作为每个文本特征类别的生成概率p(w|h
a
),且计算公式如下:
其中,d表示包含n个文本特征的词汇表,w
w
表示词汇表d中每个文本特征w的学习嵌入向量;将词汇表中的n个文本特征看成n个类别,在第a个时间步长上,根据由n个文本特征组成以one-hot编码的样本真实文本特征分布向量l
a
=[l0,l1,
…
,l
n-1
],通过公式(1)得到当前时间步长a上生成文本特征的概率分布向量为p
a
=[p0,p1,
…
,p
n-1
],其中p0,p1,
…
,p
n-1
中的最大值p
max-a
即为每个生成时间步a上对应的正确文本特征s
a
的生成概率;完成a个时间步的计算,由每个时间步隐藏状态序列{h1,h
2,
…
,h
a
}和公式(1),得到每个时间步生成文本特征的概率分布向量序列{p1,p2,
…
,p
a
},然后取每个时间步a上的最大值p
max-a
对应的正确文本特征s
a
,最终生成了对应的生成文本序列s={s1,
…
,s
a
}。7.如权利要求6所述的基于文本生成和迭代匹配的图文检索方法,其特征在于:所述设计损失函数优化文本生成模块,包括:最小化每个时间步长生成文本特征的概率分布向量和真实文本特征分布向量的交叉熵,然后通过累加每个时间步长得到整个句子的损失值l
align
:其中,e表示优化参数,l
a
(i)表示第i个真实文本特征分布向量,p
a
(i)表示第i个生成文本特征的概率分布向量。8.如权利要求7所述的基于文本生成和迭代匹配的图文检索方法,其特征在于:所述bi-gru网络模型和cnn网络模型训练过程的整体损失l
total
设计如下:使用超参数来聚合三元组损失与文本生成模块的损失,且具体公式如下:l
total
=l
triplet
+μ*l
align
。
技术总结
本发明公开了一种基于文本生成和迭代匹配的图文检索方法,包括利用BI-GRU网络模型和CNN网络模型依次提取出初始文本特征向量和初始图像特征向量。本基于文本生成和迭代匹配的图文检索方法通过分别训练BI-GRU网络模型和CNN网络模型,利用训练好的BI-GRU网络模型和CNN网络模型分别提取文本特征和图像特征,再分别与数据库中的图像特征和文本特征计算相似度,将数据库中相似度最大的前若干名的图像特征和文本特征作为检索的结果输出,实现图文检索;文本生成模块通过图文信息交互增强了图像和文本的整体语义相关性,有效解决跨模态图文检索中难以直接度量图像和文本的相似性的问题,提升图文检索精度。提升图文检索精度。提升图文检索精度。
技术研发人员:白琮 潘莹莹 马青
受保护的技术使用者:浙江工业大学
技术研发日:2023.06.29
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/