基于高效关系逼近算法的群体视频描述方法及系统与流程
未命名
08-02
阅读:110
评论:0

1.本发明涉及视频描述领域,尤其涉及一种基于高效关系逼近算法的群体视频描述方法及系统。
背景技术:
2.视频描述的目标是根据给定的视频片段理解其中的内容并生成一段自然语言描述文本,是计算机视觉和自然语言处理之间的一个跨学科领域。自动的图像或视频描述包括多个实体的组合,这些实体包括数以百万计的对象、背景、运动和相应的语言数据。现有的方法大多数都是针对一个视频片段进行描述,使用对齐注释好的视频文本对进行训练。然而,由于在线视频的数量一直在以指数级的速度增长,对一组视频的自动描述需求也大大增加,比如为已分类好的一组视频自动命名和基于浏览历史推荐新的视频检索关键词。
3.现有报道中提出了一种基于图像组的自动描述生成方法,这种方法采用自注意力机制将每个图片和组内其他所有图片计算相似度得分。而视频作为一种时序信号通常包含多个连续的帧,相比于一组图像而言,计算一组视频之间的相似度得分所需要的计算复杂度是非常高的。另外图像组的自动描述生成方法忽视了目标组和参考组之间的上下文信息,若利用此类信息,则可有效提升对目标组内容理解的准确程度。
4.综上,现有技术中还不能有效地解决基于组视频的视频描述问题,导致了在实际场景应用中性能有限,无法准确快速的生成自然语言描述文本。
技术实现要素:
5.本发明的目的在于解决现有技术中的问题,提出了一种基于高效关系逼近算法的群体视频描述方法及系统,使用基于组的视频特征聚合网络识别并生成目标视频组共享特征和参考视频组共享特征,使用一种高效的关系逼近算法来降低计算复杂度,同时考虑组间自监督信息,使用一种组间对比损失策略,有效地改善了模型性能。
6.为了实现上述目的,本发明具体采用如下技术方案:
7.一种基于高效关系逼近算法的群体视频描述方法,包括如下步骤:
8.1)建立包含目标视频和参考视频的视频组及共同动词组描述文本作为训练数据集,分别提取目标视频组的帧特征和参考视频组的帧特征;
9.2)建立编码-解码网络结构,包括解码网络、以及由共享内容聚合模块和上下文特征精炼模块构成的编码网络;
10.3)将目标视频组的帧特征和参考视频组的帧特征分别作为编码网络中的共享内容聚合模块的输入,分别生成目标视频组共享特征和参考视频组共享特征;
11.4)将生成的目标视频组共享特征和参考视频组共享特征作为上下文特征精炼模块的输入,并在上下文特征精炼模块中引入组间自监督对比学习,输出上下文特征和组间自监督损失;
12.5)将目标视频组共享特征、参考视频组共享特征和上下文特征拼接起来作为解码
网络的输入,生成字典概率分布并选择得分最高的单词作为输出,重复若干次后,将输出结果与共同动词组描述文本进行比对,生成交叉熵损失,结合步骤4)的组间自监督损失训练编码-解码网络结构;
13.6)对于要生成描述的视频组,分别提取目标视频组的帧特征和参考视频组的帧特征,利用训练好的编码-解码网络生成描述文本。
14.本发明的另一目的在于提出一种基于高效关系逼近算法的群体视频描述系统,包括:
15.数据获取模块,当系统处于训练阶段时,其用于获取包含目标视频和参考视频的视频组及共同动词组描述文本作为训练数据集;当系统处于检测阶段时,其用于获取待描述的包含目标视频和参考视频的视频组;
16.视觉特征提取模块,其用于提取目标视频组的帧特征和参考视频组的帧特征,得到视频组中各视频的视觉特征;
17.编码-解码网络模块,配置有解码网络和由共享内容聚合模块和上下文特征精炼模块构成的编码网络;
18.所述的编码网络工作方法为:将目标视频组的帧特征和参考视频组的帧特征分别作为编码网络中的共享内容聚合模块的输入,分别生成目标视频组共享特征和参考视频组共享特征;将生成的目标视频组共享特征和参考视频组共享特征作为上下文特征精炼模块的输入,输出上下文特征;
19.所述的解码网络工作方法为:将目标视频组共享特征、参考视频组共享特征和上下文特征拼接起来作为解码网络的输入,生成字典概率分布并选择得分最高的单词作为输出,重复若干次生成描述文本;
20.训练模块,其用于在训练阶段结合交叉熵损失和组间自监督损失更新编码-解码网络模块的参数。
21.相对于传统视频描述领域,本发明提出了群体视频描述问题并有效提升了群体视频描述的性能,本发明具备的有益效果是:
22.(1)本发明将视频描述问题扩展到群体视频描述,与传统的单个视频描述相比,对群体视频进行描述有更多的现实应用。针对群体视频的自动描述问题,本发明设计了使用基于组的视频特征聚合模块,识别并生成视频组之间的共享特征,并增强与同组共享特征相同的关键帧特征,弱化不相关的帧特征。
23.(2)针对跨视频的长序列建模,本发明提出了一种线性复杂度的高效关系逼近算法,从输入视频帧序列中采用并生成近似特征序列,进一步计算每一个视频帧与其他近似视觉特征序列之间的语义一致性分数。
24.(3)针对目标组和参考组之间的上下文信息,本发明设计了一个新颖的上下文精炼模块,通过接收目标视频组共享特征和参考视频组共享特征,并采用多头注意力机制生成包含上下文参考信息的特征。此外,本发明还同时考虑了组间自监督信号,通过组间对比损失可以用目标视频组区分参考视频中的补充信息和无关的干扰信息,使得到的上下文特征更加精确,提高了视频描述结果的准确性。
附图说明
25.图1是本发明实施例示出的基于高效关系逼近算法的群体视频描述方法的示意图。
26.图2是本发明实施例示出的数据集构造示意图。
具体实施方式
27.下面结合附图和具体实施方式对本发明做进一步阐述和说明。
28.如图1所示,本发明提出的一种基于高效关系逼近算法的群体视频描述方法,包括如下步骤:
29.步骤一、建立包含目标视频和参考视频的群体视频组及描述文本作为训练数据集。
30.步骤二、提取群体视频组的视频帧特征;然后通过一个基于高效关系逼近的共享内容聚合模块生成目标视频组共享特征和参考视频组共享特征。
31.步骤三、对于生成的目标视频组共享特征和参考视频组共享特征,通过一个上下文特征精炼模块生成上下文特征,并通过组间对比学习损失函数精炼上下文特征。
32.步骤四、将上下文特征和视频组共享特征一起输入文本解码器,重复解码n次得到预测的描述文本,根据描述文本交叉熵损失及组间对比学习损失函数来更新模型参数。
33.步骤五、对于要生成描述的视频组,根据训练好的共享内容聚合模块、上下文特征和文本解码器得到自然语言描述文本作为结果。
34.在本发明的一项具体实施中,步骤一的实施过程如下:
35.所述的数据集构造过程如图2所示
36.1.1)获取公开视频描述数据集,所述的视频描述数据集包含多个视频及描述文本对;
37.1.2)随机选择视频及描述文本对,使用预训练的语法解析树解析描述文本,挑选解析结果中的动词组,所述的动词组由动词和对应的名词组成;再将具有相同动词组的视频组合成为目标视频组,对应的动词组则作为该目标视频组的描述文本;将与该动词组有相同名词或动词的描述文本的视频组合起来成为参考视频组。
38.1.3)人工清理无意义、视频组数量过多或过少的数据样本,本实施例中,最终设定3个目标视频和5个参考视频及对应的共同动词组描述文本组成一个训练样本。
39.1.4)提取帧特征,所述的帧特征提取方法具体为:使用预训练的视频特征提取器提取视频的视觉特征,得到视频组中每个视频的帧特征序列,记为v,将视频组中的任一视频特征记为其中,m为视频组中任一视频的帧数,vi是视频组中第i个视频的帧序列特征,fi
iq
是视频组中第i个视频的第q帧特征。本实施例中,视频组中所有视频的帧数相同。
40.在本发明的一项具体实施中,步骤二的实施过程如下:
41.2.1)将目标视频组帧特征和参考视频组帧特征作为共享内容聚合模块的输入,计算每个视频中每一帧和其他所有视频中任一帧的组合之间的语义一致性得分。
42.在传统的聚合方法中,需要对于输入的由n个视频构成的视频组的帧序列特征{vi|i∈[1,n]},遍历每个视频中每一帧和其他所有视频中任一帧的组合并计算每个组合的语义一致性得分,但其复杂度非常高。具体来说,对视频帧特征组合的语义一致性得分有其中,表示所有组合之间的语义一致性得分构成的注意力图,其计算复杂度为o(mn)。
[0043]
针对注意力图a过高的复杂度,本发明提出基于高效关系逼近的共享内容聚合模块,首先通过高效关系逼近算法来代替原本不可分解的非线性softmax核函数所述的高效关系逼近算法公式为:
[0044][0045]
其中,为期望,ω为随机变量,μ为均值,σ为方差,记随机变量ω服从均值μ、方差σ的采样分布为‖
·
‖表示取模。记δ
′
(vi|i∈[1,n])的输出为表示采样后得到的近似视觉特征。
[0046]
根据基于高效关系逼近算法,本发明不需要在对每个视频中每一帧和其他所有视频中任一帧的组合进行遍历,即不需要再计算语义一致性得分构成的注意力图
[0047]
根据近似视觉特征可以计算语义权重分数其中第i个视频的第q帧的语义权重分数计算如下:
[0048][0049]
通过采用本发明提出高效关系逼近算法,可以将计算每个视频中每一帧和其他视频帧之间语义一致性得分的复杂度降低到o(n),即复杂度随着组内视频数量n增加而线性的上升。
[0050]
2.2)根据语义一致性得分将视频组中的视觉特征聚合起来,加强和组内其他视频共享的视频帧特征,弱化和组内其他视频无关的视频帧特征,所述的视频特征聚合公式如下:
[0051][0052][0053]
其中,ψ
tar
为目标视频组共享特征,ψ
ref
为参考视频组共享特征,n
tar
是目标视频组中的视频数量,n
ref
是参考视频组中的视频数量。
[0054]
在本发明的一项具体实施中,步骤三的实施过程如下:
[0055]
3.1)根据共享内容聚合模块生成的两个视频组聚合特征ψ
tar
和ψ
ref
,再通过一个上下文精炼模块来提取参考视频组中的上下文信息。具体的,在多头交叉注意力机制中将ψ
tar
设置为key,ψ
ref
设置为query和value,所述的多头交叉注意力公式如下:
[0056][0057]
其中,mha为多头注意力机制,特征ψ
tar
通过自注意力块的残差连接,从参考视频中提取有用的上下文信息。将提取到的上下文信息和目标视频组共享特征ψ
tar
相加得到更加完整的目标视频组共享特征ψ
‘
tar
。
[0058]
3.2)对于生成的上下文特征,采取对比学习来引入组间自监督信号,以精炼上下文特征,具体为:
[0059]
考虑到文本通常捕获成对视觉中的大多数显著事件,而忽略了背景特征,并且视频中存在相当一部分噪声信息,这使得视频和对应描述文本的差异更大。交叉注意力忽略了组间的自监督信号,无法保证学习到的特征具有理想的精度。如果没有任何约束地直接得到其包含的语义特征将无法起到对目标视频组共享特征的补充效果。
[0060]
通过引入组间的自监督信号来最大化上下文特征和目标组视频共享特征ψ
tar
之间的互信息,可以过滤参考视频中和目标组视频无关的干扰信息。具体的,我们将上下文特征和目标视频组中的每一个视频特征对作为正样本参考视频中的每一个视频特征作为负样本目标视频组共享特征ψ
tar
作为真实实例,所述的组间自监督对比学习公式如下:
[0061][0062]
其中,为组间自监督损失,s(p,q)=p
t
q/‖p‖‖q‖为包含l2正则化的点积操作,τ是温度系数。
[0063]
在本发明的一项具体实施中,步骤四的实施过程如下:
[0064]
4.1)根据共享内容聚合模块和上下文精炼模块生成的完整的目标视频组共享特征ψ
′
tar
和参考视频组共享特征ψ
ref
输入,将其拼接起来作为解码器的输入x=[ψ
′
tar
,ψ
ref
]。
[0065]
4.2)x作为解码神经网络的输入进行n步解码,在解码过程中,对解码器中的交叉注意模块进行掩码处理,并对描述文本中位于前面的符号在解码器中计算得到的隐藏层序列存储至缓存中,并将缓存中的数据引入到后面符号的解码过程中,重复解码n次,对于第t次解码所述解码公式如下所述:
[0066][0067]
其中,为先前解码步生成的描述文本,z
t
为隐藏层状态。解码的描述文本由隐藏层状态z
t
经过softmax函数生成对应字典的概率分布,并选择其中概率最大的单词作为结果。
[0068][0069]
其中,fc指线性变换层。
[0070]
4.3)根据解码器的输出结果与真实描述文本进行比对,计算交叉熵损失函数,所述损失函数公式如下:
[0071]
[0072]
其中,t为设定的最长描述文本长度,d
t
为真实共同动词组描述文本中的第t个单词,d
1:t-1
为真实共同动词组序列。最后引入超参数λ来平衡描述文本交叉熵损失和组间自监督损失,任务的损失函数公式如下:
[0073][0074]
通过优化损失函数对由共享内容聚合模块和上下文精炼模块构成的编码神经网络和由文本解码器构成的解码神经网络进行训练,直至得到训练好的编码-解码网络模型。
[0075]
在本发明的一项具体实施中,步骤五中依据实际应用场景获得目标视频组和参考视频组,例如在视频搜索场景下,可以将用户点击过的视频组成目标视频组,将用户未点击的视频作为参考视频组;使用预训练的视频特征提取器分别提取两个视频组的视觉特征,再根据训练好的编码-解码网络模型生成针对输入视频组的自然语言描述文本。
[0076]
在本发明的一项具体实施中,还提出了一种基于高效关系逼近算法的群体视频描述系统,包括:
[0077]
数据获取模块,当系统处于训练阶段时,其用于获取包含目标视频和参考视频的视频组及共同动词组描述文本作为训练数据集;当系统处于检测阶段时,其用于获取待描述的包含目标视频和参考视频的视频组;
[0078]
视觉特征提取模块,其用于提取目标视频组的帧特征和参考视频组的帧特征,得到视频组中各视频的视觉特征;
[0079]
编码-解码网络模块,配置有解码网络和由共享内容聚合模块和上下文特征精炼模块构成的编码网络;
[0080]
所述的编码网络工作方法为:将目标视频组的帧特征和参考视频组的帧特征分别作为编码网络中的共享内容聚合模块的输入,分别生成目标视频组共享特征和参考视频组共享特征;将生成的目标视频组共享特征和参考视频组共享特征作为上下文特征精炼模块的输入,输出上下文特征;
[0081]
所述的解码网络工作方法为:将目标视频组共享特征、参考视频组共享特征和上下文特征拼接起来作为解码网络的输入,生成字典概率分布并选择得分最高的单词作为输出,重复若干次生成描述文本;
[0082]
训练模块,其用于在训练阶段结合交叉熵损失和组间自监督损失更新编码-解码网络模块的参数。
[0083]
在本发明的一项具体实施中,所述的编码-解码网络模块包括:
[0084]
共享内容聚合模块,其用于采用高效关系逼近算法采样输入视频组中的各视频的视觉特征得到近似视觉特征;根据近似视觉特征计算语义权重分数,根据语义权重分数将输入视频组中的视觉特征聚合起来,生成目标视频组共享特征和参考视频组共享特征;
[0085]
上下文特征精炼模块,其用于基于多头交叉注意力机制,将目标视频组共享特征作为多头交叉注意力机制中的键,将参考视频组共享特征作为多头交叉注意力机制中的查询和值,将多头交叉注意力机制的计算结果作为上下文特征。
[0086]
解码网络,其用于将目标视频组共享特征、参考视频组共享特征、上下文特征拼接后进行解码,生成描述文本。
[0087]
在本发明的一项具体实施中,所述的训练模块包括:
[0088]
组间自监督损失单元,其用于精炼上下文特征,过滤其中与目标视频组共享特征
无关的信息,计算组间自监督损失;
[0089]
交叉熵损失单元,其用于将编码网络输出结果与共同动词组描述文本进行比对,生成交叉熵损失。
[0090]
上述中各个模块的实现可参考方法部分的描述,此处不再赘述。
[0091]
在本技术所提供的具体实施方式中,应该理解到,以上所描述的系统实施例仅仅是示意性的,例如所述上下文特征提炼模块,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接,可以是电性或其它的形式。
[0092]
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
[0093]
本发明基于activitycaption和youcook2两大数据集通过语法树解析方法重新构造了群体视频描述数据集g-activitycaption和g-youcook2:
[0094]
g-activitycaption数据集包含4035个视频组,视频平均时长为40.3秒;数据集用于训练、验证、测试的视频组分别有2421、403、1211个。
[0095]
g-youcook2数据集包含1763个视频组,视频平均时长约16.1秒;数据集用于训练、验证、测试的句子-时段对分别有1058、176、529个。
[0096]
特别的,虽然g-activitycaption数据集在视频多样性方面表现出色,但发现其描述文本往往很长,并有较多噪声信息。在实际应用中群体视频描述的描述文本应该简短而紧凑,而g-youcook2包含更加细粒度的描述且该数据集中的许多描述文本更针对单一短事件的描述。
[0097]
在测试评价标准方面,本发明遵循广泛使用的标准,采用bleu,meteor,rouge-l和cider作为g-activitycaption和g-youcook2的标准。
[0098]
实施细节如下:
[0099]
对于视频,本实施例从每个视频中抽取10帧。使用在imagenet上预训练的resnet-101模型来提取视频帧特征。
[0100]
对于文本描述,本实施例设定最大长度为10。将每个描述文本中的标点符号去除,并统一转化为小写英文字母,并在每个描述的开头添加一个[sos]标签,并在最后添加一个[eos]标签。
[0101]
表1和表2是本发明在g-activitycaption和g-youcook2两大数据集上的实验结果。其中,average方法直接将视频帧特征进行平均而非根据语义一致性得分分配对应的权重系数;traversal方法通过遍历每个视频中每一帧和其他所有视频中任一帧的组合来得到语义一致性得分。本发明提出的方法缩写为era。
[0102]
表1在g-activitycaption数据集上的实验结果
[0103][0104]
表2在g-youcook2数据集上的实验结果
[0105][0106]
然而,通过表1和表2可以看出,由于本发明使用基于组的视频特征聚合模块,识别并生成视频组之间的共享特征,其中增强与同组共享特征相同的关键帧特征,弱化不相关的帧特征。同时考虑了上下文精炼信息和组间自监督对比学习,通过接收目标视频组共享特征和参考视频组共享特征,并采用多头注意力机制生成包含上下文参考信息的特征,并通过组间对比损失用目标视频组区分参考视频中的补充信息和无关的干扰信息,使得本发明在群体视频描述性能上已经远远超过average方法。具体的,era在g-youcook2上有10.2%的cider提升,在g-activitycaption有8.5%的cider提升。其次,与作为群体视频描述理论性能上界的traversal方法相比,该模型也取得了具有竞争力的结果,在g-youcook2上分别为179.4和180.8。值得一提的是,era仅用0.4%的遍历训练时间就取得了这些具有竞争力的结果,这无疑说明了本发明性能的优越性。
[0107]
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
技术特征:
1.一种基于高效关系逼近算法的群体视频描述方法,其特征在于,包括如下步骤:1)建立包含目标视频和参考视频的视频组及共同动词组描述文本作为训练数据集,分别提取目标视频组的帧特征和参考视频组的帧特征;2)建立编码-解码网络结构,包括解码网络、以及由共享内容聚合模块和上下文特征精炼模块构成的编码网络;3)将目标视频组的帧特征和参考视频组的帧特征分别作为编码网络中的共享内容聚合模块的输入,分别生成目标视频组共享特征和参考视频组共享特征;4)将生成的目标视频组共享特征和参考视频组共享特征作为上下文特征精炼模块的输入,并在上下文特征精炼模块中引入组间自监督对比学习,输出上下文特征和组间自监督损失;5)将目标视频组共享特征、参考视频组共享特征和上下文特征拼接起来作为解码网络的输入,生成字典概率分布并选择得分最高的单词作为输出,重复若干次后,将输出结果与共同动词组描述文本进行比对,生成交叉熵损失,结合步骤4)的组间自监督损失训练编码-解码网络结构;6)对于要生成描述的视频组,分别提取目标视频组的帧特征和参考视频组的帧特征,利用训练好的编码-解码网络生成描述文本。2.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的解码网络采用transformer中的解码器。3.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,步骤1)具体为:1.1)获取视频描述数据集,所述的视频描述数据集包含多个视频及描述文本对;1.2)随机选择视频及描述文本对,使用预训练的语法解析树解析描述文本,挑选解析结果中的动词组,所述的动词组由动词和对应的名词组成;再将具有相同动词组的视频组合成为目标视频组,对应的共同动词组则作为该目标视频组的描述文本;将与该动词组有相同名词或动词的描述文本的视频组合起来成为参考视频组;1.3)对步骤1.2)得到的目标视频组和参考视频组中的视频数量删减至预设值,将最终的目标视频组、参考视频组、共同动词组描述文本组成一个训练样本1.4)使用预训练的视频特征提取器提取视频组中各视频的视觉特征,得到视频组中每个视频的帧特征序列,将视频组中的任一视频的视觉特征记为其中,m为视频组中任一视频的帧数,v
i
是视频组中第i个视频的帧序列特征,f
iq
是视频组中第i个视频的第q帧特征。4.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的编码网络中的共享内容聚合模块计算方法为:3.1)采用高效关系逼近算法采样输入视频组中的各视频的视觉特征v
i
得到近似视觉特征所述的高效关系逼近算法的计算公式为:其中,为期望,ω为随机变量,μ为均值,σ为方差,记随机变量ω服从均值μ、方差σ的采
样分布为‖
·
‖表示取模,n表示输入视频组中的视频数量;3.2)根据近似视觉特征计算语义权重分数,计算公式为:其中,表示输入视频组中第i个视频的第q帧的语义权重分数,1表示1向量;3.3)根据语义权重分数将输入视频组中的视觉特征聚合起来,聚合公式为:3.3)根据语义权重分数将输入视频组中的视觉特征聚合起来,聚合公式为:其中,ψ
tar
为目标视频组共享特征,ψ
ref
为参考视频组共享特征,n
tar
是目标视频组中的视频数量,n
ref
是参考视频组中的视频数量,f
iq
是视频组中第i个视频的第q帧特征。5.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的上下文特征精炼模块采用多头交叉注意力机制,将目标视频组共享特征作为多头交叉注意力机制中的键,将参考视频组共享特征作为多头交叉注意力机制中的查询和值,将多头交叉注意力机制的计算结果作为上下文特征。6.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的组间自监督对比学习的损失函数公式为:其中,是组间自监督损失,s(
·
)是包含l2正则化的点积操作,τ是温度系数,是由上下文特征和目标视频组中的每一个视频的视觉特征拼接后得到的正样本,是由参考视频中的每一个视频的视觉特征构成的负样本,ψ
tar
是目标视频组共享特征,n
ref
是参考视频组中的视频数量。7.根据权利要求1所述的一种基于高效关系逼近算法的群体视频描述方法,其特征在于,所述的交叉熵损失函数公式为:其中,是交叉熵损失,t是设定的最长描述文本长度,d
t
是真实共同动词组描述文本中的第t个单词,d
1:t-1
是真实共同动词组描述文本序列,是第t解码步生成的描述文本。8.一种基于高效关系逼近算法的群体视频描述系统,其特征在于,包括:数据获取模块,当系统处于训练阶段时,其用于获取包含目标视频和参考视频的视频组及共同动词组描述文本作为训练数据集;当系统处于检测阶段时,其用于获取待描述的包含目标视频和参考视频的视频组;视觉特征提取模块,其用于提取目标视频组的帧特征和参考视频组的帧特征,得到视
频组中各视频的视觉特征;编码-解码网络模块,配置有解码网络和由共享内容聚合模块和上下文特征精炼模块构成的编码网络;所述的编码网络工作方法为:将目标视频组的帧特征和参考视频组的帧特征分别作为编码网络中的共享内容聚合模块的输入,分别生成目标视频组共享特征和参考视频组共享特征;将生成的目标视频组共享特征和参考视频组共享特征作为上下文特征精炼模块的输入,输出上下文特征;所述的解码网络工作方法为:将目标视频组共享特征、参考视频组共享特征和上下文特征拼接起来作为解码网络的输入,生成字典概率分布并选择得分最高的单词作为输出,重复若干次生成描述文本;训练模块,其用于在训练阶段结合交叉熵损失和组间自监督损失更新编码-解码网络模块的参数。
技术总结
本发明公开了一种基于高效关系逼近算法的群体视频描述方法及系统,属于视频理解领域。包括:针对包含目标视频和参考视频的视频组,根据基于高效关系逼近的跨视频共享内容聚合模块,生成目标视频组共享特征和参考视频组共享特征;根据上下文精炼模块,输出参考视频中对于目标视频的补充信息,得到上下文特征。利用解码网络对共享特征和上下文特征的拼接结果进行解码,输出针对于目标视频组的描述文本。本发明能够生成针对群体视频共享内容的描述文本,采用一种新颖的高效关系逼近算法优化模型的时间复杂度到线性级别,并利用对比学习策略精炼上下文特征,有效地改善了模型性能。有效地改善了模型性能。有效地改善了模型性能。
技术研发人员:赵洲 林旺 金涛 李林峻 成曦泽 王晔 陈哲乾
受保护的技术使用者:杭州一知智能科技有限公司
技术研发日:2023.02.02
技术公布日:2023/7/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:显示装置和制造显示装置的方法与流程 下一篇:计时器电路的制作方法