一种基于深度动态语义关联的短视频事件检测方法及系统

未命名 08-02 阅读:82 评论:0


1.本发明属于多媒体和大数据分析技术领域,尤其涉及一种基于深度动态语义关联的短视频事件检测方法及系统。


背景技术:

2.随着短视频行业的快速发展,以短视频事件检测为代表的短视频内容分析受到越来越多的关注。短视频事件检测有助于破解短视频监管难题,使行业持续健康发展。然而,随着短视频数量的日渐庞大及蕴含信息的日渐复杂多样,如何利用现有的短视频信息来快速高效的查找用户所需要的短视频成为现如今亟待解决的问题。
3.目前,以深度学习为代表的人工智能技术已在各个领域快速发展,其也被广泛应用到视频信息处理的领域当中。利用人工智能技术解决短视频事件检测问题,不仅可以推动计算机视觉领域的发展,同时可以提高用户体验,既具备研究价值也具备实际应用价值。


技术实现要素:

4.为实现上述目的,本发明提供了如下方案:一种基于深度动态语义关联的短视频事件检测方法及系统。其中,一种基于深度动态语义关联的短视频事件检测方法,包括:
5.收集短视频并提取所述短视频的视觉特征,基于所述短视频的视觉特征获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;
6.根据特征空间的注意力特性,利用所述帧重要性分数加权后的短视频特征表示来引导注意力的学习,协同帧间与特征空间的内在关联性,获得帧间自注意力增强的特征表示;
7.将短视频事件的隐藏属性视为节点,所述隐藏属性间的关联度视为边,构造短视频样本的特定图表示;通过动态图卷积下的隐藏属性关联学习网络学习复杂事件的隐藏属性及其之间的关联性,获得具有潜在语义信息感知的短视频特征表示;
8.根据所述短视频特征表示获得事件类别得分,完成短视频事件检测任务。
9.优选地,基于所述短视频的视觉特征获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示的过程包括,
10.通过变分自编码器和生成对抗网络联合结构最大程度的强化帧重要性信息,获得具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;
11.所述帧重要性分数加权后的短视频特征表示的表达式为:
[0012][0013]
其中,为经过内嵌的变分自编码器和生成对抗网络联合结构更新后的帧重要性分数扩展维度后的表示;为提取到的短视频原始视觉特征;为重要性分数加权后的特征表示;t为短视频的关
键帧个数,b为短视频样本数,d为特征维度数;

表示对应元素相乘。
[0014]
优选地,所述帧间自注意力增强的特征表示的表达式为:
[0015]
f=woconcat(g1,g2,

,g
l
)
[0016]
其中,为帧间自注意力增强的特征表示,l为多头注意力机制的头数量,concat(
·
)表示矩阵的串联操作,为待学习的权重参数,表示第l个头,dv=d/l为比例缩放因子。
[0017]
优选地,获得具有潜在语义信息感知的短视频特征表示的过程包括,
[0018]
构建隐藏属性激活映射单元捕获隐藏属性响应矩阵,将所述隐藏属性响应矩阵输入到动态关联性单元,所述动态关联性单元通过构建静态图和动态图获取隐藏属性之间的关联特性,最终得到具有潜在语义信息关联性的特征表示。
[0019]
优选地,具有潜在语义信息感知的短视频特征表示的表达式为:
[0020]
z=leakyrelu(adhwd),ad=δ(f
conv
(h'))
[0021]
其中,leakyrelu(
·
)和δ(
·
)均为激活函数,为卷积层,用于维度转换;
[0022]
为隐藏属性的静态关联表示;
[0023]
和分别为动态图关联矩阵和动态权重更新矩阵;
[0024]
为隐藏属性的动态关联表示,为h的全局表示;
[0025]
是包含潜在语义关联性的特征表示;
[0026]
表示隐藏属性数,dr表示静态部分训练后得到的特征维度数,dk表示经过动态部分训练后得到的特征维度数。
[0027]
优选地,根据所述短视频特征表示获得事件类别得分的过程包括,
[0028]
将具有潜在语义信息感知的短视频特征表示经过一个全局平均池化层和归一化指数函数后得到事件类别得分;
[0029]
所述事件类别得分的表达式为:
[0030][0031]
其中,表示事件类别得分,gap表示全局平均池化层,softmax(
·
)为归一化指数函数。
[0032]
本发明还提供一种基于深度动态语义关联的短视频事件检测系统,包括,
[0033]
帧重要性评估模块,用于收集短视频并提取所述短视频的视觉特征,基于所述短视频的视觉特征获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;
[0034]
帧间自注意力增强模块,与所述帧重要性评估模块连接,用于根据特征空间的注
意力特性,利用所述帧重要性分数加权后的短视频特征表示来引导注意力的学习,协同帧间与特征空间的内在关联性,获得帧间自注意力增强的特征表示;
[0035]
潜在语义信息感知模块,与所述帧间自注意力增强模块连接,用于将短视频事件的隐藏属性视为节点,所述隐藏属性间的关联度视为边,构造短视频样本的特定图表示;通过动态图卷积下的隐藏属性关联学习网络学习复杂事件的隐藏属性及其之间的关联性,获得具有潜在语义信息感知的短视频特征表示;
[0036]
类别得分计算模块,与所述潜在语义信息感知模块连接,用于根据所述短视频特征表示获得事件类别得分,完成短视频事件检测任务。
[0037]
优选地,所述帧重要性评估模块包括指示向量计算单元、权重更新单元、指示器、编码器、解码器、判别器以及权重分配单元;
[0038]
所述指示向量计算单元用于产生初始短视频关键帧重要性权重;
[0039]
所述权重更新单元和指示器协同工作,用于更新重要性权重;
[0040]
所述编码器和解码器共同构成变分自编码器,用于挖掘样本潜在的重要性信息,同时,所述解码器和判别器共同构成生成对抗网络,经判别器学习得到的反馈值作用于所述权重更新单元和指示器,用于指导重要性权重的更新。
[0041]
优选地,所述潜在语义信息感知模块包括隐藏属性激活映射单元、动态关联性单元;
[0042]
所述隐藏属性激活映射单元用于捕获隐藏属性响应矩阵,并将所述隐藏属性响应矩阵输入到动态关联性单元;
[0043]
所述动态关联性单元用于通过构建静态图和动态图获取隐藏属性之间的关联特性,最终得到具有潜在语义信息关联性的特征表示。
[0044]
与现有技术相比,本发明具有如下优点和技术效果:
[0045]
本发明利用变分自编码器和生成对抗网络联合结构实现了最大程度上对重要性信息的强化,获得了具有区分度的帧重要性分数;
[0046]
本发明利用重要性分数加权的特征表示引导注意力的学习,通过协同帧间与特征空间的内在相关性,有效地学习了帧间自注意力增强的特征表示;
[0047]
本发明充分利用短视频的视觉特征来获取具有区分度的帧重要性分数,利用动态图结构来获取复杂事件的隐藏属性及其之间的关联性,最终获得具有潜在语义信息感知的短视频表示实现短视频事件检测,与现有技术相比,本发明通过充分强化帧重要性信息,构建帧重要性分数引导的帧间自注意力增强及隐藏属性关联学习网络实现对短视频事件的检测;
[0048]
本发明区别于传统的事件显性语义的学习和传统的静态图卷积网络,通过动态图卷积下的隐藏属性关联学习网络来学习复杂事件的隐藏属性及其之间的关联性,获得具有潜在语义信息感知的短视频特征表示,为解决短视频事件检测问题提供了新的方法思路。
附图说明
[0049]
构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0050]
图1为本发明实施例的方法流程图;
[0051]
图2为本发明实施例的系统结构示意图。
具体实施方式
[0052]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0053]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0054]
实施例一
[0055]
如图1所示,本发明所提供的一种基于深度动态语义关联的短视频事件检测方法,具体包括以下步骤:
[0056]
101:收集短视频并提取短视频的视觉特征,基于短视频的视觉特征获取和强化视觉特征的帧重要性信息,获取具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;
[0057]
进一步地优化方案,201:不失一般性,假设经降采样后的短视频有t个关键帧,提取到的原始视觉特征为其中,b为短视频样本数,d为特征维度数。该特征经过由双向长短时记忆网络(bidirectional long-short term memory,bi-lstm)和平均池化操作组成的指示向量计算单元,其中bi-lstm用来捕获帧序列在向前和向后方向上的时间依赖性,从而获取短视频关键帧的重要性分数其中s
t
表示第t帧的分数。权重更新单元和指示器共同负责对帧重要性分数s的更新,其中,权重更新单元包含一个全连接网络和归一化指数函数softmax(
·
),指示器为一个全连接网络。二者协同作用,交互过程共重复n次,n为所要选取的重要关键帧的数量。第i次交互时,由权重更新单元的softmax(
·
)可获得当前状态下t帧的重要性分数s的概率密度分布并对该分布进行随机采样。假设随机采样时选中了第k1∈[1,t]帧,此时对短视频关键帧的重要性分数s施加权重因子w
iab
为该权重因子中第a∈[1,b]行、第b∈[1,t]列的元素,其定义如下:
[0058][0059]
该因子是为了保证模型先行选择的帧的重要性更高的特性。在n次交互结束后,对于未被选择的帧施加权重因子假设最终未被选择的为第k2∈[1,t]帧,则此时rf中的第k2列的值全部为(t-n)/t,其余列的值全部为1。在经过n次选择后最终产生新的短视频关键帧分数:
[0060][0061]
其中s'
t
表示第t帧的当前分数。s'扩展维度后和特征x相乘得到施加重要性分数
之后的特征
[0062][0063]
其中,由s'扩展维度所得,

表示对应元素相乘。随后,p经过由长短时记忆网络(long-short term memory,lstm)和线性层构成的编解码器,产生一个和p维度相同但是含有短视频关键帧潜在重要性信息的重构特征结构重构特征和原始特征x共同经过由lstm、线性层及sigmoid激活函数构成的判别器,最终输出一个用于权重更新和指示器训练的反馈值ri:
[0064][0065]
其中,l
recon
用来保证重构特征没有损失过多原始特征x所含的信息,l
recon
使用均方误差来定义,具体表示如下:
[0066][0067]
上述权重更新的训练基于以下损失函数:
[0068][0069]
其中,log_prob(
·
)为对概率密度分布取对数的函数,其所得值为标量值;ci是第i次交互时重要性分数s的概率密度分布;δ=0.1是熵正则化系数;entropy(
·
)为熵函数,其所得值为标量值,该值用来衡量概率分布的稀疏程度,熵越小概率分布越集中;αi=d
i-vi(i=1,2

n)表示第i次交互时通过对随机采样选取的特定帧施加权重因子比直接对所有帧施加同样权重因子的优势,vi是重要性分数s经过指示器得到的对权重更新所进行的帧选择的评估值,该值是一个标量值。di表示自第i次到最后一次交互过程中所累计的判别器反馈值,其定义为:
[0070][0071]
其中,ri是第i次交互时由判别器所产生的反馈值,此处ri由(3)式获得。γ表示该反馈值的影响程度对γ施加的k-i(k∈[i,n])次幂保证对第i次交互来说本次的反馈值的影响最大,后面交互产生的反馈值的影响依次减小。为使反馈值总体上有较大的影响程度,令γ=0.99。最终,指示器的训练基于以下损失函数:
[0072][0073]
综上,l
act
和l
instru
二者共同作用使得ci和αi不断更新,最终达到最优值。
[0074]
102:考虑特征空间的注意力特性,利用步骤101中所得的帧重要性分数加权后的短视频特征表示来引导注意力的学习,这一过程协同了帧间与特征空间的内在关联性,最终获得更加具有注意力特性的特征表示。
[0075]
进一步地优化方案,202:该过程受多头注意力机制的启发,假设共l个头,则第l个
头的定义如下:
[0076][0077]
其中,为帧间重要性分数强化后的展开矩阵,即对上述重要性分数强化之后的特征p沿第一阶进行切片后所得到的特征矩阵;之后的特征p沿第一阶进行切片后所得到的特征矩阵;和分别为查询矩阵、键矩阵和值矩阵待学习的权重参数,dk=dv=d/l为比例缩放因子。上式的含义为经softmax(
·
)后得到每个键对应的特征空间权重,该权重再和相乘得到特征空间权重分配后的特征表示。这一过程协同了帧间与特征空间的内在关联性,最终获得更加具有注意力特性的特征表示
[0078]
f=woconcat(g1,g2,

,g
l
)
ꢀꢀ
(9)
[0079]
其中l是多头注意力机制的头数量,concat(
·
)为矩阵的串联操作,为待学习的权重参数。
[0080]
103:为学习短视频事件的潜在语义及其之间的关联性,将事件的隐藏属性视为节点,隐藏属性间的关联度视为边,为每个短视频样本构造特定图表示。通过动态图卷积下的隐藏属性关联学习网络学习复杂事件的隐藏属性及其之间的关联性,最终获得具有潜在语义信息感知的短视频特征表示。
[0081]
进一步地优化方案,首先通过构建隐藏属性激活映射单元来捕获隐藏属性响应矩阵:其中表示隐藏属性数,d表示特征维度数。每个隐藏属性响应向量ei的计算公式如下:
[0082][0083]
其中,为帧间自注意力增强模块输出的包含有更具有注意力特性的特征图表示;fq和分别为每个样本第q帧的特征表示及隐藏属性激活图;mi为利用卷积滤波器作为响应检测器时捕获的隐藏属性激活图:
[0084]
接着将ε输入到动态关联性单元中。该单元通过构建静态图和动态图来获取隐藏属性之间的关联特性,最终得到具有潜在语义信息关联性的特征表示z。静态图用于学习所有样本的隐藏属性之间的总体关系,动态图用于学习每个样本中所含有的特定属性关系。具体而言,该单元包含静态部分和动态部分。其中静态部分定义为:h=leakyrelu(asews),其中,leakyrelu(
·
)为激活函数,为由隐藏属性激活映射单元获得的隐藏属性响应矩阵,和分别为静态关联矩阵和静态权重更新矩阵,二者均为随机初始化并在训练过程中不断更新。表示隐藏属性数,d表示特征维度数,dr表示静态
部分训练后得到的特征维度数。动态部分定义为:z=leakyrelu(adhwd),ad=δ(f
conv
(h')),其中,leakyrelu(
·
)和δ(
·
)均为激活函数,为卷积层,用于维度转换。为静态表示。和分别为学习得到的动态图关联矩阵和动态权重更新矩阵,二者均为随机初始化并在学习过程中不断更新,二者协同作用将隐藏属性之间的动态相关信息不断向η传递,从而使η得到更新。dk表示经过动态部分训练后得到的特征维度数。为获得动态特性,构建了矩阵该矩阵由η和它的全局表示组合而成。最终,获得包含潜在语义关联性的特征表示
[0085]
104:利用上述学习的短视频特征表示获取事件类别得分,完成短视频事件检测任务。
[0086]
进一步地优化方案,204:将上述学习后得到的包含潜在语义关联性的特征表示经过一个全局平均池化层和归一化指数函数softmax(
·
)后得到事件类别得分其中r表示短视频事件类别数。该部分基于交叉熵构建的分类损失函数如下所示:
[0087][0088]
其中,σ(
·
)是sigmoid函数;第i个样本若属于第j类则为1,否则为0;为第i个样本被预测为第j类的概率值。
[0089]
综上,最终本模型的损失函数构成为:
[0090]
l=αl
act
+βl
recon
+γl
dcm
ꢀꢀ
(12)
[0091]
其中,α、β、γ为平衡各损失间的权重的超参数。
[0092]
通过进行合理的参数设置对模型进行训练,最终结果以准确率(precision)、召回率(recall)和平均精度均值(meanaverage precision,map)作为评价指标。
[0093]
实施例二
[0094]
使用来自从flickr网站爬取得到的20231个短视频作为数据集,每个短视频时长不超过30s,共涉及20种事件类型。随机选择80%的短视频作为训练集,其余作为测试集,对它们提取了视觉特征,并利用其来验证本发明在用于短视频事件检测上的有效性。
[0095]
实施例三
[0096]
如图2所示,本发明还提供的一种基于深度动态语义关联的短视频事件检测系统,包括:
[0097]
帧重要性评估模块,用于收集短视频并提取短视频的视觉特征,基于短视频的视觉特征获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;
[0098]
帧间自注意力增强模块,与帧重要性评估模块连接,用于根据特征空间的注意力
特性,利用帧重要性分数加权后的短视频特征表示来引导注意力的学习,协同帧间与特征空间的内在关联性,获得帧间自注意力增强的特征表示;
[0099]
潜在语义信息感知模块,与帧间自注意力增强模块连接,用于将短视频事件的隐藏属性视为节点,隐藏属性间的关联度视为边,构造短视频样本的特定图表示;通过动态图卷积下的隐藏属性关联学习网络学习复杂事件的隐藏属性及其之间的关联性,获得具有潜在语义信息感知的短视频特征表示;
[0100]
类别得分计算模块,与潜在语义信息感知模块连接,用于根据短视频特征表示获得事件类别得分,完成短视频事件检测任务。
[0101]
进一步地优化方案,帧重要性评估模块主要由指示向量计算单元、权重更新单元、指示器、编码器、解码器、判别器以及权重分配单元组成。在该模块中,指示向量计算单元用来产生初始短视频关键帧重要性权重;权重更新单元和指示器协同工作,用来更新重要性权重;编码器和解码器共同构成了一个变分自编码器,来挖掘样本潜在的重要性信息。同时,解码器又充当了生成器的角色,和判别器共同构成了生成对抗网络,从而使得由变分自编码器训练得到的潜在特征表示不会损失太多原始特征所含的信息。最后,经判别器学习得到的反馈值将作用于权重更新和指示器部分,用于指导重要性权重的更新。
[0102]
进一步地优化方案,潜在语义信息感知模块包括隐藏属性激活映射单元、动态关联性单元;
[0103]
隐藏属性激活映射单元用于捕获隐藏属性响应矩阵,并将隐藏属性响应矩阵输入到动态关联性单元;
[0104]
动态关联性单元用于通过构建静态图和动态图获取隐藏属性之间的关联特性,最终得到具有潜在语义信息关联性的特征表示。
[0105]
实施例四
[0106]
基于深度动态语义关联的短视频事件检测装置,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行如上述基于深度动态语义关联的短视频事件检测方法中的具体步骤,在此不再赘述。
[0107]
以上,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.一种基于深度动态语义关联的短视频事件检测方法,其特征在于,包括:收集短视频并提取所述短视频的视觉特征,基于所述短视频的视觉特征获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;根据特征空间的注意力特性,利用所述帧重要性分数加权后的短视频特征表示来引导注意力的学习,协同帧间与特征空间的内在关联性,获得帧间自注意力增强的特征表示;将短视频事件的隐藏属性视为节点,所述隐藏属性间的关联度视为边,构造短视频样本的特定图表示;通过动态图卷积下的隐藏属性关联学习网络学习复杂事件的隐藏属性及其之间的关联性,获得具有潜在语义信息感知的短视频特征表示;根据所述短视频特征表示获得事件类别得分,完成短视频事件检测任务。2.根据权利要求1所述的基于深度动态语义关联的短视频事件检测方法,其特征在于,基于所述短视频的视觉特征获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示的过程包括,通过变分自编码器和生成对抗网络联合结构最大程度的强化帧重要性信息,获得具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;所述帧重要性分数加权后的短视频特征表示的表达式为:其中,为经过内嵌的变分自编码器和生成对抗网络联合结构更新后的帧重要性分数扩展维度后的表示;为提取到的短视频原始视觉特征;为重要性分数加权后的特征表示;t为短视频的关键帧个数,b为短视频样本数,d为特征维度数;

表示对应元素相乘。3.根据权利要求1所述的基于深度动态语义关联的短视频事件检测方法,其特征在于,所述帧间自注意力增强的特征表示的表达式为:f=w
o
concat(g1,g2,

,g
l
)其中,为帧间自注意力增强的特征表示,l为多头注意力机制的头数量,concat(
·
)表示矩阵的串联操作,为待学习的权重参数,表示第l个头,d
v
=d/l为比例缩放因子。4.根据权利要求1所述的基于深度动态语义关联的短视频事件检测方法,其特征在于,获得具有潜在语义信息感知的短视频特征表示的过程包括,构建隐藏属性激活映射单元捕获隐藏属性响应矩阵,将所述隐藏属性响应矩阵输入到动态关联性单元,所述动态关联性单元通过构建静态图和动态图获取隐藏属性之间的关联特性,最终得到具有潜在语义信息关联性的特征表示。5.根据权利要求1所述的基于深度动态语义关联的短视频事件检测方法,其特征在于,具有潜在语义信息感知的短视频特征表示的表达式为:z=leakyrelu(a
d
hw
d
),a
d
=δ(f
conv
(h'))
其中,leakyrelu(
·
)和δ(
·
)均为激活函数,为卷积层,用于维度转换;为隐藏属性的静态关联表示;和分别为动态图关联矩阵和动态权重更新矩阵;为隐藏属性的动态关联表示,为h的全局表示;是包含潜在语义关联性的特征表示;表示隐藏属性数,d
r
表示静态部分训练后得到的特征维度数,d
k
表示经过动态部分训练后得到的特征维度数。6.根据权利要求1所述的基于深度动态语义关联的短视频事件检测方法,其特征在于,根据所述短视频特征表示获得事件类别得分的过程包括,将具有潜在语义信息感知的短视频特征表示经过一个全局平均池化层和归一化指数函数后得到事件类别得分;所述事件类别得分的表达式为:其中,表示事件类别得分,gap表示全局平均池化层,softmax(
·
)为归一化指数函数。7.一种基于深度动态语义关联的短视频事件检测系统,其特征在于,包括,帧重要性评估模块,用于收集短视频并提取所述短视频的视觉特征,基于所述短视频的视觉特征获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;帧间自注意力增强模块,与所述帧重要性评估模块连接,用于根据特征空间的注意力特性,利用所述帧重要性分数加权后的短视频特征表示来引导注意力的学习,协同帧间与特征空间的内在关联性,获得帧间自注意力增强的特征表示;潜在语义信息感知模块,与所述帧间自注意力增强模块连接,用于将短视频事件的隐藏属性视为节点,所述隐藏属性间的关联度视为边,构造短视频样本的特定图表示;通过动态图卷积下的隐藏属性关联学习网络学习复杂事件的隐藏属性及其之间的关联性,获得具有潜在语义信息感知的短视频特征表示;类别得分计算模块,与所述潜在语义信息感知模块连接,用于根据所述短视频特征表示获得事件类别得分,完成短视频事件检测任务。8.根据权利要求7所述的基于深度动态语义关联的短视频事件检测系统,其特征在于,所述帧重要性评估模块包括指示向量计算单元、权重更新单元、指示器、编码器、解码器、判别器以及权重分配单元;所述指示向量计算单元用于产生初始短视频关键帧重要性权重;所述权重更新单元和指示器协同工作,用于更新重要性权重;所述编码器和解码器共同构成变分自编码器,用于挖掘样本潜在的重要性信息,同时,
所述解码器和判别器共同构成生成对抗网络,经判别器学习得到的反馈值作用于所述权重更新单元和指示器,用于指导重要性权重的更新。9.根据权利要求7所述的基于深度动态语义关联的短视频事件检测系统,其特征在于,所述潜在语义信息感知模块包括隐藏属性激活映射单元、动态关联性单元;所述隐藏属性激活映射单元用于捕获隐藏属性响应矩阵,并将所述隐藏属性响应矩阵输入到动态关联性单元;所述动态关联性单元用于通过构建静态图和动态图获取隐藏属性之间的关联特性,最终得到具有潜在语义信息关联性的特征表示。

技术总结
本发明公开了一种基于深度动态语义关联的短视频事件检测方法及系统,包括,获取和强化视觉特征的帧重要性信息,得到具有区分度的帧重要性分数和帧重要性分数加权后的短视频特征表示;根据特征空间的注意力特性,利用帧重要性分数加权后的短视频特征表示来引导注意力的学习,获得帧间自注意力增强的特征表示;构造短视频样本的特定图表示,通过动态图卷积下的隐藏属性关联学习网络学习复杂事件的隐藏属性及其之间的关联性,获得具有潜在语义信息感知的短视频特征表示;根据短视频特征表示获得事件类别得分,完成短视频事件检测任务。本发明为解决短视频事件检测问题提供了新的方法思路,有效地增强了特征表示能力。有效地增强了特征表示能力。有效地增强了特征表示能力。


技术研发人员:井佩光 宋晓艺 苏育挺
受保护的技术使用者:天津大学
技术研发日:2023.05.05
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐