基于有向图信息交互的在线动作检测算法、系统、设备
未命名
10-19
阅读:123
评论:0
1.本发明涉及计算机视觉算法技术领域,具体涉及一种基于有向图信息交互的在线动作检测算法、系统、设备。
背景技术:
2.在万物互联的信息时代,视频作为记录客观世界并传递信息的有效媒介,在生产生活中得到广泛的应用,这使得视频解译的需求越来越强烈。
3.为了有效地感知动作的结构,视频动作解译领域的研究者们已经进行深入的探索并取得一系列的成果。mengmeng xu等人在2020年的工作g-tad:sub-graph localization for temporal action detection中建模视频片段的时序邻域和语义邻域关系,runhao zeng等人在2021年的工作graph convolutional module for temporal action localization in videos中以图中拓扑结构表示邻近动作提议之间的关系。近期,自注意力机制展现出优良的动作结构建模能力,其中,ashish vaswani等人在2017年的工作attention is all you need中通过密集连接使得视频帧只经过一个序列化操作便能与任意邻近帧进行交互,而邻近帧充分的交互能为视频帧提供丰富的时序上下文信息。然而,图卷积机制和自注意力机制希望为每类动作学习一种唯一确定的表征,但通常忽略类内多样性,忽略一个动作通常含有多个阶段,而每个阶段的视频帧也展现出不同的外观和运动特性。此外,已有方法通常局限于单个视频,甚至视频中一个滑动窗,进行动作结构建模,尚未充分探索跨视频类别级的关系。
4.为了表征同类动作的多样性并进行跨视频的动作类别级关系建模,研究者已经探索出一些有意义的方法,例如,wang luo等人在2021年的工作action unit memory network for weakly supervised temporal action localization中提出的学习记忆池(memory bank),为动作学习类别原型(prototype),le yang等人在2022年的工作colar:effective and efficient online action detection by consulting exemplars中从每类动作中选择有代表性的子动作并将其视为典型动作片段。这些建模在特定任务上也得到了相应的性能提升。
5.然而以上已有方法仅从类别层面处理有代表性的典型动作片段,但未曾探索多个典型动作片段之间的时序关系。这样会导致遗漏三种有意义的信息:(1)由于典型动作片段只代表完整动作的一部分,来自不同的阶段的多个典型动作片段通常能包含不同的时序信息。(2)如果将典型动作片段按照时间顺序有机地组织,他们能表示此类动作完整的概念,我们将按照时间顺序有机组织的典型动作片段称为典型动作网络(exemplar complex),简称为exco。(3)通过视频帧与典型动作网络的有效交互,视频解译任务能感知可靠的动作结构信息,从而获得稳定的性能增益。
技术实现要素:
6.针对上述存在的问题,本发明旨在提供一种基于有向图信息交互的在线动作检测
算法,其针对有监督训练,用于建模时序信息,完成时序动作定位任务,从而解决有监督在线动作检测任务。
7.为了实现上述目的,本发明所采用的技术方案如下:
8.一种基于有向图信息交互的在线动作检测算法,其特征在于,包括以下步骤:
9.步骤1:输入待检测视频数据,利用i3d模型抽取视频数据的视频特征得到视频的高层语义特征;
10.步骤2:针对待检测的一类动作,基于k-means算法生成典型动作;
11.步骤3:针对生成的典型动作,基于信息传递机制构建有向图,通过有向图显示地表征典型动作之间的结构;
12.步骤4:将表征典型动作的有向图与colar方法结合,以在线的形式进行动作检测;
13.步骤5:从所有类别的典型动作中搜集视频帧特征,比较待检测视频帧特征和典型动作的特征之间的点积相似性,得到视频帧分类得分;
14.步骤6:根据得到的预测分类得分,进行视频动作检测并输出动作定位结果。
15.进一步地,步骤2包括以下具体步骤:
16.步骤21:针对一类动作,获取所有动作实例的高层语义特征;
17.步骤22:基于k-means算法将得到的特征进行聚类,得到m个聚类簇,将每个簇中最靠近聚类中心的特征作为典型特征,得到m个典型特征;
18.步骤23:将每个动作实例均匀地划分为三个阶段,根据典型特征在其对应的动作实例中所处的位置,确定典型特征所属的阶段,得到每个阶段的多个典型动作。
19.进一步地,所述动作实例被划分为动作开端、动作演变和动作结尾三个阶段。
20.进一步地,步骤3包括以下具体步骤:
21.步骤31:连接属于同一阶段的多个典型动作,通过阶段内部交互信息传递机制在每两个典型动作之间进行双向的信息交互;
22.步骤32:利用相邻阶段传递信息传递机制,将动作开端阶段的每个典型特征与动作演变阶段的所有典型特征连接,并将动作演变阶段的每个典型特征与动作结尾阶段的所有典型特征连接,从而在不同阶段典型特征之间构建一个有向图,显式地表征动作的结构信息;
23.步骤33:将视频帧特征与所有典型特征逐个比较,并使用注意力机制自适应地从动作实例划分的各个阶段聚合特征,从而通过典型信息聚合消息传递机制将典型信息聚合到视频帧;
24.步骤34:通过视频帧广播消息传递机制使用视频帧广播操作将当前视频帧的特性传递给构建的有向图,用于使典型动作根据视频帧的特性做出适应性的调整。
25.进一步地,步骤4的具体步骤为:将传统colar方法中所使用的静态典型分支替换为有向图信息交互表征动作结构信息,从而在其他设定和colar保持一致的情况下,以在线的形式执行动作检测任务。
26.进一步地,步骤5包括以下具体步骤:
27.步骤51:从所有类别的用有向图表征的典型动作中收集视频帧特征,得到特征表示
28.步骤52:对所有特征进行l2正则化;
29.步骤53:计算视频特征与典型特征之间的点积相似性,对第c类相似性得分取平均,得到分类得分sc,再将各种不同动作类别的分类得分sc进行加和最终得到该视频特征的分类得分s。
30.进一步地,定义损失函数,根据损失函数进行训练和测试,所述损失函数为:
31.l=l
van
+l
exp
+λ
·
l
cons
32.其中,l
exp
表示典型分支相应的损失项;l
cons
表示一致性损失项;λ用于调整一致性损失的影响;l
van
表示colar算法所计算的损失项,且:
[0033][0034]
式中,表示focal loss,用于动作类别的分类;表示diou loss,用于动作边界的回归;t
+
表示一条视频中正样本的数目;是指示函数,用于表示当前时刻是否属于某个动作;λ
reg
表示均衡系数,用于平衡和
[0035]
一种基于有向图信息交互的在线动作检测系统,其特征在于,包括视频特征抽取模块、典型动作生成模块、动作建模模块、弱监督视频动作检测模块、预测分类得分模块以及检测结果输出模块;
[0036]
所述视频特征抽取模块,用于利用i3d模型抽取待检测视频数据的视频特征,得到视频的高层语义表征;
[0037]
所述典型动作生成模块,用于针对待检测的一类动作,基于k-means算法生成典型动作;
[0038]
所述动作建模模块,用于基于信息传递机制构建有向图,通过有向图显示地表征典型动作之间的结构;;
[0039]
所述在线动作检测模块,用于将表征典型动作的有向图与colar方法结合,以在线的形式进行动作检测;
[0040]
所述预测分类得分模块,用于从所有类别的典型动作中搜集视频帧特征,比较视频帧特征和典型特征之间的点积相似性,得到视频帧分类得分;
[0041]
所述检测结果输出模块,用于根据得到的预测分类得分,进行视频动作检测并输出动作定位结果。
[0042]
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于有向图信息交互的在线动作检测算法中的步骤。
[0043]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于有向图信息交互的在线动作检测算法中的步骤。
[0044]
本发明的有益效果是:
[0045]
第一,本发明所提出的有向图信息交互的在线动作检测算法是一个同时具有表征力和判别力的算法,能有效地服务于涉及动作结构的视频解译任务。作为一个有表征力的模块,首先,每一个被选择的典型动作片段对应于一系列具有清晰外观特征和运动模式的
视频帧,这种典型动作片段所对应的清晰特征能够代表许多与之相似的特征。其次,该算法将一类动作划分为三个阶段:动作开端、动作演变和动作结尾,能够显式地表征同类动作的结构。更进一步的,该算法的每个阶段均包含多个典型动作片段,能够恰当地反映同一阶段动作所具有的外观和运动多样性;
[0046]
其次,作为一个有判别力的模块,首先,其相比于大部分训练视频的特征,有向图信息交互网络参与所有视频帧的训练,在与所有样本的交互中被充分地训练,成为具有判别力的模块。此外,给定视频特征,传统方法通常学习具有额外参数的分类器来预测分类得分,而该算法通过比较视频特征与各个典型动作的相似性来预测分类得分,这种不引入额外参数的做法能进一步增强该算法的特征判别力。
[0047]
第二,本发明所提出的有向图信息交互的在线动作检测算法能与colar方法高效结合,有效地建模动作结构和跨视频依赖关系,服务于时序动作定位任务。传统的colar方法平等地对待所有典型动作,因而缺乏结构性建模。而本发明所提的以有向图的形式组织典型动作,能够精准地表示动作结构。
[0048]
因此,本发明所提方法针有监督训练,处理有监督在线动作检测任务,通过有向图信息交互的在线动作检测算法与colar方法高效结合,能在节省计算开销的情况下,在tvseries数据集上实现2.1%的性能增益,在计算量有限的情况下,可以对视频动作进行准确度较高的分类和定位。
附图说明
[0049]
图1为本发明所提方法的流程图。
[0050]
图2为部分训练数据的可视化图。
[0051]
图3为本发明所提方法的实验结果图。
具体实施方式
[0052]
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
[0053]
本发明的核心思路是:考虑一个动作类别,首先,本方法收集此类所有动作实例的每个特征并进行聚类,选取有代表性的特征作为典型动作片段。然后,本方法将典型动作片段划分为三个阶段并按照时间顺序嵌入到一个有向图中,从类别层面全局地构建典型动作网络。接下来,本方法在典型动作网络中设计四种信息交互步骤:阶段内部交互、相邻阶段传递、典型信息聚合和视频帧广播,这四种步骤按顺序处理时序信息,调整典型动作网络中每个典型动作片段的特征,为所处理的每帧视频提供恰当的时序信息引导。最终,此基于有向图信息交互的在线动作检测算法与已有的时序动作定位方法相结合,取得性能增益。
[0054]
基于以上技术思路,本发明提出一种基于有向图信息交互的在线动作检测算法,包括以下步骤:
[0055]
步骤1:抽取视频特征:
[0056]
对于给定视频,利用joao carreira在2017年的工作action recognition a new model and the kinetics dataset中提出的i3d模型,抽取一系列视频特征,得到视频的高
层语义表征f=[f1,f2,
…
,f
t
],其中表示第t个视频特征,f
t
反映一段连续视频帧的信息。
[0057]
步骤2:基于聚类算法的典型动作生成
[0058]
步骤21:考虑一类动作,首先收集所有动作实例的特征表示,然后使用k-means算法将特征聚类,得到m个聚类簇。对于每簇特征表示,将最靠近聚类中心的特征当作典型特征,得到m个典型特征;
[0059]
步骤22:将每个动作实例均匀地划分为三个阶段:动作开端、动作演变和动作结尾。根据典型特征在其对应的动作实例中所处的位置,确定典型特征所属的阶段。对于不同动作类别,三个阶段通常含有不同数量的典型动作。
[0060]
步骤3:基于结构信息传递的动作建模
[0061]
给定三个阶段所对应的典型动作,利用阶段内部交互、相邻阶段传递、典型信息聚合及视频帧广播四种信息传递机制,构建有向图gc(vc,ec)以显式地表征典型动作之间的结构。
[0062]
步骤31:连接属于同一阶段的多个典型动作,并在每两个典型动作之间进行双向的信息交互。考虑一个特定的动作阶段,多个典型动作能反映此阶段的动作在外观特性和运动模式上的多样性。因此,阶段内部交互便于典型动作捕获相同时序片段中的多样性;
[0063]
步骤32:包含从“动作开端”到“动作演变”和从“动作演变”到“动作结尾”两种信息传递。本发明将开端阶段的每个典型特征与演变阶段的所有典型特征连接,将演变阶段的每个典型特征与结尾阶段的所有典型特征连接,最终,在不同阶段典型特征之间建立一个有向图,构建图变换网络。相邻阶段传递能够帮助每个典型特征显式地感知其前驱典型和后继典型,从而显式地表征动作的结构信息;
[0064]
步骤33:经过阶段内部和阶段之间充分的信息交互,典型动作网络(构建的图变换网络)能为所处理的视频帧准确地传递结构信息。此时,将典型信息聚合到视频帧,为动作解译任务提供时序信息支持。视频帧特征与所有典型特征逐个比较,并使用注意力机制自适应地从各个动作阶段聚合特征。经过典型信息聚合,视频帧特征能够充分地感知当前动作的结构信息;
[0065]
步骤34:使用视频帧广播操作将当前视频帧的特性传递给图变换网络模块。每个典型动作综合考虑其自身特征和正在处理的视频帧特征,按照注意力机制更新自身特征;视频帧广播操作能使典型动作根据视频帧的特性做出适应性的调整,从而在下一层信息传播过程中产生更具有表征力的典型特征。
[0066]
步骤4:典型动作网络模块结合colar方法
[0067]
将有向图信息交互的在线检测算法(步骤1-3步骤3)与yangle等人在2022年的工作colar:effective and efficient online action detection by consulting exemplars中提出的时序动作定位方法colar结合,具体为:
[0068]
由于传统的colar使用动态典型分支处理邻近历史帧,使用静态典型分支比较当前帧和典型动作的相似性并进行跨视频类别级建模。相比于colar所使用的静态典型分支,本发明提出使用有向图信息交互表征动作结构信息,从而将静态典型分支替换为有向图交互模块,在其他设定和colar保持一致的情况下,以在线的形式执行动作检测任务。
[0069]
步骤5:基于相似性比较的分类估计
[0070]
在此算法中,最后一层图变换网络的节点特征可以表示为其中,代表第c类m个典型节点的特征,代表由第c类所表征的视频帧特征。从所有类别的典型动作网络模块中搜集视频帧特征,可以得到特征表示
[0071]
为了获得预测分类得分,对所有特征进行l2正则化,然后计算视频帧特征与典型特征之间的点积相似性,对第c类的相似性得分取平均,得到分类得分sc,最终得到视频帧的分类得分s。
[0072]
步骤6:训练和测试
[0073]
在训练阶段,设置损失函数:
[0074]
l=l
van
+l
exp
+λ
·
l
cons
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0075]
其中,l
van
表示colar算法所计算的损失项,具体计算方式如下:
[0076][0077]
式中,表示tsung-yi lin等人在2017年的工作focal loss for dense object detection中提出的focal loss,用于动作类别的分类;表示zhaohui zheng等人在2020年的工作distance-iou loss:faster andbetterlearning for bounding box regression中提出的diou loss,用于动作边界的回归。t
+
表示一条视频中正样本的数目。是指示函数,用于表示当前时刻是否属于某个动作。λ
reg
表示均衡系数,用于平衡和
[0078]
给定典型动作分支的预测结果,参考colar算法计算典型分支相应的损失项l
exp
。约束colar算法的预测结果和典型动作分支的预测结果保持一致,计算一致性损失项l
cons
,λ用于调整一致性损失的影响。
[0079]
在测试阶段,使用超参数β融合colar算法的预测结果s
van
和典型动作分支的预测结果s
exp
,得到相关视频解译任务的最终结果:
[0080]
s=β
·svan
+(1-β)
·sexp
.
[0081]
实施例
[0082]
为了进一步验证本发明所提方法效果,利用pytorch1.5软件对本方法进行实现。
[0083]
1、实验环境
[0084]
本发明实施的硬件环境为:因特尔xeone5-2600v3@2.6ghz8-核cpu处理器,128gb内存,配备geforcegtxtitan2080tigpu。运行的软件环境是:linux16.0464位操作系统。
[0085]
2、实施过程
[0086]
(1)构建数据集
[0087]
在本实施例中本实施例使用thumos14和activitynet-v1.3两个数据集进行实验。thumos14数据集来源于:http://crcv.ucf.edu/thumos14/,activitynet-v1.3数据集来源
于:http://activity-net.org/。thumos14训练数据集共包含20种动作类别,activitynet-v1.3训练数据集共包含200种动作类别,每条训练视频包含多个动作实例。如图2所示。利用本发明的方法对所有视频单独处理。
[0088]
(2)提取视频特征
[0089]
利用joao carreira等人在2017年的工作quo vadis,action recognition anew model and the kinetics dataset[c]//proceedings of the ieee conference on computer vision and pattern recognition.2017:6299-6308.中提出的i3d模型,抽取一系列视频特征,得到视频的高层语义表征f=[f1,f2,
…
,f
t
],其中表示第t个视频特征,f
t
反映一段连续视频帧的信息。
[0090]
i3d模型在kinetics-400数据集上完成预训练,kinetics-400数据集来源于:https://deepmind.com/research/open-source/kinetics。
[0091]
(3)构建典型动作网络模块
[0092]
本实施例使用minjie wang等人在2019年的工作wang m,zheng d,ye z,et al.deep graph library:a graph-centric,highly-performant package for graph neural networks[j].arxiv preprint arxiv:1909.01315,2019.中提出的deep graph libray 0.8.2实现典型动作网络模块。典型动作以图变换网络(graph transformer)的形式运行,具体做法是:
[0093]
首先,初始化图变换网络的节点特征和边特征。使用一个线性变换层将典型动作特征投影到隐空间,此外,考虑一条由节点vi指向节点vj的边,将边的特征表示为e
ij
。
[0094]
在初始化阶段,拼接xi和xj两个节点的特征,并应用一个线性变换层进行特征投影,此外,采用pan li等人在2020年的工作li p,wang y,wang h,et al.distance encoding:design provably more powerful neural networks for graph representation learning[j].advances in neural information processing systems,2020,33:4465-4478.中提出的随机游走策略为每个节点产生位置编码,并使用一个线性变换层将位置编码投影到隐空间
[0095]
有向图信息交互在线动作检测算法使用多层图变换网络,对于第l层的图变换网络,其第i个节点的特征为对应的位置编码为连接节点vi和vj的边所对应的特征为使用投影矩阵来处理节点特征和对应的位置编码,使用投影矩阵来处理边特征。
[0096]
为了计算节点vi和其相邻节点vj,j∈ni的相关性,估计相关性向量
[0097]
[0098]
其中表示逐元素相乘,[
·
]表示在通道维度拼接。
[0099]
然后,按照下式计算相似性:
[0100][0101]
根据式(4)更新节点vi的特征:
[0102][0103]
最终,使用图变换网络中的标准操作来处理节点特征,依次使用残差连接,逐层正则化(layer normalization)和前馈网络(feed forward network)。
[0104]
为了简化表述过程,上述操作只考虑单头自注意力机制,但这些操作能便捷地拓展到多头自注意力机制,从而使图变换网络模块具有更强的表征能力。
[0105]
与此同时,本发明综合考虑节点自身的位置编码、邻近节点的位置编码和连接邻近节点边的特征,更新每个节点的位置编码pi。更新过程可以表示为:
[0106][0107]
其中,γ(
·
)表示与节点特征所类似的信息传播过程中,计算时只考虑节点的位置编码,而不考虑节点的特征信息。
[0108]
(4)结合有向图信息交互的在线动作检测算法和colar
[0109]
首先,colar使用动态典型分支处理邻近历史帧,使用静态典型分支比较当前帧和典型动作的相似性并进行跨视频类别级建模。相比于colar所使用的静态典型分支,本发明所提出使用有向图信息交互表征动作结构信息。因此,此方法将静态典型分支替换为有向图交互模块,在其他设定和colar保持一致的情况下,以在线的形式执行动作检测任务。
[0110]
其次,在此算法中,最后一层图变换网络的节点特征可表示为其中,代表第c类m个典型节点的特征,代表由第c类典型节点所表征的视频帧特征,代表由背景类所表征的视频帧特征。
[0111]
从所有类别的有向图信息交互模块中搜集视频帧特征,可以得到特征表示
[0112]
再次,为了获得预测分类得分,本方法对所有特征进行正则化,然后计算视频帧特征与典型特征之间的点积相似性,对第类的相似性得分取平均,得到分类得分,最终得到视频帧的分类得分。
[0113]
(5)训练和测试
[0114]
在训练阶段,损失函数按照如下形式计算:
[0115]
l=l
van
+l
exp
+λ
·
l
cons
[0116]
其中,l
van
表示colar算法所计算的损失项,具体计算方式如下:
[0117][0118]
式中,表示tsung-yi lin等人在2017年的工作lin t y,goyal p,girshick r,et al.focal loss for dense object detection中提出的focal loss,用于动作类别的分类;表示zhaohui zheng等人在2020年的工作zheng z,wang p,liu w,et al.distance-iou loss:faster and better learning for bounding box regression中提出的diou loss,用于动作边界的回归。t
+
表示一条视频中正样本的数目。是指示函数,用于表示当前时刻是否属于某个动作。λ
reg
表示均衡系数,用于平衡和
[0119]
给定典型动作分支的预测结果,可以参考colar算法计算典型分支相应的损失项l
exp
。约束colar算法的预测结果和典型动作分支的预测结果保持一致,使用均方误差函数计算一致性损失项l
cons
,λ用于调整一致性损失的影响。
[0120]
在测试阶段,使用超参β融合colar算法的预测结果s
van
和典型动作分支的预测结果s
exp
,得到时序动作定位任务的结果:
[0121]
s=β
·svan
+(1-β)
·sexp
·
[0122]
本发明使用navaneeth bodla等人在2017年的工作bodla n,singh b,chellappa r,et al.soft-nms
‑‑
improving object detection with one line of code[c]//proceedings of the ieee international conference on computer vision.2017:5561-5569.中提出的soft-nms方法,对时序动作定位结果进行后处理,移除高度重叠的动作实例,产生时序动作定位的最终结果,如图3所示。
[0123]
(6)参数设置
[0124]
本发明本方法参考devinkreuzer等人在2021年的工作kreuzerd,beaini d,hamilton w,et al.rethinking graph transformers with spectral attention[j].advances in neural information processing systems,2021,34:21618-21629.和vijay prakash dwivedi等人在2022年的工作dwivedi v p,luu a t,laurent t,et al.graph neural networks with learnable structural and positional representations[j].arxiv preprint ar xiv:2110.07875,2021.设置图变换网络层的相关参数,将节点特征和位置编码特征的维度设置为64。
[0125]
此外,本方法根据验证集的实验性能调节超参数。最终,典型数量m设置为10,典型动作层数设置为3,损失系数λ设置为1.0,融合系数β设置为0.5。
[0126]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
技术特征:
1.一种基于有向图信息交互的在线动作检测算法,其特征在于,包括以下步骤:步骤1:输入待检测视频数据,利用i3d模型抽取视频数据的视频特征得到视频的高层语义特征;步骤2:针对待检测的一类动作,基于k-means算法生成典型动作;步骤3:针对生成的典型动作,基于信息传递机制构建有向图,通过有向图显示地表征典型动作之间的结构;步骤4:将表征典型动作的有向图与colar方法结合,以在线的形式进行动作检测;步骤5:从所有类别的典型动作中搜集视频帧特征,比较待检测视频帧特征和典型动作的特征之间的点积相似性,得到视频帧分类得分;步骤6:根据得到的预测分类得分,进行视频动作检测并输出动作定位结果。2.根据权利要求1所述的一种基于有向图信息交互的在线动作检测算法,其特征在于,步骤2包括以下具体步骤:步骤21:针对一类动作,获取所有动作实例的高层语义特征;步骤22:基于k-means算法将得到的特征进行聚类,得到m个聚类簇,将每个簇中最靠近聚类中心的特征作为典型特征,得到m个典型特征;步骤23:将每个动作实例均匀地划分为三个阶段,根据典型特征在其对应的动作实例中所处的位置,确定典型特征所属的阶段,得到每个阶段的多个典型动作。3.根据权利要求2所述的一种基于有向图信息交互的在线动作检测算法,其特征在于,所述动作实例被划分为动作开端、动作演变和动作结尾三个阶段。4.根据权利要求3所述的一种基于有向图信息交互的在线动作检测算法,其特征在于,步骤3包括以下具体步骤:步骤31:连接属于同一阶段的多个典型动作,通过阶段内部交互信息传递机制在每两个典型动作之间进行双向的信息交互;步骤32:利用相邻阶段传递信息传递机制,将动作开端阶段的每个典型特征与动作演变阶段的所有典型特征连接,并将动作演变阶段的每个典型特征与动作结尾阶段的所有典型特征连接,从而在不同阶段典型特征之间构建一个有向图,显式地表征动作的结构信息;步骤33:将视频帧特征与所有典型特征逐个比较,并使用注意力机制自适应地从动作实例划分的各个阶段聚合特征,从而通过典型信息聚合消息传递机制将典型信息聚合到视频帧;步骤34:通过视频帧广播消息传递机制使用视频帧广播操作将当前视频帧的特性传递给构建的有向图,用于使典型动作根据视频帧的特性做出适应性的调整。5.根据权利要求4所述的一种基于有向图信息交互的在线动作检测算法,其特征在于,步骤4的具体步骤为:将传统colar方法中所使用的静态典型分支替换为有向图信息交互表征动作结构信息,从而在其他设定和colar保持一致的情况下,以在线的形式执行动作检测任务。6.根据权利要求5所述的一种基于有向图信息交互的在线动作检测算法,其特征在于,步骤5包括以下具体步骤:步骤51:从所有类别的用有向图表征的典型动作中收集视频帧特征,得到特征表示
步骤52:对所有特征进行l2正则化;步骤53:计算视频特征与典型特征之间的点积相似性,对第c类相似性得分取平均,得到分类得分s
c
,再将各种不同动作类别的分类得分s
c
进行加和最终得到该视频特征的分类得分s。7.根据权利要求6所述的一种基于有向图信息交互的在线动作检测算法,其特征在于,定义损失函数,根据损失函数进行训练和测试,所述损失函数为:l=l
van
+l
exp
+λ
·
l
cons
其中,l
exp
表示典型分支相应的损失项;l
cons
表示一致性损失项;λ用于调整一致性损失的影响;l
van
表示colar算法所计算的损失项,且:式中,表示focal loss,用于动作类别的分类;表示diou loss,用于动作边界的回归;t
+
表示一条视频中正样本的数目;是指示函数,用于表示当前时刻是否属于某个动作;λ
reg
表示均衡系数,用于平衡和8.一种基于有向图信息交互的在线动作检测系统,其特征在于,包括视频特征抽取模块、典型动作生成模块、动作建模模块、弱监督视频动作检测模块、预测分类得分模块以及检测结果输出模块;所述视频特征抽取模块,用于利用i3d模型抽取待检测视频数据的视频特征,得到视频的高层语义表征;所述典型动作生成模块,用于针对待检测的一类动作,基于k-means算法生成典型动作;所述动作建模模块,用于基于信息传递机制构建有向图,通过有向图显示地表征典型动作之间的结构;;所述在线动作检测模块,用于将表征典型动作的有向图与colar方法结合,以在线的形式进行动作检测;所述预测分类得分模块,用于从所有类别的典型动作中搜集视频帧特征,比较视频帧特征和典型特征之间的点积相似性,得到视频帧分类得分;所述检测结果输出模块,用于根据得到的预测分类得分,进行视频动作检测并输出动作定位结果。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于有向图信息交互的在线动作检测算法中的步骤。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于有向图信息交互的在线动作检测算法中的步骤。
技术总结
本发明公开了一种基于有向图信息交互的在线动作检测算法,用于建模时序信息,完成时序动作定位任务。其针对一个动作类别,首先,收集此类所有动作实例的每个特征并进行聚类,选取有代表性的特征作为典型动作片段。其次,将典型动作片段划分为三个阶段并按照时间顺序嵌入到一个有向图中,从类别层面全局地构建典型动作网络。再次,在典型动作网络中设计四种信息交互步骤:阶段内部交互、相邻阶段传递、典型信息聚合和视频帧广播,按顺序处理时序信息,调整典型动作网络中每个典型动作片段的特征,为所处理的每帧视频提供恰当的时序信息引导。最终,该基于有向图信息交互的在线动作检测算法与已有的时序动作定位方法相结合,在有监督的情况下取得性能增益。监督的情况下取得性能增益。监督的情况下取得性能增益。
技术研发人员:张鼎文 高源远 杨乐 程乐超 孙佳欣 韩军伟 彭春蕾
受保护的技术使用者:西北工业大学
技术研发日:2023.04.17
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/