卷积神经网络提取视频帧中目标物特征的方法及装置与流程

未命名 09-22 阅读:108 评论:0


1.本技术涉及图像特征提取领域,特别是涉及一种卷积神经网络提取视频帧中目标物特征的方法及装置。


背景技术:

2.目前,由于拍摄镜头的远近的不同,导致成像后目标物在画面中的占比不断发生变化,这对利用卷积神经网络提取视频中目标物的特征信息是一个很大的挑战。
3.现有技术中主要通过以下两种方式提升特征提取效果:第一种方法是通过固定摄像头进行拍摄,在生成画面时即规避目标物在画面中占比不同的问题。这种方法的通用性较差,只能在待识别视频还没有拍摄的时候进行,没有从根源上解决问题。第二种方法是通过加深卷积神经网络的结构来提升卷积神经网络对特征信息的提取效果。但是,由于卷积神经网络深度的加深,运行速度会降低,时延会增加,降低了特征提取的实时性。
4.因此,需要一种既没有降低卷积神经网络运行速度,又能提升卷积神经网络对不同目标物占比的图像的特征提起效果的方法。


技术实现要素:

5.针对现有技术中的问题,本技术提供了一种卷积神经网络提取视频帧中目标物特征的方法,本技术提出的方法根据当前视频帧中目标物所占的比例对当前视频帧进行不同采样,将采样后的多种尺寸的视频帧输入到对应的感受野中进行特征提取,得到多个特征集合后再复原求和,从而得出当前视频帧的目标物特征。
6.根据本技术的第一个方面,提出一种卷积神经网络提取视频帧中目标物特征的方法,包括:
7.计算当前视频帧中的目标物所占比例;
8.根据所述目标物所占比例确定所述当前视频帧的采样方式,以生成多种不同尺寸的视频帧;
9.将所述多种不同尺寸的视频帧分别输入到对应的感受野中,生成多个采样特征集合;
10.根据所述多个采样特征集合生成视频帧特征集合。
11.根据一些实施例,所述根据所述多个采样特征集合生成视频帧特征集合包括:
12.将所述多个采样特征集合复原到所述当前视频帧的原始尺寸,以生成多个复原特征集合;
13.将所述多个复原特征集合求和,得到视频帧特征集合。
14.根据一些实施例,所述将所述多个采样特征集合复原到所述当前视频帧的原始尺寸包括:
15.根据所述采样方式进行复原。
16.根据一些实施例,所述采样方式包括上下采样、上采样和下采样,其中:
17.所述上下采样包括将所述当前视频帧进行一次或多次放大和一次或多次缩小;
18.所述上采样包括将所述当前视频帧进行一次或多次放大;
19.所述下采样包括将所述当前视频帧进行一次或多次缩小。
20.根据一些实施例,所述根据所述目标物所占比例确定所述视频帧的采样方式包括:
21.在所述目标物所占比例低于第一占比阈值的情况下,确定所述视频帧的采样方式为上采样;
22.在所述目标物所占比例高于第二占比阈值的情况下,确定所述视频帧的采样方式为下采样;
23.在所述目标物所占比例高于第一占比阈值,并且低于第二占比阈值的情况下,确定所述视频帧的采样方式为上下采样。
24.根据一些实施例,所述感受野包括第一感受野、第二感受野和第三感受野,其中:
25.所述第一感受野用于提取视频帧尺寸小于第一尺寸阈值的视频帧中目标物特征;
26.所述第二感受野用于提取视频帧尺寸大于所述第一尺寸阈值且小于第二尺寸阈值的视频帧中目标物特征;
27.所述第三感受野用于提取视频帧尺寸大于所述第二尺寸阈值的视频帧中目标物特征。
28.根据本技术的第二个方面,提出一种卷积神经网络提取目标视频中目标物特征的方法,包括
29.接收目标视频;
30.将所述目标视频分解为多个视频帧;
31.按如本技术第一个方面所述的方法提取依次所述多个视频帧中目标物特征,得到多个视频帧特征集合,将所述多个视频帧特征集合作为所述目标视频的目标物特征。
32.根据本技术的第三个方面,提出一种卷积神经网络提取视频帧中目标物特征的装置,包括:
33.比例识别模块用于识别当前视频帧中的目标物所占比例;
34.采样模块用于根据所述目标物所占比例确定所述当前视频帧的采样方式,生成多种不同尺寸的视频帧;
35.采样特征生成模块用于将所述多种不同尺寸的视频帧分别输入到对应的感受野中,生成多个采样特征集合;
36.视频帧特征生成模块用于根据所述多个采样特征集合生成视频帧特征集合。
37.根据本技术的第四个方面,提出一种电子设备,包括:
38.处理器;
39.存储器,存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行如本技术第一个方面所述的方法。
40.根据本技术的第五个方面,提出一种非瞬时性计算机可读存储介质,其上存储有计算机可读指令,当所述指令被处理器执行时,使得所述处理器执行如本技术第一个方面所述的方法。。
41.本技术提供的卷积神经网络提取视频帧中目标物特征的方法和装置,根据当前视
频帧中目标物所占的比例进行不同采样,将采样后的多种尺寸的视频帧输入到对应的感受野中进行特征提取,得到多个特征集合后再复原求和,从而得出当前视频帧的目标物特征。根据本技术提供的方案,能够在不降低卷积神经网络的运行速度的前提下,提升卷积神经网络对目标物占比不同的画面的特征提取效果。
附图说明
42.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图,而并不超出本技术要求保护的范围。
43.图1为本技术的卷积神经网络提取视频帧中目标物特征的方法的流程图;
44.图2为本技术的卷积神经网络提取目标视频中目标物特征的方法的流程图;
45.图3为本技术的卷积神经网络提取视频帧中目标物特征的装置的示意图;
46.图4为本技术提供的一种电子设备的结构图。
具体实施方式
47.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
48.图1为本技术的卷积神经网络提取视频帧中目标物特征的方法的流程图。如图1所示,该方法包括如下步骤。
49.步骤s101,计算当前视频帧中的目标物所占比例。
50.在一些具体实施例中,目标物为人物。在一些具体实施例中,识别当前视频帧中的目标物所占图像画面的比例。在一些具体实施例中,第一占比阈值小于第二占比阈值。在一些具体实施例中,第一占比阈值和第二占比阈值为0-1之间的常数。
51.在一些具体实施例中,目标物所占图像画面比例小于第一占比阈值。在一些具体实施例中,目标物所占图像画面比例大于第一占比阈值,小于第二占比阈值。在一些具体实施例中,目标物所占图像画面比例大于第二占比阈值。
52.在一些具体实施例中,通过软件运行识别算法计算当前视频帧中的目标物所占比例。在一些具体实施例中,通过人工识别计算当前视频帧中的目标物所占比例。
53.步骤s102,根据所述目标物所占比例确定所述当前视频帧的采样方式,以生成多种不同尺寸的视频帧。
54.在一些具体实施例中,目标物所占图像画面比例小于第一占比阈值,采样方式为上采样。在一些具体实施例中,目标物所占图像画面比例大于第二占比阈值,采样方式为下采样。在一些具体实施例中,目标物所占图像画面比例大于第一占比阈值,小于第二占比阈值,采样方式为上下采样。
55.在一些具体实施例中,上下采样包括将当前视频帧进行一次或多次放大和一次或多次缩小。在一些具体实施例中,上采样包括将当前视频帧进行一次或多次放大。在一些具
体实施例中,下采样包括将当前视频帧进行一次或多次缩小。在一些具体实施例中,将原始视频帧作为多种不同尺寸的视频帧中的一种。
56.步骤s103,将所述多种不同尺寸的视频帧分别输入到对应的感受野中,生成多个采样特征集合。
57.在一些具体实施例中,预设第一感受野、第二感受野和第三感受野。在一些具体实施例中,第一感受野用于提取视频帧尺寸小于第一尺寸阈值的视频帧中目标物特征。在一些具体实施例中,第二感受野用于提取视频帧尺寸大于第一尺寸阈值且小于第二尺寸阈值的视频帧中目标物特征。在一些具体实施例中,第三感受野用于提取视频帧尺寸大于第二尺寸阈值的视频帧中目标物特征。
58.在一些具体实施例中,视频帧的尺寸小于第一尺寸阈值,将视频帧输入到第一感受野中,得到采样特征集合。在一些具体实施例中,视频帧的尺寸大于第一尺寸阈值且小于第二尺寸阈值,将视频帧输入到第二感受野中,得到采样特征集合。在一些具体实施例中,视频帧尺寸大于第二尺寸阈值,将视频帧输入到第三感受野中,得到采样特征集合。在一些具体实施例中,将原始视频帧作为多种不同尺寸的视频帧中的一种,得到采样特征集合。
59.步骤s104,根据所述多个采样特征集合生成视频帧特征集合。
60.在一些具体实施例中,将多个采样特征集合复原到所述当前视频帧的原始尺寸,以生成多个复原特征集合。在一些具体实施例中,将多个复原特征集合求和,得到视频帧特征集合。在一些具体实施例中,根据采样方式将采样特征集合进行复原,得到复原特征集合。在一些具体实施例中,按照采样方式所放大或缩小的比率将采样特征集合进行对应的缩小或放大操作,将采样特征集合复原到和当前视频帧的原始尺寸相对应的尺寸。在一些具体实施例中,将原始视频帧输入到感受野得到的采样特征集合作为当前视频帧的一个复原特征集合。
61.本技术提供的一种卷积神经网络提取视频帧中目标物特征的方法,根据当前视频帧中目标物所占的比例进行不同采样,将采样后的多种尺寸的视频帧输入到对应的感受野中进行特征提取,得到多个特征集合后再复原求和,从而得出当前视频帧的目标物特征。根据本技术提供的方案,能够在不降低卷积神经网络的运行速度的前提下,提升卷积神经网络对目标物占比不同的画面的特征提取效果。
62.图2为本技术的卷积神经网络提取目标视频中目标物特征的方法的流程图。如图2所示,该方法包括如下步骤。
63.步骤s201,接收目标视频。
64.步骤s202,将所述目标视频分解为多个视频帧。
65.步骤s203,按如图1所述的方法提取依次所述多个视频帧中目标物特征,得到多个视频帧特征集合,将所述多个视频帧特征集合作为所述目标视频的目标物特征。
66.在一些具体实施例中,接收要进行特征提取的目标视频。在一些具体实施例中,将目标视频分解为多个视频帧。在一些具体实施例中,依次提取目标视频分解得到的多个视频帧中的目标物特征。在一些具体实施例中,将多个视频帧特征集合作为目标视频的目标物特征。
67.在一些具体实施例中,目标视频内的所有视频帧的画面比例均满足大于第一占比阈值、低于第二占比阈值。在一些具体实施例中,对目标视频内的所有视频帧均进行上下采
样。在一些具体实施例中,对视频帧进行上下采样,具体为进行一次放大采样和一次缩小采样。
68.在一些具体实施例中,对视频帧进行一次放大采样,输入到对应的感受野中得到第一采样特征集合,对视频帧进行一次缩小采样,输入到对应的感受野中得到第二采样特征集合。在一些具体实施例中,将目标视频分解后得到的原始视频帧输入到对应的感受野中得到第三采样特征集合。在一些具体实施例中,将第一采样特征集合进行放大,得到第一复原特征集合。在一些具体实施例中,将第二采样特征集合进行缩小,得到第二复原特征集合。在一些具体实施例中,将第三采样特征集合作为第三复原特征集合。在一些具体实施例中,取第一复原特征集合、第二采样特征集合、第三采样特征集合的合集作为当前视频帧的视频帧特征集合。
69.图3为本技术的卷积神经网络提取视频帧中目标物特征的装置的示意图。
70.如图3所示,一种卷积神经网络提取视频帧中目标物特征的装置包括比例识别模块、采样模块、采样特征生成模块和视频帧特征生成模块。
71.比例识别模块用于识别当前视频帧中的目标物所占比例。
72.在一些具体实施例中,目标物为人物。在一些具体实施例中,识别当前视频帧中的目标物所占图像画面的比例。在一些具体实施例中,第一占比阈值小于第二占比阈值。在一些具体实施例中,第一占比阈值和第二占比阈值为0-1之间的常数。
73.在一些具体实施例中,目标物所占图像画面比例小于第一占比阈值。在一些具体实施例中,目标物所占图像画面比例大于第一占比阈值,小于第二占比阈值。在一些具体实施例中,目标物所占图像画面比例大于第二占比阈值。
74.在一些具体实施例中,通过软件运行识别算法计算当前视频帧中的目标物所占比例。在一些具体实施例中,通过人工识别计算当前视频帧中的目标物所占比例。
75.采样模块用于根据所述目标物所占比例确定所述当前视频帧的采样方式,生成多种不同尺寸的视频帧。
76.在一些具体实施例中,目标物所占图像画面比例小于第一占比阈值,采样方式为上采样。在一些具体实施例中,目标物所占图像画面比例大于第二占比阈值,采样方式为下采样。在一些具体实施例中,目标物所占图像画面比例大于第一占比阈值,小于第二占比阈值,采样方式为上下采样。
77.在一些具体实施例中,上下采样包括将当前视频帧进行一次或多次放大和一次或多次缩小。在一些具体实施例中,上采样包括将当前视频帧进行一次或多次放大。在一些具体实施例中,下采样包括将当前视频帧进行一次或多次缩小。在一些具体实施例中,将原始视频帧作为多种不同尺寸的视频帧中的一种。
78.采样特征生成模块用于将所述多种不同尺寸的视频帧分别输入到对应的感受野中,生成多个采样特征集合。
79.在一些具体实施例中,预设第一感受野、第二感受野和第三感受野。在一些具体实施例中,第一感受野用于提取视频帧尺寸小于第一尺寸阈值的视频帧中目标物特征。在一些具体实施例中,第二感受野用于提取视频帧尺寸大于第一尺寸阈值且小于第二尺寸阈值的视频帧中目标物特征。在一些具体实施例中,第三感受野用于提取视频帧尺寸大于第二尺寸阈值的视频帧中目标物特征。
80.在一些具体实施例中,视频帧的尺寸小于第一尺寸阈值,将视频帧输入到第一感受野中,得到采样特征集合。在一些具体实施例中,视频帧的尺寸大于第一尺寸阈值且小于第二尺寸阈值,将视频帧输入到第二感受野中,得到采样特征集合。在一些具体实施例中,视频帧尺寸大于第二尺寸阈值,将视频帧输入到第三感受野中,得到采样特征集合。在一些具体实施例中,将原始视频帧作为多种不同尺寸的视频帧中的一种,得到采样特征集合。
81.视频帧特征生成模块用于根据所述多个采样特征集合生成视频帧特征集合。
82.在一些具体实施例中,将多个采样特征集合复原到所述当前视频帧的原始尺寸,以生成多个复原特征集合。在一些具体实施例中,将多个复原特征集合求和,得到视频帧特征集合。在一些具体实施例中,根据采样方式将采样特征集合进行复原,得到复原特征集合。在一些具体实施例中,按照采样方式所放大或缩小的比率将采样特征集合进行对应的缩小或放大操作,将采样特征集合复原到和当前视频帧的原始尺寸相对应的尺寸。在一些具体实施例中,将原始视频帧输入到感受野得到的采样特征集合作为当前视频帧的一个复原特征集合。
83.参阅图4,图4提供一种电子设备,包括处理器以及存储器。存储器存储有计算机指令,当计算机指令被处理器执行时,使得处理器执行所述计算机指令从而实现如图1或图2所示的方法以及细化方案。
84.应该理解,上述的装置实施例仅是示意性的,本发明披露的装置还可通过其它的方式实现。例如,上述实施例中所述单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
85.另外,若无特别说明,在本发明各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
86.所述集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,所述处理器或芯片可以是任何适当的硬件处理器,比如cpu、gpu、fpga、dsp和asic等等。若无特别说明,所述片上缓存、片外内存、存储器可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器rram(resistiverandomaccessmemory)、动态随机存取存储器dram(dynamicrandomaccessmemory)、静态随机存取存储器sram(staticrandom-accessmemory)、增强动态随机存取存储器edram(enhanceddynamicrandomaccessmemory)、高带宽内存hbm(high-bandwidthmemory)、混合存储立方hmc(hybrid memorycube)等等。
87.所述集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本披露各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccess memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介
质。
88.本技术实施例还提供一种非瞬时性计算机存储介质,存储有计算机程序,当所述计算机程序被多个处理器执行时,使得所述处理器执行如图1或图2所示的方法以及细化方案。
89.以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本技术的方法及其核心思想。同时,本领域技术人员依据本技术的思想,基于本技术的具体实施方式及应用范围上做出的改变或变形之处,都属于本技术保护的范围。综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种卷积神经网络提取视频帧中目标物特征的方法,包括:计算当前视频帧中的目标物所占比例;根据所述目标物所占比例确定所述当前视频帧的采样方式,以生成多种不同尺寸的视频帧;将所述多种不同尺寸的视频帧分别输入到对应的感受野中,生成多个采样特征集合;根据所述多个采样特征集合生成视频帧特征集合。2.如权利要求1所述的方法,其特征在于,所述根据所述多个采样特征集合生成视频帧特征集合包括:将所述多个采样特征集合复原到所述当前视频帧的原始尺寸,以生成多个复原特征集合;将所述多个复原特征集合求和,得到视频帧特征集合。3.如权利要求2所述的方法,其特征在于,所述将所述多个采样特征集合复原到所述当前视频帧的原始尺寸包括:根据所述采样方式进行复原。4.如权利要求1所述的方法,其特征在于,所述采样方式包括上下采样、上采样和下采样,其中:所述上下采样包括将所述当前视频帧进行一次或多次放大和一次或多次缩小;所述上采样包括将所述当前视频帧进行一次或多次放大;所述下采样包括将所述当前视频帧进行一次或多次缩小。5.如权利要求4所述的方法,其特征在于,所述根据所述目标卷号:230253ci物所占比例确定所述视频帧的采样方式包括:在所述目标物所占比例低于第一占比阈值的情况下,确定所述视频帧的采样方式为上采样;在所述目标物所占比例高于第二占比阈值的情况下,确定所述视频帧的采样方式为下采样;在所述目标物所占比例高于第一占比阈值,并且低于第二占比阈值的情况下,确定所述视频帧的采样方式为上下采样。6.如权利要求1所述的方法,其特征在于,所述感受野包括第一感受野、第二感受野和第三感受野,其中:所述第一感受野用于提取视频帧尺寸小于第一尺寸阈值的视频帧中目标物特征;所述第二感受野用于提取视频帧尺寸大于所述第一尺寸阈值且小于第二尺寸阈值的视频帧中目标物特征;所述第三感受野用于提取视频帧尺寸大于所述第二尺寸阈值的视频帧中目标物特征。7.一种卷积神经网络提取目标视频中目标物特征的方法,包括接收目标视频;将所述目标视频分解为多个视频帧;按如权利要求1-6任一项所述的方法依次提取所述多个视频帧中目标物特征,得到多个视频帧特征集合,将所述多个视频帧特征集合作为所述目标视频的目标物特征。8.一种卷积神经网络提取视频帧中目标物特征的装置,包括:比例识别模块,用于识别当前视频帧中的目标物所占比例;
采样模块,用于根据所述目标物所占比例确定所述当前视频帧的采样方式,生成多种不同尺寸的视频帧;卷号:230253ci采样特征生成模块,用于将所述多种不同尺寸的视频帧分别输入到对应的感受野中,生成多个采样特征集合;以及视频帧特征生成模块,用于根据所述多个采样特征集合生成视频帧特征集合。9.一种电子设备,包括:处理器;存储器,存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项所述的方法。10.一种非瞬时性计算机可读存储介质,其上存储有计算机可读指令,当所述指令被处理器执行时,使得所述处理器执行如权利要求1-7中任一项所述的方法。

技术总结
本申请涉及一种卷积神经网络提取视频帧中目标物特征的方法及装置,其中方法包括:计算当前视频帧中的目标物所占比例;根据所述目标物所占比例确定所述当前视频帧的采样方式,以生成多种不同尺寸的视频帧;将所述多种不同尺寸的视频帧分别输入到对应的感受野中,生成多个采样特征集合;根据所述多个采样特征集合生成视频帧特征集合。本申请提出的。本申请提出的。本申请提出的。


技术研发人员:成冠举 范文新 曲坛 高剑飞
受保护的技术使用者:江苏医百聚智科技有限公司
技术研发日:2023.05.29
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐