一种基于多模态深度学习的环境识别方法及装置与流程

未命名 08-02 阅读:113 评论:0


1.本发明涉及环境学习技术领域,尤其是一种基于多模态深度学习的环境识别方法及装置。


背景技术:

2.目前广泛采用的环境场景识别技术多为通过视觉数据通过分类模型分析实现,在实际的环境中,需要汇聚更多的数据实现对于场景更精准的识别,例如综合气象数据、声音及视觉来对环境进行更精准的识别,在这样的背景下,基于气象数据、声音数据和视觉数据,进行融合特征分析,结合机器学习和深度学习及迁移学习技术,成为环境场景识别分析的有效手段。
3.但是,现有技术针对环境识别分析通常基于单模态,例如声音、麦克矩阵或者视觉图像进行模型训练,而在实际应用中,通常有气象仪数据、声音及视觉多模态数据,现有技术不具备多模态分析任务的能力,难以精准进行环境监测及保护。


技术实现要素:

4.有鉴于此,本发明实施例提供一种基于多模态深度学习的环境识别方法及装置,以提高环境识别的准确度。
5.本发明实施例的一方面提供了一种基于多模态深度学习的环境识别方法,包括:
6.利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2d特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;
7.将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;
8.通过mkl多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。
9.优选地,所述利用归一化方法从气象数据中提取定长维度的第一特征向量,包括:
10.利用归一化方法从结构化的气象数据中提取定长维度的特征向量,作为第一特征向量。
11.优选地,所述从音频数据中提取声学场景声音序列的第二特征向量,包括:
12.对所述音频数据以0.5s的时长进行划分,划分标签与所述音频数据的原标签一致,重采样为单声道16khz;
13.采用0.5s的帧移,以及周期性的汉宁窗口对划分的音频数据进行分帧,并做短时傅里叶变换与信号幅值计算,得到声谱图;
14.将所述声谱图映射到梅尔滤波器,得到梅尔谱特征向量,作为第二特征向量。
15.优选地,所述从图像数据中提取包含2d特征的第三特征向量,包括:
16.从对所述目标环境拍摄得到的视频数据中每秒采集设定数量的采样图像,并将所述采样图像转化为统一且特定的分辨率;
17.将采样时间连续的两张采样图像转化为单个图像,得到一个以上的单个图像,作为图像数据;
18.将所述图像数据输入不同维度的内核,并通过上采样层将不同核尺寸提取得到的2d特征转换为统一的二维特征,作为第三特征向量。
19.优选地,所述多模态深度模型的训练过程,包括:
20.通过卷积神经网络将权重矩阵与下层激活矩阵进行卷积使用反向传播对权重进行训练,以获得多个隐藏层;
21.通过循环神经网络按时间序列建模依赖关系,每个隐藏层状态都是前一状态的函数;
22.通过卷积循环神经网络捕获训练图像数据中的空间结构信息,通过循环神经网络捕获训练视频序列中固有的空间和时间模式。
23.优选地,所述将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量,包括:
24.将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络,得到卷积神经网络的第一输出与循环神经网络的第二输出;
25.融合所述第一输出与所述第二输出,得到融合特征向量。
26.本发明实施例的另一方面还提供了一种基于多模态深度学习的环境识别装置,包括:
27.特征提取单元,用于利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2d特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;
28.特征融合单元,用于将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;
29.类别预测单元,用于通过mkl多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。
30.本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
31.所述存储器用于存储程序;
32.所述处理器执行所述程序实现上述的方法。
33.本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的方法。
34.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
35.本发明采用融合目标环境的气象数据、音频数据及图像数据,并通过进行多模态特征融合训练深度卷积神经网络模型结合的方法,进行环境场景识别,相比现有的环境场景的识别方法,提升了环境场景识别的准确率和稳定性,同时本发明提出的模型有更好的适应性,能在短时间内生成可靠的场景分析深度学习模型,提高了模型的实用价值。
附图说明
36.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1为本发明实施例提供的一种基于多模态深度学习的环境识别方法的流程示意图;
38.图2为本发明实施例提供的一种基于多模态深度学习的环境识别方法的示例流程图;
39.图3为本发明实施例提供的一种基于多模态深度学习的环境识别方法的算法流程图;
40.图4为本发明实施例提供的一种基于多模态深度学习的环境识别方法的示例代码图;
41.图5为本发明实施例提供的一种基于多模态深度学习的环境识别装置的结构框图。
具体实施方式
42.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
43.参照图1,本发明实施例提供了一种基于多模态深度学习的环境识别方法,具体包括以下步骤:
44.步骤s100:利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2d特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据。
45.具体的,第一特征向量的提取过程可以包括:利用归一化方法从结构化的气象数据中提取定长维度的特征向量,作为第一特征向量。
46.第二特征向量的提取过程可以包括:
47.s1、对所述音频数据以0.5s的时长进行划分,划分标签与所述音频数据的原标签一致,重采样为单声道16khz。
48.s2、采用0.5s的帧移,以及周期性的汉宁窗口对划分的音频数据进行分帧,并做短时傅里叶变换与信号幅值计算,得到声谱图。
49.s3、将所述声谱图映射到梅尔滤波器,得到梅尔谱特征向量,作为第二特征向量。
50.第三特征向量的提取过程可以包括:
51.s1、从对所述目标环境拍摄得到的视频数据中每秒采集设定数量的采样图像,并将所述采样图像转化为统一且特定的分辨率。
52.s2、将采样时间连续的两张采样图像转化为单个图像,得到一个以上的单个图像,作为图像数据。
53.s3、将所述图像数据输入不同维度的内核,并通过上采样层将不同核尺寸提取得到的2d特征转换为统一的二维特征,作为第三特征向量。
54.步骤s110:将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量。
55.具体的,对多模态深度模型的训练过程进行说明,可以包括以下:
56.s1、通过卷积神经网络将权重矩阵与下层激活矩阵进行卷积使用反向传播对权重进行训练,以获得多个隐藏层。
57.s2、通过循环神经网络按时间序列建模依赖关系,每个隐藏层状态都是前一状态的函数。
58.s3、通过卷积循环神经网络捕获训练图像数据中的空间结构信息,通过循环神经网络捕获训练视频序列中固有的空间和时间模式。
59.然后,可以将第一特征向量、第二特征向量及第三特征向量输入经过训练的多模态深度模型,融合过程可以包括:
60.s1、将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络,得到卷积神经网络的第一输出与循环神经网络的第二输出。
61.s2、融合所述第一输出与所述第二输出,得到融合特征向量。
62.步骤s120:通过mkl多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。
63.为了更详细描述本发明,接下来将以具体实例说明本发明的实际应用过程。
64.参照图2,本发明实施例提供了一种基于多模态深度学习的环境识别方法的示例流程图。
65.第一步:气象数据特征提取。
66.由于气象接收后处理得到的数据是结构化数据,在对气象数据做特征提取时,利用归一化方法,采用定长维度的特征向量表示。
67.第二步:音频数据特征提取。
68.使用经过预先训练的声音分类大模型对的声学场景声音序列进行特征提取,获得声音嵌入向量,即每个序列对应的声音特征。
69.具体特征提取步骤如下:
70.a.将所有的音频以0.5s的帧长进行划分,其划分模块标签和原始音频标签保持一致,重采样为单声道16khz。
71.b.0.5s的帧移,以及周期性的汉宁窗口进行分帧,做短时傅里叶变换,再利用信号幅值计算声谱图。
72.c.将步骤b中得到的声谱图映射到梅尔滤波器,计算梅尔谱特征向量。
73.第三步:图像数据特征提取。
74.由于对目标环境拍摄得到的视频数据非常大,本发明实施例在训练中使用每秒采集10帧视频。并通过统一到1024*768分辨率,通过这种方式,减少视频数据特征量。输入是视频中的一系列图像,为了捕获时间依赖性,将t和t+1处的每对连续图像转换为单个图像,本发明实施例使用不同维度的内核来学习,变换输入的2d特征。类似地,第二层还使用不同维度的内核来学习2d特征。上采样层将不同核尺寸的特征转换为统一的二维特征。
75.第四步:特征融合及模型训练。
76.参照图3,本发明实施例提供了一种基于多模态深度学习的环境识别方法的算法流程图。参照图4,本发明实施例提供了一种基于多模态深度学习的环境识别方法的示例代码图。
77.本发明实施例使用卷积循环多核学习(crmkl)模型进行模型训练,其中使用卷积神经网络(cnn),其中时间t和t+1的每一对图像被组合成单个图像,在深层cnn中,每个隐藏层通过以下方式获得:将权重矩阵与下层激活矩阵进行卷积使用反向传播对权重进行训练。循环神经网络(rnn)在神经元之间有反馈连接可以按时间序列建模依赖关系,其中每个隐藏层状态都是前一状态的函数,可以进一步扩展为所之前的状态,通过卷积rnn来捕获静态图像中的空间结构信息,模型使用rnn捕获视频序列中固有的空间和时间模式。通过将cnn和rnn两种模型结合在一起,融合来自不同模态的数据的特征,相比传统的mkl多核学习会带来速度和精确性方面的提升。
78.参照图5,本发明实施例提供了一种基于多模态深度学习的环境识别装置,包括:
79.特征提取单元,用于利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2d特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;
80.特征融合单元,用于将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;
81.类别预测单元,用于通过mkl多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。
82.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
83.在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
84.此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反
说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
85.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
86.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
87.计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
88.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
89.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
90.尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
91.以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

技术特征:
1.一种基于多模态深度学习的环境识别方法,其特征在于,包括:利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2d特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;通过mkl多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。2.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述利用归一化方法从气象数据中提取定长维度的第一特征向量,包括:利用归一化方法从结构化的气象数据中提取定长维度的特征向量,作为第一特征向量。3.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述从音频数据中提取声学场景声音序列的第二特征向量,包括:对所述音频数据以0.5s的时长进行划分,划分标签与所述音频数据的原标签一致,重采样为单声道16khz;采用0.5s的帧移,以及周期性的汉宁窗口对划分的音频数据进行分帧,并做短时傅里叶变换与信号幅值计算,得到声谱图;将所述声谱图映射到梅尔滤波器,得到梅尔谱特征向量,作为第二特征向量。4.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述从图像数据中提取包含2d特征的第三特征向量,包括:从对所述目标环境拍摄得到的视频数据中每秒采集设定数量的采样图像,并将所述采样图像转化为统一且特定的分辨率;将采样时间连续的两张采样图像转化为单个图像,得到一个以上的单个图像,作为图像数据;将所述图像数据输入不同维度的内核,并通过上采样层将不同核尺寸提取得到的2d特征转换为统一的二维特征,作为第三特征向量。5.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述多模态深度模型的训练过程,包括:通过卷积神经网络将权重矩阵与下层激活矩阵进行卷积使用反向传播对权重进行训练,以获得多个隐藏层;通过循环神经网络按时间序列建模依赖关系,每个隐藏层状态都是前一状态的函数;通过卷积循环神经网络捕获训练图像数据中的空间结构信息,通过循环神经网络捕获训练视频序列中固有的空间和时间模式。6.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量,包括:
将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络,得到卷积神经网络的第一输出与循环神经网络的第二输出;融合所述第一输出与所述第二输出,得到融合特征向量。7.一种基于多模态深度学习的环境识别装置,其特征在于,包括:特征提取单元,用于利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2d特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;特征融合单元,用于将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;类别预测单元,用于通过mkl多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。8.一种电子设备,其特征在于,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。

技术总结
本发明公开了一种基于多模态深度学习的环境识别方法及装置,方法包括:利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2D特征的第三特征向量;气象数据、音频数据及图像数据为在同一时间对目标环境采集得到的数据;将第一特征向量、第二特征向量及第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括气象数据、音频数据及图像数据融合特征的融合特征向量;通过MKL多核分类器根据融合特征向量各个通道对应的权重确定目标环境的类别。本发明可以提高环境识别的准确性,可广泛应用于环境学习领域。广泛应用于环境学习领域。广泛应用于环境学习领域。


技术研发人员:石磊 宋卫华
受保护的技术使用者:珠海高凌信息科技股份有限公司
技术研发日:2023.02.13
技术公布日:2023/7/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐