一种光学-红外融合场景语义描述方法及装置
未命名
08-02
阅读:61
评论:0

1.本发明属于计算机视觉、图像字幕领域,具体涉及一种光学-红外融合场景语义描述方法及装置。
背景技术:
2.人们获取周边环境信息均在可见光的条件下进行的,当视力受损或遇到极端天气时,所能获得的可见光信息减少,将会严重影响人们对周边环境的判断。图像描述领域经过了数十年的发展,现有的技术已经可以通过图像解译模型对可见光图像生成描述,并且可以判断对象与对象之间的交互关系,比如“一个人在街道上骑行”。
3.现有的图像解译模型大部分是通过可见光图像进行的,并且可见光图像信息较为明显,但在大雾、夜晚等条件下,可见光信息严重不足,进而无法有效获取图像信息并进行准确描述。为此有人提出从红外图像中解译文字描述的方法,此方法能够降低恶劣环境的影响,较为准确地识别出对象并描述其中的交互信息。但红外图像分辨率低、细节信息较少,在环境良好的条件下,红外图像解译模型的准确度无法与可见光图像描述相比,并且无法判断大体的时间。此外,现有图像解译模型对设备性能要求高,过于依赖通信环境,无法在完全离线的情况下进行完整的解译功能。
技术实现要素:
4.本发明的目的是为克服已有技术的不足之处,提出一种光学-红外融合场景语义描述方法及装置。本发明通过同时获取可见光图像与红外图像,从两幅图像中获取目标及其热源信息,可实现随时随地对环境信息进行捕获和解译,不再局限于具有充足可见光的条件下,填补了环境信息解译在极端环境下使用范围的空白,并且弥补了红外图像分辨率低、细节信息少的不足,能够更加精准地实现对目标在全天候环境下的捕获与描述,具有很高的实用价值。
5.本发明第一方面实施例提出一种光学-红外融合场景语义描述方法,包括:
6.对目标场景获取对齐的一对可见光图像和红外图像;
7.将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。
8.在本发明的一个具体实施例中,所述一对可见光图像和红外图像通过包含可见光相机和红外相机的双相机获取;在获取图像之前,对所述双相机进行标定,使得所述双相机获取的可见光图像和红外图像尺寸相同且背景一致。
9.在本发明的一个具体实施例中,所述多模态图像融合描述网络包括:依次连接的cnn特征提取融合子网络、rnn注意力机制子网络和lstm子网络;
10.其中,所述cnn特征提取融合子网络包括两个结构相同的resnet网络单元以及分
别与两个resnet网络单元的输出连接的sum函数单元;所述rnn注意力机制子网络包括依次连接的三个全连接层、一个tanh激活函数单元、一个softmax函数单元;所述lstm子网络为一个解码器网络,由门控机制和候选状态s组成,其中门控制机制由输入门、遗忘门和输出门构成。
11.在本发明的一个具体实施例中,所述cnn特征提取融合子网络,用于对输入的一对红外图像与可见光图像分别进行特征提取,并通过sum函数对两张图像的特征进行相加,得到对应的图像特征向量输入到rnn注意力机制子网络中;
12.所述rnn注意力机制子网络,用于根据输入的图像特征向量对图像的不同区域进行权重分配;
13.所述lstm子网络,用于根据rnn注意力机制子网络的权重分配结果,并结合备选语料库,生成对应输入图像的多个单词并最终组成描述语句。
14.在本发明的一个具体实施例中,所述resnet网络单元采用去掉最后一层全连接层的resnet101网络。
15.在本发明的一个具体实施例中,在所述将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络之前,所述方法还包括:
16.训练所述多模态图像融合描述网络;
17.所述训练所述多模态图像融合描述网络,包括:
18.1)获取训练集;
19.所述训练集中的单个训练样本包含同一场景下对齐的一对可见光图像和红外图像以及每张图像对应的文字描述,所述文字描述包含该图像中的目标信息以及多个目标之间的关系,所述训练样本对应的场景与所述目标场景类别相同;
20.2)将训练集中所有图像的文字描述拆分成单个单词,将不重复的单词组成备选语料库;
21.3)构建所述多模态图像融合描述网络;
22.4)利用所述训练集训练所述多模态图像融合描述网络,得到训练完毕的多模态图像融合描述网络。
23.在本发明的一个具体实施例中,所述训练集采用kaist数据集,对kaist数据集中的可见光图像进行标注时加入时间信息,对kaist数据集中的红外图像进行标注时仅标注目标类别信息和目标之间的关联信息。
24.本发明第二方面实施例提出一种光学-红外融合场景语义描述装置,包括:
25.图像获取模块,用于对目标场景获取对齐的一对可见光图像和红外图像;
26.图像描述模块,用于将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。
27.本发明第三方面实施例提出一种电子设备,包括:
28.至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
29.其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种光学-红外融合场景语义描述方法。
30.本发明第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种光学-红外融合场景语义描述方法。
31.本发明的特点及有益效果:
32.本发明通过可见光图像和红外图像的特征融合弥补了目前图像描述对于图像环境要求高的问题,在光线不足的环境下能够较为准确的生成对图像的描述,并且保留了可见光图像描述模型的优势。
33.本发明弥补了红外图像分辨率低、细节信息少、相比可见光图像解译模型精度低的问题。针对图像描述任务对全天候、全方位、多角度等问题感知的迫切要求,本发明利用多模态图像融合的优势,既保留了可见光图像丰富的细节信息,又能避免环境的影响,能够全天候、全方位的对环境信息进行处理与感知,实现图像的描述,完全达到了图像描述的要求。
34.本发明的解译模型不需要云端平台的支持,并且体量较小,完全可以在离线模型下运行。
35.本发明拓展了图像描述领域的方向,以往的图像描述改进集中于改进网络,以及添加各种注意力机制模块,此类改进方法虽使得网络描述更加准确,但难以弥补图像本身的硬缺陷(如可见光信息较少的图像)。本发明将图像处理从单模态图像拓展到多模态图像处理,在多模态图像处理中,对可见光图像和红外图像进行特征融合,充分发挥可见光图像与红外图像的各自的优势。
36.本发明所能应用的领域包括但不限于:儿童早期教育、视障人士的辅助认知、环境辅助决策、协同自然语言处理。在儿童早期教育领域,该发明可以人机协同工作,引导幼儿看景说话。在视障人士的辅助认知领域,利用本发明可以实时的为视障人士提供较为准确的环境描述,使视障人士可以随时随地的获取周边环境信息,并且本发明支持多种语言输出。在环境辅助决策领域,光线较暗的环境下,人眼不能准确的识别出周围的环境信息进而无法捕获重要信息(如藏匿在路边的人),本发明可以红外相机捕获人眼无法获取的信息,通过解译的信息辅助人员决策。在自然语言处理领域,即计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。本发明更好地搭建了图像与文字间的桥梁,使自然语言处理框架不仅支持自然语言形式的输入,还支持图像的输入,并且可以理解与反馈输入的图像。
附图说明
37.图1为本发明实施例的一种光学-红外融合场景语义描述方法的整体流程图。
38.图2为本发明一个具体实施例中多模态图像融合描述网络的结构示意图。
具体实施方式
39.本发明提出一种光学-红外融合场景语义描述方法及装置,为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施例对本发明作进一步详细的说明。
40.本发明第一方面实施例提出一种光学-红外融合场景语义描述方法,包括:
41.对目标场景获取对齐的一对可见光图像和红外图像;
42.将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。
43.在本发明的一个具体实施例中,所述一种光学-红外融合场景语义描述方法,包括训练阶段和测试阶段,整体流程如图1所示,包括以下步骤:
44.1)训练阶段。
45.1-1)构建训练集。
46.所述训练集中的单个训练样本包含同一场景下对齐的一对可见光图像和红外图像以及每张图像对应的文字描述。本实施例中,所述训练样本的图像为交通场景图像,图像尺寸无特殊要求,训练样本中每张图像对应的文字描述的长度无特殊要求,所述文字描述包含该图像中的目标信息以及多个目标之间的关系。
47.在本发明的一个具体实施例中,所述训练样本的图像场景采用校园、街道以及乡下的各种常规交通场景,每张图像尺寸大小为640
×
512,每张图像对应5句人工产生的文字描述。
48.在本发明的一个具体实施例中,使用kaist数据集,此数据集的训练集和测试集共包含95328张图像,该数据集中的图像包含对齐的可见光图像和红外图像。本实施例中,选取kaist数据集中50188张图像划作为本实施例的训练集,每张图像尺寸大小为640
×
512。对本实施例的训练集中的图像中目标及多个目标之间的关系进行手工标注;由于kaist数据集中的红外图像对颜色以及非热源物体信息不敏感,对其标注时仅标注目标类别信息和目标之间的关联信息。对kasit数据集中的可见光图像进行标注时加上时间信息,如白天、夜晚。
49.1-2)利用步骤1-1)的训练集的图像描述构建备选语料库;
50.本实施例中,在训练时将训练集中所有图像的文字描述拆分成单个单词,将不重复的单词组成备选语料库。
51.1-3)构建多模态图像融合描述网络;
52.本实施例中,所述多模态图像融合描述网络结构如图2所示,包括:依次连接的cnn特征提取融合子网络、rnn注意力机制子网络和lstm子网络。
53.其中,cnn特征提取融合子网络包括两个结构相同的resnet网络单元(本实施例中所述resnet网络单元采用resnet101网络,并去掉resnet101网络最后一层全连接层,只保留最后一层卷积层的输出)以及分别与该两个resnet网络单元的输出连接的sum函数单元;所述rnn注意力机制子网络包括依次连接的三个全连接层、一个tanh激活函数单元、一个softmax函数单元。所述lstm子网络为一个解码器网络,由门控机制和候选状态s组成,其中门控制机制由输入门、遗忘门和输出门构成。
54.所述cnn特征提取融合子网络,用于对输入的一对红外图像与可见光图像分别进行特征提取,并通过sum函数对两张图像的特征进行相加,将特征相加后的结果张量展平成一个维度为(196,512)的矩阵作为图像特征向量输入到rnn注意力机制子网络中;
55.所述rnn注意力机制子网络,用于根据输入的图像特征向量对图像的不同区域进行不同的关注和权重分配,以提高lstm子网络生成文本的准确性和描述能力;
56.所述lstm子网络,用于根据rnn注意力机制子网络的权重分配结果,并结合备选语料库,生成图像描述文本,保留并更新上下文信息,生成自然语言描述。在生成文本时,所述lstm子网络还可以利用之前生成的文本来调整生成的下一个单词,提高生成文本的连贯性和准确性。
57.1-4)利用步骤1-1)得到的训练集训练步骤1-3)的多模态图像融合描述网络,得到训练完毕的多模态图像融合描述网络。
58.本实施例中,在训练阶段,首先通过cnn特征提取子网络对图像关键特征进行提取并融合;具体地,cnn特征提取融合子网络里的第一个resnet网络单元输入可见光图像,该单元输出可见光图像的特征图(14
×
14
×
2048),第二个resnet网络单元输入对应的红外图像,该单元输出红外图像的特征图(14
×
14
×
2048),使用sum函数将可见光图像特征图与红外图像特征图进行相加得到融合后的特征图(14
×
14
×
2048),并将融合后的特征图张量展平成一个维度为(196,512)的矩阵,作为图像特征向量输入到rnn注意力机制子网络中。
59.rnn注意力机制子网络计算图像特征向量(196,512)与维度为(1,512)的上一个时间步的隐藏状态向量之间的相似度得分,具体来说,该子网络将这两个输入通过一个全连接层和一个tanh激活函数,然后再通过一个线性层,得到每个图像区域的得分。然后对所有得分进行softmax归一化,得到每个图像区域的注意力权重(1,196)。将图像特征向量和注意力权重相乘得到一个维度为(1,512)的上下文向量,表示当前时间步关注的图像区域。然后将该上下文向量和上一个时间步的单词嵌入向量一起输入到lstm子网络中,生成当前时间步的单词。
60.lstm子网络根据上一个时间步的单词嵌入向量和当前时间步的上下文向量,得到当前时间步的单词概率分布和新的隐藏状态向量。lstm子网络输出一个维度为(1,vocab_size)的概率分布,表示每个单词作为第一个单词出现的可能性;并选择概率最高的单词作为第一个单词,不断重复这个过程,直到生成结束符号《end》或达到最大长度。lstm子网络每次都将上一个时间步生成的单词和新的隐藏状态作为输入,并更新上下文向量,最终得到一句完整的标题。
61.其中,vocab_size是指词汇表的大小,也就是网络能够生成的单词的种类数。备选语料库提供了单词索引,即每个单词对应的整数编号,这样网络可以将单词转换为嵌入向量,也可以将概率分布转换为单词。
62.进一步地,本实施例中训练参数设置如下:
63.本实施例所有实验均在ubuntu20.04操作系统;搭载的cpu版本为e52699 v3;gpu为nvidia geforce rtx 3090;深度学习框架为pytorch 1.8.0。本实施例训练参数为:epoch=200(将所有训练图像放入网络训练200轮),batchsize=10(每批放进网络训练的图像为10张),学习率learning_rate=5e-4,learning_rate_decay_start=0(从第一轮开始进行学习率衰减),save_checkpoint_every 6000(每训练6000个batch保存一次模型的checkpoint)。
64.训练完成后,得到训练完毕的多模态图像融合描述网络。
65.2)测试阶段。
66.2-1)获取测试图像。
67.本实施例中,利用标定裁剪好的包含可见光相机和红外相机的双相机任意获取对齐的一对可见光图像和红外图像作为测试图像样本,测试图像样本中两张图像尺寸相同且背景一致。本实施例中,所述测试图像样本中的图像为交通场景图即可,尺寸与训练图像可以不一致,来源无特殊要求。
68.在本发明的一个具体实施例中,由于使用的可见光相机摄像头与红外相机摄像头分辨率不一致,在获取测试样本图像之前,还需要对进行双相机标定操作,具体如下:
69.首先,利用双相机拍摄多幅不同视角下的棋盘图片,将图片打包放入matlab标定包中进行标定,得到相应的标定参数。其次,设定pir为红外相机摄像头坐标下任一点的空间坐标,pir为该点在像平面上的投影坐标,prgb为可见光相机摄像头坐标下同一点的空间坐标,prgb为该点在可见光像平面上的投影坐标,hrgb、hir分别为可见光相机摄像头和红外相机摄像头的内参矩阵,r、t为双相机的旋转矩阵和平移向量,由于p
rgb
=rp
ir
+t、p
rgb
=h
rgb
p
rgb
,联立上述三式可得:即为两个相机的对应关系。
70.根据该对应关系,对可见光相机和红外相机获取的图像进行裁剪,本实施例中,裁剪后得到尺寸大小为640
×
512且背景相同的可见光图像和红外图像。需要说明的是,红外相机获取相机标定板棋盘图像时,使用红外线灯照射标定板辅助成像。本实施例中,由于设备使用的可见光相机摄像头和红外相机摄像头本身质量较高,畸变影响不大,这里计算双相机对应关系时已忽略。
71.2-2)将步骤2-1)得到的测试图像样本的一对可见光图像和红外图像对输入训练完毕的多模态图像融合描述网络,该网络输出一句关于此对图像的语言描述,也即实现了从多模态融合图像中解译文字的功能。
72.为实现上述实施例,本发明第二方面实施例提出一种光学-红外融合场景语义描述装置,包括:
73.图像获取模块,用于对目标场景获取对齐的一对可见光图像和红外图像;
74.图像描述模块,用于将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。
75.需要说明的是,前述对一种光学-红外融合场景语义描述方法的实施例解释说明也适用于本实施例的一种光学-红外融合场景语义描述装置,在此不再赘述。根据本发明实施例提出的一种光学-红外融合场景语义描述装置,通过对目标场景获取对齐的一对可见光图像和红外图像;将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。由此可实现通过同时获取可见光图像与红外图像,从两幅图像中获取目标及其热源信息,随时随地对环境信息进行捕获和解译。
76.进一步地,在本发明的一个具体实例中,场景环境为夜晚,经过一条光线较暗的街
道到达办公楼,人眼无法直接观察获取环境信息,其中街道旁有一些停放的自行车,不远处有一条人行道,有一人正在穿越人行道,走到人行道时恰有一人骑车驶来,穿越人行道后便到达办公楼下,楼下停放着一辆汽车。使用者首先使用本实施例所述装置经过此街道到达办公楼下,期间随意捕捉环境信息,并通过人耳听觉获取解译后的信息。使用者第一次解译,收到的信息为:“some bicycles are parked on both sides ofthe street(一些自行车停在街道的两边)”,步行几步后第二次解译,收到的信息为:“a man is crossing the sidewalk with abuilding in front(一名男子正穿过人行道,前面有一座建筑物)”,走至人行道第三次解译,收到的信息为:“aman came by bicycle with abuilding in front(一个男人骑自行车来了,前面有一栋楼)”,穿过人行道到达楼下第四次解译,收到的信息为:“there is a building ahead and a car downstairs(前面有一栋楼,楼下有一辆车)”。至此使用结束。而利用单模态描述装置进行同场景同频次验证时,可见光图像描述装置在第二次解译时,收到的信息为:“there is abuilding ahead(前面有一栋楼)”,其他几次解译信息基本相同。红外图像描述装置在第二次解译时,收到的信息为:“aman is crossing the sidewalk(一个男人正在穿过人行道)”,其他几次解译信息基本相同。根据实际场景信息、本实施例装置解译的信息以及单模态描述装置解译的信息相比,本实施例装置能够较为准确的解译出实际场景信息,并能互补单模态描述方法的不足,为使用者在暗光或无光环境下获取更加准确的环境信息提供了极大的帮助,具有很大的实际使用意义。
77.为实现上述实施例,本发明第三方面实施例提出一种电子设备,包括:
78.至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
79.其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种光学-红外融合场景语义描述方法。
80.为实现上述实施例,本发明第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种光学-红外融合场景语义描述方法。
81.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述
的任意合适的组合。
82.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例的一种光学-红外融合场景语义描述方法。
83.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
84.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
85.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
86.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
87.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介
质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
88.应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
89.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
90.此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
91.上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:
1.一种光学-红外融合场景语义描述方法,其特征在于,包括:对目标场景获取对齐的一对可见光图像和红外图像;将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。2.根据权利要求1所述的方法,其特征在于,所述一对可见光图像和红外图像通过包含可见光相机和红外相机的双相机获取;在获取图像之前,对所述双相机进行标定,使得所述双相机获取的可见光图像和红外图像尺寸相同且背景一致。3.根据权利要求1所述的方法,其特征在于,所述多模态图像融合描述网络包括:依次连接的cnn特征提取融合子网络、rnn注意力机制子网络和lstm子网络;其中,所述cnn特征提取融合子网络包括两个结构相同的resnet网络单元以及分别与两个resnet网络单元的输出连接的sum函数单元;所述rnn注意力机制子网络包括依次连接的三个全连接层、一个tanh激活函数单元、一个softmax函数单元;所述lstm子网络为一个解码器网络,由门控机制和候选状态s组成,其中门控制机制由输入门、遗忘门和输出门构成。4.根据权利要求3所述的方法,其特征在于,所述cnn特征提取融合子网络,用于对输入的一对红外图像与可见光图像分别进行特征提取,并通过sum函数对两张图像的特征进行相加,得到对应的图像特征向量输入到rnn注意力机制子网络中;所述rnn注意力机制子网络,用于根据输入的图像特征向量对图像的不同区域进行权重分配;所述lstm子网络,用于根据rnn注意力机制子网络的权重分配结果,并结合备选语料库,生成对应输入图像的多个单词并最终组成描述语句。5.根据权利要求3所述的方法,其特征在于,所述resnet网络单元采用去掉最后一层全连接层的resnet101网络。6.根据权利要求3所述的方法,其特征在于,在所述将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络之前,所述方法还包括:训练所述多模态图像融合描述网络;所述训练所述多模态图像融合描述网络,包括:1)获取训练集;所述训练集中的单个训练样本包含同一场景下对齐的一对可见光图像和红外图像以及每张图像对应的文字描述,所述文字描述包含该图像中的目标信息以及多个目标之间的关系,所述训练样本对应的场景与所述目标场景类别相同;2)将训练集中所有图像的文字描述拆分成单个单词,将不重复的单词组成备选语料库;3)构建所述多模态图像融合描述网络;4)利用所述训练集训练所述多模态图像融合描述网络,得到训练完毕的多模态图像融合描述网络。7.根据权利要求6所述的方法,其特征在于,所述训练集采用kaist数据集,对kaist数
据集中的可见光图像进行标注时加入时间信息,对kaist数据集中的红外图像进行标注时仅标注目标类别信息和目标之间的关联信息。8.一种光学-红外融合场景语义描述装置,其特征在于,包括:图像获取模块,用于对目标场景获取对齐的一对可见光图像和红外图像;图像描述模块,用于将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一项所述的方法。
技术总结
本发明提出一种光学-红外融合场景语义描述方法及装置,属于计算机视觉、图像字幕领域。其中,所述方法包括:对目标场景获取对齐的一对可见光图像和红外图像;将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。本发明通过同时获取可见光图像与红外图像,从两幅图像中获取目标及其热源信息,可实现随时随地对环境信息进行捕获和解译,填补了环境信息解译在极端环境下使用范围的空白。白。白。
技术研发人员:刘华平 王岩 袁小虎 娄树理
受保护的技术使用者:清华大学
技术研发日:2023.04.03
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种离心机用转头及其制备方法与流程 下一篇:一种曲柄连杆机构装配工艺检测方法及系统