基于实例分割辅助信息的多模态海洋场景视频描述算法

未命名 09-22 阅读：40 评论：0

1.本发明涉及一种基于实例分割辅助信息的多模态海洋场景视频描述算法，属于计算机视觉和自然语言处理交叉领域，是多模态领域的下游任务。

背景技术：

2.随着视频在日常生活中的普及和使用量的增加，自动生成视频描述的技术逐渐成为一个热门的研究方向。生成视频描述的任务可以看作是将视频中所展示的内容和情节转化为文本形式的描述，这样可以帮助用户更快速地理解视频内容，提高用户体验。
3.海洋场景视频描述是视频描述任务的细分下游任务，将海洋场景视频的内容和信息转化为自然语言描述的过程。海洋场景视频描述的研究旨在开发自动化的方法，帮助计算机理解和处理海洋场景视频的内容。海洋场景视频描述可以应用于多个领域，例如海洋生态保护、海洋资源勘探、海洋旅游、海洋科普等。通过对海洋场景视频进行自动化描述，可以方便地获取有关海洋生态、物种、地理信息等方面的知识，提高对海洋生态环境的认识和保护。对于海洋场景视频描述的研究，需要结合海洋科学、计算机视觉、自然语言处理等多个领域的知识和技术。
4.实现视频描述任务的模型中大多都是遵循encoder-decoder这种架构来进行的，早期是将convolutional neural network(cnn)和recurrent neural network(rnn)进行拼接来完成视频描述任务，cnn一般使用i3d，s3d这种3d网络对视频进行特征提取，提取到的视频特征送入rnn网络中生成对应的描述语句，rnn常使用lstm网络。随着transformer网络的出现和发展，该任务的网络模型渐渐以transformer为主，提取视频特征依旧还是s3d网络，文本特征提取器换成了bert，将两个模态特征进行融合后得到输出结果。使用3dcnn对视频进行特征提取，无法很好的捕捉到视频的语义信息，无法捕捉到视频中发生的变化和事件，同时因在时间维度上引入了更多的计算量，因此训练和推理的成本可能会更高，视频特征提取器和文本特征提取器采用不同的网络架构不能够很好的交互，影响两个模态之间的语义对齐，所以之前的工作在完成视频描述任务时具有较大的局限性。

技术实现要素：

5.本发明目的在于提供了一种基于实例分割辅助信息的多模态海洋场景视频描述算法，该算法使用video-swin-transformer作为视频特征提取器，降低了计算量太大的问题，增强了视频文本之间的关联性，同时还对海洋场景进行实例分割，制作辅助信息字典，来获取海洋场景视频中更丰富的语义信息，使海洋场景下的文字描述更加丰富和规范。
6.为了实现上述目的，本发明包括下列步骤：
7.1.设计并制作海洋场景视频描述数据集和图像数据集，分别包含1000个海洋视频和5000张海洋图像，视频数据集中每个视频对应5句文本标签，文本标签描述了视频中的内容，图像数据集是对视频数据集中每个视频采样5帧制作而成；
8.2.使用segmentanything网络分割海洋图像中的前景实例和背景信息，将前景信
息和背景信息记录并写入辅助信息字典，将辅助信息字典的内容送入文本编码器，得到辅助信息特征；
9.3.分别使用video-swin-transformer视频特征提取器和bert文本特征提取器对视频数据和文本标签数据进行特征提取；
10.4.将视频特征和文本标签特征融合，送入到单流的多模态交互编码器中，在交互编码器中视频特征和文本特征完成语义对齐任务、文本掩码任务、视频帧掩码任务，并得到多模态全局信息特征；
11.5.实现基于对比学习的多模态全局信息特征和辅助信息特征双流联合视频描述算法，将多模态全局信息特征和辅助信息特征进行联合对比学习，交互融合双流特征，送入语言解码器；
12.6.语言解码器是一个自回归的解码器，用于将双流特征转换为人类理解的自然语言，语言解码器对融合后的双流特征进行解码，得到描述语句，得到的描述语句和标注的文本标签计算损失，并完成语言重建任务，不断优化文本描述能力和效果。
13.本发明的有益效果是：
14.1.视频特征提取效果好：本发明使用video-swin-transformer作为视频特征提取器，采用多尺度滑动窗口方式增加局部感受野，并用局部注意力机制降低vision transformer计算量太大的问题，并且和文本特征器采用同种网络架构，可以更好的将两个模态的语义信息进行对齐。
15.2.语义内容丰富：本发明还使用segment anything网络对海洋场景进行实例分割，提取视频中关键的前景主体信息和背景信息，为后续文本描述提供更丰富的信息，也是视频中的语义联系的更加紧密，加深了网络模型海洋场景内容的理解，并且关注海洋场景细节，对文字描述进行场景约束，使海洋场景下的文字描述更加规范。
16.3.优化目标丰富：本发明设置了五个优化目标(语义对齐任务、文本掩码任务、视频帧掩码任务、辅助信息对比学习任务、语言重建任务)可以更好的训练模型，语义对齐任务使视频特征和文本特征进行对齐，为二者更好的交互创造基础，文本掩码任务提高模型的语言理解能力和上下文理解能力，视频帧掩码任务提高模型的视频理解能力和上下文理解能力，使用分割网络提取视频中更丰富的语义信息，作为主体网络的辅助信息，使网络模型更加关注海洋场景视频的细节和内容，同时对文本描述加以约束，语言重建任务负责自回归的解码融合的特征，使模型生成的描述更加流畅并且符合我们平时的说话习惯。
附图说明
17.图1：是本发明基于实例分割辅助信息的多模态海洋场景视频描述算法流程图。
18.图2：是本发明基于实例分割辅助信息的多模态海洋场景视频描述算法网络模型结构图。
19.图3：video-swin-transformer的网络模型图。
20.图4：多模态交互编码器的网络模型图。
21.图5：语言解码器的网络模型图。
具体实施方式
22.本发明的流程图如图1所示，总体网络模型结构图如图2所示，下面对本发明技术方案的具体实施过程加以说明。
23.1.制作海洋场景视频数据集，包含1000个视频左右，视频内容主要以海面场景为主，海中场景为辅。海面场景包括：舰船航行关系、舰船位置关系、海上交通、海面运动、岸边情况等；海中场景包括：海洋生物活动、海底地形情况、海洋垃圾情况等。将该数据集分为两部分，一部分为视频数据集，另一部分为图像数据集。视频数据集含有1000个mp4文件，将视频数据集按4：1的比例随机划分为训练集和测试集，同时视频名称以“video+序号”的方式进行命名，如：“video1”，“video2”，将训练视频名称和测试视频名称分别记录进训练csv文件和测试csv文件。每个视频对应5句文本描述，将视频名称和文本描述一一对应存入json文件。图像数据集是在视频数据集的基础上制作而来，对视频数据集的每个视频随机采样5帧保存为jpg文件，同时图像名称以“image+序号”的方式命名，如：“image1”，“image2”，将图像名称存入图像csv文件。
24.2.使用实例分割网络对图像数据集进行操作，提取视频的辅助语义信息，我们使用强大的segmentanything网络将我们的图像中的前景信息和背景信息分割出来，在分割前景时需要将前景中实例主体的数量和类别记录下来，做成辅助信息字典，将辅助信息字典写入视频数据集的json文件，这样json文件中一个视频对应5幅图像、5句文本描述和1个辅助信息字典，如：“video1+picture1+caption1：“two boats are sailing on the sea under the sun”+dict1：{“boat1”，“boat2”，“sea”，“sun”}”。将辅助信息字典送入bert中，输出为提取到的辅助信息特征s，辅助信息特征作为模型的海洋场景先验知识，用于辅助后面海洋场景视频描述工作。
25.3.对视频数据集进行特征提取，先将视频数据和文本数据嵌入成视频序列f，和文本序列t，然后我们使用video-swin-transformer网络对视频序列f进行特征提取，video-swin-transformer的网络模型如图3所示，使用bert语言编码器对文本序列t提取特征，两个模态的特征提取公式为：
26.v＝videoswintransformer(f)
ꢀꢀꢀꢀꢀꢀ
(1)
27.w＝bert(t)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
28.其中v为视频特征，w为文本特征。
29.4.将视频特征v和文本特征w进行融合，送入多模态交互编码器，多模态交互编码器由6个transformer encoder block组成，每个transformer encoder block含有一层self-attention层和feed-forward层，其网络模型如图4所示，融合后的特征经过多模态交互编码器得到输出m，m为多模态全局信息特征，公式为：
30.m＝interact encoder(v：w)
ꢀꢀꢀꢀꢀꢀ
(3)
31.在交互编码器中视频特征和文本特征完成语义对齐任务，其损失函数为：
32.p＝e
(w，v)～p
exp(e(w，v))
ꢀꢀꢀꢀꢀꢀ
(4)
33.n＝e
(w，v)～n
exp(e(w，v))
ꢀꢀꢀꢀꢀꢀ
(5)
[0034][0035]
其中(w，v)为视频文本特征对，p为视频文本特征对齐的正样本，n为视频文本特征
decoder block含有一层self-attention层和feed-forward层，其网络模型如图5所示，caption decoder对融合后的特征进行解码，完成语言重建任务，其损失函数为：
[0049][0050]
其中t为生成文本序列长度，t为第t个单词，s为辅助信息特征，m为多模态全局信息特征。
[0051]
7.五个任务的损失函数合成一个总的损失函数，总损失函数如公式(15)所示，将海洋场景视频数据集输入网络模型在训练集上进行训练，每一轮计算总损失函数，然后使用优化器对整个网络进行优化，完成训练阶段后，在测试集进行测试，评估网络模型的效果和输出描述语句的质量和流畅度，最后根据测试情况，进一步微调模型。
[0052]
l
overall
＝l
vlm
+l
mlm
+l
mfm
+l
cms
+l
cap
ꢀꢀꢀꢀꢀꢀ
(15)
[0053]
需要说明的是，以上所述仅为本发明实施例，仅仅是解释本发明，并非因此限制本发明专利范围。对属于本发明技术构思而仅仅显而易见的改动，同样在本发明保护范围之内。

技术特征：
1.本发明涉及一种基于实例分割辅助信息的多模态海洋场景视频描述算法，其特征在于，包括如下步骤：(1)设计并制作海洋场景视频描述数据集和图像数据集，分别包含1000个海洋视频和5000张海洋图像，视频数据集中每个视频对应5句文本标签，文本标签描述了视频中的内容，图像数据集是对视频数据集中每个视频采样5帧制作而成；(2)segment anything是一个实例分割工具，用于提取海洋图像集的特征，有助于得到更加丰富的视觉信息，辅助描述的生成，使用segment anything网络分割海洋图像中的前景实例和背景信息，将前景信息和背景信息记录并写入辅助信息字典，将辅助信息字典的内容送入文本编码器，得到辅助信息特征；(3)分别使用video-swin-transformer视频特征提取器和bert文本特征提取器对视频数据和文本标签数据进行特征提取；(4)将视频特征和文本标签特征融合，送入到单流的多模态交互编码器中，在交互编码器中视频特征和文本特征完成语义对齐任务、文本掩码任务、视频帧掩码任务，并得到多模态全局信息特征；(5)实现基于对比学习的多模态全局信息特征和辅助信息特征双流联合视频描述算法，将多模态全局信息特征和辅助信息特征进行联合对比学习，交互融合双流特征，送入语言解码器；(6)语言解码器是一个自回归的解码器，用于将双流特征转换为人类理解的自然语言，语言解码器对融合后的双流特征进行解码，得到描述语句，得到的描述语句和标注的文本标签计算损失，并完成语言重建任务，不断优化文本描述能力和效果。2.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法，其特征在于，根据步骤(1)所述的制作海洋场景视频数据集，数据集包括视频和文本标签两部分，视频内容主要以海面场景为主，海里场景为辅，海面场景包括：舰船航行关系、海上交通、海上运动、岸边情况等；海里场景包括：海洋生物活动、海底地形情况；每一个视频标注5句文本标签；对海洋场景视频数据集每个视频随机采样5帧，作为海洋场景图像，每个视频对应5幅图像，制作成图像数据集。3.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法，其特征在于，实现基于实例分割辅助信息字典的海洋场景特征提取网络，根据步骤(2)所述的制作辅助信息字典，提取单模态的辅助信息特征，我们使用segment anything网络将海洋场景图像数据集中的每幅图像进行实例分割，将分割的前景主体和背景区域的数量和类别进行记录，存储制作为辅助信息字典后，送入bert中提取辅助信息特征，作为海洋场景的先验信息，用于辅助后续文本描述工作。4.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法，其特征在于，根据步骤(3)中所述的提取特征，我们使用video-swin-transformer对海洋场景视频数据集进行特征提取，使用bert对视频对应的文本标签进行特征提取。5.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法，其特征在于，实现海洋场景视频特征和文本特征交互融合的多模态全局信息特征学习网络，根据步骤(4)所述的多模态交互编码使用transformer encoder block，将视频特征和文本特征融合送入交互编码器，得到多模态特征，在交互编码器中两个模态数据完成语义对齐
任务，其损失函数公式为：p＝e
(w，v)～p
exp(e(w，v))
ꢀꢀꢀ
(1)n＝e
(w，v)～n
exp(e(w，v))
ꢀꢀꢀ
(2)其中(w，v)为视频文本特征对，p为视频文本特征对齐的正样本，n为视频文本特征对齐的负样本，语义对齐的损失函数是采用noise contrastive estimation(nce)loss对正负样本进行对比学习得到的结果；文本掩码任务对输入的文本标签采用15％的概率来掩盖语句中的单词，其损失函数公式为：其中w为输入文本特征，v为输入视频特征，w
m
为掩盖的文本特征，d为训练集全集，p为概率；和文本掩码任务类似，视频帧掩码任务以15％的概率对视频中的帧进行掩盖，其损失函数公式为：数公式为：其中v是视频特征的实值向量，是v的线性输出，m
v
是交互编码器输出结果的视频部分，属于m
v
。6.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法，其特征在于，实现基于对比学习的多模态全局信息特征和辅助信息特征双流联合视频描述算法，根据步骤(5)所述的多模态全局信息特征和辅助信息特征进行对比学习，若多模态全局信息特征中包含辅助信息特征中的前景信息和背景信息，并且实例主体的数量和类别都可以匹配上，我们就将其设置为正样本，不匹配就设置为负样本，采用nce loss对辅助信息特征和多模态全局信息特征进行对比学习，来规范海洋场景视频描述语句的结果，该对比学习损失函数公式为：习损失函数公式为：l
cms
＝l
m2s
+l
s2m
ꢀꢀꢀ
(9)其中b是batch size，σ是可学习的温度参数，m
i
和s
j
是第i个多模态特征和第j个辅助信息特征的归一化嵌入。7.如权利要求1所述一种基于实例分割辅助信息的多模态海洋场景视频描述算法，其特征在于，根据步骤(6)所述的语言解码器使用transformer decoder block对辅助信息特征和多模态全局信息特征融合后的结果进行解码，完成语言重建任务，其损失函数为：
其中t为生成文本序列长度，t为第t个单词，s为辅助信息特征，m为多模态全局信息特征。

技术总结
本发明提出了一种基于实例分割辅助信息的多模态海洋场景视频描述算法，该方法首先使用特征提取器对视频文本两个模态数据进行特征提取，将两个模态的特征送入多模态交互编码器进行融合、交互、和对齐后得到多模态全局信息特征，同时使用实例分割网络将视频中的前景主体信息和背景信息分割，制作辅助信息字典，对其进行特征提取得到辅助信息特征，多模态全局信息特征和辅助信息特征对比学习后送入语言解码器进行解码，生成描述语句。通过提取海洋视频的多模态全局语义信息和辅助语义信息，加强网络对于视频的理解和认知，增强视频文本之间的关联，促使生成的描述语句涵盖海洋场景视频中的全部内容，并且描述具有高质量、高流畅度的特性。畅度的特性。畅度的特性。

技术研发人员：赵萌陈薪宇张蒙恩
受保护的技术使用者：天津理工大学
技术研发日：2023.06.19
技术公布日：2023/9/20

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

基于实例分割辅助信息的多模态海洋场景视频描述算法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于实例分割辅助信息的多模态海洋场景视频描述算法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表