融合光学和SAR影像多模态信息的旋转目标检测方法

未命名 07-22 阅读：71 评论：0

融合光学和sar影像多模态信息的旋转目标检测方法
技术领域
1.本发明涉及遥感影像目标检测领域，具体来说是一种融合光学和sar影像多模态信息的旋转目标检测方法。

背景技术：

2.遥感图像目标检测是一种利用遥感图像数据进行目标识别和定位的技术，其在许多领域中具有重要的应用价值，如城市规划、农业资源管理和环境监测等。然而，因遥感图像的采集和传输过程中可能受到各种干扰，以及不同的目标类别具有不同的形状、大小、颜色等特征，也可能存在重叠、遮挡等情况而导致目标无法精准识别的缺陷。而跨模态遥感目标检测则是指在不同的遥感图像模态之间进行目标检测和识别的技术，它不仅可以提高遥感图像目标检测的准确性和鲁棒性，还可以扩展遥感图像目标检测的应用范围和场景。
3.跨模态遥感目标检测是一种利用多源遥感数据进行信息融合的技术，通过将来自不同传感器或不同波段的遥感图像相互结合，获得更全面、更准确的目标信息。跨模态遥感图像相较于单模态遥感图像具有更多的波段和特征信息，可以在目标检测和分类方面提供更好的结果。在单模态遥感图像中，由于传感器所采集到的数据只能提供特定波段的信息，因此对于一些复杂目标的检测和分类任务来说，其表现可能并不理想。而跨模态遥感图像则可以通过利用多种波段和特征信息，有效地提高目标检测和分类的准确度和鲁棒性。
4.遥感目标检测通常需要在高精度和高效率之间进行权衡。精确的目标检测要求检测结果的位置和形状精度高，能够准确地表示目标的位置、形态和尺寸等信息。然而单模态目标检测受遥感数据质量、数据标注和目标类别等影响，容易无法很精确的进行识别，从而限制后续应用。本发明利用同一目标多个模态图像提取特征，利用不同模态特征的不同，使融合后的特征图具备更多的特征信息，从而使后续的二阶段旋转头可以更准确的对目标进行定位分类。目前国内仍缺少对融合光学和sar多模态影像的旋转目标检测方法的论文和专利。

技术实现要素：

5.本发明的目的是为了解决单模态遥感目标检测受数据采集、传输等方式产生的误差而导致目标检测不精确的问题，提供融合光学和sar影像多模态信息的旋转目标检测方法来解决上述问题。
6.为了实现上述目的，本发明的技术方案如下：
7.一种融合光学和sar影像多模态信息的旋转目标检测方法，包括以下步骤：
8.11)融合光学和sar影像多模态信息的旋转目标检测数据准备和特征提取：对获取的遥感影像数据集进行划分裁剪；构建基于编码器和解码器结构的transformer-unet网络对遥感数据进行特征提取；
9.12)建立多模态多尺度特征融合模块：构建一个多模态特征融合的框架，使用差分增强模块和公共选择模块提取多模态的差异特征和相同特征，融合成多模态特征图；
10.13)建立二阶段旋转预测头模块：构建一个二阶段预测头模块，在第一阶段分类与定位的基础上进行二次精调；
11.14)利用划分好的训练集及其对应的标签对所建立的融合光学和sar影像多模态信息的旋转目标检测网络进行相应的训练并调整参数，直到训练达到预设的epoch,最后保留相应的参数与训练好的网络；
12.15)利用步骤14)得到的训练好的融合光学和sar影像多模态信息的旋转目标检测网络，将预处理过的测试数据集输入加载好的模型进行预测，通过可视化将目标预测框和目标类别标在原图上。
13.所述融合光学和sar影像多模态信息的旋转目标检测数据准备和特征提取包括以下步骤：
14.21)将数据集按6:2:2比例划分为训练集、验证集和测试集，尺寸不重叠的统一裁剪大小为256*256；
15.22)构建并行的编码器解码器transformer-unet网络ab，其中网络a处理光学遥感图像，网络b处理sar遥感图像；
16.221)构建doubleconv双层卷积模块，该模块结构包含两个卷积层，两个个归一化层和，两个relu激活函数；每个卷积层结构为kernel size为3，padding为1，stride为1；
17.222)构建用于特征提取的下采样结构，其结构包括一个doubleconv双层卷积模块，一个最大池化层；
18.223)构建用于连接上采样和下采样阶段的特征图的bottleneck层，bottleneck层结构包括两个kernel size为1，stride为1的卷积层，一个kernel size为3，stride为1的卷积层；
19.224)构建用于特征提取的上采样结构，其结构包括convlstm层，一个卷积层；convlstm单元包括输入门、遗忘门和输出门，kernel_size是(3,3)，strides是(2,2)；
20.23)其中融合光学和sar影像多模态信息的旋转目标检测特征提取的具体步骤如下：
21.231)将预处理后的光学遥感图像，sar遥感图像以及标签数据输入卷积神经网络中，训练一个有自注意力机制的下采样特征提取模型，具体步骤如下：
22.232)执行一次卷积核大小为1x1的普通卷积层，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征；执行一次编码器结构，得到4个下采样输出；
23.对输入图片执行一个卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第一个下采样输出；
24.对第一个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第二个下采样输出；
25.对第二个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第三个下采样输出；
26.对第三个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第四个下采样输出；
27.b3)在第一个下采样输出，第二个下采样输出，第三个下采样输出之后执行自注意
机制模块以及互相关模块，具体步骤如下：
28.执行一次卷积核大小为1x1的卷积，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征矩阵；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征矩阵；
29.将q
opt
转置与k
opt
点积相乘，结果进行softmax，与v
opt
点积相乘后与原始特征图进行加权求和，得到光学影像自注意力机制特征图；sar影像自注意力机制特征图过程同上；
30.自注意力机制特征图提取支持特征图像和查询特征图像，对图像进行reshape，利用余弦距离生成二者之间的联系，通过全局平均池化以及一个包含2个卷积层，一个relu层的非线性网络，得到对应权重，经过点积相乘，归一化之后，得到特征的相互关系；sar遥感影像互相关模块与光学遥感影像互相关模块相同；
31.24)构建用于连接上采样和下采样阶段的特征图的bottleneck层，bottleneck层由三个卷积层组成：
32.第一个卷积层的卷积核大小为1x1，用于降维，将输入的通道数降低，减少模型参数数量；
33.第二个卷积层的卷积核大小为3x3，用于卷积特征图，进行特征提取；
34.第三个卷积层的卷积核大小为1x1，用于升维，将卷积后的特征图的通道数增加，增加模型的表达能力；
35.25)构建上采样convlstm，具体步骤如下：
36.对第四个下采样输出进行反卷积操作(又称转置卷积)，使其上采样为原始图像的1/8大小(对于4倍下采样的情况，即4倍上采样)，得到上采样输出1；
37.对上采样输出1和第三个下采样输出进行拼接操作，得到合并输出1；
38.对合并输出1执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出1；
39.对卷积输出1进行convlstm操作，得到lstm输出1；
40.对lstm输出1进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出2；
41.对卷积输出2进行反卷积操作，使其上采样为原始图像的1/4大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出2；
42.对上采样输出2和第二个下采样输出进行拼接操作，得到合并输出2；
43.对合并输出2执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出3；
44.对卷积输出3进行convlstm操作，得到lstm输出2；
45.对lstm输出2进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出4；
46.对卷积输出4进行反卷积操作，使其上采样为原始图像的1/2大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出3；
47.对上采样输出3和第一个下采样输出进行拼接操作，得到合并输出3；
48.对合并输出3执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出5；
49.对卷积输出5进行convlstm操作，得到lstm输出3；
50.对lstm输出3进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到最终的上采样输出。
51.所述融合光学和sar影像多模态信息的旋转目标检测多模态特征融合模块包括以下步骤：
52.31)构建用于光学遥感图像和sar遥感图像多模态特征融合框架，该框架包括差分增强模块和公共选择模块；
53.311)差分增强模块具体步骤如下：
54.对提取的光学图像特征和sar图像特征进行差值运算，得到差异部分的特征图；
55.通过沙漏型1*1卷积，计算注意力权重，得到分别的注意力图；
56.将得到的注意力图，通过残差的方式加到原本的特征图上，得到加强的特征图；
57.将光学遥感图像和sar遥感图像的加强特征图进行加权求和，得到差分增强特征图；
58.312)公共选择模块具体步骤如下：
59.对提取的光学图像特征和sar图像特征进行相加运算，得到公共部分的特征图；
60.将得到的公共部分的特征图，通过softmax的方式得到光学遥感图像的注意力图和sar遥感图像的注意力图；
61.分别将光学遥感图像的注意力图和sar遥感图像的注意力图和他们的输入特征图相乘，得到各自新的特征图；
62.将光学遥感图像和sar遥感图像的新特征图进行加权求和，得到公共模块特征图。
63.所述融合光学和sar影像多模态信息的旋转目标检测二阶段旋转预测头网络包括以下步骤：
64.41)构建特征金字塔结果来实现特征拼接，给head作为输入，具体步骤如下：
65.411)输入4个不同尺寸的特征图，将最高层的特征图经过一个c3+conv得到一组与下一层特征图同样大小的特征图，将其和下一层的特征图拼接在一起，再经过一个c3+conv得到一组新的特征图，重复这一过程直到到达最底层；
66.412)对于最底层的特征图，将其输出到各个head，同时将其和上一层输出的信息拼接在一起，经过一个c3+conv作为新的输出，同时作为下一层的输入，与上一层经过一个c3+conv输出的信息再次进行拼接，经过一个c3+conv作为新的输出，重复这一过程直到到达最高层；
67.42)构建遥感目标检测旋转框，通过两阶段来实现目标定位，具体步骤如下：
68.421)第一阶段锚点优化模块(arm)使用自适应训练样本选择(atss)策略来调整水平锚点为高质量的旋转锚点，步骤如下：
69.对于输入的特征图像，提取出所有水平的锚点，并将这些锚点视为第一阶段的候选样本；
70.计算每个候选样本和所有真实目标之间的中心点距离和目标大小之间的比例，根据这两个因素的综合考虑，将所有候选样本分为正样本和负样本两类；
71.对于正样本，以其对应的真实目标为中心，生成一组高质量的旋转锚点作为第一阶段的正样本；
72.422)经过第一阶段的调整后，arm得到了一组旋转锚点作为第二阶段的候选样本，
这些候选样本会被输入目标检测网络进行分类和回归，并根据其预测结果和真实目标的iou进行筛选，最终选择iou最大的样本作为正样本进行调整，具体步骤如下：
73.将第一阶段得到的旋转锚点输入目标检测网络，得到检测结果；
74.根据检测结果计算每个旋转锚点与其对应的真实目标的iou值，并选择iou值最大的正样本作为第二阶段的正样本；
75.将第二阶段得到的正样本作为输入的正样本，然后再次通过目标检测网络进行分类和回归，以进一步提高检测的准确率。
76.所述所述网络模型训练与结果获取步骤如下：
77.51)将预处理后的遥感影像数据输入融合光学和sar影像多模态信息的旋转目标检测网络中；
78.52)执行一次卷积核大小为1x1的普通卷积层，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征执行一次编码器结构，得到4个下采样输出；
79.对输入图片执行一个卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第一个下采样输出；
80.对第一个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第二个下采样输出；
81.对第二个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第三个下采样输出；
82.对第三个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第四个下采样输出；
83.53)在第一个下采样输出，第二个下采样输出，第三个下采样输出之后执行自注意机制模块以及互相关模块；
84.54)对第四个下采样输出进行反卷积操作，使其上采样为原始图像的1/8大小(对于4倍下采样的情况，即4倍上采样)，得到上采样输出1；
85.对上采样输出1和第三个下采样输出进行拼接操作，得到合并输出1；
86.对合并输出1执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出1；
87.对卷积输出1进行convlstm操作，得到lstm输出1；
88.对lstm输出1进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出2；
89.对卷积输出2进行反卷积操作，使其上采样为原始图像的1/4大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出2；
90.对上采样输出2和第二个下采样输出进行拼接操作，得到合并输出2；
91.对合并输出2执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出3；
92.对卷积输出3进行convlstm操作，得到lstm输出2；
93.对lstm输出2进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出4；
94.对卷积输出4进行反卷积操作，使其上采样为原始图像的1/2大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出3；
95.对上采样输出3和第一个下采样输出进行拼接操作，得到合并输出3；
96.对合并输出3执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出5；
97.对卷积输出5进行convlstm操作，得到lstm输出3；
98.对lstm输出3进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到最终的上采样输出；
99.55)将两种模态提取出来的多模态多尺度特征图输入跨模态特征融合模块；
100.56)差分增强模块通过差值运算得到光学图像和sar图像的差异部分特征图，并通过注意力权重加强原特征图得到增强的特征图，进行加权求和得到差分增强特征图；
101.57)公共选择模块通过相加运算得到光学图像和sar图像的公共部分特征图，再通过softmax得到注意力图，将注意力图相乘到原特征图上得到新特征图；
102.58)差分增强特征图和公共选择特征图进行加权求和得到跨模态特征图；
103.59)将4个不同尺寸的特征图进行特征拼接：最高层的特征图经过一个c3+conv得到一组与下一层特征图同样大小的特征图，将其和下一层的特征图拼接在一起，再经过一个c3+conv得到一组新的特征图，重复这一过程直到到达最底层；
104.510)对于最底层的特征图，将其输出到各个head，同时将其和上一层输出的信息拼接在一起，经过一个c3+conv作为新的输出，同时作为下一层的输入，与上一层经过一个c3+conv输出的信息再次进行拼接，经过一个c3+conv作为新的输出，重复这一过程直到到达最高层；
105.511)将特征图输入预测头，第一阶段arm模块使用atss策略来调整水平锚点为高质量的旋转锚点；
106.512)经过第一阶段的调整后，arm得到了一组旋转锚点作为第二阶段的候选样本，输入目标检测网络进行分类和回归，并根据其预测结果和真实目标的iou进行筛选，选择iou最大的样本作为正样本进行调整；
107.513)计算损失函数，对权重参数进行反向传播；
108.514)判断是否达到设定的轮数，是则得到训练好的分割模型，否则返回52)步重新加载数据继续训练；
109.515)利用得到的训练好的融合光学和sar影像多模态信息的旋转目标检测网络，将预处理过的测试数据集输入加载好的模型进行预测，通过可视化将目标预测框和目标类别标在原图。
110.有益效果
111.本发明一种融合光学和sar影像多模态信息的旋转目标检测方法，与现有技术相比通过融合光学和sar影像多模态信息的旋转目标检测方法中，先让得到的光学遥感图像和sar遥感图像经过带有注意力机制和互相关机制的下采样网络，能够获取良好的局部特征和全局结构信息，通过上采样convlstm，使特征能够更好地捕捉不同位置和时间点之间的关系和交互，通过跨模态特征融合，使两种模态提取出来的特征进行不同模态的融合，提高了特征的表达能力和鲁棒性，使模型适用于更加复杂和多变的应用场景，融合好的多尺
度特征图通过两阶段旋转框，使目标定位和分类更加精确。此外，在遥感图像目标检测中，由于遥感图像采集和传输过程中受到各种干扰导致目标无法精确识别的问题，同时也存在不同类别目标具有不同的形状、大小、颜色等特征，或是重叠、遮挡等问题。本发明提供的方法使不同模态的遥感图像可以跨模态进行特征融合，使目标在检测时有更多特征被检测到，大大提高了定位和分类的精度。
附图说明
112.图1为融合光学和sar影像多模态信息的旋转目标检测方法顺序图；
113.图2为融合光学和sar影像多模态信息的旋转目标检测方法模型结构的示意图；
114.图3为融合光学和sar影像多模态信息的旋转目标检测特征提取自注意力机制模块的示意图；
115.图4为融合光学和sar影像多模态信息的旋转目标检测特征提取互相关模块的示意图；
116.图5为融合光学和sar影像多模态信息的旋转目标检测特征融合结构的示意图；
117.图6为融合光学和sar影像多模态信息的旋转目标检测特征融合差分增强模块结构的示意图；
118.图7为融合光学和sar影像多模态信息的旋转目标检测特征融合公共选择模块结构的示意图；
119.图8为融合光学和sar影像多模态信息的旋转目标检测二阶段旋转框结构的示意图；
120.图9为融合光学和sar影像多模态信息的旋转目标检测网络结果示意图。
具体实施方式
121.为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：
122.如图1所示，本发明所述的一种融合光学和sar影像多模态信息的旋转目标检测方法，包括以下步骤：
123.第一步，融合光学和sar影像多模态信息的旋转目标检测数据准备和特征提取：对获取的遥感影像数据集进行划分裁剪；构建基于编码器和解码器结构的transformer-unet网络对遥感数据进行特征提取。其具体步骤如下：
124.(1)将数据集按6:2:2比例划分为训练集、验证集和测试集，尺寸不重叠的统一裁剪大小为256*256；
125.(2)构建并行的编码器和解码器结构transformer-unet，其中，网络a处理光学遥感图像，网络b处理sar遥感图像；
126.(2-1)构建doubleconv双层卷积模块，该模块结构包含两个卷积层，两个个归一化层和，两个relu激活函数；每个卷积层结构为kernel size为3，padding为1，stride为1；
127.(2-2)构建用于特征提取的下采样结构，其结构包括一个doubleconv双层卷积模块，一个最大池化层；
128.(2-3)构建用于连接上采样和下采样阶段的特征图的bottleneck层，bottleneck
层结构包括两个kernel size为1，stride为1的卷积层，一个kernel size为3，stride为1的卷积层，
129.(2-4)构建用于特征提取的上采样结构，其结构包括convlstm层，一个卷积层；convlstm单元包括输入门、遗忘门和输出门，kernel_size是(3,3)，strides是(2,2)；
130.(3)其中融合光学和sar影像多模态信息的旋转目标检测特征提取的具体步骤如下：
131.(3-1)将预处理后的光学遥感图像，sar遥感图像以及标签数据输入卷积神经网络中，训练一个有自注意力机制的下采样特征提取模型，具体步骤如下：
132.(3-2)执行一次卷积核大小为1x1的普通卷积层，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征；执行一次编码器结构，得到4个下采样输出；
133.对输入图片执行一个卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第一个下采样输出；
134.对第一个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第二个下采样输出；
135.对第二个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第三个下采样输出；
136.对第三个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第四个下采样输出；
137.(3-3)在第一个下采样输出，第二个下采样输出，第三个下采样输出之后执行自注意机制模块以及互相关模块，具体步骤如下：
138.执行一次卷积核大小为1x1的卷积，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征矩阵；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征矩阵；
139.将q
opt
转置与k
opt
点积相乘，结果进行softmax，与v
opt
点积相乘后与原始特征图进行加权求和，得到光学影像自注意力机制特征图；sar影像自注意力机制特征图过程同上；
140.自注意力机制特征图提取支持特征图像和查询特征图像，对图像进行reshape，利用余弦距离生成二者之间的联系，通过全局平均池化以及一个包含2个卷积层，一个relu层的非线性网络，得到对应权重，经过点积相乘，归一化之后，得到特征的相互关系；sar遥感影像互相关模块与光学遥感影像互相关模块相同；
141.(4)构建用于连接上采样和下采样阶段的特征图的bottleneck层，bottleneck层由三个卷积层组成：
142.第一个卷积层的卷积核大小为1x1，用于降维，将输入的通道数降低，减少模型参数数量；
143.第二个卷积层的卷积核大小为3x3，用于卷积特征图，进行特征提取；
144.第三个卷积层的卷积核大小为1x1，用于升维，将卷积后的特征图的通道数增加，增加模型的表达能力；
145.(5)构建上采样convlstm，具体步骤如下：
146.对第四个下采样输出进行反卷积操作(又称转置卷积)，使其上采样为原始图像的1/8大小(对于4倍下采样的情况，即4倍上采样)，得到上采样输出1；
147.对上采样输出1和第三个下采样输出进行拼接操作，得到合并输出1；
148.对合并输出1执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出1；
149.对卷积输出1进行convlstm操作，得到lstm输出1；
150.对lstm输出1进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出2；
151.对卷积输出2进行反卷积操作，使其上采样为原始图像的1/4大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出2；
152.对上采样输出2和第二个下采样输出进行拼接操作，得到合并输出2；
153.对合并输出2执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出3；
154.对卷积输出3进行convlstm操作，得到lstm输出2；
155.对lstm输出2进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出4；
156.对卷积输出4进行反卷积操作，使其上采样为原始图像的1/2大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出3；
157.对上采样输出3和第一个下采样输出进行拼接操作，得到合并输出3；
158.对合并输出3执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出5；
159.对卷积输出5进行convlstm操作，得到lstm输出3；
160.对lstm输出3进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到最终的上采样输出；
161.第二步，构建一个多模态特征融合的框架，使用差分增强模块和公共选择模块提取多模态的差异特征和相同特征，融合成多模态特征图。其具体步骤如下：
162.(1)构建用于光学遥感图像和sar遥感图像多模态特征融合框架，该框架包括差分增强模块和公共选择模块；
163.(1-1)构建用于差分增强模块结构，对提取的光学图像特征和sar图像特征进行差值运算，得到差异部分的特征图；
164.通过沙漏型1*1卷积，计算注意力权重，得到分别的注意力图；
165.将得到的注意力图，通过残差的方式加到原本的特征图上，得到加强的特征图；
166.将光学遥感图像和sar遥感图像的加强特征图进行加权求和，得到差分增强特征图；
167.(1-2)构建用于公共选择模块结构，对提取的光学图像特征和sar图像特征进行相加运算，得到公共部分的特征图；
168.将得到的公共部分的特征图，通过softmax的方式得到光学遥感图像的注意力图和sar遥感图像的注意力图；
169.分别将光学遥感图像的注意力图和sar遥感图像的注意力图和他们的输入特征图相乘，得到各自新的特征图；
170.将光学遥感图像和sar遥感图像的新特征图进行加权求和，得到公共模块特征图。
171.第三步，建立二阶段旋转预测头模块：构建一个二阶段预测头模块，在第一阶段分类与定位的基础上进行二次精调，其具体步骤如下：
172.(1)第一阶段锚点优化模块(arm)使用自适应训练样本选择(atss)策略来调整水平锚点为高质量的旋转锚点；
173.(2)经过第一阶段的调整后，arm得到了一组旋转锚点作为第二阶段的候选样本，这些候选样本会被输入目标检测网络进行分类和回归，并根据其预测结果和真实目标的iou进行筛选，最终选择iou最大的样本作为正样本进行调整。
174.第四步，训练融合光学和sar影像多模态信息的旋转目标检测模型：
175.构建一种融合光学和sar影像多模态信息的旋转目标检测模模型，将处理好的遥感数据影像以及标签输入到融合光学和sar影像多模态信息的旋转目标检测模型中，得到训练好的目标检测网络模型，其训练流程如图1所示，其目标检测网络结构图如图2所示，基于transformer-unet结构的自注意力特征提取，如图5所示的多模态特征融合，得到特征信息更丰富的特征图使目标在检测时有更多特征被检测到，如图8所示的二阶段旋转预测头大大提高了定位和分类的精度。
176.其具体步骤如下：
177.51)将预处理后的遥感影像数据输入融合光学和sar影像多模态信息的旋转目标检测网络中；
178.52)执行一次卷积核大小为1x1的普通卷积层，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征执行一次编码器结构，得到4个下采样输出；
179.对输入图片执行一个卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第一个下采样输出；
180.对第一个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第二个下采样输出；
181.对第二个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第三个下采样输出；
182.对第三个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第四个下采样输出；
183.53)在第一个下采样输出，第二个下采样输出，第三个下采样输出之后执行自注意机制模块以及互相关模块；
184.54)对第四个下采样输出进行反卷积操作，使其上采样为原始图像的1/8大小(对于4倍下采样的情况，即4倍上采样)，得到上采样输出1；
185.对上采样输出1和第三个下采样输出进行拼接操作，得到合并输出1；
186.对合并输出1执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出1；
187.对卷积输出1进行convlstm操作，得到lstm输出1；
188.对lstm输出1进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出2；
189.对卷积输出2进行反卷积操作，使其上采样为原始图像的1/4大小(对于4倍下采样
的情况，即2倍上采样)，得到上采样输出2；
190.对上采样输出2和第二个下采样输出进行拼接操作，得到合并输出2；
191.对合并输出2执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出3；
192.对卷积输出3进行convlstm操作，得到lstm输出2；
193.对lstm输出2进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出4；
194.对卷积输出4进行反卷积操作，使其上采样为原始图像的1/2大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出3；
195.对上采样输出3和第一个下采样输出进行拼接操作，得到合并输出3；
196.对合并输出3执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出5；
197.对卷积输出5进行convlstm操作，得到lstm输出3；
198.对lstm输出3进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到最终的上采样输出；
199.55)将两种模态提取出来的多模态多尺度特征图输入跨模态特征融合模块；
200.56)差分增强模块通过差值运算得到光学图像和sar图像的差异部分特征图，并通过注意力权重加强原特征图得到增强的特征图，进行加权求和得到差分增强特征图；
201.57)公共选择模块通过相加运算得到光学图像和sar图像的公共部分特征图，再通过softmax得到注意力图，将注意力图相乘到原特征图上得到新特征图；
202.58)差分增强特征图和公共选择特征图进行加权求和得到跨模态特征图；
203.59)将4个不同尺寸的特征图进行特征拼接：最高层的特征图经过一个c3+conv得到一组与下一层特征图同样大小的特征图，将其和下一层的特征图拼接在一起，再经过一个c3+conv得到一组新的特征图，重复这一过程直到到达最底层；
204.510)对于最底层的特征图，将其输出到各个head，同时将其和上一层输出的信息拼接在一起，经过一个c3+conv作为新的输出，同时作为下一层的输入，与上一层经过一个c3+conv输出的信息再次进行拼接，经过一个c3+conv作为新的输出，重复这一过程直到到达最高层；
205.511)将特征图输入预测头，第一阶段arm模块使用atss策略来调整水平锚点为高质量的旋转锚点；
206.512)经过第一阶段的调整后，arm得到了一组旋转锚点作为第二阶段的候选样本，输入目标检测网络进行分类和回归，并根据其预测结果和真实目标的iou进行筛选，选择iou最大的样本作为正样本进行调整；
207.513)计算损失函数，对权重参数进行反向传播；
208.514)判断是否达到设定的轮数，是则得到训练好的分割模型，否则返回52)步重新加载数据继续训练。
209.第五步，融合光学和sar影像多模态信息的旋转目标检测网络结果的获得：将预处理过的测试数据集输入加载好的模型进行预测，通过可视化将目标预测框和目标类别标在原图上。
210.如图9所示，其为融合光学和sar影像多模态信息的旋转目标检测网络结果示意图，其中包括码头、汽车和船只从图9可以看出，所述方法可以很好的在影像中达到定位和分类目标的目的。
211.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

技术特征：
1.一种融合光学和sar影像多模态信息的旋转目标检测方法，其特征在于，包括以下步骤：11)融合光学和sar影像多模态信息的旋转目标检测数据准备和特征提取：对获取的遥感影像数据集进行划分裁剪；构建基于编码器和解码器结构的transformer-unet网络对遥感数据进行特征提取；12)建立多模态多尺度特征融合模块：构建一个多模态特征融合的框架，使用差分增强模块和公共选择模块提取多模态的差异特征和相同特征，融合成多模态特征图；13)建立二阶段旋转预测头模块：构建一个二阶段预测头模块，在第一阶段分类与定位的基础上进行二次精调；14)融合光学和sar影像多模态信息的旋转目标检测网络模型训练与结果获取:利用划分好的训练集及其对应标签对所建立的网络模型进行训练并调整参数，直到训练达到预设的epoch,最后保留相应的参数与训练好的网络，对其他目标影像检测获取结果。2.根据权利要求1所述的一种融合光学和sar影像多模态信息的旋转目标检测方法，其特征在于，所述融合光学和sar影像多模态信息的旋转目标检测数据准备和特征提取包括以下步骤：21)将数据集按6:2:2比例划分为训练集、验证集和测试集，尺寸不重叠的统一裁剪大小为256*256；22)构建并行的编码器和解码器结构transformer-unet，其中，网络a处理光学遥感图像，网络b处理sar遥感图像；221)构建doubleconv双层卷积模块，该模块结构包含两个卷积层，两个个归一化层和，两个relu激活函数；每个卷积层结构为kernel size为3，padding为1，stride为1；222)构建用于特征提取的下采样结构，其结构包括一个doubleconv双层卷积模块，一个最大池化层；223)构建用于连接上采样和下采样阶段的特征图的bottleneck层，bottleneck层结构包括两个kernel size为1，stride为1的卷积层，一个kernel size为3，stride为1的卷积层；224)构建用于特征提取的上采样结构，其结构包括convlstm层，一个卷积层；convlstm单元包括输入门、遗忘门和输出门，kernel_size是(3,3)，strides是(2,2)；23)其中融合光学和sar影像多模态信息的旋转目标检测特征提取的具体步骤如下：231)将预处理后的光学遥感图像，sar遥感图像以及标签数据输入卷积神经网络中，训练一个有自注意力机制的下采样特征提取模型，具体步骤如下：232)执行一次卷积核大小为1x1的普通卷积层，将光学遥感图像转换为光学图像提供序列中每个元素的信息v
opt
、光学图像提供序列中每个元素的权重q
opt
、光学图像中用于计算q和k之间的相似度k
opt
三通道特征；将sar遥感图像转换为sar图像提供序列中每个元素的信息v
sar
、sar图像提供序列中每个元素的权重q
sar
、sar图像中用于计算q和k之间的相似度k
sar
三通道特征；执行一次编码器结构，得到4个下采样输出；对输入图片执行一个卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第一个下采样输出；对第一个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个
relu，一个stride为1的最大池化操作，得到第二个下采样输出；对第二个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第三个下采样输出；对第三个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第四个下采样输出；233)在第一个下采样输出，第二个下采样输出，第三个下采样输出之后执行自注意机制模块以及互相关模块，具体步骤如下：执行一次卷积核大小为1x1的卷积，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征矩阵；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征矩阵；将q
opt
转置与k
opt
点积相乘，结果进行softmax，与v
opt
点积相乘后与原始特征图进行加权求和，得到光学影像自注意力机制特征图；sar影像自注意力机制特征图过程同上；自注意力机制特征图提取支持特征图像和查询特征图像，对图像进行reshape，利用余弦距离生成二者之间的联系，通过全局平均池化以及一个包含2个卷积层，一个relu层的非线性网络，得到对应权重，经过点积相乘，归一化之后，得到特征的相互关系；sar遥感影像互相关模块与光学遥感影像互相关模块相同；24)构建用于连接上采样和下采样阶段的特征图的bottleneck层，bottleneck层由三个卷积层组成：第一个卷积层的卷积核大小为1x1，用于降维，将输入的通道数降低，减少模型参数数量；第二个卷积层的卷积核大小为3x3，用于卷积特征图，进行特征提取；第三个卷积层的卷积核大小为1x1，用于升维，将卷积后的特征图的通道数增加，增加模型的表达能力；25)构建上采样convlstm，具体步骤如下：对第四个下采样输出进行反卷积操作(又称转置卷积)，使其上采样为原始图像的1/8大小(对于4倍下采样的情况，即4倍上采样)，得到上采样输出1；对上采样输出1和第三个下采样输出进行拼接操作，得到合并输出1；对合并输出1执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出1；对卷积输出1进行convlstm操作，得到lstm输出1；对lstm输出1进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出2；对卷积输出2进行反卷积操作，使其上采样为原始图像的1/4大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出2；对上采样输出2和第二个下采样输出进行拼接操作，得到合并输出2；对合并输出2执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出3；对卷积输出3进行convlstm操作，得到lstm输出2；对lstm输出2进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出4；
对卷积输出4进行反卷积操作，使其上采样为原始图像的1/2大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出3；对上采样输出3和第一个下采样输出进行拼接操作，得到合并输出3；对合并输出3执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出5；对卷积输出5进行convlstm操作，得到lstm输出3；对lstm输出3进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到最终的上采样输出。3.根据权利要求1所述的一种融合光学和sar影像多模态信息的旋转目标检测方法，其特征在于，所述融合光学和sar影像多模态信息的旋转目标检测多模态特征融合模块包括以下步骤：31)构建用于光学遥感图像和sar遥感图像多模态特征融合框架，该框架包括差分增强模块和公共选择模块；311)差分增强模块具体步骤如下：对提取的光学图像特征和sar图像特征进行差值运算，得到差异部分的特征图；通过沙漏型1*1卷积，计算注意力权重，得到分别的注意力图；将得到的注意力图，通过残差的方式加到原本的特征图上，得到加强的特征图；将光学遥感图像和sar遥感图像的加强特征图进行加权求和，得到差分增强特征图；312)公共选择模块具体步骤如下：对提取的光学图像特征和sar图像特征进行相加运算，得到公共部分的特征图；将得到的公共部分的特征图，通过softmax的方式得到光学遥感图像的注意力图和sar遥感图像的注意力图；分别将光学遥感图像的注意力图和sar遥感图像的注意力图和他们的输入特征图相乘，得到各自新的特征图；将光学遥感图像和sar遥感图像的新特征图进行加权求和，得到公共模块特征图。4.根据权利要求1所述的一种融合光学和sar影像多模态信息的旋转目标检测方法，其特征在于，所述建立二阶段旋转预测头模块包括以下步骤：41)构建特征金字塔结果来实现特征拼接，给head作为输入，具体步骤如下：411)输入4个不同尺寸的特征图，将最高层的特征图经过一个c3+conv得到一组与下一层特征图同样大小的特征图，将其和下一层的特征图拼接在一起，再经过一个c3+conv得到一组新的特征图，重复这一过程直到到达最底层；412)对于最底层的特征图，将其输出到各个head，同时将其和上一层输出的信息拼接在一起，经过一个c3+conv作为新的输出，同时作为下一层的输入，与上一层经过一个c3+conv输出的信息再次进行拼接，经过一个c3+conv作为新的输出，重复这一过程直到到达最高层；42)构建遥感目标检测旋转预测头，通过两阶段来实现目标定位，具体步骤如下：421)第一阶段arm模块使用atss策略来调整水平锚点为高质量的旋转锚点，步骤如下：对于输入的特征图像，提取出所有水平的锚点，并将这些锚点视为第一阶段的候选样本；
计算每个候选样本和所有真实目标(ground-truth)之间的中心点距离和目标大小之间的比例，根据这两个因素的综合考虑，将所有候选样本分为正样本和负样本两类；对于正样本，以其对应的真实目标为中心，生成一组高质量的旋转锚点作为第一阶段的正样本；422)经过第一阶段的调整后，arm得到了一组旋转锚点作为第二阶段的候选样本，这些候选样本会被输入目标检测网络进行分类和回归，并根据其预测结果和真实目标的iou进行筛选，最终选择iou最大的样本作为正样本进行调整，具体步骤如下：将第一阶段得到的旋转锚点输入目标检测网络，得到检测结果；根据检测结果计算每个旋转锚点与其对应的真实目标的iou值，并选择iou值最大的正样本作为第二阶段的正样本；将第二阶段得到的正样本作为输入的正样本，然后再次通过目标检测网络进行分类和回归，以进一步提高检测的准确率。5.根据权利要求1所述的一种融合光学和sar影像多模态信息的旋转目标检测方法，其特征在于，所述网络模型训练与结果获取步骤如下：51)将预处理后的遥感影像数据输入融合光学和sar影像多模态信息的旋转目标检测网络中；52)执行一次卷积核大小为1x1的普通卷积层，将光学遥感图像转换为v
opt
、q
opt
、k
opt
三通道特征；将sar遥感图像转换为v
sar
、q
sar
、k
sar
三通道特征执行一次编码器结构，得到4个下采样输出；对输入图片执行一个卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第一个下采样输出；对第一个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第二个下采样输出；对第二个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第三个下采样输出；对第三个下采样输出执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个relu，一个stride为1的最大池化操作，得到第四个下采样输出；53)在第一个下采样输出，第二个下采样输出，第三个下采样输出之后执行自注意机制模块以及互相关模块；54)对第四个下采样输出进行反卷积操作，使其上采样为原始图像的1/8大小(对于4倍下采样的情况，即4倍上采样)，得到上采样输出1；对上采样输出1和第三个下采样输出进行拼接操作，得到合并输出1；对合并输出1执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出1；对卷积输出1进行convlstm操作，得到lstm输出1；对lstm输出1进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出2；对卷积输出2进行反卷积操作，使其上采样为原始图像的1/4大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出2；
对上采样输出2和第二个下采样输出进行拼接操作，得到合并输出2；对合并输出2执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出3；对卷积输出3进行convlstm操作，得到lstm输出2；对lstm输出2进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出4；对卷积输出4进行反卷积操作，使其上采样为原始图像的1/2大小(对于4倍下采样的情况，即2倍上采样)，得到上采样输出3；对上采样输出3和第一个下采样输出进行拼接操作，得到合并输出3；对合并输出3执行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到卷积输出5；对卷积输出5进行convlstm操作，得到lstm输出3；对lstm输出3进行一次卷积核大小为3
×
3的普通卷积，一个实例归一化一个leakyrelu，得到最终的上采样输出；55)将两种模态提取出来的多模态多尺度特征图输入跨模态特征融合模块；56)差分增强模块通过差值运算得到光学图像和sar图像的差异部分特征图，并通过注意力权重加强原特征图得到增强的特征图，进行加权求和得到差分增强特征图；57)公共选择模块通过相加运算得到光学图像和sar图像的公共部分特征图，再通过softmax得到注意力图，将注意力图相乘到原特征图上得到新特征图；58)差分增强特征图和公共选择特征图进行加权求和得到跨模态特征图；59)将4个不同尺寸的特征图进行特征拼接：最高层的特征图经过一个c3+conv得到一组与下一层特征图同样大小的特征图，将其和下一层的特征图拼接在一起，再经过一个c3+conv得到一组新的特征图，重复这一过程直到到达最底层；510)对于最底层的特征图，将其输出到各个head，同时将其和上一层输出的信息拼接在一起，经过一个c3+conv作为新的输出，同时作为下一层的输入，与上一层经过一个c3+conv输出的信息再次进行拼接，经过一个c3+conv作为新的输出，重复这一过程直到到达最高层；511)将特征图输入预测头，第一阶段arm模块使用atss策略来调整水平锚点为高质量的旋转锚点；512)经过第一阶段的调整后，arm得到了一组旋转锚点作为第二阶段的候选样本，输入目标检测网络进行分类和回归，并根据其预测结果和真实目标的iou进行筛选，选择iou最大的样本作为正样本进行调整；513)计算损失函数，对权重参数进行反向传播；514)判断是否达到设定的轮数，是则得到训练好的分割模型，否则返回52)步重新加载数据继续训练；515)利用得到的训练好的融合光学和sar影像多模态信息的旋转目标检测网络，将预处理过的测试数据集输入加载好的模型进行预测，通过可视化将目标预测框和目标类别标在原图上。

技术总结
本发明涉及融合光学和SAR影像多模态信息的旋转目标检测方法，该方法相较于现有技术能够有效地解决由于遥感图像采集和传输过程中受到各种干扰导致目标无法精确识别的问题，同时该方法也能够应对不同类别目标具有不同的形状、大小、颜色等特征，或是存在重叠、遮挡等问题。本发明包括以下步骤：SAR影像数据集和光学影像数据集的特征提取；跨模态多尺度特征融合；两阶段旋转预测头定位和分类不同角度的目标。本发明可以有效解决因天气、光照、物体颜色等单一模态目标无法精确检测目标的问题，以及旋转框定位目标精度不高等问题，从而提高目标检测的准确率和效率。检测的准确率和效率。检测的准确率和效率。

技术研发人员：徐凯刘思远汪安铃汪子羽梁栋
受保护的技术使用者：安徽大学
技术研发日：2023.04.22
技术公布日：2023/7/20

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：图像质量的标注方法、装置、电子设备及存储介质与流程 下一篇：一种基于视频人脸自动匹配粤剧化妆的系统及其方法

融合光学和SAR影像多模态信息的旋转目标检测方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

融合光学和SAR影像多模态信息的旋转目标检测方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表